Imagina que te oyes a ti mismo recitar una frase impecable en francés, mandarín o japonés, aunque nunca hayas estudiado esos idiomas. OpenAI acaba de presentar una herramienta de audio generativo que promete hacerlo. Al parecer, Voice Engine es capaz de recrear los tonos y los matices que hacen que la voz de una persona sea única, utilizando sólo una muestra de 15 segundos como material de partida.
Y así se escucha:
¿Qué puede hacer Voice Engine?
- Traducir vídeos y podcasts a otros idiomas
- Crear avatares de aspecto humano para marketing de productos o tutoriales.
- Ofrecer una nueva herramienta de comunicación a las personas que no hablan o que han perdido la capacidad de hablar.
¿Cuándo podremos usarlo?
Pronto. OpenAI está actuando con cautela, ya que la nueva tecnología podría hacer mucho daño si cayera en las manos equivocadas, especialmente durante un año electoral (en EEUU).
¿Cómo aborda OpenAI estas preocupaciones?
Dice que creará una marca de agua digital que avise a los oyentes cuando un clip de audio se haya generado con Voice Engine. También podría prohibir el uso de determinadas voces, como las de políticos y famosos.
A pesar de los riesgos, la nueva plataforma tiene mucho potencial:
Voice Engine permitiría, por ejemplo, que los niños y los no lectores recibieran ayuda para leer de una voz que suena realmente como la de un ser humano. Los investigadores de la Universidad de Brown dicen que también están utilizando la herramienta para ayudar a personas con afecciones degenerativas del habla a recuperar gradualmente su voz.