Timo Kunz, Peadar Coyle y Björn Ühss, fundadores de Aflorithmic

Cómo una empresa de clonación de voces humanas ‘resucitó’ a Einstein

La que le avisa de cuál es la siguiente parada en el transporte público, la que anuncia las ofertas del supermercado, la respuesta de su teléfono móvil cuando le hace una pregunta que no le apetece teclear. Piense en las voces que escucha cada día y reflexione: ¿son todas humanas? ¿Ha escuchado hablar alguna vez de la clonación de voces?

Aflorithmic es capaz de crear voces a través de la tecnología. La startup combina la tecnología de texto a voz con la ingeniería de sonido y la automatización impulsadas por la inteligencia artificial. Una de sus creaciones más sonadas fue la del físico alemán Albert Einstein. La empresa permitía así que cualquiera pudiera interactuar con la recreación virtual de este famoso personaje. Pero, anécdotas a parte, la startup está centrada en tres áreas de negocio: anuncios, noticias y locución de vídeo.

Economía 3 ha hablado con Bjorn Uhss, fundador de Aflorithmic, y Matthias Lehmann, COO de la compañía, sobre todo lo que esta tecnología puede ofrecer.

Aflorithmic equipo

La evolución del audio científico

– ¿Cómo surgió la idea de poner en marcha la empresa? ¿Qué nicho de mercado detectasteis?

Matthias Lehmann: Existimos desde hace poco más de tres años, desde febrero de 2019. Somos una empresa con 40 empleados que se sitúa entre Barcelona y Londres.

En 2018 hubo un momento en el que el audio científico dio un salto bastante grande de calidad. Los audios ya no sonaban como las voces típicas de GPS en el coche. Los asistentes inteligentes, como Siri, sonaban mucho más naturales que antes.

En principio, la idea de la empresa era ofrecer tours guiados personalizados por GPS. Por ejemplo, llegas a Ámsterdam, sales de tu hotel y tienes un tour personalizado a través de la voz. Pero, al intentar desarrollar este producto nos dimos cuenta de que no había ninguna infraestructura que ayudara a crear algo así. No había nada que te diera la oportunidad de crear contenido con audio científico.

A partir de ahí empezamos a montar esta infraestructura. Ahora somos nosotros los que ayudamos a las empresas a crear este tipo de contenido automatizado y escalable. Pueden crear un anuncio, un ‘voice over’ para un vídeo o unas noticias a partir de un texto.

Mesa de mezclas de audio (Pixabay)

Bjorn Uhss: Nosotros nos preguntamos por qué no se puede crear contenido y voces muy realistas. Si no produces bien la voz en un estudio de manera profesional nunca va a tener éxito. Nosotros hemos automatizado estas dos cosas.

Del texto a la clonación de voz

– ¿Cómo es el proceso para combinar la tecnología de texto a voz? ¿Cómo funciona?

M.L.: Tenemos tres casos de uso: anuncios, noticias y locución de vídeo.

Todo empieza con un texto. Después, puedes elegir una de las 500 voces que tenemos y empezar a crear esa voz. El siguiente paso es que elijas una plantilla de sonido y que se adapte a lo largo que sea el texto. Es decir, si quieres un minuto de audio el sonido también se va a alargar para que tengas esta base de audio con tu voz. Después, arreglamos la voz para que todo suene muy bien y natural. Como si estuviera grabado en un estudio.

En unos segundos ya tienes un audio creado con el que puedes hacer lo que quieras y crear miles de versiones con un solo clic. Por ejemplo, incluir nombres, ofertas, escoger voz masculina o femenina, música, acentos diferentes…

Una charla con Einstein en 2022

– Fue muy sonada la recreación de la voz de Albert Einstein, ¿cómo fue ese proceso hasta que lograsteis recrearla?

M.L.: Empiezas a crear un ‘script’, que básicamente son un montón de frases. Después, una persona lee todas esas frases y, una vez que tengas las grabaciones de todas ellas, empieza el proceso de ‘machine learning’. Básicamente, es como una lavadora: empieza a mover los mismos datos una y otra vez. Cuando acaba de hacer este barrido, ya puedes teclear cualquier cosa y lo convierte en el modelo de voz de la persona que ha grabado las frases.

B.U.: Solo clonamos voces de las que tenemos el permiso. Muchas veces nos piden voces de personajes históricos como Francisco Franco, por ejemplo, pero lo que siempre decimos es que si quieres clonar una voz tiene que ser tuya o tienes que tener el permiso para hacerlo. Nosotros tratamos la voz como cualquier otro dato personal.

Retos de la clonación de voz

– ¿Tiene ya la tecnología más de humano que de tecnología? ¿Estamos asistiendo un poco a la humanización de la tecnología?

Todavía no estamos en un punto donde las voces artificiales sean tan buenas como los humanos. Nosotros nos enfocamos en contenido muy corto porque es algo que las voces artificiales sí que pueden reproducir y generar de una manera que añade valor y es similar a la de las personas.

Pero, por ejemplo, un podcast de 40 minutos o audiolibros si no está narrado por un humano las personas son incapaces de memorizar lo que dice el robot. Los humanos tenemos una fluctuación dentro de nuestro ritmo del habla que es muy diferente. Cada vez decimos las palabras de una manera diferente. Esto lo que hace es que la mente se mantenga abierta para estar enfocada en lo que está pasando. Si esto no es así después de 3 o 4 minutos la mente ya no puede enfocar más y se va. Ese es el problema más grande de las voces artificiales.

Por esta razón, los narradores humanos no van a quedarse sin trabajo. Con esta opción de clonar la voz un locutor ahora puede tener trabajo ‘sin trabajar’. Ya tiene su modelo de voz, que se va a usar para contenidos muy cortos y que son muy aburridos de narrar. Puede tener esto y enfocarse a otras áreas de la locución que le gusten más.

Es un caso de uso muy preciso que tiene su lugar, pero que no va a reemplazar el de otros profesionales. Es como el Photoshop, existe el programa, pero la gente todavía toma fotos de manera analógica porque es una forma de arte a la que la inteligencia artificial no puede llegar.

prestamo motor CAJAMAR
prestamo motor CAJAMAR
prestamo motor CAJAMAR
IVF reforma hotel

Dejar una respuesta

*

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.