El MIT diseña algoritmo de Inteligencia Artificial que permite reconstruir un rostro mediante la voz

El MIT diseña algoritmo de Inteligencia Artificial que permite reconstruir un rostro mediante la voz

Un algoritmo de Inteligencia Artificial desarrollado por el Instituto Tecnológico de Massachusetts (MIT), en Estados Unidos, pudo reconstruir el aspecto del rostro de una persona a partir de una grabación de su voz.

Se trata de Speech2Face, que fue entrenado usando millones de clips de audio de más de 100.000 hablantes distintos, muchos de ellos procedentes de vídeos educativos de Youtube.

El laboratorio de Ciencias Informáticas e Inteligencia Artificial del MIT (MIT CSAIL) publicó esta herramienta que es capaz también de determinar factores como la edad, el género y la etnia de una persona.

Los autores del estudio aseguraron que su objetivo “no es reconstruir una imagen precisa de la persona, sino más bien recuperar características físicas que están correlacionadas con el habla”.

Este proyecto busca determinar hasta qué punto es posible configurar el aspecto de una persona a partir de su voz, y se inspira en la manera en que las personas construimos modelos de los rasgos de alguien de quien solamente conocemos su voz.

Speech2Face funciona a través de una red neuronal de aprendizaje profundo diseñada y entrenada a partir de la base de datos abierta AVSpeech, compuesta por más de 100.000 personas hablando en fragmentos cortos de seis segundos.

Para demostrar sus resultados, la investigación empleó también la base de datos VoxCeleb, formada por millones de vídeos publicados en Internet en los que aparecen 7.000 personas famosas en entrevistas, en fragmentos cortos de al menos tres segundos.

La imagen generada es la del rostro de una persona de frente, con gesto neutro, y fueron expuestas como ejemplo junto a imágenes reales de los famosos en los vídeos para mostrar el parecido con el original.

Sin embargo, el algoritmo todavía presenta algunos sesgos que evidencian que el dataset en el que se basó su entrenamiento es algo incompleto.

Speech2Face, por ejemplo, genera imágenes de hombres blancos cuando escucha asiáticos hablando inglés, pese a que cuando éstos pasan a hablar chino, sí identifica su etnicidad correctamente.

“Si cierto idioma no aparece en los datos de entrenamiento, nuestras reconstrucciones no capturarán bien los atributos faciales que podrían estar correlacionados con ese lenguaje”, aclararon desde el MIT.

Las especulaciones en torno a este algoritmo y su posible uso comercial estarían emparentadas con la posibilidad de generar una imagen representativa de nuestro interlocutor cuando estemos manteniendo una llamada telefónica.

Fuente: www.clarin.com/tecnologia





Síguenos en Facebook:



Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *