Meta dice que su inteligencia artificial generadora de voz es demasiado peligrosa para el público

Meta ha anunciado un nuevo modelo de inteligencia artificial llamado Voicebox que promete ser más versátil que cualquier otro software de síntesis de voz que hayamos probado. Sin embargo, la compañía no planea ponerlo a disposición del público de momento por miedo a que se use para suplantar a otras personas

Según los investigadores de Meta, Voicebox es el primer modelo que puede realizar tareas de síntesis de voz para las que no fue específicamente entrenado. Produce clips de audio de alta calidad en seis idiomas a partir de texto, puede eliminar sonidos de una pista de audio, editar lo que dice una persona, doblar a una persona manteniendo la mismo voz o cambiar la letra de una canción.

Hay algunos ejemplos en la web de Meta AI.

Voicebox se basa en un método llamado Flow Matching que mejora los modelos de difusión. Fue entrenado con más de 50.000 horas de discursos y audiolibros de dominio público en inglés, francés, español, alemán, polaco y portugués. Meta dice que puede imitar voces a partir de muestras de tan solo dos segundos y que podría usarse para un doblaje “natural y auténtico” en el futuro.

“Existen muchos casos de uso emocionantes para los modelos de habla generativa”, dijeron los autores de Voicebox en un comunicado. “Pero debido a los posibles riesgos de uso indebido, no pondremos a disposición del público el código o el modelo de Voicebox de momento”.

La falta de transparencia es ya la tónica habitual de los gigantes de la inteligencia artificial (OpenAI y Google han dejado de revelar detalles de la arquitectura de sus modelos con la excusa del mercado competitivo), pero Meta tiene otras razones para no hacer público un modelo generador de voces potente. ¿Sabrías reconocer una estafa si el que te llama por teléfono suena igual que tu hijo o tu pareja?