La nueva IA de DeepMind toma cualquier vídeo y crea música y sonidos desde cero

La nueva IA de DeepMind toma cualquier vídeo y crea música y sonidos desde cero
La nueva IA de DeepMind toma cualquier vídeo y crea música y sonidos desde cero

Tras los vídeos generados con Inteligencia Artificial, llega también el modelo capaz de crear la banda sonora, basándose en un mensaje del usuario. De hecho, DeepMind ha anunciado los avances realizados en un modelo Video to Audio o V2A, que utiliza el análisis de contenido de vídeo para generar la pista de audio que lo acompaña, utilizando opcionalmente un mensaje de texto como guía para acercar el resultado a la idea del usuario. DeepMind ha publicado algunos vídeos del potencial de su tecnología y algunos son realmente sorprendentes, como este:

A través del mensaje “un baterista en un escenario de concierto rodeado de luces y gritos del público“, el modelo no sólo creó el sonido de la batería, sino que lo sincronizó perfectamente con los movimientos de las baquetas del músico con un resultado más que creíble.

En este otro ejemplo, el modelo es capaz de distinguir los cambios de cámara y crear la música manteniendo el efecto en base al mensaje que solicitaba música de cine para atmósferas de terror.

El sistema utiliza un modelo de “difusión”, que produce audio a partir de ruido aleatorio a través de iteraciones sucesivas utilizando como entrada una representación adecuadamente comprimida del vídeo y, opcionalmente, el mensaje textual. La diferencia con otros modelos es precisamente que la solución de DeepMind es capaz de “comprender” los píxeles y, por tanto, producir audio incluso sin entrada de texto. En cualquier caso, la indicación puede ser positiva, es decir, que sugiere el resultado que se desea obtener, o negativa, es decir, destinada a especificar las características no deseadas.

DeepMind especifica que aún queda trabajo por hacer. La calidad del audio, por ejemplo, se ve afectada por la calidad del vídeo: si hay artefactos o ruidos en los que el modelo no ha sido entrenado, la calidad del sonido se ve afectada significativamente. Además, todavía queda trabajo por hacer en el caso de los vídeos que muestran a sujetos hablando con sincronización de labios en el diálogo.

En este caso el mensaje fue simplemente: música, guión: “este pavo se ve increíble, tengo mucha hambre”.

A continuación se muestran otros ejemplos compartidos por DeepMind:

DeepMind anuncia AlphaFold 3: IA capaz de predecir las interacciones de todas las moléculas de la vida

Ir a más información

PREV Mañana comienzan los exámenes finales para 526.317 alumnos
NEXT Cobre: ​​precios récord limitan las exportaciones de EE.UU. a China – Materias primas