La nueva IA de DeepMind toma cualquier vídeo y crea música y sonidos desde cero

Tras los vídeos generados con Inteligencia Artificial, llega también el modelo capaz de crear la banda sonora, basándose en un mensaje del usuario. De hecho, DeepMind ha anunciado los avances realizados en un modelo Video to Audio o V2A, que utiliza el análisis de contenido de vídeo para generar la pista de audio que lo acompaña, utilizando opcionalmente un mensaje de texto como guía para acercar el resultado a la idea del usuario. DeepMind ha publicado algunos vídeos del potencial de su tecnología y algunos son realmente sorprendentes, como este:

A través del mensaje “un baterista en un escenario de concierto rodeado de luces y gritos del público“, el modelo no sólo creó el sonido de la batería, sino que lo sincronizó perfectamente con los movimientos de las baquetas del músico con un resultado más que creíble.

En este otro ejemplo, el modelo es capaz de distinguir los cambios de cámara y crear la música manteniendo el efecto en base al mensaje que solicitaba música de cine para atmósferas de terror.

El sistema utiliza un modelo de “difusión”, que produce audio a partir de ruido aleatorio a través de iteraciones sucesivas utilizando como entrada una representación adecuadamente comprimida del vídeo y, opcionalmente, el mensaje textual. La diferencia con otros modelos es precisamente que la solución de DeepMind es capaz de “comprender” los píxeles y, por tanto, producir audio incluso sin entrada de texto. En cualquier caso, la indicación puede ser positiva, es decir, que sugiere el resultado que se desea obtener, o negativa, es decir, destinada a especificar las características no deseadas.

DeepMind especifica que aún queda trabajo por hacer. La calidad del audio, por ejemplo, se ve afectada por la calidad del vídeo: si hay artefactos o ruidos en los que el modelo no ha sido entrenado, la calidad del sonido se ve afectada significativamente. Además, todavía queda trabajo por hacer en el caso de los vídeos que muestran a sujetos hablando con sincronización de labios en el diálogo.