Las IAs que convierten texto a imágenes ya están pasadas de moda. Ahora lo que se lleva es convertir texto a vídeo. Google sigue los pasos de Meta con Imagen Video.

Google ha presentado el 7 de octubre Imagen Video, su nueva inteligencia artificial que convierte texto en vídeo. Parece una respuesta a Make-a-video, la IA de Meta que hace lo mismo.

Los modelos de difusión aplicados al aprendizaje automático, están revolucionando la inteligencia artificial basada en imágenes. Hemos visto ya algunas IAs muy populares que crean imágenes a partir de un texto, como DALL-E o Stable Diffusion. Pero ahora llega la segunda generación, que crea vídeos a partir de un texto.

Hace unas semanas Meta presentó Make-a-video, y hoy Google hace lo propio con Imagen Video, una nueva IA que convierte texto a vídeo. En su primera versión genera vídeos a una resolución de 1280×768 píxeles, y 24 fps.

Imagen Video, una inteligencia artificial muy cinematográfica

Los modelos de difusión son modelos generativos, es decir, generan nuevos datos a partir de los datos con los que han sido entrenados.

 Lo que hacen es destruir los datos en pequeñas piezas manejables, y luego los vuelven a reconstruir en función de las necesidades.

Por ejemplo, si escribes la frase: «Un elefante con un gorrito de fiesta paseando por el fondo del mar», la IA deconstruye la frase para extraer palabras clave como «elefante», «gorrito de fiesta», o «fondo del mar», y busca en su base de datos imágenes que cumplan esta descripción, mezclándolas de forma coherente para obtener una imagen o un vídeo con lo que pide la frase:

Imagen Video

En el caso de Imagen Video, primero crea un vídeo de baja resolución con 24×48 píxeles a 3 fps y lo va escalando progresivamente con más resolución y más fotogramas, hasta obtener vídeos a 1280×768 píxeles a 24 fps, y unos 5 segundos de duración.

Es capaz de generar vídeos imitando a artistas famosos, y varios estilos de animación.

Imagen Video

Según explica Ars TechnicaImagen Video ha sido entrenada usando el banco de imágenes LAION-400M, compuesto por más de 400 millones de imágenes. Google ha añadido 14 millones de vídeos. 

Por desgracia, esto genera resultados que a veces son racistas o discriminatorios.

Por eso Google ha decidido que, de momento, no va a hacer pública esta inteligencia artificial. Quiere aplicar primero una serie de filtros para evitar resultados polémicos.

Imagen Video, la inteligencia artificial de Google que convierte texto en vídeo, promete generar un impacto mediático similar a DALL-E. Pero, de momento, tenemos que conformarnos con mirar los ejemplos que hay en su página web.

Fuente noticia: https://www.computerhoy.com/
Fuente foto: freepik.es