
NTN 420 - 🔮 Así funcionan las IAs de video

Description of NTN 420 - 🔮 Así funcionan las IAs de video
• Descubrí cómo funcionan las IAs que generan video: modelos de difusión, coherencia temporal y arquitecturas que pasan de imágenes a clips con movimiento y sonido.
• Hablamos de ejemplos como Veo, Sora y Dream Machine.
• Oportunidades para LATAM: datasets propios, talento y acceso a hardware.
Fuentes importantes
• “Video Diffusion Models: A Survey.” arXiv, mayo 2024. https://arxiv.org/abs/2405.03150 arXiv
• “Survey of Video Diffusion Models: Foundations, Implementations, and Applications.” arXiv, abril 2025. https://arxiv.org/abs/2504.16081 arXiv
• “Diffusion Models for Video Generation” — Lil’Log, abril 2024. https://lilianweng.github.io/posts/2024-04-12-diffusion-video/ Lil'Log
• “LaVie: High-Quality Video Generation with Cascaded Latent Diffusion Models.” arXiv, septiembre 2023. https://arxiv.org/abs/2309.15103 arXiv
• Sora — OpenAI. “Introducing Sora, our text-to-video model.” https://openai.com/index/sora/ OpenAI
• Veo — Google DeepMind. Veo 3 con audio sincronizado, etc. https://deepmind.google/models/veo/ Wikipedia
• Dream Machine — Luma Labs. pertenece al modelo de texto a video/imágenes animadas. https://lumalabs.ai/dream-machine Wikipedia
¿Quieres anunciarte en este podcast? Hazlo con advoices.com/podcast/ivoox/277993
This content is generated from the locution of the audio so it may contain errors.
Buenas, buenas, bienvenidos a otro episodio de NO TIENE NOMBRE, esta vez versión aeropuerto.
Tengo las notas, estoy esperando el avión y vamos a grabar esto, así que perdón por el audio, pero demasiadas cosas me traigo como para traer encima más micrófonos y cosas por allá. A ver si los filtros que tiene CapCut me logran dejar un audio bastante decente.
Pero hoy voy a hablar de algo que tenía apuntado también aquí, que es el video generativo, la generación de videos. Porque si hace unos años me ibas a decir que podías escribir un gato jugando al fútbol con Messi mientras llueven hamburguesas del cielo y que 30 segundos después iba a tener un video realista de eso, te iba a decir que estabas bastante perdido.
Pero aquí estamos, 2025, y esto no solo es posible, sino que se está volviendo mainstream.
La semana pasada vi un comercial que estoy 100% seguro que fue generado por AI y no porque se viera raro, sino porque se veía demasiado perfecto para el presupuesto que claramente tiene esa marca. Entonces la magia no existe, pero casi. Vamos un poco al lado técnico de esto.
A ver, estos modelos hacen básicamente magia, magia digital. ¿Por qué? Como hablamos en el episodio anterior o dos episodios antes donde hablábamos de la generación de imágenes, arrancan con ruido puro. ¿Se acuerdan cuando hablábamos que sobre una imagen le tirábamos arena y sabíamos a dónde caía cada granito de arena y hacíamos el proceso inverso de sacar los granitos para tener la imagen? Bueno, aquí va también se hace el proceso de limpiar. Tenemos generar imagen a imagen, al final un video es una secuencia de imágenes, en este caso frame por frame. Y lo que hacemos es generamos imagen por imagen hasta que aparece el video. Pero, pero la clave está en los modelos de difusión. Esto ya no es novedad, lo hablamos la otra vez.
Lo interesante es que no es solamente modelos de difusión como lo de las imágenes, sino que se llaman unos modelos, son unos bichos raros que se llaman latent diffusion, que lo que hacen, tienen, combinan diferentes arquitecturas para no sólo entender la imagen en general, sino también entender el espacio y el tiempo. Es como tener un cerebro que pueda pensar en 3D más tiempo simultáneamente.
Y el problema que tiene el tiempo, y ojo no es lo que nos hizo el amigo Nolan con su película TENET, que a mí todavía me está flipando en la cabeza, es que es realmente complicado mantener una coherencia temporal. Si alguien se acuerda, los primeros videos que se generaban hace un año eran, por decirlo, tenían cosas raras, muy raras. Así como en las imágenes veíamos manos de seis dedos, manos con seis dedos, en los videos veíamos cosas que a nivel tiempo, pues no tenían, no tenían nada, nada de sentido.
Y esto no está mal, porque en realidad funciona así. Pero imagínate que estás generando un video que puede hacer 24, 30 o 60 imágenes por segundo y tienen que verse como una secuencia fluida y no como una alucinación. Esto es una historia completamente diferente. Entonces hay varios desafíos. Por un lado de generar la imagen, los Stable Diffusion lo hacen bastante bien, pero del otro lado tener todo el contexto sobre cómo la imagen debe interactuar con las previas y con las que se van a generar es el desafío grande. Cada frame tiene que ser consistente con el anterior, pero también tiene que permitir el movimiento y cambios naturales. Es como, no sé, no se me ocurren analogías para explicar todo esto, pero ok. Pero aquí hay cosas interesantes.
¿Por qué? Los equipos de Google y OpenAI y otras compañías están utilizando arquitecturas híbridas, creo que sería la forma de describirla, pero que combinan, por un lado, Units que entienden lo que es la generación espacial, los contextos 3D. Por otro lado, Transformers para capturar dependencias temporales largas, manteniendo un hilo de las dependencias que tienen. Después tienen Autocoder, Sipos Encoder, que ya lo hablamos la otra vez, lo explicamos en otro episodio, donde hablamos sobre cómo funcionan para comprimir la información en espacios latentes.
Y después lo que tenemos son unos módulos específicos, que esto yo no sabía, está bastante bien, que se llaman módulos de atención temporal, que lo que hacen es se centran en partes específicas de cada frame y lo que hacen es mantener la coherencia entre diferentes frames. No es solamente viendo todo lo que pasa, sino que si, por ejemplo, haces un video que tenga una imagen de una montaña de fondo y la cámara va haciendo un panning y la montaña se va moviendo, pues hay un módulo que se encarga de la montaña. Después habrá otro de todo lo otro que esté alrededor de la montaña.
El acondicionamiento que tenemos acá cuando hacemos esto, porque al final todo esto queda muy lindo cuando lo contamos, pero hacerlo es complicado, es que, y te vuelve a la cabeza todo esto, es que la verdad, por un lado tenemos lo que hablamos la otra vez, que es el texto video, si es un perro saltando en una plaza y te lo dibuja, después tenemos imagen a video, le subimos una foto, hay varias formas de hacer esto, tenemos modelos que ahora le subimos una foto y te la animan. Hace que, no sé, una foto de tu abuelita, que ya no está con nosotros, pero tu abuela te guine el ojo, o se mueva y demás. Tenemos audio a video.
Hay algunos modelos que ya no están con nosotros.




















Comments of NTN 420 - 🔮 Así funcionan las IAs de video