# 15 - Imagen a Video

<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/image2video.webp" style="width:400px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Modelos-de-imagen-a-video" data-toc-modified-id="1---Modelos-de-imagen-a-video-1">1 - Modelos de imagen a video</a></span></li><li><span><a href="#2---Pipeline-de-Diffusers-para-modelos-de-imagen-a-video" data-toc-modified-id="2---Pipeline-de-Diffusers-para-modelos-de-imagen-a-video-2">2 - Pipeline de Diffusers para modelos de imagen a video</a></span></li></ul></div>

## 1 - Modelos de imagen a video

Los modelos de imagen a video son una categoría de algoritmos diseñados para generar secuencias de video a partir de imágenes estáticas. Estos modelos pueden transformar una o varias imágenes estáticas en un video coherente, creando la ilusión de movimiento y cambio temporal. Generan secuencias de cuadros, frames, que cuando se reproducen en sucesión, crean un video. Estos modelos utilizan imágenes estáticas como entrada y producen una serie de imágenes que representan un cambio continuo y coherente a lo largo del tiempo.



**Tipos de modelos**:

+ Redes neuronales tecurrentes (RNNs): Utilizadas para manejar datos secuenciales, estas redes pueden capturar dependencias temporales en la generación de videos.

+ Redes generativas antagónicas (GANs): Específicamente, variantes como VideoGAN o TGAN (Temporal GAN) están diseñadas para generar secuencias de video.

+ Modelos basados en Transformers: Como los transformers temporales, que se utilizan para capturar relaciones a largo plazo en los datos secuenciales.



**Funcionamiento**:

+ Entrada: Una o varias imágenes estáticas. A veces, una imagen inicial y una final se utilizan para generar un video que transicione de una a otra.

+ Salida: Una secuencia de imágenes que juntas forman un video.



**Aplicaciones**

1.  Animación y Arte Digital:

    + Creación de Animaciones: Generar animaciones a partir de dibujos o imágenes estáticas.
    + Estilización de Videos: Aplicar estilos artísticos a secuencias de video.


2. Mejora de Videos:

    + Interpolación de Cuadros: Mejorar la suavidad de los videos generando cuadros intermedios.
    + Aumento de Resolución: Mejorar la calidad de los videos generando cuadros de alta resolución a partir de secuencias de baja resolución.


3. Realidad Aumentada y Virtual:

    + Simulación de Movimientos: Crear simulaciones realistas en entornos virtuales a partir de imágenes estáticas.
    + Cine y Producción de Medios: Generar efectos visuales complejos y transiciones suaves en postproducción.




**Desafíos**

+ Coherencia Temporal: Mantener la coherencia y continuidad en el tiempo es un desafío importante, ya que el video debe parecer fluido y natural.

+ Calidad Visual: Generar cuadros de alta calidad que no presenten artefactos visuales y mantengan detalles importantes.

+ Computación y Recursos: La generación de videos requiere significativos recursos computacionales y tiempo de procesamiento.

Este Jupyter Notebook será ejecutado en Google Colab en el siguiente [link](https://colab.research.google.com/drive/1D0i51brXROsJGf3YDM908PQMMiCl-8Nm?usp=sharing) debido a la necesidad de GPU y también porque mps no acepta redes Conv3D.

## 2 - Pipeline de Diffusers para modelos de imagen a video

Existen pocos modelos de imagen a video en el hub de Hugging Face. Veamos como usar uno de ellos.


[Stable Video Diffusion (SVD) 1.1 Image-to-Video](https://huggingface.co/vdo/stable-video-diffusion-img2vid-xt-1-1) es un modelo de difusión que toma una imagen fija como marco de condicionamiento y genera un video a partir de ella. Este modelo fue entrenado para generar 25 fotogramas a una resolución de 1024x576 dados un marco de contexto del mismo tamaño, afinado a partir de SVD Image-to-Video.El ajuste se realizó con condicionamiento fijo a 6FPS para mejorar la consistencia de las salidas sin necesidad de ajustar hiperparámetros. Estas condiciones aún son ajustables y no se han eliminado. El modelo pesa unos 9Gb.

Usaremos la misma imagen del [David de Miguel Angel](https://raw.githubusercontent.com/timothybrooks/instruct-pix2pix/main/imgs/example.jpg).

In [None]:
# instalaciones para colab

!pip install transformers
!pip install diffusers
!pip install torch
!pip install accelerate
!pip install pillow
!pip install requests

In [None]:
# para quitar warnings 

from transformers import logging
logging.set_verbosity_error()

import warnings
warnings.filterwarnings('ignore')

In [None]:
# importamos las librerias

from diffusers import DiffusionPipeline, EulerAncestralDiscreteScheduler
import torch
from PIL import Image
import requests as req

In [None]:
# url de la imagen

url = 'https://raw.githubusercontent.com/timothybrooks/instruct-pix2pix/main/imgs/example.jpg'

In [None]:
# visualización

imagen = Image.open(req.get(url, stream=True).raw)

imagen.resize((400, 400))

In [None]:
# definición del modelo

modelo = 'vdo/stable-video-diffusion-img2vid-xt-1-1'

In [None]:
# inicializamos el pipeline

pipeline = DiffusionPipeline.from_pretrained(pretrained_model_name_or_path=modelo,
                                             torch_dtype=torch.float16,
                                             use_safetensors=True)

In [None]:
# cambio de dispositivo y añadido del scheduler al pipeline

pipeline.to('cuda')

pipeline.scheduler = EulerAncestralDiscreteScheduler.from_config(pipeline.scheduler.config)

In [None]:
# descarga los pesos a la CPU y los cargar en la GPU solo cuando se realiza la pasada hacia adelante 

pipeline.enable_sequential_cpu_offload()

In [None]:
# llamada al pipeline, el cambio en dimensiones también baja el nivel de memoria necesaria

frames = pipeline(image=imagen, 
                  num_inference_steps=60,
                  height=512,
                  width=512).frames

In [None]:
# herramienta para exportar el video, lo guarda y devuelve la ruta

from diffusers.utils import export_to_video

video = export_to_video(frames[0])

In [None]:
# descarga del archivo desde colab

from google.colab import files

files.download(video) 