# 14 - Texto a Video

<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/text2video.webp" style="width:400px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Modelos-de-texto-a-video" data-toc-modified-id="1---Modelos-de-texto-a-video-1">1 - Modelos de texto a video</a></span></li><li><span><a href="#2---Pipeline-de-Diffusers-para-modelos-de-texto-a-video" data-toc-modified-id="2---Pipeline-de-Diffusers-para-modelos-de-texto-a-video-2">2 - Pipeline de Diffusers para modelos de texto a video</a></span><ul class="toc-item"><li><span><a href="#2.1---Zeroscope" data-toc-modified-id="2.1---Zeroscope-2.1">2.1 - Zeroscope</a></span></li><li><span><a href="#2.2---AnimateDiff" data-toc-modified-id="2.2---AnimateDiff-2.2">2.2 - AnimateDiff</a></span></li></ul></li></ul></div>

## 1 - Modelos de texto a video

Los modelos de texto a video generan secuencias de video a partir de descripciones textuales. Estos modelos representan un avance significativo en el campo de la síntesis de medios, permitiendo la creación de videos coherentes y visualmente realistas a partir de instrucciones verbales. 


**Componentes principales**:

+ Procesamiento de lenguaje natural (NLP): El componente de NLP interpreta y entiende la descripción textual.

+ Generación de video: Utiliza redes neuronales para generar cuadros de video secuenciales que representan la descripción textual.



**Funcionamiento**

+ Entrada: Una descripción textual detallada de la escena o acción que se desea generar en el video.

+ Salida: Un video que visualiza la escena descrita en el texto.


**Proceso de Generación**:

+ Análisis del texto: El texto de entrada se analiza para extraer información clave sobre la escena, objetos, acciones, y su disposición espacial y temporal.

+ Síntesis de video: A partir de esta información, el modelo genera una secuencia de cuadros que, al reproducirse en sucesión, forman un video coherente.



**Modelos y Técnicas**:

+ Transformers: Los modelos basados en transformadores pueden ser adaptados para generar videos mediante la creación de descripciones detalladas cuadro a cuadro.

+ GANs: Modelos como VideoGAN utilizan GANs para generar videos realistas. La red generativa crea cuadros de video, mientras que la red discriminativa evalúa su realismo.

+ VAEs: Los VAEs pueden ser utilizados para aprender una representación latente de los cuadros de video y generar nuevas secuencias de video basadas en esta representación.

+ Modelos Híbridos: Combinan diferentes técnicas, como NLP y GANs, para mejorar la coherencia y calidad del video generado.



**Aplicaciones**:

+ Cine y animación: Generar escenas de películas o animaciones a partir de guiones escritos o crear versiones preliminares de escenas para la planificación y el diseño de producciones cinematográficas.

+ Marketing y publicidad: Generar videos promocionales a partir de descripciones de productos o servicios o crear anuncios personalizados basados en descripciones de intereses o comportamientos del usuario.

+ Educación y capacitación: Crear videos educativos a partir de textos explicativos, facilitando el aprendizaje visual o generar simulaciones para entrenamiento en diferentes campos, como la medicina o la ingeniería.

+ Entretenimiento y medios sociales: Crear contenido de video original para plataformas de medios sociales a partir de descripciones textuales o generar videos en tiempo real basados en las entradas textuales de los usuarios.



**Desafíos**

+ Coherencia temporal: Mantener la coherencia y continuidad a lo largo de los cuadros de video para asegurar una reproducción fluida.

+ Calidad visual: Generar cuadros de video de alta calidad que no presenten artefactos visuales y mantengan detalles importantes.

+ Comprensión del contexto: Entender y representar correctamente el contexto y las relaciones espaciales y temporales descritas en el texto.

Este Jupyter Notebook será ejecutado en Google Colab en el siguiente [link](https://colab.research.google.com/drive/1_ni8mKoSjH7SxFiYGJZZoM6ABVyp_KIj?usp=sharing) debido a la necesidad de GPU y también porque `mps` no acepta redes Conv3D.

## 2 - Pipeline de Diffusers para modelos de texto a video

### 2.1 - Zeroscope

Vamos a probar dos modelos distintos de generación de video desde texto. El primero es un modelo [zeroscope](https://huggingface.co/cerspense/zeroscope_v2_576w) optimizado para producir composiciones de alta calidad en formato 16:9 y una salida de video fluida. Este modelo fue entrenado utilizando 9923 clips y 29769 fotogramas etiquetados a 24 cuadros por segundo, con una resolución de 576x320. Tiene un peso aproximado de 3Gb.

In [None]:
# instalaciones para colab

!pip install transformers
!pip install diffusers
!pip install torch
!pip install accelerate

In [None]:
# para quitar warnings 

from transformers import logging
logging.set_verbosity_error()

import warnings
warnings.filterwarnings('ignore')

In [None]:
# importamos las librerias torch, el pipeline y el scheduler de diffusers

import torch  
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler

In [None]:
# definimos el modelo

modelo = 'cerspense/zeroscope_v2_576w'

In [None]:
# inicializamos el pipeline

pipe = DiffusionPipeline.from_pretrained(pretrained_model_name_or_path=modelo, 
                                         torch_dtype=torch.float16)

In [None]:
# cambio de dispositivo y añadido del scheduler al pipeline

pipe.to('cuda')

pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

In [None]:
# texto para generar el video

prompt = 'Darth Vader is surfing on waves with a light saber in his hand'

In [None]:
# generación del video frame a frame como array de numpy

frames = pipe(prompt=prompt, 
              num_inference_steps=40, 
              height=320, 
              width=576, 
              num_frames=24).frames

In [None]:
# herramienta para exportar el video, lo guarda y devuelve la ruta

from diffusers.utils import export_to_video

video = export_to_video(frames[0])

In [None]:
# descarga del archivo desde colab

from google.colab import files

files.download(video) 

In [None]:
# liberación de memoria

torch.cuda.empty_cache()

del pipe, frames, video

### 2.2 - AnimateDiff

Probemos otro modelo, llamado [AnimateDiff](https://huggingface.co/ByteDance/AnimateDiff-Lightning), el cual es un adaptador de movimiento que se coloca sobre otro modelo a nuestra elección. Veamos como se usa:

In [None]:
# importamos el pipeline y el adaptador desde diffusers

from diffusers import AnimateDiffPipeline, MotionAdapter

In [None]:
# descarga el repo desde el hub

from huggingface_hub import hf_hub_download
from safetensors.torch import load_file

In [None]:
# definimos el modelo, el repositorio y el checkpoint del adaptador

repo = 'ByteDance/AnimateDiff-Lightning'

checkpoint = 'animatediff_lightning_8step_diffusers.safetensors'

modelo_base = 'emilianJR/epiCRealism'

In [None]:
# inicializamos el adaptador y el pipeline, con el cambio de dispositivo a GPU

adaptador = MotionAdapter()

adaptador.to('cuda', torch.float16)

adaptador.load_state_dict(load_file(hf_hub_download(repo ,checkpoint), device='cuda'))



pipe = AnimateDiffPipeline.from_pretrained(modelo_base, 
                                           motion_adapter=adaptador, 
                                           torch_dtype=torch.float16)

pipe = pipe.to('cuda')

In [None]:
# importamos y establecemos el scheduler

from diffusers import EulerDiscreteScheduler

pipe.scheduler = EulerDiscreteScheduler.from_config(pipe.scheduler.config, 
                                                    timestep_spacing='trailing', 
                                                    beta_schedule='linear')

In [None]:
# texto para generar el video

prompt = 'A girl dancing and smiling'

In [None]:
# llamada al pipeline

resultado =  pipe(prompt=prompt, 
                  guidance_scale=1.0, 
                  num_inference_steps=40)

In [None]:
# ruta de guardado

ruta = '/tmp/animation.gif'

In [None]:
# guardado como gif

from diffusers.utils import export_to_gif

export_to_gif(resultado.frames[0], ruta)

In [None]:
# visualización del gif

from IPython.display import Image

display(Image(data=open(ruta,'rb').read(), format='png'))

In [None]:
# descarga del archivo desde colab

from google.colab import files

files.download(ruta) 