# Modificación de vídeos (cambio de cara) utilizando Generative Adversarial Networks

<div style="background-color:#D9EEFF;color:black;padding:2%;">
<h2>Enunciado del caso práctico</h2>

En este caso práctico, se propone al alumno el uso de Generative Adversarial Networks (GANs) para modificar un vídeo e intercambiar la cara de una persona.

Para este caso concreto se prompone el uso de un técnica/arquitectura de Generative Adversarial Network conocida como [StyleGan2](https://github.com/NVlabs/stylegan2) y más concretamente un desarrollo influenciado por esta Red Neuronal Artificial Profunda que se denomina [Stitch in Time](https://stitch-time.github.io/).

</div>

## Contexto adicional sobre Generative Adversarial Networks

Desde el año en el que surgieron este tipo de Redes Neuronales Artificiales Profundas no han parado de publicarse [aplicaciones muy interesantes y modificaciones de su arquitectura inicial](https://arxiv.org/abs/2008.02793).

En términos generales, podríamos clasificar las GANs en varias categorías:

**1. GANs no condicionales y condicionales**

* **No condicionales**: El generador convierte una entrada de ruido en una imagen falsa, y el discriminador diferencia entre imágenes reales e imágenes falsas. No hay señales de control adicionales para guiar el proceso de generación. Un ejemplo muy interesante es: https://thispersondoesnotexist.com/

* **Condicionales**: El generador recibe una señal de control adicional como entrada, que podría ser otra imagen, texto o una etiqueta categórica. El objetivo del generador es producir salidas que correspondan a la señal de control proporcionada. Por ejemplo, si la señal de control es una etiqueta de categoría, el generador debería producir una imagen que pertenezca a esa categoría específica. El discriminador también tiene en cuenta la señal de control para diferenciar entre imágenes reales e imágenes generadas.

**2. Tipos de GANs Basados en su Arquitectura**

* **GAN Original**: Introducido por Goodfellow et al., establece la estructura básica de las GANs.
* **DCGAN (Deep Convolutional GAN)**: Introduce capas convolucionales en las GANs para mejorar la calidad de las imágenes generadas.
* **CoGAN (Coupled GANs)**: Utiliza múltiples GANs entrenadas juntas para mejorar la generación de imágenes.
* **PgGAN (Progressive Growing GAN)**: Aumenta progresivamente la resolución de las imágenes generadas durante el entrenamiento para mejorar la calidad.
* **StyleGAN**: Introduce un enfoque basado en estilos para la generación de imágenes, permitiendo un control más fino sobre las características generadas.

**3. Aplicaciones de las GANs**
* **Síntesis Semántica de Imágenes**: Conversión de representaciones semánticas editables por humanos a imágenes fotorrealistas.
* **Traducción de Imágenes**: Traducción de imágenes de un dominio a otro.
* **Restauración de Imágenes, Superresolución e Inpainting**: Transformación de distribuciones de imágenes para mejorar la calidad visual.
* **Síntesis de Video**: Generación y manipulación de videos.
* **Renderizado Neural**: Uso de redes neuronales para mejorar los procesos de renderizado gráfico.



# Resolución del caso práctico

## 0. Instalación de librerías externas

Lo primero que vamos a necesitar para resolver este caso práctico es descargar la Generative Adversarial Network del repositorio de Github: https://github.com/rotemtzaban/STIT y subir este repositorio a Google Drive después de aplicarle algunas configuraciones.

In [None]:
!pip install -r /content/drive/MyDrive/STIT-main/requirements.txt
!pip install git+https://github.com/openai/CLIP.git

## 2. División del vídeo en frames

A continuación, debemos dividr el vídeo en un conjunto de imágenes fíjas que pueda editar la Red Neuronal Artificial y después volver a componer en forma de un vídeo nuevo.

El vídeo que yo he creado tiene una duración de 7 segundos y 30 fps.

In [None]:
!ffmpeg -i "/content/drive/MyDrive/STIT-main/video_santi.mp4" -vf "scale=720:-1" "/content/drive/MyDrive/STIT-main/santi_frames/out%04d.png"

## 2. Fine-tuning del modelo

El entrenamiento de las Generative Adversarial Networks es un proceso extremadamente costoso y que requiere grandes recursos computacionales.

Por este motivo, vamos a aplicar la técnica de re-entrenamiento (fine-tuning) que hemos presentado en secciones anteriores.

En este caso el fine-tuning lo aplicamos sobre un modelo base ya entrenado con caras de personas.

In [None]:
!python /content/drive/MyDrive/STIT-main/train.py --input_folder /content/drive/MyDrive/STIT-main/santi_frames \
 --output_folder /content/drive/MyDrive/STIT-main/santi/train_results \
 --run_name santi \
 --num_pti_steps 3

## 3. Generación/Modificación del vídeo

LLegados a este punto ya tenemos todo listo para utilizar nuestra Red Neuronal Artificial con Fine-tuning para realizar la modificación del vídeo.

In [None]:
# Generación de un vídeo donde modifica la edad
!python /content/drive/MyDrive/STIT-main/edit_video.py --input_folder /content/drive/MyDrive/STIT-main/santi_frames \
 --output_folder /content/drive/MyDrive/STIT-main/edits/santi3 \
 --run_name santi2 \
 --edit_name age \
 --edit_range 8 8 1

In [None]:
# Generación de un vídeo donde elimina la sonrisa
!python /content/drive/MyDrive/STIT-main/edit_video_stitching_tuning.py --input_folder /content/drive/MyDrive/STIT-main/video_frames \
 --output_folder /content/drive/MyDrive/STIT-main/edits/santi7 \
 --run_name santi3 \
 --edit_name smile \
 --edit_range -3 -3 1 \
 --outer_mask_dilation 50