# Módulo 5 — Clase 2: Modelos Generativos

# 1) Introducción a modelos generativos

## **Teoría Sencilla de Modelos Generativos**

### 1. **¿Qué es un modelo generativo?**

Imagina que tienes una máquina que, después de “aprender” a partir de ejemplos reales, puede **inventar nuevos ejemplos parecidos**.
Por ejemplo:

* Si le das miles de fotos de gatos, puede generar fotos nuevas de gatos que **no existen** en la realidad.
* Si le das textos de noticias, puede inventar nuevos titulares que suenen reales.

**Idea clave:** El modelo no solo aprende a reconocer algo, sino **a crear algo nuevo** siguiendo el mismo estilo o patrón.

---

### 2. **Tipos de modelos generativos**

Podemos dividirlos en dos grandes grupos:

1. **Modelos con densidad explícita**

   * Intentan aprender **exactamente** cómo es la probabilidad de cada dato.
   * Ejemplos:

     * Distribuciones gaussianas
     * Modelos de mezcla (GMM)
     * *Normalizing Flows*
2. **Modelos con densidad implícita**

   * No calculan la probabilidad exacta, pero saben **imitar** los datos muy bien.
   * Ejemplos:

     * **GANs (Generative Adversarial Networks)**
     * Algunos **VAEs (Variational Autoencoders)**

---

### 4. **¿Por qué nos importan?**

Estos modelos se usan en muchísimos casos reales:

* **Aumento de datos** para entrenar otros modelos (ej. generar más fotos de rayos X para entrenar un detector de enfermedades).
* **Diseño de productos**: generar imágenes de ropa, muebles, coches antes de fabricarlos.
* **Generación de texto**: resúmenes automáticos, guiones, respuestas inteligentes.
* **Síntesis de voz**: imitar la voz de una persona.
* **Generación de código**: crear funciones o programas a partir de descripciones.

---

### 5. **Conceptos clave**

* **Log-verosimilitud:** mide qué tan bien el modelo imita los datos reales.
* **Divergencias (KL, JS):** formas de medir la diferencia entre lo que el modelo genera y lo real.
* **Entrenamiento adversarial:** en GANs, dos redes (Generador y Discriminador) compiten para mejorar.
* **Auto-regresión:** en Transformers, el modelo predice un elemento a la vez, usando lo anterior como contexto.
* **Espacio latente (z):** una representación interna comprimida de los datos, donde cada punto corresponde a una posible salida.

---


## **Ejemplo sencillo de modelos generativos**

### Escenario

Imagina que tienes una **pastelería** y quieres crear nuevos diseños de cupcakes para tu menú.

* Tienes **muchas fotos reales** de cupcakes que ya vendes.
* Quieres inventar **nuevos cupcakes** que parezcan reales, aunque nunca los hayas hecho.

---

### Cómo sería con cada tipo de modelo

1. **Modelo discriminativo**

   * Sería como un empleado que mira una foto y dice:

     > "Este cupcake es de chocolate con crema" o
     > "Este es de vainilla con fresas".
   * Solo **clasifica**.

2. **Modelo generativo**

   * Sería como un chef creativo que, después de ver muchas fotos, inventa nuevos diseños.

     > "Aquí tienes un cupcake que nunca has visto: mitad chocolate, mitad vainilla, con topping de frutilla azul".
   * **Crea algo nuevo** que sigue el estilo de los originales.

---

### Ejemplo en Python

Vamos a simular un modelo generativo *ultra simplificado* para texto, para que los estudiantes vean la idea sin entrar en fórmulas todavía:



In [None]:
import random

# Datos reales (ejemplos de cupcakes)
sabores = ["chocolate", "vainilla", "fresa", "limón", "café"]
toppings = ["crema", "fresas", "chispas", "caramelo", "nueces"]

# "Modelo generativo" simple: mezcla aleatoria de lo aprendido
def generar_cupcake():
    sabor = random.choice(sabores)
    topping = random.choice(toppings)
    return f"Cupcake de {sabor} con {topping}"

# Generar nuevos "ejemplos"
for _ in range(5):
    print(generar_cupcake())


Este código no es un modelo real de IA, pero **ilustra la idea**:

* Tenemos **datos originales** (sabores y toppings).
* El “modelo” genera nuevas combinaciones.
* Si tuviéramos un modelo real como una GAN o un Transformer, aprendería patrones complejos en lugar de mezclar aleatoriamente.


---

# 2) GANs

## 1. Arquitectura básica

Una **GAN** (Red Generativa Antagónica - Generative Adversarial Network) es un sistema con **dos redes neuronales** que compiten y aprenden juntas:

1. **Generador (G)**

   * Entrada: un vector de **ruido aleatorio** $z$ (números sin sentido).
   * Salida: un dato falso que intenta imitar un dato real (por ejemplo, una imagen).
   * Objetivo: crear ejemplos tan realistas que el discriminador no pueda distinguirlos de los reales.

2. **Discriminador (D)**

   * Entrada: un dato (puede ser real o generado por G).
   * Salida: probabilidad de que el dato sea real.
   * Objetivo: identificar correctamente si la entrada es real o falsa.

---

## 2. Ejemplo empresarial: Industria de la moda

**Contexto**
Una marca de ropa quiere preparar la campaña de invierno, pero aún no ha fabricado las prendas. Necesita fotos de modelos usando la nueva ropa **antes** de que exista físicamente.

**Cómo funciona**

* **Generador (G)**: crea imágenes falsas de modelos usando ropa que aún no existe, basándose en bocetos y estilos anteriores.
* **Discriminador (D)**: revisa esas imágenes y decide si parecen fotos reales de sesiones fotográficas anteriores o si son falsas.
* Durante el entrenamiento, ambos mejoran:

  * El generador hace imágenes cada vez más realistas.
  * El discriminador se vuelve más exigente para detectar fallos.

---

## 3. Problemas comunes

1. **Mode collapse**

   * El generador produce pocas variantes (por ejemplo, siempre las mismas 2-3 combinaciones de ropa).
   * En moda: si G solo genera fotos con una modelo y un vestido, sin variedad.

2. **Inestabilidad en el entrenamiento**

   * A veces G y D no aprenden al mismo ritmo y la GAN no converge.
   * En moda: si el diseñador digital mejora demasiado rápido y D no puede detectarlo, o al revés.

3. **Desequilibrio entre D y G**

   * Si uno es mucho más fuerte, el otro deja de aprender.
   * En moda: si el inspector detecta todo, el diseñador se frustra y no mejora.

---

## 4. Variantes y mejoras importantes

1. **DCGAN** – Usa capas convolucionales y *Batch Normalization* para mejorar calidad de imágenes.
   Ejemplo: genera fotos más detalladas de las prendas.

2. **Wasserstein GAN (WGAN)** – Cambia la forma de medir la diferencia entre real y falso usando la **distancia de Wasserstein**; ayuda a entrenar más estable.

3. **WGAN-GP** – Versión con penalización de gradiente (*gradient penalty*) para un entrenamiento aún más estable.

4. **Conditional GAN (cGAN)** – Se entrena con etiquetas.
   Ejemplo: “Genera una imagen de un abrigo rojo talla M” → El generador crea justo eso.

5. **StyleGAN** – Arquitectura avanzada que genera imágenes de altísima calidad.
   Ejemplo: fotos de modelos tan realistas que parecen hechas por un fotógrafo profesional.

---

## 5. Cómo medir la calidad de una GAN

* **Inception Score (IS)** → Mide la calidad y diversidad de las imágenes.
* **Fréchet Inception Distance (FID)** → Compara las características de imágenes reales y generadas; cuanto más bajo, mejor.


## 6. Resumen visual del ejemplo empresarial

| Elemento GAN      | Rol en empresa de moda                                        |
| ----------------- | ------------------------------------------------------------- |
| Generador (G)     | Diseñador digital que crea fotos falsas de la nueva colección |
| Discriminador (D) | Equipo de control de calidad que detecta imágenes falsas      |
| Ruido (z)         | Inspiración aleatoria del diseñador                           |
| Entrenamiento     | Competencia entre diseñador e inspector                       |
| Objetivo final    | Tener imágenes tan realistas que engañen incluso al cliente   |

---


---

## **Ejercicio práctico: GAN simulada para generar tallas de ropa**

**Objetivo:**
Imitar el trabajo de una marca de moda que quiere generar tallas de ropa que parezcan reales, basándose en medidas anteriores.

En vez de imágenes, trabajaremos con **números** (por ejemplo, medidas de pecho en cm). Así el código es más rápido y la idea queda clara.

---

### **Código paso a paso**



In [None]:
import numpy as np # libreria para calculos numéricos y uso de arreglos

# -----------------------------
# 1. Datos reales (tallas reales de ropa)
# -----------------------------
# Generamos un conjunto de datos "reales" simulados: 1000 medidas (ej. cm de pecho)
# np.random.normal(loc=95, scale=5, size=1000):
#  - loc = media (95 cm)
#  - scale = desviación estándar (5 cm)
#  - size = número de muestras (1000)
real_data = np.random.normal(loc=95, scale=5, size=1000)  # media ~95 cm, desviación ~5 cm

# Nota: real_data es un arreglo numpy de forma (1000,). Podemos inspeccionar:
#   np.mean(real_data), np.std(real_data)
# para ver la media y desviación empíricas.


# -----------------------------
# 2. Generador (G)
# -----------------------------
def generador(n):
    """
    Genera 'n' tallas falsas (medidas de pecho) a partir de una entrada de ruido.
    - Entrada:
        n : int -> número de muestras que queremos generar
    - Proceso:
        ruido ~ N(0,1)  (distribución normal estándar)
        salida = 80 + ruido * 5
        Esto crea valores centrados alrededor de 80 (intencionalmente lejos de 95)
        y con variabilidad proporcional a 5.
    - Salida:
        numpy.ndarray de tamaño n con valores simulados (floats).
    """
    # ruido: vector de ruido aleatorio estándar
    ruido = np.random.normal(0, 1, n)
    # construimos las tallas "falsas" a partir del ruido
    # empezamos con una media base de 80 (esto representa un generador "malo" al inicio)
    return 80 + ruido * 5
    # -> devuelve un array con forma (n,)


# -----------------------------
# 3. Discriminador (D)
# -----------------------------
def discriminador(x):
    """
    Evalúa la 'probabilidad' de que x provenga de la distribución real.
    Implementación:
      - Calcula la media de los datos reales (media_real).
      - Usa una función tipo núcleo gaussiano:
            exp(- (x - media_real)^2 / (2 * sigma^2))
        con sigma = 5.
    Propiedades:
      - Valor máximo = 1 si x == media_real.
      - Los valores disminuyen al alejarse de la media real.
      - Acepta x escalar o array (gracias a numpy broadcasting).
    NOTA:
      - Esto NO es una probabilidad calibrada por un clasificador entrenado,
        es solo una función de similitud (kernel gaussiano) para fines didácticos.
    """
    media_real = np.mean(real_data)  # referencia central (95 en la generación original)
    sigma = 5.0 # estadistico utilizado para la desviacion estandar
    # la expresión devuelve valores en (0,1], siendo 1 en la media real
    return np.exp(-((x - media_real) ** 2) / (2 * sigma ** 2))


# -----------------------------
# 4. Entrenamiento simulado
# -----------------------------
# Vamos a hacer 10 iteraciones (epochs) donde:
#  - El generador produce algunas muestras.
#  - El discriminador evalúa muestras reales y falsas.
#  - Simulamos que el generador "mejora" moviendo sus salidas hacia la media real.
for epoch in range(10):
    # 1) el generador crea 5 tallas 'falsas'
    falsas = generador(5)  # array de 5 valores, inicialmente alrededor de 80 +/- ruido

    # 2) el discriminador evalúa 5 muestras reales muestreadas aleatoriamente
    #    np.random.choice(real_data, 5) selecciona 5 valores del conjunto real
    prob_reales = discriminador(np.random.choice(real_data, 5))
    #    -> prob_reales es un array con 5 valores (cada uno ≤ 1)

    # 3) el discriminador evalúa las tallas 'falsas' generadas
    prob_falsas = discriminador(falsas)
    #    -> valores pequeños si las falsas están lejos de la media real (95)

    # 4) simulamos una 'mejora' del generador:
    #    - mejora = promedio de la 'confianza' que el discriminador da a las falsas
    #      Si prob_falsas es alto, significa que las falsas están más cerca de la realidad.
    mejora = np.mean(prob_falsas)

    #    - Actualizamos las tallas falsas acercándolas a 95 cm:
    #      falsas = falsas + (95 - falsas) * mejora * 0.1
    #      Desglose:
    #        (95 - falsas)    -> vector de desplazamiento necesario para llegar a 95
    #        * mejora          -> cuanto "mérito" tienen las falsas según el D
    #        * 0.1             -> factor similar a una "tasa de aprendizaje" pequeña
    #      Por tanto, movemos cada valor una fracción hacia 95 proporcional a mejora.
    falsas = falsas + (95 - falsas) * mejora * 0.1  # se acercan a 95 cm de forma gradual

    # Impresión para observar la evolución (redondeamos para que se vea limpio)
    print(f"Epoch {epoch+1}")
    print(f"Tallas falsas generadas: {falsas.round(2)}")
    print(f"Prob. de ser reales (falsas): {prob_falsas.round(2)}")
    print("-" * 40)


### **Palancas que pueden cambiar los resultados**

- Acercar la media inicial del generador a 95 (por ejemplo 90 o 92). (Actual return 80 + ruido * 5)

- Aumentar la tasa de ajuste (learning rate). Subirlo a 0.3–0.5 hace que las muestras se muevan más rápido hacia 95. (Actual - falsas = falsas + (95 - falsas) * mejora * 0.1)

- Cambiar sigma en el discriminador ya que este controla cuán “tolerante” es el discriminador. Aumentarlo a 8 o a 10.

- Aumentar número de epochs y tamaño de muestra


---

### **Qué se aprenderá con este ejercicio**

1. **Generador (G)**:

   * Empieza generando valores alejados de los reales (ej. 80 cm).
   * Aprende a acercarse a la media de las tallas reales (95 cm).

2. **Discriminador (D)**:

   * Juzga cada valor y da una probabilidad de que sea real.
   * Si la talla está muy lejos de 95 cm, la probabilidad baja.

3. **Competencia adversarial**:

   * Si el discriminador detecta fácil las falsificaciones, el generador ajusta sus resultados.
   * Poco a poco, las tallas falsas se parecen más a las reales.

---

**Explicación del ejemplo**

* El **generador** es el diseñador digital que al principio crea tallas poco realistas (80 cm).
* El **discriminador** es el departamento de control de calidad que detecta que esas tallas no corresponden a la colección real.
* Con el tiempo, el diseñador ajusta y logra tallas que parecen de la colección oficial.

---


# Ejercicio 1 - *Mini-DCGAN* con *Fashion-MNIST*

## Caracteristicas:

* Mini-DCGAN: Menos capas convolucionale, Menos parámetros, Entrenamiento más rápido y menos costoso en GPU/CPU.
* Fashion-MNIST: dataset de imágenes en escala de grises (28×28) con 10 clases de ropa y calzado.

## Objetivos de aprendizaje

* Mostrar el flujo de una GAN (Generador ↔ Discriminador).
* Ejecutar un entrenamiento rápido y visualizar cómo mejoran las imágenes.
* Discutir problemas prácticos: mode collapse, inestabilidad, balance D/G.
* Incluir buenas prácticas: seeds, checkpoints, logging, código modular.

## Requisitos

* Python 3.8+
* PyTorch, torchvision, matplotlib

```bash
pip install torch torchvision matplotlib
```

* Ejecutar en CPU o preferiblemente GPU (si hay GPU disponible el entrenamiento será mucho más rápido).

---

## Explicación

1. Cargar dataset Fashion-MNIST (28×28 grayscale).
2. Generador: red totalmente conectada que transforma vector `z` → imagen 28×28.
3. Discriminador: MLP que recibe imagen 28×28 y devuelve probabilidad real/falsa.
4. Loop de entrenamiento clásico: actualizar D con reales+falsas, luego actualizar G intentando engañar a D.
5. Mostrar imágenes generadas cada pocas épocas.

---

## Código



In [None]:
"""
Mini-DCGAN (en clase) - Fashion-MNIST
Ejecuta rápido en CPU; si tienes GPU se acelerará.
"""
# -----------------------
# 0) Importación de librerías necesarias
# -----------------------
import os                 # manejo de carpetas y rutas
import random             # para control de aleatoriedad
import torch              # librería principal de PyTorch (biblioteca de inteligencia artificial y deep learning)
import torch.nn as nn     # para definir redes neuronales
import torch.optim as optim  # optimizadores (Adam, SGD, etc.)
from torchvision import datasets, transforms  # dataset y transformaciones
from torch.utils.data import DataLoader        # para cargar datos por lotes
from torchvision.utils import make_grid, save_image  # utilidades para imágenes
import matplotlib.pyplot as plt                # para mostrar gráficos
from datetime import datetime                  # para manejar tiempos (opcional)

# -----------------------
# 0) Configuración y reproducibilidad
# -----------------------
SEED = 42                         # semilla para resultados reproducibles
random.seed(SEED)                 # semilla para librería random
torch.manual_seed(SEED)           # semilla para PyTorch (CPU)
if torch.cuda.is_available():     # si hay GPU disponible
    torch.cuda.manual_seed_all(SEED)  # semilla para PyTorch (GPU)

# Detectar si usamos GPU o CPU
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Carpeta donde se guardarán imágenes y modelos entrenados
OUT_DIR = "exercise1_outputs"
os.makedirs(OUT_DIR, exist_ok=True)  # crear carpeta si no existe

# -----------------------
# 1) Hiperparámetros
# -----------------------
BATCH_SIZE = 128      # tamaño del lote (imágenes procesadas a la vez)
LATENT_DIM = 64       # tamaño del vector de ruido para el generador
EPOCHS = 10           # número de veces que pasamos por el dataset
LR = 2e-4             # tasa de aprendizaje (learning rate). Notación científica para el número 0.0002

# -----------------------
# 2) Dataset y transforms
# -----------------------

# Pipeline de transformaciones que se aplica a las imágenes antes de usarlas en un modelo de Deep Learning (en este caso  con PyTorch).
transform = transforms.Compose([
    transforms.ToTensor(),                     # Convierte una imagen (por ejemplo, en formato PIL o NumPy) a un tensor de PyTorch.
    transforms.Normalize((0.5,), (0.5,))       # Ajusta los valores para que estén en el rango [-1, 1] en lugar de [0, 1] para entrenamiento rapido.
])

# Descargar y preparar dataset Fashion-MNIST

"""
Parámetros:

root="./data" → Carpeta donde se guardarán los datos. En este caso, la carpeta data en el directorio actual.
train=True → Indica que quieres la parte de entrenamiento del dataset (hay otra parte para prueba train=False).
download=True → Si no encuentra el dataset en la carpeta indicada, lo descarga automáticamente desde el servidor oficial de Zalando Research.
transform=transform → Aplica las transformaciones que definiste antes (convertir a tensor y normalizar).
"""

dataset = datasets.FashionMNIST(
    root="./data", train=True, download=True, transform=transform
)

# DataLoader para manejar lotes y mezclar datos

"""
Parámetros:

dataset: El conjunto de datos que quieres cargar, en este caso el que obtuviste con:

batch_size=BATCH_SIZE: Tamaño del lote de datos que se entregará en cada iteración. Por ejemplo, si BATCH_SIZE = 64, cada vez que obtengas datos del loader recibirás 64 imágenes y 64 etiquetas. Esto afecta el uso de memoria y la velocidad de entrenamiento.

shuffle=True: Mezcla aleatoriamente el orden de los datos en cada época de entrenamiento. Esto evita que el modelo aprenda patrones artificiales del orden de los datos.

num_workers=2: Número de procesos en paralelo para cargar los datos. Más workers = carga más rápida, pero también más consumo de CPU. 0 significa que todo se carga en el proceso principal (más lento). En este caso, 2 procesos paralelos ayudan a leer las imágenes mientras la GPU entrena.

pin_memory=True: Fija la memoria de los tensores en RAM de forma que la copia a la GPU sea más rápida. Esto solo tiene efecto si entrenas en GPU (cuda). Si estás en CPU, no aporta beneficio.
"""

loader = DataLoader(
    dataset, batch_size=BATCH_SIZE, shuffle=True,
    num_workers=2, pin_memory=True
)

# -----------------------
# 3) Modelos: Generator y Discriminator
# -----------------------
class Generator(nn.Module): # nn.Module: Bloque base de todas las redes neuronales en PyTorch.
    def __init__(self, latent_dim=64): # Vector de entrada aleatorio (también llamado vector latente, latent vector) que se le pasa al Generador tendrá 64 valores.
        super().__init__()
        # Red totalmente conectada (MLP)
        
        # Definimos la red neuronal secuencial que actuará como generador
        self.net = nn.Sequential(
            # Capa totalmente conectada (FC) que recibe el vector latente (ruido) 
            # y lo expande a 256 neuronas.
            nn.Linear(latent_dim, 256),
            nn.ReLU(True),  # Función de activación ReLU para introducir no linealidad
            
            # Segunda capa FC: de 256 neuronas a 512 neuronas.
            nn.Linear(256, 512),
            nn.ReLU(True),
            
            # Tercera capa FC: de 512 neuronas a 1024 neuronas.
            nn.Linear(512, 1024),
            nn.ReLU(True),
            
            # Capa de salida: de 1024 neuronas a 784 neuronas (28*28 píxeles).
            nn.Linear(1024, 28*28),
            
            # Activación Tanh para que la salida esté en el rango [-1, 1],
            # lo que es común cuando las imágenes están normalizadas en ese rango.
            nn.Tanh()
        )

    # Definimos el método forward, que describe cómo fluye la información
    def forward(self, z):
        # z: vector de ruido aleatorio (vector latente)
        x = self.net(z)  # Pasamos el ruido por la red definida arriba
    
    # Reorganizamos el vector plano (784 valores) en una imagen
    # con forma: batch_size × 1 canal × 28 alto × 28 ancho.
        return x.view(-1, 1, 28, 28)


class Discriminator(nn.Module):
    def __init__(self):
        super().__init__()  # inicializa la clase base nn.Module

        # Definición de la red neuronal del discriminador
        self.net = nn.Sequential(  # Secuencia de capas
            nn.Flatten(),                # Convierte la imagen 2D (1x28x28) en un vector de 784 elementos
            nn.Linear(28*28, 512),        # Capa totalmente conectada: 784 -> 512 neuronas
            nn.LeakyReLU(0.2, inplace=True),  # Activación LeakyReLU (mejor para GAN que ReLU pura)
            
            nn.Linear(512, 256),          # Otra capa densa: 512 -> 256
            nn.LeakyReLU(0.2, inplace=True),  # Segunda activación LeakyReLU
            
            nn.Linear(256, 1),            # Capa de salida: 256 -> 1 neurona
            nn.Sigmoid()                  # Convierte la salida a rango [0, 1], como probabilidad
        )

    def forward(self, img):
        # Pasa la imagen por la red
        return self.net(img)  # Devuelve probabilidad de que sea real


# Crear instancias de G y D
G = Generator(LATENT_DIM).to(DEVICE)
D = Discriminator().to(DEVICE)

# -----------------------
# 4) Loss, optimizadores e inicialización de pesos
# -----------------------
criterion = nn.BCELoss()  # Binary Cross-Entropy para clasificación real/falso
opt_G = optim.Adam(G.parameters(), lr=LR, betas=(0.5, 0.999))  # optimizador de G
opt_D = optim.Adam(D.parameters(), lr=LR, betas=(0.5, 0.999))  # optimizador de D

# Inicialización recomendada para GANs
def weights_init(m):
    # m es un módulo de PyTorch (capa de la red)
    if isinstance(m, (nn.Conv2d, nn.ConvTranspose2d, nn.Linear)):
        # Si la capa es una convolución (normal o transpuesta) o una capa densa (Linear)...
        
        # Inicializa los pesos con una distribución normal:
        # media = 0.0, desviación estándar = 0.02
        nn.init.normal_(m.weight.data, 0.0, 0.02)

        # Si la capa tiene bias (sesgo), inicialízalo a 0
        if getattr(m, "bias", None) is not None:
            nn.init.constant_(m.bias.data, 0)

# Aplicar inicialización
G.apply(weights_init)
D.apply(weights_init)

# -----------------------
# 5) Entrenamiento (loop)
# -----------------------
fixed_noise = torch.randn(36, LATENT_DIM, device=DEVICE)  # ruido fijo para ver evolución

# -----------------------
# Bucle de entrenamiento (comentado línea a línea)
# -----------------------

# ruido fijo para visualizar siempre las mismas muestras a lo largo de las epochs
fixed_noise = torch.randn(36, LATENT_DIM, device=DEVICE)  # tensor (36, latent_dim) usado para generar ejemplos de referencia

# iterar por cada época (1 .. EPOCHS)
for epoch in range(1, EPOCHS + 1):
    # iterar por cada lote del DataLoader; imgs contiene las imágenes y _ ignora las etiquetas
    for i, (imgs, _) in enumerate(loader):
        imgs = imgs.to(DEVICE)                 # mover el lote de imágenes al dispositivo (CPU o GPU)
        bs = imgs.size(0)                      # tamaño actual del lote (último lote puede ser menor que BATCH_SIZE)

        # crear tensores de etiquetas:
        # real_labels -> 1.0 (indicamos que estas son reales)
        # fake_labels -> 0.0 (indicamos que estas son falsas)
        real_labels = torch.ones(bs, 1, device=DEVICE)
        fake_labels = torch.zeros(bs, 1, device=DEVICE)

        # ------ Entrenar Discriminador ------
        opt_D.zero_grad()                      # limpiar gradientes acumulados del discriminador

        outputs_real = D(imgs)                 # pasar las imágenes reales por D -> salida entre 0 y 1
        loss_real = criterion(outputs_real, real_labels)  # pérdida comparando con etiquetas reales (1)

        noise = torch.randn(bs, LATENT_DIM, device=DEVICE)  # generar ruido aleatorio para crear falsas
        fake_imgs = G(noise)                   # generar imágenes falsas con el generador

        # IMPORTANT: .detach() evita que el gradiente fluya hacia G mientras actualizamos D
        # así D se entrena con falsas "estáticas" y no afecta los parámetros de G en este paso
        outputs_fake = D(fake_imgs.detach())   
        loss_fake = criterion(outputs_fake, fake_labels)    # pérdida comparando con etiquetas falsas (0)

        loss_D = loss_real + loss_fake         # pérdida total del discriminador (reales + falsas)
        loss_D.backward()                      # backward: calcular gradientes de D
        opt_D.step()                           # actualizar parámetros de D con el optimizador

        # ------ Entrenar Generador ------
        opt_G.zero_grad()                      # limpiar gradientes acumulados del generador

        noise = torch.randn(bs, LATENT_DIM, device=DEVICE)  # generar nuevo ruido (puede ser el mismo o distinto)
        fake_imgs = G(noise)                   # generar imágenes falsas (esta vez queremos actualizar G)

        outputs = D(fake_imgs)                 # pasar las falsas por D (ahora sin detach: queremos que flujo llegue a G)
        # objetivo del generador: engañar a D, por eso usamos 'real_labels' (1) como target
        # si D clasifica las falsas como reales, la pérdida será baja
        loss_G = criterion(outputs, real_labels)
        loss_G.backward()                      # backward: calcular gradientes de G (a través de D)
        opt_G.step()                           # actualizar parámetros de G

        # Mostrar progreso cada 200 pasos (para seguimiento por consola)
        if (i + 1) % 200 == 0:
            # .item() extrae el valor escalar del tensor de pérdida para imprimirlo
            print(f"Epoch [{epoch}/{EPOCHS}] Step [{i+1}/{len(loader)}] "
                  f"Loss_D: {loss_D.item():.4f} Loss_G: {loss_G.item():.4f}")

    # -----------------------
    # Guardado de imágenes y checkpoints por epoch
    # -----------------------
    # Generar muestras con el ruido fijo para visualizar la evolución (no se calculan gradientes)
    with torch.no_grad():
        samples = G(fixed_noise).cpu()       # generar y mover a CPU para guardar/visualizar
        # make_grid organiza las muestras en una cuadrícula; normalize=True reescala para visualizar
        # value_range=(-1,1) indica el rango esperado de los píxeles (porque usamos Tanh y normalizamos)
        grid = make_grid(samples, nrow=6, normalize=True, value_range=(-1, 1))
        # guardar la cuadrícula como imagen PNG en la carpeta OUT_DIR
        save_image(grid, os.path.join(OUT_DIR, f"epoch_{epoch:02d}.png"))

    # Guardar los estados (pesos) de los modelos para poder recargar o continuar el entrenamiento
    torch.save(G.state_dict(), os.path.join(OUT_DIR, f"G_epoch_{epoch}.pth"))  # pesos del generador
    torch.save(D.state_dict(), os.path.join(OUT_DIR, f"D_epoch_{epoch}.pth"))  # pesos del discriminador

# Mensaje final al terminar todo el entrenamiento
print("Entrenamiento finalizado. Imágenes y checkpoints en:", OUT_DIR)


# -----------------------
# 6) Mostrar última cuadrícula en pantalla
# -----------------------
img = plt.imread(os.path.join(OUT_DIR, f"epoch_{EPOCHS:02d}.png"))
plt.figure(figsize=(6,6))
plt.imshow(img)
plt.axis('off')
plt.title(f"Samples after epoch {EPOCHS}")
plt.show()


### Posibles comportamientos:

Aquí cada línea muestra:

* Epoch [x/10] → Época actual de entrenamiento, de un total de 10.
* Step [y/469] → Paso actual dentro de la época (469 lotes en total).
* Loss_D → Loss (error) del Discriminador.
* Loss_G → Loss (error) del Generador.

Interpretación rápida:

* Loss_D alto → el discriminador se confunde (o el generador mejora).

* Loss_G alto → el generador tiene problemas para engañar al discriminador.

* Idealmente, ambos valores oscilan y se equilibran, sin que uno domine completamente.

Comportamiento que se podría observar:

* Si el **Loss_G** va subiendo es porque el generador intenta aprender.
* Si durrante el entrenamiento **Loss_D** supera 1.0 → el discriminador está ganando y el generador pierde capacidad.
* Evaluar ajustar tasas de aprendizaje o usar técnicas de estabilización como label smoothing o batch normalization.

---


## Resultado esperado

* Durante la demo verás imágenes que pasan de ruido a formas que recuerdan dígitos/prendas.
* Muestra los archivos `exercise1_outputs/epoch_*.png` y explica la evolución.

## Puntos de discusión / talking points

* ¿Qué pasa si aumentamos `EPOCHS` a 50? (mejor calidad, pero más tiempo)
* ¿Qué es `latent_dim` y cómo cambia las muestras?
* ¿Por qué usamos `Tanh()` y normalizamos a `[-1,1]`?
* Señalar problemas: pérdida oscilante no siempre indica mala calidad visual.

## Checklist de calidad (mínimo en la demo)

* Uso de seed y reproducibilidad básica.
* Guardado de checkpoints.
* Comentarios en el código (ya incluidos).
* Explicar seguridad y privacidad: no usar datos con PII sin consentimiento.

---


# Ejercicio 2 —  cGAN sencillo sobre *Fashion-MNIST* (condicionar por tipo de prenda)

**Objetivo:** 

Implementar y entender cómo generar imágenes condicionadas por etiqueta (p. ej. “abrigo”, “zapato”, “camisa”). Este ejercicio es más completo, incluye tareas adicionales, métricas y criterios de entrega.

## Aprendizajes esperados

* Implementar un **Conditional GAN** (cGAN).
* Entender cómo incorporar etiquetas en G y D (embedding + concatenación).
* Generar imágenes específicas por label y evaluar visualmente la calidad y la diversidad.
* Aplicar buenas prácticas de ingeniería: reproducibilidad, guardado de checkpoints, README, tests básicos.

---

## Descripción del problema

La empresa “FashionNow” quiere generar imágenes de prendas **específicas** sin fabricarlas. Se te pide crear un **cGAN** que, dado un label (0–9 en Fashion-MNIST), genere una imagen correspondiente a ese tipo de prenda.

**Entradas:** etiqueta `y` (int 0..9), ruido `z`.
**Salida:** imagen 28×28 condicionada en `y`.

**Entregables mínimos:**

1. Código `cgan_fashion.py` entrenable con `python cgan_fashion.py`.
2. Carpeta `outputs/` con muestras por clase (al menos 10 imágenes por clase).
3. Checkpoints de G y D.
4. `README.md` con instrucciones, parámetros y resultados.
5. Informe (1–2 páginas) con observaciones: problemas detectados y cómo los resolvieron.

---

## Código (completo y comentado)



In [None]:
"""
cGAN sobre Fashion-MNIST (tarea de estudiantes)
Estructura:
 - Generator recibe (z, label) y genera imagen condicionada.
 - Discriminator recibe (img, label) y predice real/falso considerando label.
"""
import os
import random
import json
from datetime import datetime
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
from torchvision.utils import save_image, make_grid

# -----------------------
# Config / reproducibilidad
# -----------------------
SEED = 123
random.seed(SEED)
torch.manual_seed(SEED)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(SEED)

DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
OUT_DIR = "exercise2_outputs"
os.makedirs(OUT_DIR, exist_ok=True)

# -----------------------
# Hiperparámetros (ajustables)
# -----------------------
BATCH_SIZE = 128
LATENT_DIM = 100
EPOCHS = 25
LR = 2e-4
NUM_CLASSES = 10
EMBED_DIM = 50   # embedding para la etiqueta

# -----------------------
# Dataset
# -----------------------
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

dataset = datasets.FashionMNIST(root="./data", train=True, download=True, transform=transform)
loader = DataLoader(dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=2)

# -----------------------
# Modelos: Generator y Discriminator condicionados
# -----------------------
class CGANGenerator(nn.Module):
    def __init__(self, latent_dim, num_classes, embed_dim):
        super().__init__()
        # embedding para la etiqueta
        self.label_emb = nn.Embedding(num_classes, embed_dim)
        # concatenamos z (latent_dim) + embedding (embed_dim)
        input_dim = latent_dim + embed_dim
        self.net = nn.Sequential(
            nn.Linear(input_dim, 256),
            nn.ReLU(True),
            nn.Linear(256, 512),
            nn.ReLU(True),
            nn.Linear(512, 1024),
            nn.ReLU(True),
            nn.Linear(1024, 28*28),
            nn.Tanh()
        )

    def forward(self, noise, labels):
        # labels: tensor (batch,)
        lbl_emb = self.label_emb(labels)                # (batch, embed_dim)
        x = torch.cat([noise, lbl_emb], dim=1)          # (batch, latent+embed)
        out = self.net(x)
        return out.view(-1, 1, 28, 28)

class CGANDiscriminator(nn.Module):
    def __init__(self, num_classes, embed_dim):
        super().__init__()
        # label embedding para concatenar con imagen (a la entrada)
        self.label_emb = nn.Embedding(num_classes, embed_dim)
        # imagen 28*28 + label emb
        self.net = nn.Sequential(
            nn.Flatten(),
            nn.Linear(28*28 + embed_dim, 512),
            nn.LeakyReLU(0.2, inplace=True),
            nn.Linear(512, 256),
            nn.LeakyReLU(0.2, inplace=True),
            nn.Linear(256, 1),
            nn.Sigmoid()
        )

    def forward(self, img, labels):
        lbl_emb = self.label_emb(labels)
        img_flat = img.view(img.size(0), -1)
        x = torch.cat([img_flat, lbl_emb], dim=1)
        return self.net(x)

# Inicializar
G = CGANGenerator(LATENT_DIM, NUM_CLASSES, EMBED_DIM).to(DEVICE)
D = CGANDiscriminator(NUM_CLASSES, EMBED_DIM).to(DEVICE)

# Inicialización de pesos (normal)
def weights_init(m):
    if isinstance(m, (nn.Conv2d, nn.ConvTranspose2d, nn.Linear)):
        nn.init.normal_(m.weight, 0.0, 0.02)
        if getattr(m, "bias", None) is not None:
            nn.init.constant_(m.bias, 0)
G.apply(weights_init)
D.apply(weights_init)

# -----------------------
# Pérdida y optimizadores
# -----------------------
criterion = nn.BCELoss()
opt_G = optim.Adam(G.parameters(), lr=LR, betas=(0.5, 0.999))
opt_D = optim.Adam(D.parameters(), lr=LR, betas=(0.5, 0.999))

# -----------------------
# Helpers: guardado de muestras condicionadas
# -----------------------
def sample_by_class(epoch, num_samples_per_class=10):
    """
    Genera imágenes condicionadas para cada clase y las guarda en outputs.
    """
    G.eval()
    imgs_all = []
    labels_all = []
    with torch.no_grad():
        for cls in range(NUM_CLASSES):
            z = torch.randn(num_samples_per_class, LATENT_DIM, device=DEVICE)
            labels = torch.full((num_samples_per_class,), cls, dtype=torch.long, device=DEVICE)
            gen_imgs = G(z, labels)  # (num_samples_per_class, 1, 28, 28)
            imgs_all.append(gen_imgs)
            labels_all += [cls] * num_samples_per_class
    imgs_all = torch.cat(imgs_all, dim=0)
    grid = make_grid(imgs_all.cpu(), nrow=num_samples_per_class, normalize=True, value_range=(-1,1))
    save_image(grid, os.path.join(OUT_DIR, f"sample_by_class_epoch_{epoch}.png"))
    G.train()

# -----------------------
#  Loop de entrenamiento
# -----------------------
fixed_noise = torch.randn(100, LATENT_DIM, device=DEVICE)  # para visualizar aleatorio
for epoch in range(1, EPOCHS+1):
    for i, (imgs, labels) in enumerate(loader):
        imgs = imgs.to(DEVICE)
        labels = labels.to(DEVICE)
        bs = imgs.size(0)

        real = torch.ones(bs, 1, device=DEVICE)
        fake = torch.zeros(bs, 1, device=DEVICE)

        # --- Entrenar Discriminador ---
        opt_D.zero_grad()
        # Reales con sus labels
        out_real = D(imgs, labels)
        loss_real = criterion(out_real, real)

        # Falsos con labels correspondientes (sample de ruido)
        z = torch.randn(bs, LATENT_DIM, device=DEVICE)
        gen_labels = torch.randint(0, NUM_CLASSES, (bs,), device=DEVICE)
        gen_imgs = G(z, gen_labels)
        out_fake = D(gen_imgs.detach(), gen_labels)
        loss_fake = criterion(out_fake, fake)

        loss_D = (loss_real + loss_fake) / 2
        loss_D.backward()
        opt_D.step()

        # --- Entrenar Generador ---
        opt_G.zero_grad()
        z2 = torch.randn(bs, LATENT_DIM, device=DEVICE)
        target_labels = torch.randint(0, NUM_CLASSES, (bs,), device=DEVICE)  # queremos generar para labels aleatorios
        gen_imgs2 = G(z2, target_labels)
        out_gen = D(gen_imgs2, target_labels)
        loss_G = criterion(out_gen, real)  # queremos que D clasifique como real
        loss_G.backward()
        opt_G.step()

        if (i+1) % 200 == 0:
            print(f"Epoch [{epoch}/{EPOCHS}] Step [{i+1}/{len(loader)}] Loss_D: {loss_D.item():.4f} Loss_G: {loss_G.item():.4f}")

    # Guardar muestras por clase cada 1-2 epochs
    sample_by_class(epoch)

    # Guardar checkpoints
    torch.save(G.state_dict(), os.path.join(OUT_DIR, f"G_epoch_{epoch}.pth"))
    torch.save(D.state_dict(), os.path.join(OUT_DIR, f"D_epoch_{epoch}.pth"))

print("Entrenamiento finalizado. Revisa la carpeta:", OUT_DIR)


## Consejos y soluciones a problemas comunes

* **Mode collapse**: intentar disminuir LR del generador, usar label smoothing, añadir ruido a etiquetas, usar WGAN-GP.
* **D aprende demasiado rápido**: reducir pasos de entrenamiento de D (o lr\_D < lr\_G).
* **Pérdidas oscilantes**: comprobar visualmente las imágenes; las pérdidas no siempre reflejan calidad visual.
* **Sin GPU**: reducir `EPOCHS`, `BATCH_SIZE` o entrenar con subset del dataset (por ejemplo 10k imágenes).

---
