## 1. Introducción a las redes neuronales convolucionales (CNN)

Las redes neuronales convolucionales, o CNN (del inglés *Convolutional Neural Networks*), son un tipo de arquitectura de red neuronal específicamente diseñada para procesar datos que tienen una estructura de cuadrícula, como las imágenes. Surgieron a partir del trabajo pionero de Yann LeCun con **LeNet** en la década de 1990, y posteriormente se convirtieron en uno de los enfoques más relevantes para tareas de visión por computadora como clasificación, detección de objetos, segmentación semántica, entre otras.

La clave del éxito de las CNN radica en su capacidad para extraer y aprender características jerárquicas: los primeros filtros convolucionales detectan patrones de bajo nivel (bordes, texturas simples), mientras que las capas más profundas combinan estas características para reconocer formas más complejas. Este aprendizaje **jerárquico** elimina la necesidad de diseñar manualmente "descriptores" o "features" para las imágenes, como sucedía en técnicas clásicas de la visión por computador.

A grandes rasgos, una CNN consiste en una secuencia de capas convolucionales, capas de activación (como ReLU), capas de *pooling* (para reducir la dimensionalidad) y, opcionalmente, capas totalmente conectadas (fully connected), seguidas de una capa de salida. El entrenamiento de una CNN es supervisado y se realiza a través del procedimiento de retropropagación del error (*backpropagation*), con un optimizador como SGD, Adam, o variantes de estos.

### 2. Conceptos fundamentales

#### 2.1 Operación de convolución

La **convolución** en el contexto de las CNN consiste en hacer pasar un "filtro" (también llamado *kernel*) de tamaño fijo sobre la imagen o entrada anterior. Cada posición del filtro realiza una multiplicación punto a punto con los valores de la región de la imagen y produce un valor de salida. El valor resultante forma parte de un nuevo mapa de características (*feature map*).

- **Filtros**: Típicamente se utilizan filtros de tamaños 3×3 o 5×5, aunque hay variantes con tamaños 1×1 o 7×7, dependiendo de la arquitectura.
- **Stride**: Es el paso con el que se mueve el kernel sobre la imagen. Un *stride* mayor a 1 reduce la resolución de la salida, ya que se "salta" píxeles.
- **Padding**: Se añaden ceros (o algún otro valor) en los bordes de la imagen antes de aplicar la convolución para controlar el tamaño de la salida.

#### 2.2 Funciones de activación

Luego de cada convolución se aplica típicamente una función de activación no lineal. La más común en CNN es la **ReLU** (Rectified Linear Unit), definida como:

$$
\mathrm{ReLU}(x) = \max(0, x)
$$

La ReLU ayuda a que la red aprenda representaciones de mayor complejidad al introducir no linealidades y reducir el problema del *vanishing gradient* (gradiente que se vuelve demasiado pequeño en redes profundas). Existen variantes como **Leaky ReLU**, **ELU**, **GELU**, entre otras.

#### 2.3 Pooling

Las capas de *pooling* (o submuestreo) se usan para reducir el tamaño espacial de los mapas de características, con el fin de:
1. Disminuir la dimensionalidad de la salida, lo que conlleva una reducción en el número de parámetros y del costo computacional.
2. Hacer la red más robusta a pequeñas traslaciones o distorsiones en la imagen.

Existen diferentes tipos de *pooling*:

- **Max pooling**: Toma el valor máximo dentro de cada ventana de submuestreo.
- **Average pooling**: Toma el promedio de los valores dentro de cada ventana.

#### 2.4 Capas completamente conectadas

Tras secuencias de capas convolucionales y *pooling*, algunas arquitecturas añaden capas completamente conectadas (*fully connected layers*), generalmente hacia el final de la red, para mapear las características extraídas a clases o a valores de salida concretos.

#### 2.5 Batch normalization

Introducida en 2015, **batch normalization** normaliza las activaciones de la capa previa, reduciendo problemas de covariate shift y acelerando significativamente el entrenamiento. Suele colocarse después de la convolución y antes de la activación ReLU, aunque también hay variantes donde se coloca después de la activación.

#### 2.6 Regularización

Para evitar sobreajuste (overfitting), es común utilizar:
- **Dropout**: Apaga aleatoriamente neuronas (con cierta probabilidad $p$) durante el entrenamiento.
- **Weight decay** (o regularización L2): Penaliza los valores altos de los pesos en la función de costo.
- **Data augmentation**: Transformaciones aleatorias (rotaciones, recortes, espejado) sobre las imágenes para incrementar el tamaño efectivo del conjunto de entrenamiento y mejorar la capacidad de generalización.

### 3. Transfer learning

El *transfer learning* consiste en aprovechar una red previamente entrenada (generalmente en un dataset grande como ImageNet) para adaptarla a otra tarea diferente, con menor cantidad de datos disponibles. Esto ofrece varias ventajas:

- **Menor tiempo de entrenamiento**: Aprovechamos los parámetros ya aprendidos en tareas de visión genéricas.
- **Regularización implícita**: Evitamos el sobreajuste, aprovechando filtros que ya capturan rasgos visuales fundamentales (bordes, esquinas, texturas) aprendidos con grandes volúmenes de datos.
- **Eficiencia de datos**: Funciona especialmente bien cuando el conjunto de datos para la nueva tarea es reducido.

Existen dos estrategias principales en *transfer learning*:

1. **Feature extraction** (Extracción de características): 
   - Se utiliza la red preentrenada como extractor de características fijas, congelando (o "freezing") todas o casi todas las capas, para luego entrenar solo la capa final (o algunas capas finales) en el nuevo dataset.

2. **Fine-tuning** (Ajuste Fino):
   - Se cargan los pesos preentrenados y se permite entrenar (descongelar) al menos un subconjunto de capas (generalmente las más profundas). Así, la red ajusta parámetros a la nueva tarea, pero sin perder las características básicas ya aprendidas.

### 4. Arquitecturas relevantes

A continuación, se listan algunos hitos importantes en la evolución de las CNN:

1. **LeNet (1998)**: Yann LeCun aplicó convoluciones para la clasificación de dígitos en el conjunto MNIST.
2. **AlexNet (2012)**: Impulsada por Alex Krizhevsky y Geoffrey Hinton, con ocho capas entrenadas en ImageNet, evidenció el potencial de las CNN en la clasificación de miles de categorías de imágenes.
3. **VGG (2014)**: Propuesta por Simonyan y Zisserman. Se caracteriza por usar convoluciones 3×3 y un diseño muy homogéneo y profundo (VGG16, VGG19).
4. **GoogLeNet / Inception (2014-2015)**: Introduce el módulo *Inception*, combinando convoluciones con distintos tamaños de kernel en paralelo para extraer características a diferentes escalas.
5. **ResNet (2015)**: Propuesta por He et al. Resuelve problemas de degradación en redes muy profundas con la introducción de conexiones residuales (*skip connections*), permitiendo entrenar redes de cientos de capas (ResNet50, ResNet101, etc.).
6. **DenseNet (2017)**: Utiliza conexiones densas en las que cada capa recibe como entrada los mapas de características de todas las capas anteriores.

Actualmente, ResNet y variantes de modelos "residuales" son muy populares. Además de su efectividad, se suelen usar como base para *transfer learning* en multitud de aplicaciones.

### 5. Ejemplo de CNN

A modo de ilustración, construyamos una CNN simple para clasificación en el dataset **CIFAR-10** (10 clases: aviones, automóviles, pájaros, gatos, etc.). Este ejemplo muestra el flujo de trabajo en PyTorch.

> **Nota**: En un cuaderno de Jupyter, se recomienda instalar las dependencias con `pip install torch torchvision` si no están ya instaladas.

In [None]:
!pip install torch torchvision

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms

# 1. Transformaciones y carga de datos
transform_train = transforms.Compose([
    transforms.RandomHorizontalFlip(),
    transforms.RandomCrop(32, padding=4),
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)) # valores medios y std de CIFAR-10
])

transform_test = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))
])

train_dataset = torchvision.datasets.CIFAR10(
    root='./data',
    train=True,
    download=True,
    transform=transform_train
)

test_dataset = torchvision.datasets.CIFAR10(
    root='./data',
    train=False,
    download=True,
    transform=transform_test
)

train_loader = torch.utils.data.DataLoader(
    train_dataset,
    batch_size=128,
    shuffle=True,
    num_workers=2
)

test_loader = torch.utils.data.DataLoader(
    test_dataset,
    batch_size=128,
    shuffle=False,
    num_workers=2
)

# 2. Definimos la arquitectura de la red
class SimpleCNN(nn.Module):
    def __init__(self, num_classes=10):
        super(SimpleCNN, self).__init__()
        self.features = nn.Sequential(
            # Bloque 1
            nn.Conv2d(3, 32, kernel_size=3, padding=1),  # Entrada (3, 32,32), Salida (32, 32,32)
            nn.ReLU(inplace=True),
            nn.Conv2d(32, 32, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),       # Salida (32, 16,16)

            # Bloque 2
            nn.Conv2d(32, 64, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(64, 64, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),       # Salida (64, 8,8)

            # Bloque 3
            nn.Conv2d(64, 128, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2)        # Salida (128, 4,4)
        )
        self.classifier = nn.Sequential(
            nn.Linear(128 * 4 * 4, 256),
            nn.ReLU(inplace=True),
            nn.Dropout(0.5),
            nn.Linear(256, num_classes)
        )

    def forward(self, x):
        x = self.features(x)
        x = x.view(x.size(0), -1)  # Flatten
        x = self.classifier(x)
        return x

# 3. Instanciar la red y definir el optimizador y la función de pérdida
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
modelo = SimpleCNN().to(device)

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(modelo.parameters(), lr=0.001)

# 4. Bucle de entrenamiento
num_epochs = 10

for epoch in range(num_epochs):
    modelo.train()
    running_loss = 0.0
    for images, labels in train_loader:
        images, labels = images.to(device), labels.to(device)

        optimizer.zero_grad()
        outputs = modelo(images)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()

    # Calcular el accuracy en el conjunto de prueba para cada epoca
    modelo.eval()
    correct = 0
    total = 0
    with torch.no_grad():
        for images, labels in test_loader:
            images, labels = images.to(device), labels.to(device)
            outputs = modelo(images)
            _, predicted = outputs.max(1)
            total += labels.size(0)
            correct += predicted.eq(labels).sum().item()
    accuracy = 100. * correct / total

    print(f"Época [{epoch+1}/{num_epochs}], Pérdida: {running_loss/len(train_loader):.4f}, Accuracy: {accuracy:.2f}%")

print("Entrenamiento finalizado.")


En esta red se incluyen conceptos como:

- Dos convoluciones consecutivas antes de un *max pooling* (inspirado ligeramente en VGG).
- **Dropout** en la parte final para evitar sobreajuste.
- Función de activación ReLU en cada convolución.

Además, se aplica *data augmentation* básico en CIFAR-10 para mejorar la robustez del modelo.

### 6. Ejemplo de transfer learning con PyTorch

Ahora veremos cómo usar un modelo preentrenado en ImageNet (por ejemplo, **ResNet18**) y ajustarlo para CIFAR-10. 

#### 6.1 Congelar capas y entrenar la última capa

En este primer ejemplo, solo cambiaremos la capa final (el *classifier*) y congelaremos el resto de la red. De este modo, se aprovechan las características previamente aprendidas en ImageNet.

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from torchvision import models

# Supongamos que ya tenemos los DataLoaders (train_loader, test_loader) definidos como en el ejemplo anterior.

# 1. Cargar modelo ResNet18 preentrenado
resnet18 = models.resnet18(weights=True)

# 2. Congelar los parámetros de las capas convolucionales
for param in resnet18.parameters():
    param.requires_grad = False

# 3. Reemplazar la capa fully connected (fc) final
num_ftrs = resnet18.fc.in_features  # número de características de salida de la penúltima capa
resnet18.fc = nn.Linear(num_ftrs, 10)  # 10 clases para CIFAR-10

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
resnet18 = resnet18.to(device)

criterion = nn.CrossEntropyLoss()
# Solo entrenamos los parámetros de la nueva capa (resnet18.fc)
optimizer = optim.Adam(resnet18.fc.parameters(), lr=0.001)

num_epocas = 5
for epoca in range(num_epocas):
    resnet18.train()
    running_loss = 0.0
    for images, labels in train_loader:
        images, labels = images.to(device), labels.to(device)
        
        optimizer.zero_grad()
        outputs = resnet18(images)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item()
    
    # Validación en el conjunto de prueba
    resnet18.eval()
    correct = 0
    total = 0
    with torch.no_grad():
        for images, labels in test_loader:
            images, labels = images.to(device), labels.to(device)
            outputs = resnet18(images)
            _, predicted = outputs.max(1)
            total += labels.size(0)
            correct += predicted.eq(labels).sum().item()
    accuracy = 100. * correct / total
    print(f"[{epoca+1}/{num_epocas}] Pérdida: {running_loss/len(train_loader):.4f}, Accuracy: {accuracy:.2f}%")


En este escenario, toda la red permanece fija (los gradientes no fluyen a través de los pesos congelados), excepto la nueva capa totalmente conectada, que se entrena para la clasificación en CIFAR-10.

#### 6.2 Fine-tuning (ajuste fino)

Si queremos un poco más de flexibilidad y esperamos que la nueva tarea difiera lo suficiente de ImageNet, podemos optar por hacer *fine-tuning* de algunas capas convolucionales. Normalmente se descongelan las últimas capas convolucionales (más "especializadas"). 

Por ejemplo, podemos:

In [None]:
resnet18 = models.resnet18(weights=True)

# Congelamos la mayoría de capas excepto las últimas
ct = 0
for name, child in resnet18.named_children():
    ct += 1
    if ct < 7:
        for param in child.parameters():
            param.requires_grad = False

# Reemplazamos la capa final
num_ftrs = resnet18.fc.in_features
resnet18.fc = nn.Linear(num_ftrs, 10)

resnet18 = resnet18.to(device)
criterion = nn.CrossEntropyLoss()

# Ahora entrenamos con un lr menor para no destruir los pesos preentrenados
optimizer = optim.Adam(filter(lambda p: p.requires_grad, resnet18.parameters()), lr=1e-4)

# Proceso de entrenamiento similar
num_epocas = 5
for epoca in range(num_epocas):
    resnet18.train()
    running_loss = 0.0
    for images, labels in train_loader:
        images, labels = images.to(device), labels.to(device)
        
        optimizer.zero_grad()
        outputs = resnet18(images)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item()
    
    resnet18.eval()
    correct = 0
    total = 0
    with torch.no_grad():
        for images, labels in test_loader:
            images, labels = images.to(device), labels.to(device)
            outputs = resnet18(images)
            _, predicted = outputs.max(1)
            total += labels.size(0)
            correct += predicted.eq(labels).sum().item()
    accuracy = 100. * correct / total
    print(f"Época {epoch+1}, Pérdida: {running_loss/len(train_loader):.4f}, Exactitud: {accuracy:.2f}%")


Con este enfoque, los pesos de la parte de la red que está descongelada se ajustan, lo que suele dar mejores resultados que mantener la red completamente congelada, a costa de un mayor riesgo de sobreajuste y más tiempo de entrenamiento. Es fundamental **ajustar la tasa de aprendizaje** para evitar romper los pesos preentrenados.

### 7. Técnicas avanzadas y buenas prácticas

#### 7.1 Data augmentation avanzado

Además de las transformaciones básicas (rotaciones, recortes, espejado horizontal), pueden emplearse transformaciones más complejas para robustecer el modelo frente a variaciones en iluminación, color, perspectiva, etc. PyTorch provee `transforms.ColorJitter`, `transforms.RandomRotation`, `transforms.RandomResizedCrop`, etc.  

#### 7.2 Early stopping

Muchas veces se monitoriza la pérdida de validación (validation loss) para detener el entrenamiento cuando deja de mejorar, evitando el sobreajuste.

#### 7.3 Learning rate scheduling

Cambiar dinámicamente la tasa de aprendizaje puede acelerar la convergencia y ayudar a escapar de mínimos locales. En PyTorch se hace con herramientas como `torch.optim.lr_scheduler`, por ejemplo `StepLR`, `ReduceLROnPlateau` o `CosineAnnealingLR`.

#### 7.4 Mezcla de datos ("MixUp", "CutMix")

Son técnicas que mezclan (linealmente o por recortes) diferentes imágenes y etiquetas durante el entrenamiento, introduciendo regularización adicional y, a menudo, mejoras de *generalization*.

### 7.5 Weight initialization

Aunque los modelos preentrenados suelen incorporar pesos ya optimizados, al iniciar redes desde cero es importante la inicialización adecuada de los pesos (p.ej. Kaiming initialization, Xavier initialization).


### Ejercicios

### Ejercicio 1: Construir una CNN básica desde cero

**Objetivo**: Familiarizarse con la estructura básica de una red convolucional (convoluciones, pooling, capas fully connected, etc.) y entrenarla para una tarea de clasificación sencilla.

1. **Dataset**: Utiliza el conjunto de datos **MNIST** o **CIFAR-10** (ambos disponibles en `torchvision.datasets`).
2. **Modelo**:
   - Diseña tu propia clase `MySimpleCNN(nn.Module)` con:
     - Dos bloques de capas convolucionales (cada uno con conv → ReLU → conv → ReLU → max pool).
     - Una o dos capas fully connected (lineales) al final.
   - Incluye algún tipo de regularización, por ejemplo `Dropout`.
3. **Entrenamiento**:
   - Usa `CrossEntropyLoss` como función de pérdida.
   - Emplea `Adam` o `SGD` como optimizador.
   - Entrena durante 10-15 épocas.
4. **Evaluación**:
   - Calcula la exactitud (accuracy) en el conjunto de validación o test.
   - Observa la evolución de la pérdida y la exactitud durante el entrenamiento.



## Ejercicio 2: Data augmentation avanzado

**Objetivo**: Experimentar con diferentes técnicas de aumento de datos (data augmentation) para mejorar la robustez del modelo.

1. **Modifica** el *pipeline* de transformaciones para incluir:
   - `RandomHorizontalFlip()`
   - `RandomCrop()` con *padding*
   - `ColorJitter()`
   - `RandomRotation()`
2. **Comparación**:
   - Entrena la misma arquitectura del Ejercicio 1 con y sin data augmentation.
   - Compara la precisión y pérdida de validación.

**Código base sugerido** (fragmento):

```python
transform_train = transforms.Compose([
    transforms.RandomCrop(32, padding=4),
    transforms.RandomHorizontalFlip(),
    transforms.ColorJitter(brightness=0.2, contrast=0.2),
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), 
                         (0.2023, 0.1994, 0.2010))
])
```

**Preguntas**:
- ¿Qué efecto tienen estas transformaciones en el sobreajuste?
- ¿En qué casos puede deteriorarse el rendimiento si se exagera el data augmentation?


#### Ejercicio 3: Transfer learning (Feature Extraction)

**Objetivo**: Utilizar un modelo preentrenado (ResNet18) como extractor de características y entrenar únicamente la capa de clasificación final.

1. **Carga** `resnet18` desde `torchvision.models` con `weights=True`.
2. **Congela** todos los parámetros convolucionales (`requires_grad=False`).
3. **Reemplaza** la capa final (`resnet18.fc`) para clasificar 10 clases (CIFAR-10, por ejemplo).
4. **Entrena** solo la nueva capa por 5-10 épocas.

**Código base sugerido**:

```python
from torchvision import models

resnet18 = models.resnet18(weights=True)

# Congelar las capas convolucionales
for param in resnet18.parameters():
    param.requires_grad = False

# Reemplazar la FC final
num_ftrs = resnet18.fc.in_features
resnet18.fc = nn.Linear(num_ftrs, 10)  # CIFAR-10 => 10 clases

resnet18.to(device)

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(resnet18.fc.parameters(), lr=0.001)

# Entrena solo la última capa
...
```

**Preguntas**:
- Mide el tiempo de entrenamiento y compara con una arquitectura entrenada desde cero.
- Observa si la red alcanza rápidamente buenos resultados con pocas épocas.


#### Ejercicio 4: Fine-Tuning (ajuste fino)

**Objetivo**: Ajustar parcialmente (o totalmente) los pesos de un modelo preentrenado para adaptarlo a un dataset más complejo o distinto.

1. **Elige** cuántos “bloques” finales de ResNet descongelar. Por ejemplo, descongela a partir de la capa *layer3* o *layer4*.
2. **Configura** un *learning rate* bajo para los parámetros descongelados (p.ej. $1\times10^{-4}$) para no "destruir" los pesos preentrenados.
3. **Entrena** de nuevo y compara el rendimiento con el ejercicio anterior.

**Esqueleto de código**:

```python
resnet18 = models.resnet18(pretrained=True)

# Congelamos casi todas las capas excepto las últimas
# Este ejemplo deja congeladas las capas 0 a 6
ct = 0
for name, child in resnet18.named_children():
    ct += 1
    if ct < 7:
        for param in child.parameters():
            param.requires_grad = False

# Ajustamos la FC final
num_ftrs = resnet18.fc.in_features
resnet18.fc = nn.Linear(num_ftrs, 10)

resnet18 = resnet18.to(device)

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(
    filter(lambda p: p.requires_grad, resnet18.parameters()), 
    lr=1e-4
)

# Entrenamiento
...
```

**Preguntas**:
- Analiza cuántas capas descongelar y cómo repercute en la capacidad de ajuste a la nueva tarea.
- Prueba diferentes *learning rates* para las capas preentrenadas vs. las capas nuevas.


#### Ejercicio 5: Regularización y *early stopping*

**Objetivo**: Implementar técnicas de regularización (Weight Decay, Dropout, etc.) y usar *early stopping* para evitar sobreajuste.

1. **Añade** `weight_decay` en el optimizador, por ejemplo `optim.Adam(model.parameters(), lr=..., weight_decay=1e-4)`.
2. **Monitoriza** la pérdida de validación. Si no mejora durante $n$ épocas consecutivas, detén el entrenamiento.
3. **Compara** el resultado final (número de épocas efectivas, exactitud) con la estrategia previa de entrenar un número fijo de épocas.

**Esqueleto de *early stopping***:

```python
best_val_loss = float('inf')
patience = 3
trigger_times = 0

for epoch in range(num_epochs):
    # Entrenamiento ...
    
    # Validación ...
    val_loss = ...
    if val_loss < best_val_loss:
        best_val_loss = val_loss
        trigger_times = 0
        # Guardar el modelo ...
    else:
        trigger_times += 1
        if trigger_times >= patience:
            print("Early stopping activado.")
            break
```

**Preguntas**:
- ¿Cuándo usar *early stopping* vs. entrenar muchas épocas?
- ¿Cómo el *weight decay* contribuye a la generalización?


#### Ejercicio 6: Programar un *learning rate scheduler*

**Objetivo**: Implementar un plan de decremento de la tasa de aprendizaje durante el entrenamiento.

1. **Utiliza** `torch.optim.lr_scheduler` (por ejemplo, `StepLR` o `ReduceLROnPlateau`).
2. **Observa** cómo el entrenamiento se comporta cuando la tasa de aprendizaje se reduce tras cierto número de épocas o tras estancarse la validación.

**Ejemplo con `StepLR`**:

```python
optimizer = optim.Adam(model.parameters(), lr=0.001)
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=5, gamma=0.1)

for epoca in range(num_epocas):
    # Entrenamiento ...
    
    scheduler.step()  # ajusta el LR cada cierto step
```

**Preguntas**:
- ¿En qué escenarios conviene reducir la tasa de aprendizaje de forma escalonada o suave?
- ¿Qué diferencias notas frente a un *learning rate* constante?

#### Ejercicio 7: Implementar *MixUp* o *CutMix*

**Objetivo**: Familiarizarte con técnicas de mezcla de datos para regularización avanzada.

1. **Implementa** la función `mixup_data(x, y, alpha)` que, dada una minibatch de imágenes y etiquetas, genera un conjunto mezclado con una distribución Beta($\alpha, \alpha$).
2. **Modifica** la pérdida: cuando haces forward con la imagen mezclada, la etiqueta también será una combinación lineal (en *one-hot* o manipulando los índices).
3. **Mide** si hay incremento en la robustez del modelo frente a la baselínea sin MixUp/CutMix.

**Pseudocódigo** (muy simplificado para MixUp):

```python
def mixup_data(x, y, alpha=1.0):
    if alpha > 0:
        lam = np.random.beta(alpha, alpha)
    else:
        lam = 1
    batch_size = x.size(0)
    index = torch.randperm(batch_size).to(x.device)
    mixed_x = lam * x + (1 - lam) * x[index, :]
    y_a, y_b = y, y[index]
    return mixed_x, y_a, y_b, lam

def mixup_criterion(criterion, pred, y_a, y_b, lam):
    return lam * criterion(pred, y_a) + (1 - lam) * criterion(pred, y_b)
```


In [None]:
### Tus respuestas