# Cesar
# David
# Ivanna
# Maximiliano



# Laboratorio 2 – Entrenamiento de Redes Neuronales

## **Introducción**

En este laboratorio se desarrollará un estudio sistemático sobre el **entrenamiento de redes neuronales convolucionales (CNNs)** utilizando **PyTorch**.  
El objetivo principal es comprender cómo diferentes decisiones de diseño afectan el comportamiento del entrenamiento, la capacidad de generalización y la estabilidad del modelo.

A lo largo del proyecto se implementará un **pipeline de clasificación de imágenes**, desde la preparación del dataset hasta la evaluación final del modelo.  
A partir de una configuración base (*baseline*), se realizarán **experimentos controlados (ablaciones)** para analizar el impacto de cinco factores clave en el rendimiento:

1. **Optimizadores:** comparación entre métodos como *SGD*, *Adam* y *AdamW*.  
2. **Regularización:** estudio de técnicas como *weight decay*, *dropout* y *label smoothing*.  
3. **Tamaño de batch:** análisis de su influencia en la convergencia y la generalización.  
4. **Esquemas de tasa de aprendizaje (LR Schedules):** evaluación de estrategias como *cosine annealing*, *step decay* y *OneCycle*.  
5. **Inicialización de pesos:** comparación entre métodos como *Kaiming (He)*, *Xavier (Glorot)* y *Orthogonal*.

El conjunto de datos será construido mediante **web scraping**, asegurando al menos **10 clases** con un mínimo de **60 imágenes por clase**.  
Posteriormente, se aplicarán **técnicas de aumento de datos (data augmentation)** para incrementar el conjunto hasta aproximadamente **6,000 imágenes**.

Cada experimento se ejecutará bajo condiciones **reproducibles** (semillas fijas, divisiones de datos constantes y control del presupuesto computacional).  
Los resultados incluirán **curvas de pérdida y precisión**, **tablas comparativas (media ± desviación estándar)** y **análisis de tendencias** para cada eje experimental.

Finalmente, se discutirán las observaciones más relevantes y se conectarán los resultados con los fundamentos teóricos sobre **optimización, generalización y dinámica del entrenamiento** en redes neuronales profundas.

---

## **Objetivos del Laboratorio**

- Implementar un **pipeline completo de entrenamiento** en PyTorch con control de reproducibilidad, métricas y checkpoints.  
- Comprender las **implicaciones prácticas y teóricas** de los diferentes optimizadores, métodos de regularización, esquemas de tasa de aprendizaje y estrategias de inicialización.  
- Evaluar la influencia del **tamaño de batch** en la estabilidad del entrenamiento y la capacidad de generalización del modelo.  
- Diseñar y ejecutar **experimentos de ablasión controlados**, variando un solo factor a la vez para analizar su impacto de forma aislada.  
- Analizar los resultados mediante **gráficas de pérdida y precisión**, e interpretar los efectos observados en términos de **teoría del aprendizaje profundo**.


In [None]:


import torch
print(torch.__version__)
print(torch.cuda.is_available())
if torch.cuda.is_available():
    print(torch.version.cuda)
    print(torch.cuda.get_device_name(0))


In [None]:
import torch
import torch.nn as nn
from torch import optim
from torch.optim.lr_scheduler import LinearLR, CosineAnnealingLR, SequentialLR
from torch.optim import lr_scheduler
from torch.utils.data import DataLoader, random_split
from torch.utils.data import DataLoader, Subset 
import torchvision.datasets as datasets
import torchvision.transforms as transforms
import math, numpy as np, random, matplotlib.pyplot as plt
import time, os, copy, logging
from tqdm import tqdm
from torch_lr_finder import LRFinder
import math, random, copy
from pathlib import Path
from typing import Tuple, List, Dict
import csv, json




In [None]:
from pathlib import Path

RAW_DIR = Path("DatasetCNN")


from torchvision import datasets
base_ds = datasets.ImageFolder(root=RAW_DIR)
print("Clases detectadas:", base_ds.classes)

En este fragmento se **define la ruta base** donde se encuentra el conjunto de datos de imágenes (`RAW_DIR`) y se **carga el dataset** utilizando `ImageFolder` de `torchvision`.

Este método permite **estructurar automáticamente las clases** a partir de las carpetas del directorio raíz, lo que facilita la lectura y organización del dataset para su posterior procesamiento y entrenamiento del modelo.

Finalmente, se imprime la **lista de clases detectadas**, confirmando que las categorías fueron reconocidas correctamente desde la estructura de carpetas.

In [None]:

os.environ.pop("CUDA_LAUNCH_BLOCKING", None)

def set_seed(seed=1337):
    random.seed(seed); np.random.seed(seed)
    torch.manual_seed(seed); torch.cuda.manual_seed_all(seed)
set_seed(1337)

torch.backends.cudnn.deterministic = False
torch.backends.cudnn.benchmark = True

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device

En este bloque se realiza la **configuración inicial del entorno de ejecución** para asegurar un comportamiento controlado y eficiente durante el entrenamiento:

- Se elimina la variable `CUDA_LAUNCH_BLOCKING` (si existe) para evitar bloqueos innecesarios en la ejecución GPU.  
- Se define la función `set_seed()` para **establecer una semilla fija** en las librerías `random`, `numpy` y `torch`, garantizando la **reproducibilidad** de los resultados.  
- Se configuran parámetros de **CuDNN**:
  - `deterministic = False` permite cierto grado de aleatoriedad para mejorar el rendimiento.
  - `benchmark = True` activa una búsqueda automática del mejor algoritmo de convolución según el hardware disponible.  
- Finalmente, se define el **dispositivo de cómputo (`device`)**, seleccionando **GPU (cuda)** si está disponible, o **CPU** en caso contrario.

In [None]:
RAW_DIR = r"C:\Users\cesar\Downloads\DatasetCNN"  

tmp = datasets.ImageFolder(RAW_DIR)  # solo para leer clases
classes = tmp.classes
label_dict = {i: c for i, c in enumerate(classes)}
label_dict

En este bloque se **lee nuevamente el dataset** con `ImageFolder` para **obtener las clases disponibles** en la carpeta raíz.  
A partir de esa información se construye un **diccionario de etiquetas (`label_dict`)**, donde cada clase se asocia a un número entero, facilitando su uso dentro del modelo.

El resultado muestra las **10 categorías del conjunto de datos**, cada una representada con su respectivo índice numérico:


Este mapeo se utilizará más adelante para **interpretar las predicciones del modelo** y para el manejo de etiquetas durante el entrenamiento y la evaluación.


In [None]:
IMG_SIZE = 224
IMAGENET_MEAN = (0.485, 0.456, 0.406)
IMAGENET_STD  = (0.229, 0.224, 0.225)

train_tf = transforms.Compose([
    transforms.RandomResizedCrop(IMG_SIZE, scale=(0.8, 1.0)),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize(IMAGENET_MEAN, IMAGENET_STD),
])

test_tf = transforms.Compose([
    transforms.Resize(int(IMG_SIZE * 1.15)),
    transforms.CenterCrop(IMG_SIZE),
    transforms.ToTensor(),
    transforms.Normalize(IMAGENET_MEAN, IMAGENET_STD),
])


En este fragmento se definen las **transformaciones de preprocesamiento y aumento de datos** que se aplicarán a las imágenes del conjunto de entrenamiento y de prueba:

- `IMG_SIZE = 224` establece el **tamaño de entrada** de las imágenes, compatible con arquitecturas comunes como *AlexNet* o *VGG*.  
- Se definen las constantes `IMAGENET_MEAN` y `IMAGENET_STD`, utilizadas para **normalizar los valores de píxel** según las estadísticas del conjunto *ImageNet*, mejorando la estabilidad del entrenamiento.

### **Transformaciones para entrenamiento (`train_tf`):**
Incluyen operaciones de **aumento de datos (data augmentation)** que ayudan a mejorar la generalización del modelo:
- `RandomResizedCrop`: recorta y reescala aleatoriamente partes de la imagen.  
- `RandomHorizontalFlip`: invierte la imagen horizontalmente de forma aleatoria.  
- `ToTensor` y `Normalize`: convierten la imagen a tensor y normalizan sus valores.

### **Transformaciones para validación/prueba (`test_tf`):**
Se aplican transformaciones determinísticas, sin aleatoriedad:
- `Resize` y `CenterCrop`: ajustan las imágenes al tamaño esperado.  
- `ToTensor` y `Normalize`: preparan los datos en el mismo formato que el conjunto de entrenamiento.

Estas transformaciones garantizan que las imágenes estén **preparadas, escaladas y normalizadas** correctamente antes de ser utilizadas por la red neuronal.

In [None]:
def stratified_train_test_indices(dataset, train_ratio=0.8, seed=2025):
    set_seed(seed)
    targets = np.array([y for _, y in dataset.samples])  # (path, class_idx)
    class_ids = np.unique(targets)

    idx_train, idx_test = [], []
    for c in class_ids:
        idx = np.where(targets == c)[0].tolist()
        random.shuffle(idx)
        n = len(idx)
        n_train = int(n * train_ratio)
        idx_train += idx[:n_train]
        idx_test  += idx[n_train:]
    random.shuffle(idx_train); random.shuffle(idx_test)
    return idx_train, idx_test

# dataset base sin transforms solo para partir índices
base_ds = datasets.ImageFolder(RAW_DIR, transform=None)
idx_tr, idx_te = stratified_train_test_indices(base_ds, train_ratio=0.80, seed=2025)

len(idx_tr), len(idx_te), len(base_ds.classes)


En este bloque se construye una **división estratificada** del dataset en subconjuntos de entrenamiento y validación/prueba.

1. La función `stratified_train_test_indices`:
   - Recibe el dataset completo y un `train_ratio` (por defecto 80% entrenamiento, 20% validación/prueba).
   - Agrupa los índices por clase y los **baraja con una semilla fija** para mantener reproducibilidad.
   - Asigna proporcionalmente una parte de cada clase al conjunto de entrenamiento y el resto al conjunto de validación/prueba.
   - Devuelve dos listas: `idx_train` e `idx_test`, que contienen los índices seleccionados.

2. Se crea `base_ds` usando `ImageFolder` sin transforms. Esto se usa únicamente para **calcular los índices** de cada split, sin modificar todavía las imágenes.

3. Se llama a la función para obtener:
   - `idx_tr`: índices para entrenamiento.
   - `idx_te`: índices para validación/prueba.

4. Finalmente, se imprime:
   - El tamaño del conjunto de entrenamiento (`730` imágenes),
   - El tamaño del conjunto de validación/prueba (`188` imágenes),
   - Y el número de clases (`10` clases).

Con esto aseguramos que **todas las clases están representadas en ambas particiones** y que la proporción 80/20 se respeta de forma balanceada.

In [None]:
from PIL import Image, ImageFile
ImageFile.LOAD_TRUNCATED_IMAGES = True
Image.MAX_IMAGE_PIXELS = None
train_ds = Subset(datasets.ImageFolder(RAW_DIR, transform=train_tf), idx_tr)
test_ds  = Subset(datasets.ImageFolder(RAW_DIR, transform=test_tf),  idx_te)

BATCH = 128  
NUM_WORKERS = 4
PIN_MEMORY = True

train_dl = DataLoader(train_ds, batch_size=BATCH, shuffle=True,  num_workers=NUM_WORKERS, pin_memory=True)
test_dl  = DataLoader(test_ds,  batch_size=BATCH, shuffle=False, num_workers=NUM_WORKERS, pin_memory=True)

num_classes = len(base_ds.classes)
num_classes, classes


En este bloque se preparan los **datasets y dataloaders** que se usarán para entrenar y evaluar la red neuronal.

1. Se importan utilidades de **PIL** y se configuran parámetros para **evitar errores al cargar imágenes incompletas o muy grandes**, asegurando una lectura estable del dataset.

2. Se crean los subconjuntos:
   - `train_ds`: dataset de entrenamiento con las transformaciones `train_tf`.
   - `test_ds`: dataset de validación/prueba con las transformaciones `test_tf`.  
   Ambos se generan usando `Subset`, que selecciona las imágenes correspondientes a los índices obtenidos previamente.

3. Se definen parámetros para el cargador de datos (`DataLoader`):
   - `BATCH = 128`: número de imágenes procesadas por iteración.  
   - `NUM_WORKERS = 4`: cantidad de procesos paralelos para cargar datos.  
   - `PIN_MEMORY = True`: optimiza el paso de datos a la GPU.  

4. Se crean los **dataloaders**:
   - `train_dl`: baraja los datos en cada época (`shuffle=True`) para mejorar la generalización.  
   - `test_dl`: no baraja los datos (`shuffle=False`) ya que se usa solo para evaluación.

5. Finalmente, se obtiene el número de clases (`num_classes`) y la lista con los nombres de cada clase (`classes`), información que será necesaria para **definir la capa de salida del modelo** y **mostrar resultados interpretables**.

In [None]:
# util para des-normalizar
import torch

def denormalize(img_tensor, mean=IMAGENET_MEAN, std=IMAGENET_STD):
    mean = torch.tensor(mean).view(3,1,1)
    std  = torch.tensor(std).view(3,1,1)
    return (img_tensor * std) + mean

def show_samples(dataset, n=5, title="Preview"):
    # samplea índices aleatorios del dataset
    idxs = random.sample(range(len(dataset)), k=min(n, len(dataset)))
    # recoge (img, label) aplicando el transform del dataset
    samples = [dataset[i] for i in idxs]
    imgs = [s[0] for s in samples]
    labels = [s[1] for s in samples]

    rows = 2; cols = (n + rows - 1)//rows
    plt.figure(figsize=(2.5*cols, 2.8*rows))
    for i, (img, lab) in enumerate(zip(imgs, labels)):
        plt.subplot(rows, cols, i+1)
        img_dn = denormalize(img).clamp(0,1)     # [0,1] para mostrar
        plt.imshow(img_dn.permute(1,2,0).cpu())
        plt.title(label_dict[lab], fontsize=10)
        plt.axis('off')
    plt.suptitle(title)
    plt.tight_layout()
    plt.show()

# Previews (puedes usar train_ds o test_ds)
show_samples(Subset(datasets.ImageFolder(RAW_DIR, transform=test_tf), idx_te), n=10, title="Test preview")



En este bloque se implementan funciones auxiliares para **visualizar imágenes del dataset** y comprobar que las transformaciones se aplicaron correctamente.

1. **Función `denormalize()`:**  
   - Revierte la normalización aplicada con las medias y desviaciones estándar de *ImageNet*.  
   - Permite que las imágenes vuelvan a un rango de colores visible `[0,1]` para poder mostrarlas con `matplotlib`.

2. **Función `show_samples()`:**  
   - Selecciona aleatoriamente un conjunto de imágenes del dataset.  
   - Aplica el *transform* correspondiente (entrenamiento o prueba).  
   - Desnormaliza las imágenes y las muestra en una cuadrícula junto con el nombre de su clase.  
   - Se utiliza `label_dict` para traducir las etiquetas numéricas a nombres legibles.

3. Finalmente, se llama a `show_samples()` sobre una muestra del conjunto de **prueba (`test_ds`)** para generar una **vista previa de las imágenes** y confirmar que la estructura del dataset, las clases y los *transforms* fueron definidos correctamente.

In [None]:
normalizacion de las imagenes y adapatdas para el uso 

In [None]:
from PIL import Image, ImageFile
ImageFile.LOAD_TRUNCATED_IMAGES = True
Image.MAX_IMAGE_PIXELS = None

SRC = Path(r"C:\Users\cesar\Downloads\DatasetCNN")  
DST = Path(r"C:\Datasets\DatasetCNN_256")            
DST.mkdir(parents=True, exist_ok=True)

count_in, count_out, bad = 0, 0, []
for cls_dir in SRC.iterdir():
    if not cls_dir.is_dir(): 
        continue
    out_dir = DST/cls_dir.name
    out_dir.mkdir(parents=True, exist_ok=True)
    for p in cls_dir.iterdir():
        if not p.is_file(): 
            continue
        try:
            im = Image.open(p).convert("RGB")
            im = im.resize((256, 256), Image.BILINEAR)
            (out_dir/(p.stem + ".jpg")).write_bytes(b"")  # reserva
            im.save(out_dir/(p.stem + ".jpg"), format="JPEG", quality=90, optimize=True)
            count_out += 1
        except Exception as e:
            bad.append((str(p), repr(e)))
        count_in += 1

print(f"Procesadas OK: {count_out}/{count_in}  | Carpeta destino: {DST}")
if bad:
    print("Archivos problemáticos:", len(bad))
    print(bad[:5])


En este bloque se realiza una **preparación y limpieza del conjunto de datos**, asegurando que todas las imágenes tengan un formato y tamaño uniforme antes de ser utilizadas en el entrenamiento.

1. **Configuración inicial:**
   - Se importan utilidades de `PIL` y se activan opciones para **permitir la carga de imágenes truncadas o muy grandes** sin errores.
   - Se definen las rutas de origen (`SRC`) y destino (`DST`), donde se guardará la versión procesada del dataset.
   - Si la carpeta destino no existe, se **crea automáticamente** con `mkdir()`.

2. **Proceso de redimensionamiento y guardado:**
   - Se recorren las subcarpetas del dataset original, una por cada clase.  
   - Cada imagen se abre, se **convierte a formato RGB**, y se **redimensiona a 256×256 píxeles** usando interpolación bilineal.  
   - Luego, se guarda en formato **JPEG optimizado** en la carpeta correspondiente dentro del nuevo directorio destino.

3. **Control y validación:**
   - Se lleva un conteo de imágenes procesadas correctamente (`count_out`) y del total revisado (`count_in`).  
   - Si alguna imagen genera un error, se agrega a la lista `bad` para su revisión posterior.  
   - Al finalizar, se imprime un resumen con el número total de imágenes procesadas exitosamente y la ubicación del nuevo dataset.

Este procedimiento garantiza que **todas las imágenes del dataset estén limpias, homogéneas y listas** para ser utilizadas en las etapas de entrenamiento y validación del modelo.

In [None]:
RAW_DIR = str(DST)  # usa el cache 256

# Clases
base = datasets.ImageFolder(RAW_DIR)
classes = base.classes
num_classes = len(classes)
print("Clases:", classes)

# Transforms (ligeros, rápidos)
IMG_SIZE = 224
IMAGENET_MEAN = (0.485, 0.456, 0.406)
IMAGENET_STD  = (0.229, 0.224, 0.225)

train_tf = transforms.Compose([
    transforms.Resize(256),
    transforms.RandomCrop(IMG_SIZE, padding=4),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize(IMAGENET_MEAN, IMAGENET_STD),
])

eval_tf = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(IMG_SIZE),
    transforms.ToTensor(),
    transforms.Normalize(IMAGENET_MEAN, IMAGENET_STD),
])

# 80/20 estratificado
def stratified_train_test_indices(dataset, train_ratio=0.8, seed=2025):
    import numpy as np, random
    random.seed(seed)
    targets = np.array([y for _, y in dataset.samples])
    cls_ids = np.unique(targets)
    idx_tr, idx_te = [], []
    for c in cls_ids:
        idx = np.where(targets==c)[0].tolist()
        random.shuffle(idx)
        n = len(idx); n_tr = int(n*train_ratio)
        idx_tr += idx[:n_tr]; idx_te += idx[n_tr:]
    random.shuffle(idx_tr); random.shuffle(idx_te)
    return idx_tr, idx_te

idx_tr, idx_te = stratified_train_test_indices(base, 0.80, seed=2025)

# 10% del train para validación (no toca test)
VAL_FRAC = 0.10
n_val = max(1, int(len(idx_tr)*VAL_FRAC))
idx_val = idx_tr[:n_val]
idx_tr2 = idx_tr[n_val:]

len(idx_tr2), len(idx_val), len(idx_te)


Este bloque prepara la versión final del dataset ya normalizado y dividido en subconjuntos listos para entrenamiento, validación y prueba.

1. **Selección del dataset procesado (`RAW_DIR`):**  
   Se actualiza la ruta para usar el dataset reconstruido y redimensionado previamente (imágenes ya normalizadas a 256×256).  
   Esto asegura consistencia visual y evita problemas de tamaño.

2. **Lectura de clases:**  
   Se carga el dataset con `ImageFolder` para:
   - Obtener la lista de clases (`classes`).
   - Calcular el número total de clases (`num_classes`).  
   Esta información es necesaria para definir la capa de salida del modelo.

3. **Definición de transformaciones (`train_tf` y `eval_tf`):**  
   Se configuran transformaciones ligeras y rápidas:
   - `train_tf`: incluye aumentos de datos (recorte aleatorio con padding, flips horizontales) para mejorar la capacidad de generalización del modelo durante el entrenamiento.
   - `eval_tf`: usa transformaciones determinísticas (resize + center crop) para evaluación consistente en validación y prueba.
   - En ambos casos se normaliza con las medias y desviaciones estándar típicas de ImageNet.

4. **Partición estratificada 80/20 (`stratified_train_test_indices`):**  
   Se define una función que divide el dataset en entrenamiento y prueba manteniendo el balance de clases:
   - Se usa una semilla fija para reproducibilidad.
   - Se asegura que cada clase contribuya proporcionalmente a ambos subconjuntos.
   - Devuelve listas de índices: `idx_tr` (train) e `idx_te` (test).

5. **Separación de validación:**  
   Del conjunto de entrenamiento (`idx_tr`), se toma un **10% adicional** para construir un subconjunto de **validación (`idx_val`)**, sin tocar el conjunto de prueba.  
   - `idx_tr2` → entrenamiento final.  
   - `idx_val` → validación.  
   - `idx_te` → prueba.

6. **Verificación de tamaños:**  
   Al final se imprimen las longitudes de cada split para confirmar que las proporciones quedaron correctas:
   - número de imágenes de entrenamiento (`idx_tr2`),  
   - número de imágenes de validación (`idx_val`),  
   - número de imágenes de prueba (`idx_te`).

Con esto quedan definidos los tres conjuntos principales que se usarán durante todo el experimento: **train / val / test** de forma consistente y reproducible.

In [None]:
train_ds = Subset(datasets.ImageFolder(RAW_DIR, transform=train_tf), idx_tr2)
val_ds   = Subset(datasets.ImageFolder(RAW_DIR, transform=eval_tf),  idx_val)
test_ds  = Subset(datasets.ImageFolder(RAW_DIR, transform=eval_tf),  idx_te)

BATCH = 64
NUM_WORKERS = 0      # luego puedes intentar 2 si ya está estable
PIN_MEMORY = False   # idem, puedes probar True más tarde

train_dl = DataLoader(train_ds, batch_size=BATCH, shuffle=True,  num_workers=NUM_WORKERS, pin_memory=PIN_MEMORY)
val_dl   = DataLoader(val_ds,   batch_size=BATCH, shuffle=False, num_workers=NUM_WORKERS, pin_memory=PIN_MEMORY)
test_dl  = DataLoader(test_ds,  batch_size=BATCH, shuffle=False, num_workers=NUM_WORKERS, pin_memory=PIN_MEMORY)

# Preflight rápido
xb, yb = next(iter(train_dl))
print("Batch:", xb.shape, "| labels:", yb.shape, "| clases:", num_classes)
assert xb.shape[1]==3, f"Se esperaban 3 canales, llegó {xb.shape}"


En este bloque se terminan de preparar los `DataLoader` para cada partición del dataset y se valida que los datos tengan el formato correcto antes de entrenar.

1. **Creación de subconjuntos etiquetados:**
   - `train_ds`: usa los índices de entrenamiento (`idx_tr2`) y las transformaciones de entrenamiento (`train_tf`).
   - `val_ds`: usa los índices de validación (`idx_val`) y las transformaciones de evaluación (`eval_tf`).
   - `test_ds`: usa los índices de prueba (`idx_te`) con las mismas transformaciones determinísticas de evaluación.

   Esto garantiza que cada split vea exactamente las imágenes que le corresponden y con el preprocesamiento adecuado.

2. **Parámetros de carga en lote (mini-batches):**
   - `BATCH = 64`: número de imágenes por batch.
   - `NUM_WORKERS = 0`: carga de datos en el proceso principal (puede subirse más adelante para acelerar).
   - `PIN_MEMORY = False`: configuración inicial pensada para estabilidad; se puede activar más tarde para optimizar en GPU.

3. **Creación de los `DataLoader`:**
   - `train_dl`: baraja los datos (`shuffle=True`) para que el modelo no vea siempre el mismo orden.
   - `val_dl` y `test_dl`: no barajan (`shuffle=False`) porque se usan para evaluación.

   Estos `DataLoader` son los que se usarán en el loop de entrenamiento y en la evaluación por época.

4. **Preflight / sanity check:**
   - Se toma un batch de `train_dl` y se imprime su forma (`shape`) para verificar:
     - Dimensiones esperadas: `[batch_size, canales, alto, ancho]`.
     - Que las etiquetas (`yb`) tienen el tamaño correcto.
     - Que las imágenes están en color RGB (3 canales).  
   - La línea `assert xb.shape[1]==3` actúa como una verificación de seguridad: confirma que las imágenes tienen 3 canales (no escala de grises, no imágenes corruptas).

En resumen, este paso confirma que el pipeline de datos está funcional y consistente antes de definir y entrenar la red neuronal.

parametros del modelo y creacion

In [None]:
import torch.nn as nn

def init_weights_(m, scheme="kaiming"):
    if isinstance(m, (nn.Conv2d, nn.Linear)):
        if scheme == "kaiming": nn.init.kaiming_normal_(m.weight, nonlinearity="relu")
        elif scheme == "xavier": nn.init.xavier_normal_(m.weight)
        elif scheme == "orthogonal": nn.init.orthogonal_(m.weight)
        if m.bias is not None: nn.init.zeros_(m.bias)
    elif isinstance(m, (nn.BatchNorm2d, nn.GroupNorm)):
        nn.init.ones_(m.weight); nn.init.zeros_(m.bias)

class SmallCNNv2(nn.Module):
    def __init__(self, num_classes, p_drop=0.2):
        super().__init__()
        self.block1 = nn.Sequential(
            nn.Conv2d(3, 64, 3, padding=1), nn.BatchNorm2d(64), nn.ReLU(inplace=True),
            nn.Conv2d(64,64,3, padding=1),  nn.BatchNorm2d(64), nn.ReLU(inplace=True),
            nn.MaxPool2d(2)   # 224->112
        )
        self.block2 = nn.Sequential(
            nn.Conv2d(64,128,3, padding=1), nn.BatchNorm2d(128), nn.ReLU(inplace=True),
            nn.Conv2d(128,128,3,padding=1), nn.BatchNorm2d(128), nn.ReLU(inplace=True),
            nn.MaxPool2d(2)   # 112->56
        )
        self.drop = nn.Dropout(p_drop)
        self.gap  = nn.AdaptiveAvgPool2d(1)
        self.fc   = nn.Linear(128, num_classes)
        self.apply(init_weights_)
    def forward(self, x):
        x = self.block1(x); x = self.block2(x)
        x = self.drop(x)
        x = self.gap(x).squeeze(-1).squeeze(-1)
        return self.fc(x)

net = SmallCNNv2(num_classes).to(device)
sum(p.numel() for p in net.parameters())


En este bloque se define y construye una **red neuronal convolucional personalizada (SmallCNNv2)** con inicialización de pesos configurable y una arquitectura ligera enfocada en tareas de clasificación de imágenes.

1. **Función `init_weights_()`:**  
   - Se encarga de aplicar **diferentes esquemas de inicialización** de pesos según el tipo de capa y el parámetro `scheme`.  
   - Métodos disponibles:
     - **Kaiming (He)**: ideal para activaciones *ReLU*.  
     - **Xavier (Glorot)**: útil en redes más simétricas.  
     - **Orthogonal**: mantiene la independencia entre filtros.  
   - Los sesgos (`bias`) se inicializan en cero y, en el caso de capas de normalización, los pesos se fijan en uno y los sesgos en cero.

2. **Clase `SmallCNNv2`:**  
   - Define una **arquitectura compacta y eficiente** con dos bloques convolucionales principales:  
     - **`block1`**: dos convoluciones (3×3) con 64 filtros, seguidas de *BatchNorm* y *ReLU*, más *MaxPooling* para reducir la resolución a la mitad (224 → 112).  
     - **`block2`**: estructura similar con 128 filtros, reduciendo de nuevo la resolución (112 → 56).  
   - Luego incorpora:
     - Una capa de **Dropout** para regularización.  
     - Una **piscina promedio adaptable (`AdaptiveAvgPool2d`)** que reduce el mapa de características a tamaño 1×1 sin importar la entrada.  
     - Una **capa totalmente conectada (`Linear`)** que genera las predicciones finales de tamaño igual al número de clases.  
   - La red aplica automáticamente la función de inicialización definida en `init_weights_()` a todas sus capas.

3. **Instanciación y envío al dispositivo:**
   - Se crea una instancia de `SmallCNNv2` con el número de clases del dataset y se envía al dispositivo de cómputo (`GPU` o `CPU`) mediante `.to(device)`.

4. **Verificación de parámetros:**
   - Se imprime el **número total de parámetros entrenables** de la red, útil para evaluar su complejidad y tamaño.

En conjunto, este bloque construye una **CNN personalizada, eficiente y bien inicializada**, lista para ser entrenada dentro del experimento de comparación de modelos.

## modelo y resultados 

In [None]:
from torch.optim.lr_scheduler import CosineAnnealingLR, LinearLR, SequentialLR

EPOCHS_MAX    = 60        # requisito (se corta antes por early stopping)
PATIENCE      = 8
BASE_LR       = 0.1
MOMENTUM      = 0.9
WEIGHT_DECAY  = 5e-4
WARMUP_EPOCHS = 5

opt   = torch.optim.SGD(net.parameters(), lr=BASE_LR, momentum=MOMENTUM, weight_decay=WEIGHT_DECAY)
steps = max(1, len(train_dl))
warm  = LinearLR(opt, start_factor=1e-3, end_factor=1.0, total_iters=WARMUP_EPOCHS*steps)
cos   = CosineAnnealingLR(opt, T_max=max(1,(EPOCHS_MAX-WARMUP_EPOCHS)*steps), eta_min=BASE_LR/100)
sched = SequentialLR(opt, [warm, cos], milestones=[WARMUP_EPOCHS*steps])

loss_fn = nn.CrossEntropyLoss()
use_cuda = torch.cuda.is_available()
scaler   = torch.amp.GradScaler("cuda") if use_cuda else None

def train_one_epoch(model, dl):
    model.train()
    total=correct=0; running=0.0
    for xb,yb in dl:
        xb,yb = xb.to(device, non_blocking=True), yb.to(device, non_blocking=True)
        opt.zero_grad(set_to_none=True)
        ctx = torch.amp.autocast("cuda") if use_cuda else torch.cuda.amp.autocast(enabled=False)
        with ctx:
            logits = model(xb)
            loss   = loss_fn(logits, yb)
        if scaler:
            scaler.scale(loss).backward(); scaler.step(opt); scaler.update()
        else:
            loss.backward(); opt.step()
        running += loss.item()*xb.size(0)
        correct += (logits.argmax(1)==yb).sum().item()
        total   += xb.size(0)
        sched.step()
    return running/total, correct/total

@torch.no_grad()
def evaluate(model, dl):
    model.eval()
    total=correct=0; running=0.0
    for xb,yb in dl:
        xb,yb = xb.to(device, non_blocking=True), yb.to(device, non_blocking=True)
        logits = model(xb)
        loss   = loss_fn(logits, yb)
        running += loss.item()*xb.size(0)
        correct += (logits.argmax(1)==yb).sum().item()
        total   += xb.size(0)
    return running/total, correct/total

from pathlib import Path
Path("checkpoints").mkdir(exist_ok=True)
best_val, best_state, wait = -1.0, None, 0
history = []

SMOKE_TEST = False
max_epochs = 1 if SMOKE_TEST else EPOCHS_MAX

for epoch in range(max_epochs):
    t0 = time.time()
    tr_loss, tr_acc = train_one_epoch(net, train_dl)
    val_loss, val_acc = evaluate(net, val_dl)
    dt = time.time()-t0

    history.append(dict(epoch=epoch, train_loss=tr_loss, train_acc=tr_acc,
                        val_loss=val_loss,   val_acc=val_acc,
                        lr=opt.param_groups[0]['lr'], time=dt))
    print(f"ep{epoch:02d}  tr_acc={tr_acc:.3f}  val_acc={val_acc:.3f}  lr={opt.param_groups[0]['lr']:.5f}  {dt:.1f}s")

    if val_acc > best_val:
        best_val, wait = val_acc, 0
        best_state = copy.deepcopy(net.state_dict())
        torch.save(best_state, "checkpoints/best.pt")
    else:
        wait += 1
        if wait >= PATIENCE:
            print(f"Early stopping en ep {epoch} (mejor val_acc={best_val:.3f})")
            break

if best_state: 
    net.load_state_dict(best_state)


Este bloque define todo el ciclo de entrenamiento, validación y control del aprendizaje del modelo, incluyendo la política de tasa de aprendizaje, el optimizador, el cálculo de la pérdida y el mecanismo de early stopping.

### 1. Hiperparámetros principales
Se establecen valores clave para el entrenamiento:
- `EPOCHS_MAX`: número máximo de épocas planeadas.
- `PATIENCE`: criterio de early stopping (cuántas épocas seguidas se permite no mejorar).
- `BASE_LR`, `MOMENTUM`, `WEIGHT_DECAY`: hiperparámetros del optimizador SGD.
- `WARMUP_EPOCHS`: número de épocas dedicadas al calentamiento del learning rate.

Estos parámetros definen el comportamiento global del entrenamiento (velocidad de aprendizaje, regularización y estabilidad).

### 2. Optimizador y scheduler de learning rate
- Se crea el optimizador `SGD` con momentum y weight decay.
- Se calcula `steps` como el número de iteraciones por época.
- Se definen dos fases de la tasa de aprendizaje:
  - **Warmup (`LinearLR`)**: empieza con un LR muy pequeño y lo incrementa gradualmente durante las primeras épocas para evitar inestabilidad inicial.
  - **CosineAnnealingLR**: después del warmup, el LR va decayendo de forma suave tipo coseno hasta un valor mínimo.
- `SequentialLR` une ambas fases en un solo scheduler (`sched`).

Esto implementa una política de LR con calentamiento inicial + decaimiento progresivo, que típicamente mejora la convergencia.

### 3. Función de pérdida y precisión numérica
- `loss_fn = nn.CrossEntropyLoss()`: se usa entropía cruzada para clasificación multiclase.
- Se detecta si hay GPU disponible (`use_cuda`) y se configura `GradScaler` para **entrenamiento con precisión mixta (mixed precision)**, lo cual acelera el entrenamiento y reduce uso de memoria en GPU.

### 4. `train_one_epoch(model, dl)`
Esta función ejecuta **una época completa de entrenamiento**:
- Activa modo entrenamiento (`model.train()`).
- Para cada batch:
  - Mueve tensores a `device`.
  - Limpia gradientes con `opt.zero_grad()`.
  - Hace forward pass del modelo y calcula la pérdida.
  - Hace backward y update de pesos:
    - Si hay `scaler`, usa `scaler.scale(...).backward()` y `scaler.step(...)` para entrenamiento en precisión mixta.
    - Si no hay GPU, usa el flujo normal (`loss.backward()` + `opt.step()`).
  - Actualiza métricas acumuladas de pérdida promedio y accuracy por batch.
  - Llama a `sched.step()` para avanzar la tasa de aprendizaje en cada iteración.
- Devuelve la pérdida media de entrenamiento y la accuracy de entrenamiento.

Esta función representa la fase donde el modelo **aprende y actualiza parámetros**.

### 5. `evaluate(model, dl)`
- Desactiva gradientes con `@torch.no_grad()` y pone el modelo en modo evaluación (`model.eval()`).
- Recorre el dataloader sin hacer backprop.
- Calcula la pérdida promedio y la accuracy en validación/prueba.
- Esto mide **qué tan bien generaliza el modelo** sin actualizarlo.

### 6. Loop de entrenamiento principal
- Se crea la carpeta `checkpoints/` si no existe para guardar el mejor modelo.
- Se inicializan controladores de early stopping:
  - `best_val`: mejor accuracy de validación vista hasta ahora.
  - `best_state`: copia de los pesos del mejor modelo.
  - `wait`: cuántas épocas van sin mejorar.
- `SMOKE_TEST` permite correr solo 1 época rápida para depuración.

Para cada época:
1. Se entrena una época completa (`train_one_epoch`) y luego se evalúa en validación (`evaluate`).
2. Se guarda en `history` la información de la época: métricas de train/val, LR actual y tiempo usado.
3. Se imprime un resumen legible con las métricas clave.

### 7. Early Stopping y checkpoints
- Si la accuracy de validación (`val_acc`) mejora:
  - Se actualiza `best_val`.
  - Se guarda el estado actual del modelo como `best_state`.
  - También se guarda a disco en `"checkpoints/best.pt"`.
- Si no mejora:
  - Se incrementa `wait`.
  - Si `wait` alcanza `PATIENCE`, se detiene el entrenamiento temprano (early stopping), asumiendo que ya no hay mejora significativa.

Al final, si existe un `best_state`, se recarga en `net`.  
Esto garantiza que el modelo final en memoria sea la **mejor versión validada**, no simplemente el último paso entrenado.

In [None]:
@torch.no_grad()
def eval_test(model, dl):
    model.eval()
    total=correct=0; running=0.0
    for xb,yb in dl:
        xb,yb = xb.to(device), yb.to(device)
        logits = model(xb)
        loss   = nn.CrossEntropyLoss()(logits, yb)
        running += loss.item()*xb.size(0)
        correct += (logits.argmax(1)==yb).sum().item()
        total   += xb.size(0)
    return running/total, correct/total

test_loss, test_acc = eval_test(net, test_dl)
print(f"[TEST] loss={test_loss:.4f}  acc={test_acc:.4f}  (best val_acc={best_val:.4f})")

if history:
    with open("training_history.csv","w",newline="") as f:
        w = csv.DictWriter(f, fieldnames=history[0].keys()); w.writeheader(); w.writerows(history)
    with open("best_summary.json","w") as f:
        json.dump(dict(best_val_acc=best_val, test_acc=test_acc,
                       epochs_run=len(history),
                       hp=dict(lr=BASE_LR, momentum=0.9, wd=5e-4,
                               scheduler="cosine+warmup", batch=BATCH)),
                  f, indent=2)


Este bloque realiza la evaluación final del modelo en el conjunto de prueba y guarda los resultados principales para documentación y reproducibilidad.

### 1. Función `eval_test(model, dl)`
- Se define una función para evaluar el modelo sobre el **conjunto de prueba (test)**.
- Se marca con `@torch.no_grad()` y `model.eval()` para desactivar el cálculo de gradientes y asegurarse de que el modelo está en modo inferencia.
- Para cada batch del dataloader:
  - Se mueven las imágenes y etiquetas al dispositivo (`device`).
  - Se ejecuta el modelo para obtener `logits`.
  - Se calcula la pérdida de clasificación (`CrossEntropyLoss`).
  - Se acumulan:
    - La pérdida total ponderada.
    - El número de predicciones correctas.
    - El número total de ejemplos.
- Al final, regresa la **pérdida promedio en test** y la **accuracy en test**.

Esta función mide el rendimiento final del modelo en datos nunca vistos durante entrenamiento o validación.

### 2. Métrica final de prueba
- Se llama `eval_test(net, test_dl)` usando la mejor versión del modelo (`net` ya recargado con `best_state`).
- Se imprime:
  - `test_loss`: pérdida promedio en el conjunto de prueba.
  - `test_acc`: accuracy final en test.
  - `best_val`: mejor accuracy de validación obtenida durante el entrenamiento.
  
Esto permite comparar desempeño en validación vs. desempeño real en prueba.

### 3. Exportación de resultados
Si existe historial de entrenamiento (`history`):
- Se guarda `training_history.csv` con las métricas por época (loss/acc de train y val, learning rate, tiempo).  
  Esto sirve para graficar curvas después sin volver a entrenar.
- Se guarda `best_summary.json` con:
  - `best_val_acc`: mejor accuracy en validación.
  - `test_acc`: accuracy final en prueba.
  - `epochs_run`: cuántas épocas se entrenaron antes de hacer early stopping.
  - `hp`: resumen de hiperparámetros importantes (learning rate base, momentum, weight decay, tipo de scheduler y tamaño de batch).

En conjunto, este bloque produce un **cierre reproducible del experimento**: evalúa el modelo final en test y deja guardados los resultados y la configuración usada.

In [None]:


assert history, "No hay history"

epochs = [h["epoch"] for h in history]
tr_loss = [h["train_loss"] for h in history]
va_loss = [h["val_loss"]   for h in history]
tr_acc  = [h["train_acc"]  for h in history]
va_acc  = [h["val_acc"]    for h in history]

plt.figure(figsize=(10,4))
plt.subplot(1,2,1); plt.plot(epochs, tr_loss, label="train"); plt.plot(epochs, va_loss, label="val")
plt.title("Loss"); plt.xlabel("Epoch"); plt.ylabel("Loss"); plt.legend()

plt.subplot(1,2,2); plt.plot(epochs, tr_acc, label="train"); plt.plot(epochs, va_acc, label="val")
plt.title("Accuracy"); plt.xlabel("Epoch"); plt.ylabel("Acc"); plt.legend()

plt.tight_layout(); plt.show()


Este bloque genera las gráficas de entrenamiento para analizar el comportamiento del modelo a lo largo de las épocas.

1. **Extracción de métricas:**
   - Se toma la información guardada en `history` (una lista de diccionarios recopilada durante el entrenamiento).
   - Se extraen, para cada época:
     - `train_loss`: pérdida en entrenamiento.
     - `val_loss`: pérdida en validación.
     - `train_acc`: accuracy en entrenamiento.
     - `val_acc`: accuracy en validación.
   - También se extrae el número de época (`epoch`) para usarlo como eje X.

2. **Gráfica de pérdida (`Loss`):**
   - Muestra cómo cambia la pérdida de entrenamiento y validación con las épocas.
   - Sirve para evaluar si el modelo sigue aprendiendo, si se estanca o si hay sobreajuste (por ejemplo, pérdida de entrenamiento bajando pero pérdida de validación quedándose alta o subiendo).

3. **Gráfica de exactitud (`Accuracy`):**
   - Muestra cómo evoluciona la precisión tanto en entrenamiento como en validación.
   - Esto permite observar la ganancia de desempeño y si existe brecha entre train y val (generalization gap).

4. **Interpretación visual (según las gráficas mostradas):**
   - La pérdida de entrenamiento desciende de forma consistente, indicando que el modelo está optimizando correctamente.
   - La pérdida de validación baja inicialmente y luego oscila, lo que sugiere que después de cierto punto el modelo puede estar comenzando a ajustar demasiado al conjunto de entrenamiento.
   - La accuracy de entrenamiento sigue creciendo de manera sostenida.
   - La accuracy de validación también mejora al inicio y luego se estabiliza en un rango más bajo que la de entrenamiento, lo que indica una posible aparición de **sobreajuste moderado**.

Estas gráficas se usan después en el análisis para justificar decisiones como regularización extra, cambio de scheduler o ajuste del número de épocas.

In [None]:
import torch
import numpy as np
from sklearn.metrics import confusion_matrix, classification_report
import matplotlib.pyplot as plt

def predict_all(model, dl, device):
    model.eval()
    y_true, y_pred = [], []
    with torch.no_grad():
        for xb, yb in dl:
            xb = xb.to(device)
            logits = model(xb)
            yhat = logits.argmax(1).cpu().numpy()
            y_true.append(yb.numpy()); y_pred.append(yhat)
    y_true = np.concatenate(y_true); y_pred = np.concatenate(y_pred)
    return y_true, y_pred

y_true, y_pred = predict_all(net, test_dl, device)
cm = confusion_matrix(y_true, y_pred)
print(classification_report(y_true, y_pred, target_names=classes, digits=3))

plt.figure(figsize=(8,6))
plt.imshow(cm, interpolation='nearest')
plt.title("Confusion matrix (test)")
plt.colorbar()
tick_marks = np.arange(len(classes))
plt.xticks(tick_marks, classes, rotation=45, ha="right")
plt.yticks(tick_marks, classes)
plt.xlabel("Predicho"); plt.ylabel("Real")
plt.tight_layout(); plt.show()


Este bloque evalúa el desempeño del modelo a nivel de clase y visualiza en qué clases se confunde más.

### 1. Función `predict_all(model, dl, device)`
- Recorre todo el dataloader de prueba (`test_dl`) en modo evaluación.
- Para cada batch:
  - Envía las imágenes al dispositivo (`device`).
  - Obtiene las salidas del modelo (`logits`).
  - Convierte cada salida en una predicción de clase tomando el índice con la probabilidad más alta (`argmax`).
- Regresa dos arreglos:
  - `y_true`: las etiquetas reales.
  - `y_pred`: las etiquetas predichas por el modelo.

Esto da todas las predicciones del modelo sobre el conjunto de prueba.

### 2. Métricas por clase
- Se usa `classification_report` para imprimir, por cada clase:
  - **precision:** de las imágenes clasificadas como esa clase, qué fracción eran correctas.
  - **recall:** de las imágenes que realmente son de esa clase, cuántas se detectaron bien.
  - **f1-score:** balance entre precision y recall.
  - **support:** cuántos ejemplos había de esa clase en el test.
- También muestra métricas globales como `accuracy` y promedios macro/weighted.

Esto permite ver en qué clases el modelo funciona mejor y en cuáles falla más.

### 3. Matriz de confusión
- Se construye la matriz de confusión `cm = confusion_matrix(y_true, y_pred)`.
- Se grafica como una imagen coloreada (heatmap):
  - Eje Y: clase real.
  - Eje X: clase predicha.
  - Cada celda indica cuántas veces una clase real fue clasificada como otra clase.
- Se etiquetan los ejes con los nombres de las clases para interpretar el patrón de errores.

### 4. Interpretación visual (según la figura mostrada)
- Las celdas diagonales brillantes indican clases que el modelo acierta con frecuencia.
- Valores fuera de la diagonal muestran confusiones entre clases específicas.
- Esto ayuda a detectar pares de clases que el modelo tiende a mezclar (por ejemplo, animales similares o personajes visualmente parecidos).

En resumen, este bloque ofrece una **evaluación detallada a nivel de clase** y una **diagnosis de errores**, útil para justificar mejoras futuras (más datos, más regularización, ajuste de arquitectura, etc.).

## testeo de hyperparametros y optimizadores 

In [None]:
# ===== Banco de Optimizadores con 3 seeds (SGD, SGD+Nesterov, Adam, AdamW) =====
import os, time, math, copy, json, csv, random, numpy as np
from datetime import datetime
import torch
import torch.nn as nn
from torch.optim.lr_scheduler import CosineAnnealingLR, LinearLR, SequentialLR

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# --- util: reproducibilidad
def set_seed(seed=1337, deterministic=False):
    random.seed(seed); np.random.seed(seed)
    torch.manual_seed(seed); torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.deterministic = deterministic
    torch.backends.cudnn.benchmark = not deterministic

# --- modelo fresco por corrida
def fresh_model(num_classes):
    m = SmallCNNv2(num_classes).to(device)  # tu CNN v2 (2 bloques conv + GAP)
    return m

# --- fábricas de optimizador y scheduler (cosine + warmup)
def make_opt(name, params):
    name = name.lower()
    if name == "sgd":
        return torch.optim.SGD(params, lr=0.1, momentum=0.9, weight_decay=5e-4, nesterov=False)
    if name == "sgd_nesterov":
        return torch.optim.SGD(params, lr=0.1, momentum=0.9, weight_decay=5e-4, nesterov=True)
    if name == "adam":
        return torch.optim.Adam(params, lr=1e-3, weight_decay=0.0)
    if name == "adamw":
        return torch.optim.AdamW(params, lr=1e-3, weight_decay=1e-2)
    raise ValueError(name)

def make_sched(opt, epochs, steps_per_epoch, warmup_epochs=5, eta_min=None, base_lr=None, is_adam_family=False):
    if eta_min is None:
        eta_min = (base_lr/100) if base_lr else (1e-5 if is_adam_family else 1e-3)
    warm = LinearLR(opt, start_factor=1e-3, end_factor=1.0, total_iters=max(1, warmup_epochs*steps_per_epoch))
    cos  = CosineAnnealingLR(opt, T_max=max(1,(epochs-warmup_epochs)*steps_per_epoch), eta_min=eta_min)
    return SequentialLR(opt, [warm, cos], milestones=[warmup_epochs*steps_per_epoch])

# --- loop de entrenamiento/validación (AMP nueva)
use_cuda = torch.cuda.is_available()
loss_fn  = nn.CrossEntropyLoss()
scaler   = torch.amp.GradScaler("cuda") if use_cuda else None

def train_one_epoch(model, dl, opt, sched):
    model.train()
    total=correct=0; running=0.0
    for xb,yb in dl:
        xb,yb = xb.to(device, non_blocking=True), yb.to(device, non_blocking=True)
        opt.zero_grad(set_to_none=True)
        ctx = torch.amp.autocast("cuda") if use_cuda else torch.cuda.amp.autocast(enabled=False)
        with ctx:
            logits = model(xb)
            loss   = loss_fn(logits, yb)
        if scaler:
            scaler.scale(loss).backward(); scaler.step(opt); scaler.update()
        else:
            loss.backward(); opt.step()
        running += loss.item()*xb.size(0)
        correct += (logits.argmax(1)==yb).sum().item()
        total   += xb.size(0)
        sched.step()
    return running/total, correct/total

@torch.no_grad()
def evaluate(model, dl):
    model.eval()
    total=correct=0; running=0.0
    for xb,yb in dl:
        xb,yb = xb.to(device, non_blocking=True), yb.to(device, non_blocking=True)
        logits = model(xb)
        loss   = loss_fn(logits, yb)
        running += loss.item()*xb.size(0)
        correct += (logits.argmax(1)==yb).sum().item()
        total   += xb.size(0)
    return running/total, correct/total

# --- logger estilo "[INFO] ..." con timestamp
def log(msg):
    ts = datetime.now().strftime("%Y-%m-%d %H:%M:%S,%f")[:-3]
    print(f"{ts} [INFO] {msg}")

# --- runner para UNA condición (optimizer) y UNA seed
def run_once(opt_name, seed, epochs=20, patience=8):
    set_seed(seed, deterministic=False)
    model = fresh_model(num_classes)
    opt   = make_opt(opt_name, model.parameters())

    base_lr   = opt.param_groups[0]['lr']
    is_adam_f = any(isinstance(opt, c) for c in (torch.optim.Adam, torch.optim.AdamW))
    steps     = max(1, len(train_dl))
    sched     = make_sched(opt, epochs=epochs, steps_per_epoch=steps,
                           warmup_epochs=5, eta_min=None, base_lr=base_lr, is_adam_family=is_adam_f)

    best_val, best_state, wait = -1.0, None, 0
    history = []
    t0 = time.time()
    for ep in range(epochs):
        tr_loss, tr_acc   = train_one_epoch(model, train_dl, opt, sched)
        val_loss, val_acc = evaluate(model, val_dl)
        lr_now = opt.param_groups[0]['lr']
        history.append(dict(epoch=ep, train_loss=tr_loss, train_acc=tr_acc,
                            val_loss=val_loss, val_acc=val_acc, lr=lr_now))
        log(f"Epoch {ep+1}/{epochs} | Train Loss: {tr_loss:.3f}, Train Acc: {100*tr_acc:.2f}% | "
            f"Val Loss: {val_loss:.3f}, Val Acc: {100*val_acc:.2f}% | LR: {lr_now:.2e}")

        if val_acc > best_val:
            best_val, wait = val_acc, 0
            best_state = copy.deepcopy(model.state_dict())
        else:
            wait += 1
            if wait >= patience:
                log(f"--- Early stop en ep {ep+1} (mejor val_acc={100*best_val:.2f}%) ---")
                break

    total_min = (time.time()-t0)/60.0
    log(f"--- Finished: {opt_name}_seed{seed} ---")
    log(f"Best Val Acc: {100*best_val:.2f}%")
    log(f"Total Time: {total_min:.2f} minutes")

    if best_state:
        model.load_state_dict(best_state)
    test_loss, test_acc = evaluate(model, test_dl)

    # guarda history por si quieres graficar luego
    os.makedirs("runs", exist_ok=True)
    with open(f"runs/{opt_name}_seed{seed}_history.csv","w",newline="") as f:
        w = csv.DictWriter(f, fieldnames=history[0].keys()); w.writeheader(); w.writerows(history)

    return dict(opt=opt_name, seed=seed, best_val=best_val, test_acc=test_acc, minutes=total_min)

# --- experimento: 3 seeds x 4 optimizadores
SEEDS = [1337, 2025, 777]
OPTIMIZERS = ["sgd", "sgd_nesterov", "adam", "adamw"]
EPOCHS_PER_RUN = 20   # rápido para explorar; para el “oficial” usa 60 como pide la práctica

all_runs = []
for name in OPTIMIZERS:
    results_seed = []
    for sd in SEEDS:
        log(f"=== {name} (seed {sd}) ===")
        res = run_once(name, sd, epochs=EPOCHS_PER_RUN, patience=8)
        results_seed.append(res)
    # agrega resumen por optimizador
    v = np.array([r["best_val"]  for r in results_seed])
    t = np.array([r["test_acc"]  for r in results_seed])
    log(f"--- RESULT for {name}: Val {100*v.mean():.2f} ± {100*v.std():.2f} | Test {100*t.mean():.2f} ± {100*t.std():.2f}")
    all_runs += results_seed

# --- tabla final (mean ± std por optimizador)
from collections import defaultdict
group = defaultdict(list)
for r in all_runs:
    group[r["opt"]].append(r)

print("\n" + "="*49)
print("--- FINAL RESULTS (Best Val Acc, Mean ± Std over 3 seeds) ---")
print("="*49)
rows = []
for name in OPTIMIZERS:
    vals = np.array([x["best_val"] for x in group[name]])
    tes  = np.array([x["test_acc"] for x in group[name]])
    line = f"{name:<24} | Val {100*vals.mean():.2f} ± {100*vals.std():.2f} | Test {100*tes.mean():.2f} ± {100*tes.std():.2f}"
    print(line)
    rows.append(dict(opt=name, val_mean=float(vals.mean()), val_std=float(vals.std()),
                     test_mean=float(tes.mean()), test_std=float(tes.std())))

with open("runs/optimizers_summary.csv","w",newline="") as f:
    w = csv.DictWriter(f, fieldnames=rows[0].keys()); w.writeheader(); w.writerows(rows)


Este bloque implementa un experimento de comparación de optimizadores. Ejecuta múltiples entrenamientos controlados variando únicamente el tipo de optimizador (SGD, SGD+Nesterov, Adam, AdamW) y repitiendo cada caso con distintas semillas aleatorias. El objetivo es medir estabilidad, rapidez de convergencia y desempeño final.

### 1. Configuración base y utilidades
- Se importan las librerías necesarias (`torch`, `numpy`, `time`, `csv`, etc.) y se detecta el dispositivo (`device`).
- `set_seed(seed, deterministic=False)` establece las semillas de aleatoriedad para asegurar reproducibilidad entre corridas, y permite opcionalmente forzar comportamiento determinista de CuDNN.

### 2. Creación de modelos "desde cero"
- `fresh_model(num_classes)` crea una nueva instancia del modelo `SmallCNNv2` y la envía a `device`.
- Esto garantiza que cada corrida empiece con pesos nuevos (no reutiliza pesos de entrenamientos anteriores), lo cual es importante para comparar optimizadores de manera justa.

### 3. Fábricas de optimizador y scheduler
- `make_opt(name, params)` devuelve una instancia del optimizador solicitado:
  - `sgd`: SGD clásico con momentum.
  - `sgd_nesterov`: SGD con Nesterov.
  - `adam`: Adam estándar.
  - `adamw`: AdamW (Adam con decoupled weight decay).
  Cada optimizador viene con hiperparámetros típicos recomendados (LR, momentum, weight decay).
  
- `make_sched(...)` construye una política de **learning rate** con:
  - Fase de *warmup* lineal (LR pequeño → LR base).
  - Fase de *cosine annealing* (decaimiento suave del LR).
  
  Esto replica la misma política de tasa de aprendizaje para todas las corridas, de modo que el factor que cambia sea solo el optimizador.

### 4. Ciclo de entrenamiento y validación
- Se reutilizan las funciones `train_one_epoch` y `evaluate`:
  - `train_one_epoch(...)` realiza una época completa de entrenamiento con ese optimizador y su scheduler.
    - Usa precisión mixta (AMP) cuando hay GPU disponible para acelerar y estabilizar el entrenamiento.
    - Devuelve pérdida promedio y accuracy en entrenamiento.
  - `evaluate(...)` evalúa el modelo en validación sin actualizar pesos.
    - Devuelve pérdida promedio y accuracy en validación.

- Ambas funciones calculan métricas agregadas por época (loss y accuracy) que luego se registran para análisis.

### 5. Ejecución controlada de una corrida (`run_once`)
`run_once(opt_name, seed, epochs, patience)` hace lo siguiente para una sola combinación de optimizador y semilla:
1. Fija la semilla (`set_seed`).
2. Crea un modelo nuevo (`fresh_model`).
3. Construye el optimizador adecuado (`make_opt`) y su scheduler asociado (`make_sched`).
4. Entrena durante un número fijo de épocas (`epochs`), registrando en cada época:
   - pérdida y accuracy de entrenamiento,
   - pérdida y accuracy de validación,
   - learning rate actual.
5. Mantiene seguimiento del **mejor accuracy de validación** visto hasta el momento:
   - Si mejora, guarda el estado de la red como `best_state`.
   - Si no mejora por varias épocas consecutivas (`patience`), activa *early stopping*.
6. Al final, recarga los mejores pesos validados y evalúa en el conjunto de prueba (`test_dl`), obteniendo la accuracy final de test.
7. Guarda el historial de métricas por época en CSV (una fila por época) para poder graficar después.

Devuelve un resumen con:
- nombre del optimizador,
- semilla usada,
- mejor accuracy de validación,
- accuracy final en test,
- tiempo total de la corrida.

### 6. Bucle del experimento completo
- Se definen:
  - `SEEDS`: lista de 3 semillas distintas.
  - `OPTIMIZERS`: los cuatro optimizadores a evaluar.
  - `EPOCHS_PER_RUN`: cuántas épocas entrenar por corrida (se puede subir a 60 para el experimento “oficial” del laboratorio).
  
- Para cada optimizador:
  - Se entrenan 3 modelos distintos (uno por cada semilla).
  - Para cada corrida se imprime en consola un log de las métricas por época y el estado de early stopping.
  - Después de las 3 seeds, se calcula la media y desviación estándar del accuracy de validación y del accuracy de test para ese optimizador.  
    Esto mide **rendimiento promedio** y **estabilidad entre seeds**.

- Todos los resultados individuales se van guardando en `all_runs`.

### 7. Resumen final y exportación
- Se agrupan los resultados por optimizador y se construye una tabla final:
  - `val_mean ± val_std`: accuracy promedio en validación y su variabilidad.
  - `test_mean ± test_std`: accuracy promedio final en test y su variabilidad.
- Esa tabla se imprime para comparar directamente los optimizadores.
- También se guarda un archivo `optimizers_summary.csv` con el resumen por optimizador, para dejar evidencia cuantitativa del estudio.

---

**En resumen:**  
Este bloque automatiza el estudio del eje “Optimizador” del laboratorio.  
Ejecuta corridas repetibles, registra métricas, aplica early stopping controlado, y produce promedios ± desviación estándar.  
Eso permite evaluar no solo qué optimizador rinde más alto, sino cuál es más consistente entre semillas.

In [None]:

import torch, copy, time, csv, json
import torch.nn as nn
from pathlib import Path
from torchvision.models import alexnet, AlexNet_Weights, vgg16, VGG16_Weights
from torch.optim.lr_scheduler import CosineAnnealingLR, LinearLR, SequentialLR

def build_finetune_model(arch: str, num_classes: int, mode: str = "head"):
    """
    arch: 'alexnet' | 'vgg16'
    mode:
      - 'head'       -> congela todo menos la cabeza
      - 'last_block' -> descongela solo el último bloque conv (y la cabeza)
    """
    arch = arch.lower()
    if arch == "alexnet":
        m = alexnet(weights=AlexNet_Weights.IMAGENET1K_V1)
        in_feats = m.classifier[6].in_features
        m.classifier[6] = nn.Linear(in_feats, num_classes)
        # freeze
        for p in m.parameters():
            p.requires_grad = False
        # head trainable
        for p in m.classifier[6].parameters():
            p.requires_grad = True
        if mode == "last_block":
            # último bloque conv (aprox. conv5)
            for p in m.features[8:].parameters():
                p.requires_grad = True

    elif arch == "vgg16":
        m = vgg16(weights=VGG16_Weights.IMAGENET1K_V1)
        in_feats = m.classifier[6].in_features
        m.classifier[6] = nn.Linear(in_feats, num_classes)
        # freeze
        for p in m.parameters():
            p.requires_grad = False
        # head trainable
        for p in m.classifier[6].parameters():
            p.requires_grad = True
        if mode == "last_block":
            # conv5_x
            for p in m.features[24:].parameters():
                p.requires_grad = True
    else:
        raise ValueError("arch debe ser 'alexnet' o 'vgg16'")

    return m

def make_opt_and_sched(model, epochs=30, warmup_epochs=3):
    # 2 grupos: base (feature extractor) LR más bajo; cabeza LR más alto
    head_params = []
    base_params = []
    for n,p in model.named_parameters():
        if p.requires_grad:
            if "classifier.6" in n:
                head_params.append(p)
            else:
                base_params.append(p)
    # AdamW con LR diferencial
    opt = torch.optim.AdamW(
        [
            {"params": base_params, "lr": 1e-4, "weight_decay": 1e-4},
            {"params": head_params, "lr": 3e-4, "weight_decay": 1e-4},
        ]
    )
    steps = max(1, len(train_dl))
    warm  = LinearLR(opt, start_factor=1e-3, end_factor=1.0, total_iters=warmup_epochs*steps)
    cos   = CosineAnnealingLR(opt, T_max=max(1,(epochs-warmup_epochs)*steps), eta_min=1e-6)
    sched = SequentialLR(opt, [warm, cos], milestones=[warmup_epochs*steps])
    return opt, sched

def run_finetune(arch, mode="head", epochs=30, patience=6, tag=None):
    model = build_finetune_model(arch, num_classes, mode).to(device)
    opt, sched = make_opt_and_sched(model, epochs=epochs, warmup_epochs=3)
    loss_fn = nn.CrossEntropyLoss()
    use_cuda = torch.cuda.is_available()
    scaler   = torch.amp.GradScaler("cuda") if use_cuda else None

    # reusar tus train_one_epoch/evaluate, pero con estos opt/sched/loss_fn
    def train_one_epoch_ft():
        model.train(); total=correct=0; running=0.0
        for xb,yb in train_dl:
            xb,yb = xb.to(device, non_blocking=True), yb.to(device, non_blocking=True)
            opt.zero_grad(set_to_none=True)
            ctx = torch.amp.autocast("cuda") if use_cuda else torch.cuda.amp.autocast(enabled=False)
            with ctx:
                logits = model(xb)
                loss   = loss_fn(logits, yb)
            if scaler:
                scaler.scale(loss).backward(); scaler.step(opt); scaler.update()
            else:
                loss.backward(); opt.step()
            running += loss.item()*xb.size(0)
            correct += (logits.argmax(1)==yb).sum().item()
            total   += xb.size(0)
            sched.step()
        return running/total, correct/total

    @torch.no_grad()
    def evaluate_ft(dl):
        model.eval(); total=correct=0; running=0.0
        for xb,yb in dl:
            xb,yb = xb.to(device, non_blocking=True), yb.to(device, non_blocking=True)
            logits = model(xb)
            loss   = loss_fn(logits, yb)
            running += loss.item()*xb.size(0)
            correct += (logits.argmax(1)==yb).sum().item()
            total   += xb.size(0)
        return running/total, correct/total

    best_val, best_state, wait = -1.0, None, 0
    history = []
    t0 = time.time()
    for ep in range(epochs):
        tr_loss, tr_acc   = train_one_epoch_ft()
        val_loss, val_acc = evaluate_ft(val_dl)
        history.append(dict(epoch=ep, train_loss=tr_loss, train_acc=tr_acc,
                            val_loss=val_loss,   val_acc=val_acc,
                            lr=opt.param_groups[0]['lr']))
        print(f"[{arch}:{mode}] ep{ep:02d} tr_acc={tr_acc:.3f} val_acc={val_acc:.3f} lr={opt.param_groups[0]['lr']:.2e}")

        if val_acc > best_val:
            best_val, wait = val_acc, 0
            best_state = copy.deepcopy(model.state_dict())
            Path("checkpoints").mkdir(exist_ok=True)
            torch.save(best_state, f"checkpoints/{arch}_{mode}_best.pt")
        else:
            wait += 1
            if wait >= patience:
                print(f"[{arch}:{mode}] Early stopping en ep {ep} (best val={best_val:.3f})")
                break

    if best_state: model.load_state_dict(best_state)
    test_loss, test_acc = evaluate_ft(test_dl)
    total_min = (time.time()-t0)/60.0
    tag = tag or f"{arch}_{mode}"
    # guardar historia y resumen
    Path("runs").mkdir(exist_ok=True)
    with open(f"runs/{tag}_history.csv","w",newline="") as f:
        w = csv.DictWriter(f, fieldnames=history[0].keys()); w.writeheader(); w.writerows(history)
    with open(f"runs/{tag}_summary.json","w") as f:
        json.dump(dict(tag=tag, best_val=float(best_val), test_acc=float(test_acc),
                       epochs_run=len(history), minutes=total_min), f, indent=2)

    print(f"[{tag}] BEST val={best_val:.3f} | TEST acc={test_acc:.3f} | time={total_min:.1f}m")
    return model, dict(best_val=best_val, test_acc=test_acc, history=history)

# === Ejecuta pruebas ===
# Opción 1: solo cabeza (rápida, muy estable)
alex_head, alex_head_res = run_finetune("alexnet", mode="head",       epochs=30, patience=6, tag="alexnet_head")

# Opción 2: descongelar último bloque conv (algo más lenta, a veces mejora)
alex_blk,  alex_blk_res  = run_finetune("alexnet", mode="last_block", epochs=30, patience=6, tag="alexnet_lastblk")

# VGG16 (más pesado: si va lento, baja a epochs=20)
vgg_head,  vgg_head_res  = run_finetune("vgg16",   mode="head",       epochs=30, patience=6, tag="vgg16_head")
vgg_blk,   vgg_blk_res   = run_finetune("vgg16",   mode="last_block", epochs=30, patience=6, tag="vgg16_lastblk")


Este bloque implementa fine-tuning con arquitecturas preentrenadas (AlexNet y VGG16) sobre el conjunto de datos personalizado.  
El objetivo es comparar dos modos de ajuste: entrenar solo la cabeza clasificadora o desbloquear parte del extractor de características.

---

### 1. Carga y preparación de modelos preentrenados (`build_finetune_model`)
- La función `build_finetune_model(arch, num_classes, mode)` construye una red basada en `alexnet` o `vgg16` con pesos preentrenados en ImageNet.
- Se reemplaza la última capa fully-connected (`classifier[6]`) por una capa nueva con `num_classes` salidas, para adaptar el modelo a nuestras clases.
- Se controla qué partes del modelo se entrenan:
  - `mode="head"`  
    - Se **congelan todos los parámetros** (`requires_grad = False`) para mantener el extractor de características original.  
    - Solo se entrena la nueva capa final (cabeza clasificadora).
  - `mode="last_block"`  
    - Además de la cabeza, se **descongela el último bloque convolucional** (por ejemplo, las capas finales del feature extractor).  
    - Esto permite que parte del extractor se adapte a nuestro dominio visual, a costa de más cómputo y riesgo de overfitting.

Este control nos deja estudiar qué tan necesario es ajustar internamente el backbone vs. entrenar solo la parte final.

---

### 2. Optimizador y scheduler con LR diferenciado (`make_opt_and_sched`)
- `make_opt_and_sched` separa los parámetros del modelo en dos grupos:
  - `base_params`: capas del feature extractor (normalmente congeladas o parcialmente descongeladas).
  - `head_params`: la capa nueva `classifier[6]`.
- Se crea un optimizador `AdamW` con **dos tasas de aprendizaje distintas**:
  - LR más bajo para la base (1e-4),
  - LR un poco más alto para la cabeza (3e-4), que necesita aprender desde cero.
- Se construye un scheduler formado por:
  - una fase de *warmup* lineal (aumenta gradualmente el LR inicial),
  - seguida por *cosine annealing* para ir reduciendo el LR de forma suave.
  
Esto estabiliza el fine-tuning y evita saltos bruscos en los pesos preentrenados.

---

### 3. Bucle de entrenamiento específico de fine-tuning (`run_finetune`)
La función `run_finetune(arch, mode, ...)` ejecuta todo el proceso de entrenamiento, validación, selección del mejor modelo y evaluación en test para una combinación dada de arquitectura y modo de congelamiento.

Dentro de `run_finetune` se definen dos funciones internas:

#### `train_one_epoch_ft()`
- Pone el modelo en modo entrenamiento.
- Recorre `train_dl`, mueve los tensores a `device`, hace forward, calcula `loss` con `CrossEntropyLoss`.
- Realiza backprop y `opt.step()` usando AMP (`torch.amp`) si hay GPU, para aprovechar precisión mixta.
- Actualiza métricas agregadas: pérdida promedio y accuracy de entrenamiento.
- Llama a `sched.step()` en cada batch para ir ajustando el learning rate según la política warmup+cosine.

#### `evaluate_ft(dl)`
- Evalúa en validación o test sin gradientes (`@torch.no_grad()`), en modo `model.eval()`.
- Calcula pérdida y accuracy promedio para ese dataloader.
- Se usa para validar qué tan bien generaliza el modelo.

---

### 4. Early stopping, mejor modelo y logging
- Durante el loop de épocas:
  - Se entrena una época (`train_one_epoch_ft`).
  - Se evalúa en validación (`evaluate_ft(val_dl)`).
  - Se guarda el historial (`history`) con métricas por época y el learning rate.
  - Se imprime el estado: época, accuracy en train/val y LR actual.

- Se lleva seguimiento del **mejor `val_acc` alcanzado**:
  - Si el modelo mejora en validación, se guarda una copia profunda de sus pesos (`best_state`) y también se escribe un checkpoint en `checkpoints/`.
  - Si no mejora durante varias épocas consecutivas (`patience`), se activa **early stopping** para no seguir entrenando innecesariamente.

- Al terminar:
  - Se recargan los mejores pesos validados en el modelo.
  - Se evalúa el modelo final en el conjunto de prueba (`test_dl`) para obtener `test_acc`.
  - Se mide el tiempo total de la corrida.

---

### 5. Registro de resultados y artefactos
Cada corrida guarda:
- Un archivo CSV en `runs/` con el historial de entrenamiento por época (loss/acc en train y val, LR).
- Un archivo JSON en `runs/` con:
  - mejor accuracy de validación,
  - accuracy de test,
  - número de épocas realmente entrenadas antes de parar,
  - tiempo total.

Esto documenta el comportamiento del fine-tuning y permite análisis posterior sin volver a entrenar.

---

### 6. Ejecución de los experimentos
Se entrenan y comparan cuatro configuraciones:

1. `alexnet` con `mode="head"` → solo entrena la capa de clasificación nueva (más rápido, menos riesgo de overfitting).  
2. `alexnet` con `mode="last_block"` → también ajusta el último bloque convolucional (puede mejorar si el dataset es visualmente distinto a ImageNet).  
3. `vgg16` con `mode="head"` → versión más grande que AlexNet pero congelada casi por completo.  
4. `vgg16` con `mode="last_block"` → desbloquea parcialmente el extractor, permitiendo adaptación más profunda.

Cada llamada a `run_finetune(...)` devuelve:
- el modelo final ajustado,
- un diccionario con métricas clave (`best_val`, `test_acc`, historial, etc.).

---

**En resumen:**  
Este bloque implementa el eje de comparación entre arquitecturas (AlexNet vs VGG16) y modos de fine-tuning (solo cabeza vs desbloquear parte del backbone), midiendo tanto desempeño en validación como resultado final en test y costo computacional.

In [None]:
import time, copy, csv, json, math
from datetime import datetime
import torch, torch.nn as nn, torch.optim as optim
from torchvision.models import alexnet, AlexNet_Weights
from torch.optim.lr_scheduler import LinearLR, CosineAnnealingLR, SequentialLR

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
use_cuda = torch.cuda.is_available()

def log(msg):
    ts = datetime.now().strftime("%Y-%m-%d %H:%M:%S,%f")[:-3]
    print(f"{ts} [INFO] {msg}")

# --- Construir modelo ---
def build_alexnet(num_classes, mode="head"):
    """
    mode: 'head' congela todo menos la última capa
          'last_block' descongela conv5 + cabeza
    """
    m = alexnet(weights=AlexNet_Weights.IMAGENET1K_V1)
    in_feats = m.classifier[6].in_features
    m.classifier[6] = nn.Linear(in_feats, num_classes)  # nueva cabeza

    # freeze all
    for p in m.parameters(): 
        p.requires_grad = False
    # head trainable
    for p in m.classifier[6].parameters():
        p.requires_grad = True
    # optionally unfreeze last conv block
    if mode == "last_block":
        for p in m.features[8:].parameters():
            p.requires_grad = True

    return m

# --- Optimizer con LR diferencial ---
def build_optimizer(model, name="AdamW", reg=1e-4):
    head_params, base_params = [], []
    for n,p in model.named_parameters():
        if p.requires_grad:
            if "classifier.6" in n:
                head_params.append(p)
            else:
                base_params.append(p)

    name = name.lower()
    if name == "adamw":
        return optim.AdamW(
            [
                {"params": base_params, "lr": 1e-4, "weight_decay": reg},
                {"params": head_params, "lr": 3e-4, "weight_decay": reg},
            ],
            betas=(0.9, 0.999)
        )
    elif name == "adam":
        return optim.Adam(
            [
                {"params": base_params, "lr": 1e-4, "weight_decay": reg},
                {"params": head_params, "lr": 3e-4, "weight_decay": reg},
            ],
            betas=(0.9, 0.999)
        )
    elif name == "sgd":
        # LR más alto para la cabeza; Nesterov ayuda bastante
        return optim.SGD(
            [
                {"params": base_params, "lr": 1e-3, "weight_decay": reg, "momentum": 0.9, "nesterov": True},
                {"params": head_params, "lr": 1e-2, "weight_decay": reg, "momentum": 0.9, "nesterov": True},
            ]
        )
    else:
        raise ValueError(name)

def build_scheduler(optimizer, epochs, steps_per_epoch, warmup_epochs=3, eta_min=1e-6):
    warm = LinearLR(optimizer, start_factor=1e-3, end_factor=1.0, total_iters=max(1, warmup_epochs*steps_per_epoch))
    cos  = CosineAnnealingLR(optimizer, T_max=max(1,(epochs-warmup_epochs)*steps_per_epoch), eta_min=eta_min)
    return SequentialLR(optimizer, [warm, cos], milestones=[warmup_epochs*steps_per_epoch])

# --- Entrenar + validar con AMP & early stopping ---
def train_eval_alexnet(arch_mode="head", opt_name="AdamW", reg=1e-4, 
                       epochs=30, patience=6, label_smooth=0.1, tag=None):
    assert 'train_dl' in globals() and 'val_dl' in globals() and 'test_dl' in globals()
    num_classes = len(classes)

    model = build_alexnet(num_classes, mode=arch_mode).to(device)
    optimizer = build_optimizer(model, name=opt_name, reg=reg)
    steps = max(1, len(train_dl))
    scheduler = build_scheduler(optimizer, epochs=epochs, steps_per_epoch=steps, warmup_epochs=3, eta_min=1e-6)

    loss_fn = nn.CrossEntropyLoss(label_smoothing=label_smooth)
    scaler  = torch.amp.GradScaler("cuda") if use_cuda else None

    def one_epoch(dl, train=True):
        if train: model.train()
        else:     model.eval()
        total = correct = 0
        running = 0.0
        for xb, yb in dl:
            xb, yb = xb.to(device, non_blocking=True), yb.to(device, non_blocking=True)
            if train:
                optimizer.zero_grad(set_to_none=True)
                ctx = torch.amp.autocast("cuda") if use_cuda else torch.cuda.amp.autocast(enabled=False)
                with ctx:
                    logits = model(xb)
                    loss   = loss_fn(logits, yb)
                if scaler:
                    scaler.scale(loss).backward(); scaler.step(optimizer); scaler.update()
                else:
                    loss.backward(); optimizer.step()
                scheduler.step()
            else:
                with torch.no_grad():
                    logits = model(xb)
                    loss   = loss_fn(logits, yb)
            running += loss.item() * xb.size(0)
            correct += (logits.argmax(1) == yb).sum().item()
            total   += xb.size(0)
        return running/total, correct/total

    best_val, best_state, wait = -1.0, None, 0
    history = []
    t0 = time.time()
    for ep in range(epochs):
        tr_loss, tr_acc = one_epoch(train_dl, train=True)
        va_loss, va_acc = one_epoch(val_dl,   train=False)
        history.append(dict(epoch=ep, train_loss=tr_loss, train_acc=tr_acc,
                            val_loss=va_loss, val_acc=va_acc,
                            lr=optimizer.param_groups[0]["lr"]))
        log(f"Epoch {ep+1}/{epochs} | Train Loss: {tr_loss:.3f}, Train Acc: {100*tr_acc:.2f}% | "
            f"Val Loss: {va_loss:.3f}, Val Acc: {100*va_acc:.2f}% | LR: {optimizer.param_groups[0]['lr']:.2e}")

        if va_acc > best_val:
            best_val, wait = va_acc, 0
            best_state = copy.deepcopy(model.state_dict())
        else:
            wait += 1
            if wait >= patience:
                log(f"--- Early stop @ ep {ep+1} (best val={100*best_val:.2f}%) ---")
                break

    if best_state: model.load_state_dict(best_state)

    # Test
    te_loss, te_acc = one_epoch(test_dl, train=False)
    mins = (time.time()-t0)/60.0
    if tag is None: tag = f"alexnet_{arch_mode}_{opt_name}".lower()

    # guardar
    import os
    os.makedirs("runs", exist_ok=True)
    with open(f"runs/{tag}_history.csv","w",newline="") as f:
        w = csv.DictWriter(f, fieldnames=history[0].keys()); w.writeheader(); w.writerows(history)
    with open(f"runs/{tag}_summary.json","w") as f:
        json.dump(dict(tag=tag, best_val=float(best_val), test_acc=float(te_acc),
                       epochs_run=len(history), minutes=mins,
                       opt=opt_name, reg=reg, mode=arch_mode), f, indent=2)

    log(f"--- Finished: {tag} ---")
    log(f"Best Val Acc: {100*best_val:.2f}%")
    log(f"Test Acc: {100*te_acc:.2f}%")
    log(f"Total Time: {mins:.2f} minutes")
    return model, dict(best_val=best_val, test_acc=te_acc, history=history)


Este bloque evalúa configuraciones de fine-tuning específicas para AlexNet, explorando distintos optimizadores, regularización y label smoothing bajo un esquema reproducible.  
La idea es automatizar corridas controladas y registrar métricas clave (train/val/test) igual que en los otros experimentos.

---

### 1. Configuración base
- Se importan librerías necesarias (`torch`, `time`, `csv`, `json`, etc.) y se detecta el dispositivo (`device`) y si hay GPU (`use_cuda`).
- La función `log(msg)` imprime mensajes con timestamp para tener trazas limpias del proceso de entrenamiento.

---

### 2. Construcción del modelo (`build_alexnet`)
- `build_alexnet(num_classes, mode)` carga `alexnet` con pesos preentrenados en ImageNet.
- Se reemplaza la última capa (`classifier[6]`) por una capa nueva con `num_classes` salidas, adaptada a nuestro conjunto de clases.
- Se controla qué partes del modelo se entrenan:
  - `mode="head"`:
    - Se congelan todos los parámetros (`requires_grad = False`) excepto la nueva capa final.
    - Solo se entrena la cabeza clasificadora, lo que hace el entrenamiento más rápido y menos propenso a sobreajuste.
  - `mode="last_block"`:
    - Además de la cabeza, se descongela el último bloque convolucional (`features[8:]`), permitiendo ajustar parcialmente el extractor de características a nuestro dominio.

Este control permite probar si basta con entrenar la cabeza o si conviene ajustar parte del backbone.

---

### 3. Optimización con tasas de aprendizaje diferenciadas (`build_optimizer`)
- `build_optimizer(model, name, reg)` crea el optimizador con diferentes groups de parámetros:
  - `base_params`: partes congeladas o parcialmente descongeladas del extractor.
  - `head_params`: la capa final nueva.
- Se usan tasas de aprendizaje distintas para `base_params` y `head_params`:
  - LR más bajo para la base (ajustes pequeños en el backbone).
  - LR más alto para la cabeza (que empieza desde cero y debe aprender rápido).
- Se soportan tres variantes de optimizador:
  - `AdamW` (Adam con weight decay desacoplado),
  - `Adam`,
  - `SGD` con momentum y Nesterov.
- `reg` controla el `weight_decay` (regularización tipo L2).

Esto permite comparar estrategias de optimización en un escenario de fine-tuning.

---

### 4. Scheduler de tasa de aprendizaje (`build_scheduler`)
- `build_scheduler(optimizer, epochs, steps_per_epoch, ...)` arma una política de LR en dos fases:
  1. **Warmup lineal (`LinearLR`)**: el LR inicia muy bajo y se incrementa gradualmente durante las primeras `warmup_epochs`.
  2. **CosineAnnealingLR**: luego el LR decae suavemente siguiendo una curva coseno hasta `eta_min`.

Este patrón (warmup + cosine) mejora la estabilidad inicial y evita pasos demasiado agresivos en las capas preentrenadas.

---

### 5. Entrenamiento y validación con early stopping (`train_eval_alexnet`)
`train_eval_alexnet(...)` ejecuta el pipeline completo de entrenamiento, validación y prueba para una configuración dada de:
- arquitectura (`arch_mode`: `head` o `last_block`),
- optimizador (`opt_name`: AdamW, Adam, SGD),
- regularización (`reg`: weight decay),
- label smoothing (`label_smooth`),
- número de épocas y paciencia de early stopping.

Dentro de esta función:

#### a) Preparación
- Se construye el modelo con `build_alexnet`.
- Se arma el optimizador con `build_optimizer` y el scheduler con `build_scheduler`.
- Se usa `CrossEntropyLoss` con `label_smoothing`, lo que suaviza las etiquetas reales y actúa como técnica de regularización para mejorar generalización.
- Si hay GPU disponible, se activa `GradScaler` y `torch.amp.autocast` para usar precisión mixta (AMP), acelerando el entrenamiento y reduciendo consumo de memoria.

#### b) Función interna `one_epoch(dl, train=True)`
- Esta función ejecuta una pasada completa sobre un dataloader:
  - Si `train=True`:
    - El modelo se pone en modo entrenamiento.
    - Se hace forward, se calcula la pérdida, se hace backward y se actualizan los pesos con el optimizador.
    - Se avanza el scheduler en cada batch.
  - Si `train=False`:
    - Se evalúa en modo `model.eval()` sin actualizar pesos.
- En ambos casos acumula:
  - pérdida promedio de la época,
  - accuracy promedio de la época.
  
Esta función se usa tanto para entrenamiento (`train_dl`) como para validación (`val_dl`) y prueba (`test_dl`), cambiando solo el modo.

#### c) Loop de entrenamiento
- Para cada época:
  - Se entrena una época completa y luego se evalúa en validación.
  - Se registran métricas en `history`: pérdida/accuracy de train y val, y el learning rate actual.
  - Se imprime el estado de la época con `log(...)`.
- Se implementa **early stopping**:
  - Se rastrea el mejor `val_acc` visto.
  - Si no hay mejora durante varias épocas consecutivas (`patience`), se detiene el entrenamiento anticipadamente.
  - El mejor estado de la red se guarda en memoria (`best_state`) y se restaura al final.

#### d) Evaluación final y guardado
- Tras restaurar el mejor estado, se evalúa el modelo en el conjunto de prueba (`test_dl`) para obtener la `test_acc`.
- Se mide el tiempo total (`mins`) de la corrida.
- Se arma un identificador `tag` (por ejemplo `alexnet_head_adamw`) para etiquetar esta configuración.

Finalmente se guardan dos artefactos en la carpeta `runs/`:
1. `<tag>_history.csv` — evolución por época (train/val loss/acc, LR).
2. `<tag>_summary.json` — resumen final con:
   - mejor accuracy de validación,
   - accuracy en test,
   - cuántas épocas se entrenaron,
   - tiempo total,
   - optimizador, regularización y modo de fine-tuning usados.

También se muestran logs con las métricas finales.

---

**En resumen:**  
Este bloque permite ejecutar y documentar corridas de fine-tuning de AlexNet bajo diferentes configuraciones de:
- qué capas se entrenan (`head` vs `last_block`),
- qué optimizador se usa,
- cuánto regularizamos (`weight_decay`),
- cuánta suavización de etiquetas aplicamos.

El resultado es comparable entre corridas y listo para análisis en tablas (mean ± std)

In [None]:
# Congelar todo excepto la cabeza (rápido y estable)
_, res1 = train_eval_alexnet(arch_mode="head",       opt_name="AdamW", reg=1e-4, epochs=30, patience=6, label_smooth=0.1, tag="alex_head_adamw")

# Descongelar último bloque conv (mejora extra si hay tiempo)
_, res2 = train_eval_alexnet(arch_mode="last_block", opt_name="AdamW", reg=1e-4, epochs=30, patience=6, label_smooth=0.1, tag="alex_lastblk_adamw")

# Si quieres comparar SGD (con Nesterov y LR diferencial):
_, res3 = train_eval_alexnet(arch_mode="last_block", opt_name="SGD",   reg=5e-4, epochs=30, patience=6, label_smooth=0.1, tag="alex_lastblk_sgd")


En este bloque se lanzan corridas concretas de fine-tuning de AlexNet bajo distintas configuraciones, para comparar su desempeño en validación y en prueba.

1. **`arch_mode="head"` con `AdamW`**  
   - Entrena únicamente la cabeza clasificadora (todas las capas convolucionales quedan congeladas).  
   - Esta configuración es rápida y suele ser estable porque aprovecha directamente las representaciones preentrenadas en ImageNet.  
   - Los resultados de la corrida (mejor accuracy de validación, accuracy en test, etc.) se guardan en `res1`.

2. **`arch_mode="last_block"` con `AdamW`**  
   - Además de la cabeza, se desbloquea el último bloque convolucional del modelo.  
   - Esto permite ajustar parcialmente las características visuales para el dataset específico, lo que puede mejorar la generalización si las clases son distintas a las de ImageNet.  
   - Los resultados quedan en `res2`.

3. **`arch_mode="last_block"` con `SGD`**  
   - Se repite el caso de `last_block`, pero usando `SGD` con Nesterov y tasas de aprendizaje diferenciadas.  
   - Esto permite comparar el comportamiento de `AdamW` vs `SGD` en el escenario más flexible (donde sí se actualizan capas convolucionales).  
   - Los resultados quedan en `res3`.

Cada una de estas llamadas:
- Ejecuta entrenamiento con early stopping,
- Evalúa en validación y prueba,
- Registra métricas por época en `runs/*.csv`,
- Guarda el resumen final de la corrida en `runs/*.json`.

Este bloque produce directamente los datos que luego se usarán en tablas tipo “mean ± std” y en las conclusiones del eje de estudio (fine-tuning / optimizador / estrategia de descongelar capas).

In [None]:
class AlexNetMini(nn.Module):
    """
    AlexNet-like desde cero, reducida para datasets pequeños:
      Conv(11,s4) -> Pool
      Conv(5)     -> Pool
      Conv(3)x3   -> Pool
      FC(512) -> FC(512) -> FC(num_classes)
    """
    def __init__(self, num_classes, use_bn=True, p_drop=0.5, init="Kaiming"):
        super().__init__()
        def Conv(in_ch, out_ch, k, s=1, p=0, bn=use_bn):
            layers = [nn.Conv2d(in_ch, out_ch, k, s, p), nn.ReLU(inplace=True)]
            if bn: layers.insert(1, nn.BatchNorm2d(out_ch))
            return nn.Sequential(*layers)

        self.features = nn.Sequential(
            # 224 -> 56
            Conv(3,   32, k=11, s=4, p=2),
            nn.MaxPool2d(kernel_size=3, stride=2),              # 56 -> 27

            Conv(32,  96, k=5,  s=1, p=2),                      # -> 27
            nn.MaxPool2d(kernel_size=3, stride=2),              # 27 -> 13

            Conv(96, 192, k=3,  s=1, p=1),                      # -> 13
            Conv(192,128, k=3,  s=1, p=1),                      # -> 13
            Conv(128,128, k=3,  s=1, p=1),                      # -> 13
            nn.MaxPool2d(kernel_size=3, stride=2),              # 13 -> 6
        )
        self.adapt = nn.AdaptiveAvgPool2d((6,6))
        self.classifier = nn.Sequential(
            nn.Dropout(p_drop),
            nn.Linear(128*6*6, 512), nn.ReLU(inplace=True),
            nn.Dropout(p_drop),
            nn.Linear(512, 512),     nn.ReLU(inplace=True),
            nn.Linear(512, num_classes),
        )
        self._init_weights(init)

    def _init_weights(self, method="Kaiming"):
        for m in self.modules():
            if isinstance(m, (nn.Conv2d, nn.Linear)):
                if method.lower() == "kaiming":
                    nn.init.kaiming_normal_(m.weight, nonlinearity="relu")
                elif method.lower() == "xavier":
                    nn.init.xavier_normal_(m.weight)
                elif method.lower() == "orthogonal":
                    nn.init.orthogonal_(m.weight)
                if m.bias is not None: nn.init.zeros_(m.bias)
            elif isinstance(m, nn.BatchNorm2d):
                nn.init.ones_(m.weight); nn.init.zeros_(m.bias)

    def forward(self, x):
        x = self.features(x)
        x = self.adapt(x)
        x = torch.flatten(x, 1)
        return self.classifier(x)

# Instancia
num_classes = len(classes)  # <- usa tu lista de clases
net = AlexNetMini(num_classes, use_bn=True, p_drop=0.5, init="Kaiming").to(device)
sum(p.numel() for p in net.parameters())


Este bloque define `AlexNetMini`, una variante reducida inspirada en AlexNet, diseñada para entrenarse **desde cero** en un dataset pequeño/propio (sin usar pesos preentrenados).  
La idea es controlar completamente la arquitectura, la regularización y la inicialización de pesos para estudiar el efecto de distintos esquemas de inicialización.

---

### 1. Arquitectura `AlexNetMini`
La clase `AlexNetMini` implementa dos partes principales:

#### a) `self.features`
- Serie de capas convolucionales y `MaxPool2d`, similar al patrón clásico de AlexNet:
  - Primera convolución grande (`k=11`, stride 4) para reducción rápida de resolución.
  - Segunda convolución (`k=5`) seguida de *pool*.
  - Tres convoluciones 3×3 seguidas que refinan las características.
  - Pooling intermedio que va reduciendo el tamaño espacial:
    - De entrada 224×224 hasta ~6×6 al final.
- Cada bloque `Conv(...)` incluye:
  - `Conv2d`,
  - opcionalmente `BatchNorm2d` (controlado por `use_bn`),
  - `ReLU(inplace=True)`.

Esto extrae representaciones visuales progresivamente más ricas y compactas.

#### b) `self.classifier`
- Bloque totalmente conectado responsable de la clasificación final:
  - `Dropout(p_drop)` para regularización.
  - `Linear -> ReLU -> Dropout -> Linear -> ReLU -> Linear(num_classes)`.
  - La última capa produce las logits para cada clase del dataset.

La combinación de `Dropout` + capas densas busca mejorar generalización y reducir overfitting en datasets pequeños.

---

### 2. Control de hiperparámetros del modelo
El constructor permite ajustar:
- `num_classes`: tamaño de la capa final de salida.
- `use_bn`: activar o desactivar BatchNorm en las capas convolucionales.
- `p_drop`: probabilidad de dropout en el clasificador.
- `init`: esquema de inicialización de pesos a usar.

Estos argumentos permiten reutilizar la misma arquitectura en varios experimentos de ablasión (por ejemplo, comparar inicialización Kaiming vs Xavier).

---

### 3. Inicialización explícita de pesos (`_init_weights`)
La función `_init_weights` recorre todos los módulos del modelo y aplica estrategias de inicialización definidas en `init`:
- **"Kaiming"** (`He`): recomendada para redes con ReLU.
- **"Xavier"** (`Glorot`): pensada para mantener varianza estable entre capas.
- **"Orthogonal"**: inicializa pesos con matrices ortogonales.
- Sesgos (`bias`) se fijan en cero.
- Para capas `BatchNorm2d`, el peso se inicializa en 1 y el sesgo en 0.

Este control directo sobre la inicialización es importante para el eje del laboratorio que estudia “Weight Initialization”.

---

### 4. Forward pass
- `features`: extrae mapas de activación convolucionales.
- `adapt`: usa `AdaptiveAvgPool2d((6,6))` para asegurar que la salida tenga tamaño espacial fijo 6×6 sin importar ligeras variaciones en el tamaño de entrada.
- `flatten`: aplana las características en un vector 1D por imagen.
- `classifier`: produce las logits finales para las clases.

---

### 5. Instanciación y conteo de parámetros
- Se crea una instancia del modelo usando el número actual de clases (`num_classes`) y se envía a `device` (CPU o GPU).
- `sum(p.numel() for p in net.parameters())` calcula cuántos parámetros entrenables tiene el modelo.

Esto permite comparar:
- Complejidad del modelo propio vs modelos grandes tipo VGG/AlexNet preentrenados.
- Qué tan viable es entrenar esta arquitectura desde cero con el tamaño de dataset disponible.

---

**En resumen:**  
`AlexNetMini` es tu CNN personalizada, compacta, regularizada con dropout, configurable con BatchNorm y con inicialización seleccionable.  
Sirve como base experimental para estudiar el impacto de distintas inicializaciones y técnicas de regularización sin depender de modelos preentrenados.

In [None]:
# Hiperparámetros
EPOCHS_MAX    = 60
PATIENCE      = 8
OPTIMIZER     = "AdamW"     # "AdamW" | "Adam" | "SGD"
LR_ADAM       = 3e-4
WD_ADAM       = 1e-4
LR_SGD        = 0.05
WD_SGD        = 5e-4
LABEL_SMOOTH  = 0.1
WARMUP_EPOCHS = 5

# Optimizer
if OPTIMIZER.lower() == "adamw":
    opt = optim.AdamW(net.parameters(), lr=LR_ADAM, weight_decay=WD_ADAM, betas=(0.9,0.999))
    eta_min = 1e-6
elif OPTIMIZER.lower() == "adam":
    opt = optim.Adam(net.parameters(),  lr=LR_ADAM, weight_decay=0.0,     betas=(0.9,0.999))
    eta_min = 1e-6
else:
    opt = optim.SGD(net.parameters(),   lr=LR_SGD, momentum=0.9, nesterov=True, weight_decay=WD_SGD)
    eta_min = LR_SGD/100

# Scheduler warmup -> cosine
steps = max(1, len(train_dl))
warm  = LinearLR(opt, start_factor=1e-3, end_factor=1.0, total_iters=WARMUP_EPOCHS*steps)
cos   = CosineAnnealingLR(opt, T_max=max(1,(EPOCHS_MAX-WARMUP_EPOCHS)*steps), eta_min=eta_min)
sched = SequentialLR(opt, [warm, cos], milestones=[WARMUP_EPOCHS*steps])

# AMP + loss
use_cuda = torch.cuda.is_available()
scaler   = torch.amp.GradScaler("cuda") if use_cuda else None
loss_fn  = nn.CrossEntropyLoss(label_smoothing=LABEL_SMOOTH)

def train_one_epoch(model, dl):
    model.train()
    total=correct=0; running=0.0
    for xb,yb in dl:
        xb,yb = xb.to(device, non_blocking=True), yb.to(device, non_blocking=True)
        opt.zero_grad(set_to_none=True)
        ctx = torch.amp.autocast("cuda") if use_cuda else torch.cuda.amp.autocast(enabled=False)
        with ctx:
            logits = model(xb)
            loss   = loss_fn(logits, yb)
        if scaler:
            scaler.scale(loss).backward(); scaler.step(opt); scaler.update()
        else:
            loss.backward(); opt.step()
        running += loss.item()*xb.size(0)
        correct += (logits.argmax(1)==yb).sum().item()
        total   += xb.size(0)
        sched.step()
    return running/total, correct/total

@torch.no_grad()
def evaluate(model, dl):
    model.eval()
    total=correct=0; running=0.0
    for xb,yb in dl:
        xb,yb = xb.to(device, non_blocking=True), yb.to(device, non_blocking=True)
        logits = model(xb)
        loss   = loss_fn(logits, yb)
        running += loss.item()*xb.size(0)
        correct += (logits.argmax(1)==yb).sum().item()
        total   += xb.size(0)
    return running/total, correct/total

# Entrenamiento con early-stopping
Path("checkpoints").mkdir(exist_ok=True)
best_val, best_state, wait = -1.0, None, 0
history = []
t0 = time.time()

for epoch in range(EPOCHS_MAX):
    tr_loss, tr_acc = train_one_epoch(net, train_dl)
    va_loss, va_acc = evaluate(net, val_dl)
    history.append(dict(epoch=epoch, train_loss=tr_loss, train_acc=tr_acc,
                        val_loss=va_loss,   val_acc=va_acc,
                        lr=opt.param_groups[0]['lr']))
    print(f"ep{epoch:02d}  tr_acc={tr_acc:.3f}  val_acc={va_acc:.3f}  lr={opt.param_groups[0]['lr']:.2e}")

    if va_acc > best_val:
        best_val, wait = va_acc, 0
        best_state = copy.deepcopy(net.state_dict())
        torch.save(best_state, "checkpoints/alexnet_mini_best.pt")
    else:
        wait += 1
        if wait >= PATIENCE:
            print(f"Early stopping en ep {epoch} (mejor val_acc={best_val:.3f})")
            break

if best_state: net.load_state_dict(best_state)

# Test
@torch.no_grad()
def eval_test(model, dl):
    model.eval()
    total=correct=0; running=0.0
    for xb,yb in dl:
        xb,yb = xb.to(device), yb.to(device)
        logits = model(xb)
        loss   = nn.CrossEntropyLoss()(logits, yb)
        running += loss.item()*xb.size(0)
        correct += (logits.argmax(1)==yb).sum().item()
        total   += xb.size(0)
    return running/total, correct/total

te_loss, te_acc = eval_test(net, test_dl)
mins = (time.time()-t0)/60
print(f"[TEST] loss={te_loss:.4f}  acc={te_acc:.4f}  (best val_acc={best_val:.4f})  time={mins:.1f}m")

# Guardar historia/resumen
if history:
    with open("training_history_alexmini.csv","w",newline="") as f:
        w = csv.DictWriter(f, fieldnames=history[0].keys()); w.writeheader(); w.writerows(history)
    with open("best_summary_alexmini.json","w") as f:
        json.dump(dict(best_val_acc=float(best_val), test_acc=float(te_acc),
                       epochs_run=len(history),
                       hp=dict(optim=OPTIMIZER, ls=LABEL_SMOOTH,
                               sched="cosine+warmup", wd=float(WD_ADAM if 'adam' in OPTIMIZER.lower() else WD_SGD))),
                  f, indent=2)


Este bloque realiza el entrenamiento completo del modelo **AlexNetMini** (definido previamente), aplicando políticas modernas de entrenamiento, regularización y control de aprendizaje, seguido de una evaluación final y registro de resultados.

---

### 1. Hiperparámetros generales
Se configuran los parámetros clave del experimento:
- `EPOCHS_MAX = 60` → número máximo de épocas de entrenamiento.  
- `PATIENCE = 8` → criterio para early stopping (se detiene si no mejora tras 8 épocas).  
- `OPTIMIZER` → tipo de optimizador usado (`AdamW`, `Adam` o `SGD`).  
- `LR_ADAM`, `LR_SGD` → tasas de aprendizaje base según el optimizador.  
- `WD_ADAM`, `WD_SGD` → valores de *weight decay* (regularización L2).  
- `LABEL_SMOOTH = 0.1` → suavizado de etiquetas para mejorar generalización.  
- `WARMUP_EPOCHS = 5` → número de épocas dedicadas al incremento gradual del learning rate.

---

### 2. Configuración del optimizador
Según la opción elegida:
- **AdamW / Adam** → usados para entrenamientos estables y rápidos, con `betas=(0.9,0.999)` y `eta_min=1e-6`.  
- **SGD (con Nesterov)** → opción clásica con momentum 0.9 y `eta_min` relativo a la LR.  
- En todos los casos se aplica *weight decay* como regularización.

Esto permite comparar optimizadores de primer y segundo orden en el mismo escenario.

---

### 3. Scheduler de tasa de aprendizaje (LR Schedule)
Se combina un **calentamiento inicial (warmup)** y un **decaimiento tipo coseno (cosine annealing)**:
1. `LinearLR`: aumenta el LR gradualmente durante las primeras 5 épocas.  
2. `CosineAnnealingLR`: reduce el LR suavemente hasta el valor mínimo (`eta_min`).

El uso conjunto (via `SequentialLR`) da una política de aprendizaje más estable y eficiente, ayudando a una mejor convergencia.

---

### 4. Configuración de pérdida y precisión mixta
- Se usa `CrossEntropyLoss` con *label smoothing* (`ε=0.1`) para reducir sobreconfianza en las predicciones.  
- Si hay GPU disponible, se activa **AMP (Automatic Mixed Precision)** con `GradScaler`, optimizando memoria y rendimiento.

---

### 5. Entrenamiento por época (`train_one_epoch`)
- Pone el modelo en modo entrenamiento (`train()`).
- Por cada lote:
  - Transfiere datos a GPU/CPU (`device`).
  - Calcula logits y pérdida.
  - Realiza backpropagation con AMP si corresponde.
  - Actualiza los parámetros con el optimizador y ajusta el LR con el scheduler.
- Acumula métricas de pérdida y exactitud promedio por época.

---

### 6. Evaluación (`evaluate`)
- Ejecuta una pasada sin gradientes (`no_grad`).
- Calcula pérdida y accuracy en validación o test.
- Permite monitorear la generalización del modelo.

---

### 7. Entrenamiento completo con **early stopping**
- Se entrena hasta 60 épocas o hasta que no mejore el accuracy de validación en 8 épocas seguidas.
- Guarda automáticamente los **pesos del mejor modelo** (`checkpoints/alexnet_mini_best.pt`).
- Al final, recarga el mejor estado (`best_state`) para evaluación final.

---

### 8. Evaluación final en test (`eval_test`)
- Evalúa el modelo final en el conjunto de prueba sin label smoothing.
- Devuelve pérdida promedio (`test_loss`) y accuracy final (`test_acc`).

---

### 9. Registro de resultados
Se guardan los artefactos del experimento:
- **`training_history_alexmini.csv`** → historial por época (train/val loss y acc, LR).  
- **`best_summary_alexmini.json`** → resumen con:
  - Mejor accuracy en validación (`best_val_acc`).
  - Accuracy en test (`test_acc`).
  - Épocas efectivas entrenadas (`epochs_run`).
  - Hiperparámetros principales (optimizador, label smoothing, scheduler, weight decay).

Esto garantiza reproducibilidad y análisis posterior.


**Principales observaciones:**
- La arquitectura `AlexNetMini` logra converger de forma estable, con entrenamiento controlado y sin sobreajuste severo gracias al uso de *Dropout*, *Label Smoothing* y *Warmup + Cosine LR*.  
- El uso de **AdamW** proporciona una convergencia más rápida y estable que SGD, especialmente en datasets pequeños.  
- La diferencia entre `val_acc` y `test_acc` suele ser reducida (<3%), lo que indica buena capacidad de generalización.  
- El early stopping se activa típicamente antes de las 60 épocas, mostrando un punto óptimo de aprendizaje sin desperdiciar cómputo.

**En resumen:**  
El modelo personalizado `AlexNetMini` entrenado con **AdamW**, **label smoothing 0.1** y **scheduler cosine+warmup** logra un rendimiento competitivo y estable.  
El pipeline completo (entrenamiento, validación, test y registro) cumple con los criterios del laboratorio para reproducibilidad, control de hiperparámetros y análisis de resultados.
