<a href="https://colab.research.google.com/github/rubuntu/Taller_Introduccion_a_Ciencia_de_Datos_IA_e_Ingenieria_de_Datos/blob/main/sesion_12_clasificacion_de_perros_y_gatos_con_resnet18_transfer_learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clasificaci√≥n de Perros y Gatos con ResNet18 (Transfer Learning)

## Objetivos
- Aprender a cargar datasets de im√°genes desde HuggingFace (`microsoft/cats_vs_dogs`).
- Preparar un pipeline de preprocesamiento con **transformaciones y data augmentation**.
- Usar un modelo preentrenado (**ResNet18 con pesos de ImageNet**) y adaptarlo al problema de clasificaci√≥n binaria.
- Practicar el concepto de **congelar capas y entrenar solo las √∫ltimas** (fine-tuning parcial).
- Implementar **entrenamiento con early stopping** para evitar overfitting.
- Evaluar el modelo y visualizar ejemplos de predicciones correctas e incorrectas.

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset
from datasets import load_dataset
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
from torchvision.models import resnet18, ResNet18_Weights

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Usando dispositivo:", device)

## 1. Cargar dataset p√∫blico (HuggingFace)

In [None]:
dataset = load_dataset("microsoft/cats_vs_dogs")

# Dividir en 80% train / 20% test
dataset = dataset["train"].train_test_split(test_size=0.2)

print(dataset)

## 2. Transformaciones (Data Augmentation + Normalizaci√≥n)

In [None]:
transform_train = transforms.Compose([
    transforms.Resize((224,224)),
    transforms.RandomResizedCrop(224, scale=(0.8, 1.0)),
    transforms.RandomHorizontalFlip(),
    transforms.RandomRotation(10),
    transforms.ColorJitter(brightness=0.3, contrast=0.3, saturation=0.3),
    transforms.Lambda(lambda img: img.convert("RGB")),  # ‚ö†Ô∏è convertir a RGB
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225]),
])

transform_test = transforms.Compose([
    transforms.Resize((224,224)),
    transforms.Lambda(lambda img: img.convert("RGB")),  # ‚ö†Ô∏è convertir a RGB
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225]),
])

## 3. Adaptador HuggingFace ‚Üí PyTorch Dataset

In [None]:
class CatsDogsDataset(Dataset):
    def __init__(self, hf_dataset, transform=None):
        self.data = hf_dataset
        self.transform = transform
    def __len__(self):
        return len(self.data)
    def __getitem__(self, idx):
        img = self.data[idx]["image"]
        label = self.data[idx]["labels"]   # ‚ö†Ô∏è usar 'labels' en lugar de 'file'

        if self.transform:
            img = self.transform(img)
        return img, torch.tensor(label, dtype=torch.long)

train_ds = CatsDogsDataset(dataset["train"], transform=transform_train)
test_ds  = CatsDogsDataset(dataset["test"], transform=transform_test)

train_dl = DataLoader(train_ds, batch_size=32, shuffle=True)
test_dl  = DataLoader(test_ds, batch_size=32)

## 4. Definir modelo (ResNet18 con pesos de ImageNet)

In [None]:
weights = ResNet18_Weights.DEFAULT
model = resnet18(weights=weights)

# Congelar todas las capas excepto las √∫ltimas
for name, param in model.named_parameters():
    if "layer4" in name or "fc" in name:
        param.requires_grad = True
    else:
        param.requires_grad = False

# Reemplazar la √∫ltima capa para 2 clases
model.fc = nn.Linear(model.fc.in_features, 2)
model = model.to(device)

## 5. Entrenamiento con Early Stopping

In [None]:
loss_fn = nn.CrossEntropyLoss()
opt = optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=1e-5)

#n_epochs = 20
n_epochs = 1
patience = 3
best_acc = 0
epochs_no_improve = 0

for epoch in range(n_epochs):
    # --- Entrenamiento ---
    model.train()
    running_loss = 0.0
    for xb, yb in train_dl:
        xb, yb = xb.to(device), yb.to(device)
        preds = model(xb)
        loss = loss_fn(preds, yb)

        opt.zero_grad()
        loss.backward()
        opt.step()
        running_loss += loss.item()

    # --- Evaluaci√≥n ---
    model.eval()
    correct, total = 0, 0
    with torch.no_grad():
        for xb, yb in test_dl:
            xb, yb = xb.to(device), yb.to(device)
            preds = model(xb).argmax(dim=1)
            correct += (preds == yb).sum().item()
            total += yb.size(0)

    acc = correct / total
    print(f"Epoch {epoch+1}, Loss={running_loss/len(train_dl):.4f}, Val Acc={acc:.4f}")

    if acc > best_acc:
        best_acc = acc
        epochs_no_improve = 0
        torch.save(model.state_dict(), "best_catsdogs.pth")
    else:
        epochs_no_improve += 1
        if epochs_no_improve >= patience:
            print("Early stopping activado")
            break

print("Mejor accuracy alcanzado:", best_acc)

## 6. Visualizaci√≥n de predicciones

In [None]:

images, labels = next(iter(test_dl))
images, labels = images.to(device), labels.to(device)
preds = model(images).argmax(dim=1)

plt.figure(figsize=(12,6))
for i in range(8):
    plt.subplot(2,4,i+1)
    img = images[i].cpu().permute(1,2,0).numpy()
    img = (img * [0.229, 0.224, 0.225] + [0.485, 0.456, 0.406]).clip(0,1)  # desnormalizar
    plt.imshow(img)
    plt.title(f"Real: {labels[i].item()}, Pred: {preds[i].item()}")
    plt.axis("off")
plt.show()

## Preguntas de Discusi√≥n

1. ¬øQu√© ventajas ofrece usar un modelo preentrenado (transfer learning) frente a entrenar desde cero?
2. ¬øPor qu√© es √∫til congelar capas en el inicio del entrenamiento y ajustar solo la √∫ltima capa?
3. ¬øC√≥mo ayuda el *data augmentation* a mejorar la capacidad de generalizaci√≥n del modelo?
4. ¬øQu√© diferencias observas en el rendimiento al descongelar m√°s capas para el fine-tuning?
5. ¬øQu√© rol cumple la normalizaci√≥n con los valores de ImageNet en la estabilidad del entrenamiento?
6. ¬øC√≥mo decide el early stopping cu√°ndo detener el entrenamiento y por qu√© es importante?
7. ¬øQu√© m√©tricas adicionales (adem√°s de accuracy) podr√≠an ser √∫tiles en este problema?
8. ¬øC√≥mo se podr√≠a mejorar a√∫n m√°s el modelo si se dispusiera de m√°s recursos computacionales?

## üí° Preguntas de Discusi√≥n (desarrolladas)

1. **¬øQu√© ventajas ofrece usar un modelo preentrenado (transfer learning) frente a entrenar desde cero?**

   * Entrenar desde cero requiere grandes cantidades de datos y mucho tiempo de c√≥mputo.
   * Los modelos preentrenados en ImageNet ya han aprendido caracter√≠sticas generales (bordes, texturas, formas), que son √∫tiles para muchos problemas de visi√≥n.
   * Con *transfer learning*, solo se adapta la parte final de la red al nuevo conjunto de clases, logrando **mejor rendimiento con menos datos y menos tiempo de entrenamiento**.

---

2. **¬øPor qu√© es √∫til congelar capas en el inicio del entrenamiento y ajustar solo la √∫ltima capa?**

   * Las primeras capas de una CNN aprenden caracter√≠sticas muy generales (l√≠neas, bordes, patrones de color).
   * Si se ajustan todas desde el inicio, se corre el riesgo de *desaprender* esas representaciones √∫tiles.
   * Congelarlas permite entrenar m√°s r√°pido y reducir el riesgo de sobreajuste, enfocando el aprendizaje solo en la capa de clasificaci√≥n final.

---

3. **¬øC√≥mo ayuda el *data augmentation* a mejorar la capacidad de generalizaci√≥n del modelo?**

   * Genera versiones modificadas de las im√°genes (rotadas, espejadas, con variaciones de color).
   * Esto obliga al modelo a aprender **patrones invariantes** a peque√±as transformaciones, en lugar de memorizar ejemplos concretos.
   * Mejora la robustez y reduce el riesgo de sobreajuste cuando los datasets son peque√±os.

---

4. **¬øQu√© diferencias observas en el rendimiento al descongelar m√°s capas para el fine-tuning?**

   * Congelar casi todo ‚Üí entrenamiento r√°pido pero menos capacidad de adaptaci√≥n al nuevo dominio.
   * Descongelar √∫ltimas capas ‚Üí mejor ajuste al dataset objetivo, a costa de m√°s tiempo de entrenamiento.
   * Descongelar toda la red ‚Üí mayor capacidad de adaptaci√≥n, pero mayor riesgo de sobreajuste si el dataset es peque√±o.
   * En la pr√°ctica, **descongelar gradualmente** (empezando desde las √∫ltimas capas) suele dar los mejores resultados.

---

5. **¬øQu√© rol cumple la normalizaci√≥n con los valores de ImageNet en la estabilidad del entrenamiento?**

   * Los modelos preentrenados esperan entradas con la misma estad√≠stica que los datos de ImageNet.
   * Normalizar con `mean=[0.485, 0.456, 0.406]` y `std=[0.229, 0.224, 0.225]` alinea la distribuci√≥n de p√≠xeles con la que el modelo fue entrenado originalmente.
   * Esto evita desajustes que podr√≠an degradar el rendimiento o dificultar la convergencia.

---

6. **¬øC√≥mo decide el early stopping cu√°ndo detener el entrenamiento y por qu√© es importante?**

   * Early stopping monitorea una m√©trica de validaci√≥n (ej. p√©rdida o accuracy).
   * Si no mejora despu√©s de un n√∫mero definido de √©pocas (*patience*), se detiene el entrenamiento.
   * Esto evita que el modelo siga ajust√°ndose al conjunto de entrenamiento mientras empeora en el de validaci√≥n (sobreajuste).
   * Tambi√©n ahorra tiempo y recursos.

---

7. **¬øQu√© m√©tricas adicionales (adem√°s de accuracy) podr√≠an ser √∫tiles en este problema?**

   * **Precisi√≥n (precision):** proporci√≥n de predicciones positivas correctas (√∫til si queremos pocas falsas alarmas).
   * **Recall (sensibilidad):** proporci√≥n de verdaderos positivos detectados (√∫til si no queremos dejar escapar casos).
   * **F1-score:** balance entre precisi√≥n y recall.
   * **Matriz de confusi√≥n:** para ver qu√© clases se confunden m√°s.
   * **AUC-ROC:** mide la capacidad de distinguir entre clases en distintos umbrales.

---

8. **¬øC√≥mo se podr√≠a mejorar a√∫n m√°s el modelo si se dispusiera de m√°s recursos computacionales?**

   * Usar arquitecturas m√°s grandes y potentes (**ResNet50, EfficientNet, Vision Transformers**).
   * Entrenar durante m√°s √©pocas con estrategias de regularizaci√≥n (dropout, weight decay).
   * Aumentar la resoluci√≥n de entrada (224√ó224 ‚Üí 384√ó384).
   * Usar *ensembles* de varios modelos para combinar predicciones.
   * Aplicar *semi-supervised learning* o *self-supervised pretraining* para aprovechar datos no etiquetados.

