<a href="https://colab.research.google.com/github/rubuntu/Taller_Introduccion_a_Ciencia_de_Datos_IA_e_Ingenieria_de_Datos/blob/main/sesion_12_clasificacion_de_perros_y_gatos_con_resnet18_transfer_learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clasificaci√≥n de Perros y Gatos con ResNet18 (Transfer Learning)

## Objetivos
- Aprender a cargar datasets de im√°genes desde HuggingFace (`microsoft/cats_vs_dogs`).
- Preparar un pipeline de preprocesamiento con **transformaciones y data augmentation**.
- Usar un modelo preentrenado (**ResNet18 con pesos de ImageNet**) y adaptarlo al problema de clasificaci√≥n binaria.
- Practicar el concepto de **congelar capas y entrenar solo las √∫ltimas** (fine-tuning parcial).
- Implementar **entrenamiento con early stopping** para evitar overfitting.
- Evaluar el modelo y visualizar ejemplos de predicciones correctas e incorrectas.

# Tipos de Redes Neuronales

---

## üåê 1. Redes Cl√°sicas (feedforward)

* **Perceptr√≥n**: la m√°s simple, una sola capa de neuronas.
* **Perceptr√≥n Multicapa (MLP / FFNN)**: varias capas densas conectadas hacia adelante, sin ciclos. Muy usadas en datos tabulares, predicciones simples y como ‚Äúbloques b√°sicos‚Äù de arquitecturas m√°s complejas.

---

## üì∏ 2. Redes Convolucionales (CNN)

* Dise√±adas para datos con estructura espacial (im√°genes, video, audio).
* Usan **filtros** para detectar patrones locales (bordes, texturas).
* Variantes:

  * **LeNet** (hist√≥rica, d√≠gitos MNIST).
  * **AlexNet, VGG, ResNet, EfficientNet** (vision moderna).
  * **Conv1D/Conv2D/Conv3D** para se√±ales, im√°genes o vol√∫menes.
  * **U-Net / SegNet** para segmentaci√≥n (ej. en medicina).

---

## üï∞ 3. Redes Recurrentes (RNN)

* Para datos **secuenciales** (texto, series de tiempo, audio).
* La salida depende del estado previo.
* Variantes:

  * **RNN simple** (dif√≠ciles de entrenar).
  * **LSTM (Long Short-Term Memory)**: maneja dependencias largas.
  * **GRU (Gated Recurrent Unit)**: m√°s liviana que LSTM.

---

## üß≠ 4. Redes Basadas en Atenci√≥n y Transformers

* Superaron a las RNN en NLP.
* Mecanismo clave: **self-attention**, que permite ver relaciones globales en una secuencia.
* Usadas en:

  * **NLP** (BERT, GPT, T5).
  * **Visi√≥n** (Vision Transformers - ViT).
  * **Multimodalidad** (CLIP, Flamingo).
  * **Modelos generativos** (Stable Diffusion, Llama, ChatGPT).

---

## üé® 5. Redes Generativas

* Aprenden a **crear datos nuevos** similares a los de entrenamiento.
* Principales tipos:

  * **Autoencoders (AE, VAE)**: comprimen y reconstruyen datos.
  * **GANs (Generative Adversarial Networks)**: generador vs discriminador.
  * **Flow-based models**: transformaciones invertibles (Normalizing Flows).
  * **Diffusion Models**: modelos de difusi√≥n (hoy dominan en im√°genes).

---

## üß© 6. Redes Especializadas

* **Redes de Hopfield**: memoria asociativa.
* **SOM (Self-Organizing Maps)**: mapas auto-organizados para clustering.
* **Boltzmann Machines** y **Restricted Boltzmann Machines (RBM)**: usadas en preentrenamiento.
* **Capsule Networks**: intentan superar limitaciones de las CNN.
* **Graph Neural Networks (GNNs)**: para datos en forma de grafo (redes sociales, qu√≠mica, log√≠stica).

---

üëâ Como ves, el **tipo de red** depende mucho del **tipo de dato** y del **objetivo**:

* Tabular ‚Üí MLP
* Im√°genes ‚Üí CNN / ViT
* Texto / Secuencias ‚Üí RNN / Transformers
* Generaci√≥n ‚Üí AE / GAN / Diffusion
* Datos relacionales ‚Üí GNN

---



## üìä Comparativo de Tipos de Redes Neuronales

| Tipo de Red                     | Ventajas                                                                       | Desventajas                                                                              | Casos de Uso                                                    |
| ------------------------------- | ------------------------------------------------------------------------------ | ---------------------------------------------------------------------------------------- | --------------------------------------------------------------- |
| **MLP (Perceptr√≥n Multicapa)**  | Sencilla de implementar, funciona bien en datos tabulares, sirve como baseline | No escala bien con im√°genes o secuencias, poca capacidad para captar estructura compleja | Scoring de cr√©dito, predicciones tabulares, forecasting simple  |
| **CNN (Convolucionales)**       | Excelentes en visi√≥n, detectan patrones locales, eficientes en im√°genes        | Requieren muchos datos, sensibles a transformaciones (rotaci√≥n, escala)                  | Clasificaci√≥n de im√°genes, visi√≥n m√©dica, veh√≠culos aut√≥nomos   |
| **RNN (Recurrentes)**           | Manejan secuencias, modelan dependencias temporales                            | Problemas de gradiente (exploding/vanishing), entrenamiento lento                        | Series de tiempo, an√°lisis de texto, speech recognition         |
| **LSTM / GRU**                  | Capturan dependencias largas, m√°s estables que RNN cl√°sicas                    | Computacionalmente costosas, menos usadas hoy frente a Transformers                      | Traducci√≥n autom√°tica, predicci√≥n de secuencias, chatbots       |
| **Transformers**                | Escalan muy bien, capturan relaciones globales, dominan NLP y multimodal       | Alt√≠simo costo computacional, requieren muchos datos                                     | ChatGPT, BERT, traducci√≥n, visi√≥n con ViT, modelos multimodales |
| **Autoencoders / VAE**          | √ötiles para reducci√≥n de dimensionalidad, generaci√≥n controlada                | Reconstrucciones a veces borrosas, menos expresivos que GAN/Diffusion                    | Detecci√≥n de anomal√≠as, compresi√≥n, generaci√≥n b√°sica           |
| **GANs**                        | Generan datos realistas (im√°genes, audio, video)                               | Entrenamiento inestable, dif√≠cil de balancear generador y discriminador                  | Deepfakes, arte digital, s√≠ntesis de im√°genes                   |
| **Diffusion Models**            | Estado del arte en generaci√≥n de im√°genes/audio, m√°s estables que GANs         | Lentitud en inferencia (aunque existen aceleraciones)                                    | Stable Diffusion, MidJourney, generaci√≥n de m√∫sica e im√°genes   |
| **GNN (Graph Neural Networks)** | Capturan relaciones complejas en grafos, muy √∫tiles en dominios estructurados  | Implementaci√≥n m√°s compleja, requieren conocimiento especializado                        | Redes sociales, qu√≠mica, log√≠stica, detecci√≥n de fraude         |

---

üëâ En resumen:

* **MLP** = tabular simple.
* **CNN** = visi√≥n.
* **RNN/LSTM/GRU** = secuencias tradicionales.
* **Transformers** = el rey actual (texto, imagen, multimodal).
* **GAN/Diffusion** = generaci√≥n creativa.
* **GNN** = datos relacionales.

---

## üå≥ √Årbol de Decisi√≥n: ¬øQu√© red usar?

```
¬øCon qu√© tipo de datos trabajas?
‚îÇ
‚îú‚îÄ‚îÄ Tabulares (CSV, tablas, features num√©ricos/categ√≥ricos)
‚îÇ     ‚îî‚îÄ‚îÄ MLP (Perceptr√≥n Multicapa)
‚îÇ
‚îú‚îÄ‚îÄ Im√°genes
‚îÇ     ‚îú‚îÄ‚îÄ Clasificaci√≥n / Detecci√≥n / Segmentaci√≥n
‚îÇ     ‚îÇ      ‚îú‚îÄ‚îÄ Pocos datos ‚Üí CNN pre-entrenada (ResNet, EfficientNet, U-Net)
‚îÇ     ‚îÇ      ‚îî‚îÄ‚îÄ Muchos datos ‚Üí Vision Transformer (ViT)
‚îÇ     ‚îî‚îÄ‚îÄ Generaci√≥n de im√°genes
‚îÇ            ‚îú‚îÄ‚îÄ Realismo ‚Üí GAN
‚îÇ            ‚îî‚îÄ‚îÄ Estado del arte ‚Üí Diffusion Models
‚îÇ
‚îú‚îÄ‚îÄ Texto o Secuencias (NLP, series de tiempo, audio)
‚îÇ     ‚îú‚îÄ‚îÄ Dependencias cortas ‚Üí RNN
‚îÇ     ‚îú‚îÄ‚îÄ Dependencias largas ‚Üí LSTM / GRU
‚îÇ     ‚îî‚îÄ‚îÄ NLP moderno ‚Üí Transformer (BERT, GPT)
‚îÇ
‚îú‚îÄ‚îÄ Datos Relacionales (Grafos, redes sociales, qu√≠mica)
‚îÇ     ‚îî‚îÄ‚îÄ Graph Neural Networks (GNNs)
‚îÇ
‚îî‚îÄ‚îÄ Otros casos especiales
      ‚îú‚îÄ‚îÄ Reducci√≥n de dimensionalidad / Anomal√≠as ‚Üí Autoencoder / VAE
      ‚îú‚îÄ‚îÄ Memoria asociativa ‚Üí Hopfield
      ‚îî‚îÄ‚îÄ Organizaci√≥n no supervisada ‚Üí Self-Organizing Maps (SOM)
```

---

## üöÄ Lectura r√°pida

* **Si tienes TABLAS ‚Üí MLP.**
* **Si son IM√ÅGENES ‚Üí CNN o Transformer.**
* **Si es TEXTO o SERIES ‚Üí Transformer (o LSTM si es m√°s cl√°sico).**
* **Si son GRAFOS ‚Üí GNN.**
* **Si se busca GENERAR ‚Üí GAN o Diffusion.**

---


## üìå **Data Augmentation**

* Es una t√©cnica para **aumentar artificialmente la cantidad de datos de entrenamiento** sin recolectar nuevos ejemplos.
* Consiste en aplicar **transformaciones aleatorias** a las im√°genes originales (o datos en general).
* Ejemplos comunes en im√°genes:

  * Rotaciones, volteos (*flips*).
  * Cambios de brillo, contraste, color.
  * Recortes (*cropping*), escalados, zooms.
  * Adici√≥n de ruido.
* ‚úÖ Beneficio: evita **overfitting** y mejora la capacidad de generalizaci√≥n del modelo.

---

## üìå **Transfer Learning**

* Estrategia en la que un modelo previamente **entrenado en una tarea grande** (ej. clasificaci√≥n en ImageNet con millones de im√°genes) se reutiliza para otra tarea similar.
* Se puede:

  1. **Congelar capas** iniciales (que extraen caracter√≠sticas generales como bordes, texturas).
  2. **Reentrenar solo las capas finales** para la nueva tarea (ej. clasificar radiograf√≠as en lugar de gatos/perros).
* ‚úÖ Beneficio: permite entrenar modelos con **pocos datos** y en **menos tiempo**.

---

## üìå **ResNet18**

* Es una **Red Residual (Residual Network)** propuesta por Microsoft en 2015.
* "18" significa que tiene **18 capas de profundidad** (convolucionales + fully connected).
* Introduce el concepto de **skip connections (conexiones residuales)**:

  * En lugar de pasar siempre "capa ‚Üí capa ‚Üí capa", se permite que la entrada se sume directamente a la salida de una capa posterior.
  * Esto resuelve el problema del **desvanecimiento del gradiente** y permite entrenar redes **muy profundas** (cientos de capas).

üìå Estructura simplificada de ResNet18:

* 1 capa convolucional inicial.
* 4 bloques residuales principales, cada uno con 2 capas convolucionales.
* Una capa *fully connected* final.

---

La **ResNet18 preentrenada** que se encuentra en librer√≠as como **PyTorch** o **Torchvision** normalmente est√° entrenada en **ImageNet** üñºÔ∏è, un dataset enorme con **m√°s de 1 mill√≥n de im√°genes en 1000 clases diferentes**.

üëâ Dentro de esas 1000 clases se tienen categor√≠as de:

* Animales (aves, peces, insectos, mam√≠feros, etc.).
* Objetos cotidianos (sillas, tazas, autos, relojes, etc.).
* Escenas naturales.

---

‚úÖ **Entonces:**

* Gracias a **transfer learning**, se puede reutilizar y **adaptar para clasificar perros vs gatos** (binaria), ajustando solo las √∫ltimas capas.

---


### **Ejemplo sencillo en PyTorch** usando una **LSTM** para clasificaci√≥n de texto (positivo/negativo) con un dataset de juguete.


### Explicaci√≥n r√°pida:

* **Embedding**: convierte √≠ndices de palabras en vectores densos.
* **LSTM**: procesa la secuencia y devuelve un hidden state final.
* **Linear + Softmax**: convierte el hidden state en probabilidades de clases.


---


In [None]:
import torch
import torch.nn as nn
import torch.optim as optim

# -----------------------------
# 1. Datos de ejemplo (toy)
# -----------------------------
# Supongamos vocabulario reducido: {0:PAD, 1:good, 2:bad, 3:movie, 4:boring, 5:great}
sentences = [
    [1, 3, 5],   # "good movie great" (positivo)
    [2, 3, 4],   # "bad movie boring" (negativo)
    [1, 5],      # "good great" (positivo)
    [2, 4]       # "bad boring" (negativo)
]
labels = [1, 0, 1, 0]  # 1: positivo, 0: negativo

# Padding para igualar longitudes
max_len = max(len(s) for s in sentences)
X = [s + [0]*(max_len-len(s)) for s in sentences]
X = torch.tensor(X)
y = torch.tensor(labels)

# -----------------------------
# 2. Definir modelo LSTM
# -----------------------------
class SentimentRNN(nn.Module):
    def __init__(self, vocab_size, embed_dim, hidden_dim, output_dim):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim)
        self.lstm = nn.LSTM(embed_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        embedded = self.embedding(x)              # (batch, seq_len, embed_dim)
        output, (h_n, c_n) = self.lstm(embedded) # h_n: (1, batch, hidden_dim)
        out = self.fc(h_n[-1])                   # Usamos el √∫ltimo hidden state
        return out

# -----------------------------
# 3. Entrenamiento
# -----------------------------
vocab_size = 6   # tokens del 0 al 5
embed_dim = 8
hidden_dim = 16
output_dim = 2   # positivo / negativo

model = SentimentRNN(vocab_size, embed_dim, hidden_dim, output_dim)

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)

for epoch in range(20):
    optimizer.zero_grad()
    y_pred = model(X)
    loss = criterion(y_pred, y)
    loss.backward()
    optimizer.step()
    if (epoch+1) % 5 == 0:
        print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

# -----------------------------
# 4. Prueba con nueva frase
# -----------------------------
test = torch.tensor([[1, 3, 5]])  # "good movie great"
pred = model(test)
print("Predicci√≥n:", torch.argmax(pred, dim=1).item())  # 1 = positivo

Este script crea y entrena una red neuronal simple para **an√°lisis de sentimientos**. El objetivo es clasificar frases como positivas o negativas.

-----

### \#\# 1. Datos de Ejemplo y Preprocesamiento

En esta secci√≥n, se preparan los datos para que el modelo pueda procesarlos.

```python
# Supongamos vocabulario reducido: {0:PAD, 1:good, 2:bad, 3:movie, 4:boring, 5:great}
sentences = [
    [1, 3, 5],   # "good movie great" (positivo)
    [2, 3, 4],   # "bad movie boring" (negativo)
    [1, 5],      # "good great" (positivo)
    [2, 4]       # "bad boring" (negativo)
]
labels = [1, 0, 1, 0]  # 1: positivo, 0: negativo

# Padding para igualar longitudes
max_len = max(len(s) for s in sentences)
X = [s + [0]*(max_len-len(s)) for s in sentences]

# Conversi√≥n a tensores de PyTorch
X = torch.tensor(X)
y = torch.tensor(labels)
```

1.  **Datos Crudos**: `sentences` contiene las oraciones, pero en lugar de palabras, usa n√∫meros (IDs o "tokens") que las representan. `labels` contiene la clasificaci√≥n de cada oraci√≥n (1 para positiva, 0 para negativa).

2.  **Padding (Relleno)**: Las redes neuronales necesitan que todas las entradas de un lote tengan el mismo tama√±o. Como las oraciones `"good great"` (2 palabras) y `"good movie great"` (3 palabras) tienen longitudes distintas, se aplica un **padding**. Se a√±ade el token `0` (que definimos como `PAD` o relleno) a las oraciones m√°s cortas hasta que todas midan lo mismo que la m√°s larga (que es 3).

      * `[1, 5]` se convierte en `[1, 5, 0]`.
      * `[2, 4]` se convierte en `[2, 4, 0]`.

3.  **Tensores**: `torch.tensor()` convierte las listas de Python en **tensores de PyTorch**. Los tensores son la estructura de datos fundamental que PyTorch utiliza para realizar c√°lculos eficientes en CPUs y GPUs.

-----

### \#\# 2. Definici√≥n del Modelo (SentimentRNN) üß†

Aqu√≠ se define la arquitectura de la red neuronal usando una clase que hereda de `nn.Module`. El modelo tiene tres capas principales.

```python
class SentimentRNN(nn.Module):
    def __init__(self, vocab_size, embed_dim, hidden_dim, output_dim):
        super().__init__()
        # 1. Capa de Embedding
        self.embedding = nn.Embedding(vocab_size, embed_dim)
        # 2. Capa LSTM
        self.lstm = nn.LSTM(embed_dim, hidden_dim, batch_first=True)
        # 3. Capa de Salida (Clasificador)
        self.fc = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        embedded = self.embedding(x)
        output, (h_n, c_n) = self.lstm(embedded)
        out = self.fc(h_n[-1])
        return out
```

#### **Las Capas (en `__init__`)**

1.  **`nn.Embedding`**: Esta capa es crucial. Convierte cada ID de palabra (un n√∫mero como `5`) en un **vector denso** de un tama√±o fijo (`embed_dim`, en este caso 8). Este vector, llamado "embedding", captura el significado sem√°ntico de la palabra. En lugar de ser solo un n√∫mero, la palabra "great" se convierte en un vector como `[0.1, -0.5, 0.8, ...]`. El modelo **aprende** estos vectores durante el entrenamiento.

2.  **`nn.LSTM`**: Es el coraz√≥n del modelo. Una LSTM (Long Short-Term Memory) es un tipo de red neuronal recurrente (RNN) dise√±ada para procesar secuencias. Recorre los vectores de las palabras uno por uno, "recordando" el contexto de la oraci√≥n. `batch_first=True` es una configuraci√≥n de conveniencia que indica que nuestros datos tendr√°n la dimensi√≥n del lote primero.

3.  **`nn.Linear`**: Es una capa de clasificaci√≥n final. Toma la informaci√≥n procesada por la LSTM y la transforma en una salida del tama√±o deseado (`output_dim`, que es 2). Producir√° una puntuaci√≥n (o "logit") para cada clase (positiva y negativa).

#### **El Flujo de Datos (en `forward`)**

La funci√≥n `forward` define c√≥mo los datos pasan a trav√©s de las capas:

1.  `embedded = self.embedding(x)`: Los IDs de entrada (`x`) se convierten en vectores de embedding.
2.  `output, (h_n, c_n) = self.lstm(embedded)`: La secuencia de vectores se procesa con la LSTM. La LSTM devuelve dos cosas: `output` (el estado de cada paso en la secuencia) y `(h_n, c_n)` (el √∫ltimo estado oculto y de celda, que act√∫an como un **resumen de toda la oraci√≥n**).
3.  `out = self.fc(h_n[-1])`: Usamos solo el **√∫ltimo estado oculto** (`h_n[-1]`) como la representaci√≥n final de la oraci√≥n. Este vector-resumen se pasa a la capa lineal para obtener las puntuaciones de clasificaci√≥n finales.

-----

### \#\# 3. Entrenamiento del Modelo ‚öôÔ∏è

Esta secci√≥n configura todo lo necesario para el entrenamiento y ejecuta el bucle de entrenamiento.

```python
# Hiperpar√°metros
vocab_size = 6
embed_dim = 8
hidden_dim = 16
output_dim = 2

# Instanciaci√≥n
model = SentimentRNN(vocab_size, embed_dim, hidden_dim, output_dim)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)

# Bucle de entrenamiento
for epoch in range(20):
    # 1. Poner a cero los gradientes
    optimizer.zero_grad()
    # 2. Forward pass: Obtener predicciones
    y_pred = model(X)
    # 3. Calcular la p√©rdida
    loss = criterion(y_pred, y)
    # 4. Backward pass: Calcular gradientes
    loss.backward()
    # 5. Actualizar los pesos
    optimizer.step()
```

1.  **Hiperpar√°metros**: Son las "perillas" que ajustamos para configurar el modelo, como el tama√±o del vocabulario, la dimensi√≥n de los embeddings, etc. `output_dim = 2` porque tenemos dos clases: positiva (1) y negativa (0).

2.  **Funci√≥n de P√©rdida (`criterion`)**: `nn.CrossEntropyLoss` es una funci√≥n muy com√∫n para problemas de clasificaci√≥n. Mide qu√© tan equivocadas est√°n las predicciones del modelo en comparaci√≥n con las etiquetas verdaderas (`y`).

3.  **Optimizador (`optimizer`)**: `optim.Adam` es el algoritmo que ajusta los pesos (par√°metros) del modelo para minimizar la p√©rdida. B√°sicamente, mira el error y dice "vamos a mover los pesos en esta direcci√≥n para equivocarnos un poco menos la pr√≥xima vez".

4.  **Bucle de Entrenamiento**: Es el proceso iterativo donde el modelo aprende. En cada `epoch` (una pasada completa por todos los datos):

      * `optimizer.zero_grad()`: Limpia los c√°lculos de la iteraci√≥n anterior.
      * `y_pred = model(X)`: El modelo hace una predicci√≥n (**Forward Pass**).
      * `loss = criterion(...)`: Se calcula el error.
      * `loss.backward()`: Se calculan los gradientes, que indican c√≥mo debe cambiar cada peso para reducir el error (**Backward Pass**).
      * `optimizer.step()`: El optimizador actualiza los pesos del modelo bas√°ndose en los gradientes.

-----

### \#\# 4. Prueba con una Nueva Frase üöÄ

Despu√©s de que el modelo ha sido entrenado, podemos usarlo para hacer predicciones sobre datos que nunca ha visto.

```python
test = torch.tensor([[1, 3, 5]])  # "good movie great"
pred = model(test)
print("Predicci√≥n:", torch.argmax(pred, dim=1).item())
```

1.  Se crea un tensor para la frase de prueba `"good movie great"`.
2.  Se pasa por el modelo ya entrenado para obtener las puntuaciones `pred`. El resultado ser√° un tensor con dos valores, por ejemplo `[-2.1, 3.5]`.
3.  `torch.argmax(pred, dim=1)` encuentra el **√≠ndice** del valor m√°s alto. En el ejemplo `[-2.1, 3.5]`, el valor m√°s alto est√° en el √≠ndice `1`.
4.  Como definimos nuestras etiquetas (`labels`) con `1` para "positivo", un resultado de `1` significa que el modelo clasific√≥ la frase como **positiva**. `.item()` simplemente extrae el n√∫mero del tensor.

## Clasificaci√≥n de Perros y Gatos

## 1. Cargar dataset p√∫blico (HuggingFace)

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset
from datasets import load_dataset
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
from torchvision.models import resnet18, ResNet18_Weights

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Usando dispositivo:", device)

In [None]:
dataset = load_dataset("microsoft/cats_vs_dogs")

# Dividir en 80% train / 20% test
dataset = dataset["train"].train_test_split(test_size=0.2)

print(dataset)

## 2. Transformaciones (Data Augmentation + Normalizaci√≥n)

In [None]:
transform_train = transforms.Compose([
    transforms.Resize((224,224)),
    transforms.RandomResizedCrop(224, scale=(0.8, 1.0)),
    transforms.RandomHorizontalFlip(),
    transforms.RandomRotation(10),
    transforms.ColorJitter(brightness=0.3, contrast=0.3, saturation=0.3),
    transforms.Lambda(lambda img: img.convert("RGB")),  # ‚ö†Ô∏è convertir a RGB
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225]),
])

transform_test = transforms.Compose([
    transforms.Resize((224,224)),
    transforms.Lambda(lambda img: img.convert("RGB")),  # ‚ö†Ô∏è convertir a RGB
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225]),
])

## 3. Adaptador HuggingFace ‚Üí PyTorch Dataset

In [None]:
class CatsDogsDataset(Dataset):
    def __init__(self, hf_dataset, transform=None):
        self.data = hf_dataset
        self.transform = transform
    def __len__(self):
        return len(self.data)
    def __getitem__(self, idx):
        img = self.data[idx]["image"]
        label = self.data[idx]["labels"]   # ‚ö†Ô∏è usar 'labels' en lugar de 'file'

        if self.transform:
            img = self.transform(img)
        return img, torch.tensor(label, dtype=torch.long)

train_ds = CatsDogsDataset(dataset["train"], transform=transform_train)
test_ds  = CatsDogsDataset(dataset["test"], transform=transform_test)

train_dl = DataLoader(train_ds, batch_size=32, shuffle=True)
test_dl  = DataLoader(test_ds, batch_size=32)

## 4. Definir modelo (ResNet18 con pesos de ImageNet)

In [None]:
weights = ResNet18_Weights.DEFAULT
model = resnet18(weights=weights)

# Congelar todas las capas excepto las √∫ltimas
for name, param in model.named_parameters():
    if "layer4" in name or "fc" in name:
        param.requires_grad = True
    else:
        param.requires_grad = False

# Reemplazar la √∫ltima capa para 2 clases
model.fc = nn.Linear(model.fc.in_features, 2)
model = model.to(device)

## 5. Entrenamiento con Early Stopping

In [None]:
loss_fn = nn.CrossEntropyLoss()
opt = optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=1e-5)

#n_epochs = 20
n_epochs = 1
patience = 3
best_acc = 0
epochs_no_improve = 0

for epoch in range(n_epochs):
    # --- Entrenamiento ---
    model.train()
    running_loss = 0.0
    for xb, yb in train_dl:
        xb, yb = xb.to(device), yb.to(device)
        preds = model(xb)
        loss = loss_fn(preds, yb)

        opt.zero_grad()
        loss.backward()
        opt.step()
        running_loss += loss.item()

    # --- Evaluaci√≥n ---
    model.eval()
    correct, total = 0, 0
    with torch.no_grad():
        for xb, yb in test_dl:
            xb, yb = xb.to(device), yb.to(device)
            preds = model(xb).argmax(dim=1)
            correct += (preds == yb).sum().item()
            total += yb.size(0)

    acc = correct / total
    print(f"Epoch {epoch+1}, Loss={running_loss/len(train_dl):.4f}, Val Acc={acc:.4f}")

    if acc > best_acc:
        best_acc = acc
        epochs_no_improve = 0
        torch.save(model.state_dict(), "best_catsdogs.pth")
    else:
        epochs_no_improve += 1
        if epochs_no_improve >= patience:
            print("Early stopping activado")
            break

print("Mejor accuracy alcanzado:", best_acc)

## 6. Visualizaci√≥n de predicciones

In [None]:

images, labels = next(iter(test_dl))
images, labels = images.to(device), labels.to(device)
preds = model(images).argmax(dim=1)

plt.figure(figsize=(12,6))
for i in range(8):
    plt.subplot(2,4,i+1)
    img = images[i].cpu().permute(1,2,0).numpy()
    img = (img * [0.229, 0.224, 0.225] + [0.485, 0.456, 0.406]).clip(0,1)  # desnormalizar
    plt.imshow(img)
    plt.title(f"Real: {labels[i].item()}, Pred: {preds[i].item()}")
    plt.axis("off")
plt.show()

## Preguntas de Discusi√≥n

1. ¬øQu√© ventajas ofrece usar un modelo preentrenado (transfer learning) frente a entrenar desde cero?
2. ¬øPor qu√© es √∫til congelar capas en el inicio del entrenamiento y ajustar solo la √∫ltima capa?
3. ¬øC√≥mo ayuda el *data augmentation* a mejorar la capacidad de generalizaci√≥n del modelo?
4. ¬øQu√© diferencias observas en el rendimiento al descongelar m√°s capas para el fine-tuning?
5. ¬øQu√© rol cumple la normalizaci√≥n con los valores de ImageNet en la estabilidad del entrenamiento?
6. ¬øC√≥mo decide el early stopping cu√°ndo detener el entrenamiento y por qu√© es importante?
7. ¬øQu√© m√©tricas adicionales (adem√°s de accuracy) podr√≠an ser √∫tiles en este problema?
8. ¬øC√≥mo se podr√≠a mejorar a√∫n m√°s el modelo si se dispusiera de m√°s recursos computacionales?

## üí° Preguntas de Discusi√≥n (desarrolladas)

1. **¬øQu√© ventajas ofrece usar un modelo preentrenado (transfer learning) frente a entrenar desde cero?**

   * Entrenar desde cero requiere grandes cantidades de datos y mucho tiempo de c√≥mputo.
   * Los modelos preentrenados en ImageNet ya han aprendido caracter√≠sticas generales (bordes, texturas, formas), que son √∫tiles para muchos problemas de visi√≥n.
   * Con *transfer learning*, solo se adapta la parte final de la red al nuevo conjunto de clases, logrando **mejor rendimiento con menos datos y menos tiempo de entrenamiento**.

---

2. **¬øPor qu√© es √∫til congelar capas en el inicio del entrenamiento y ajustar solo la √∫ltima capa?**

   * Las primeras capas de una CNN aprenden caracter√≠sticas muy generales (l√≠neas, bordes, patrones de color).
   * Si se ajustan todas desde el inicio, se corre el riesgo de *desaprender* esas representaciones √∫tiles.
   * Congelarlas permite entrenar m√°s r√°pido y reducir el riesgo de sobreajuste, enfocando el aprendizaje solo en la capa de clasificaci√≥n final.

---

3. **¬øC√≥mo ayuda el *data augmentation* a mejorar la capacidad de generalizaci√≥n del modelo?**

   * Genera versiones modificadas de las im√°genes (rotadas, espejadas, con variaciones de color).
   * Esto obliga al modelo a aprender **patrones invariantes** a peque√±as transformaciones, en lugar de memorizar ejemplos concretos.
   * Mejora la robustez y reduce el riesgo de sobreajuste cuando los datasets son peque√±os.

---

4. **¬øQu√© diferencias observas en el rendimiento al descongelar m√°s capas para el fine-tuning?**

   * Congelar casi todo ‚Üí entrenamiento r√°pido pero menos capacidad de adaptaci√≥n al nuevo dominio.
   * Descongelar √∫ltimas capas ‚Üí mejor ajuste al dataset objetivo, a costa de m√°s tiempo de entrenamiento.
   * Descongelar toda la red ‚Üí mayor capacidad de adaptaci√≥n, pero mayor riesgo de sobreajuste si el dataset es peque√±o.
   * En la pr√°ctica, **descongelar gradualmente** (empezando desde las √∫ltimas capas) suele dar los mejores resultados.

---

5. **¬øQu√© rol cumple la normalizaci√≥n con los valores de ImageNet en la estabilidad del entrenamiento?**

   * Los modelos preentrenados esperan entradas con la misma estad√≠stica que los datos de ImageNet.
   * Normalizar con `mean=[0.485, 0.456, 0.406]` y `std=[0.229, 0.224, 0.225]` alinea la distribuci√≥n de p√≠xeles con la que el modelo fue entrenado originalmente.
   * Esto evita desajustes que podr√≠an degradar el rendimiento o dificultar la convergencia.

---

6. **¬øC√≥mo decide el early stopping cu√°ndo detener el entrenamiento y por qu√© es importante?**

   * Early stopping monitorea una m√©trica de validaci√≥n (ej. p√©rdida o accuracy).
   * Si no mejora despu√©s de un n√∫mero definido de √©pocas (*patience*), se detiene el entrenamiento.
   * Esto evita que el modelo siga ajust√°ndose al conjunto de entrenamiento mientras empeora en el de validaci√≥n (sobreajuste).
   * Tambi√©n ahorra tiempo y recursos.

---

7. **¬øQu√© m√©tricas adicionales (adem√°s de accuracy) podr√≠an ser √∫tiles en este problema?**

   * **Precisi√≥n (precision):** proporci√≥n de predicciones positivas correctas (√∫til si queremos pocas falsas alarmas).
   * **Recall (sensibilidad):** proporci√≥n de verdaderos positivos detectados (√∫til si no queremos dejar escapar casos).
   * **F1-score:** balance entre precisi√≥n y recall.
   * **Matriz de confusi√≥n:** para ver qu√© clases se confunden m√°s.
   * **AUC-ROC:** mide la capacidad de distinguir entre clases en distintos umbrales.

---

8. **¬øC√≥mo se podr√≠a mejorar a√∫n m√°s el modelo si se dispusiera de m√°s recursos computacionales?**

   * Usar arquitecturas m√°s grandes y potentes (**ResNet50, EfficientNet, Vision Transformers**).
   * Entrenar durante m√°s √©pocas con estrategias de regularizaci√≥n (dropout, weight decay).
   * Aumentar la resoluci√≥n de entrada (224√ó224 ‚Üí 384√ó384).
   * Usar *ensembles* de varios modelos para combinar predicciones.
   * Aplicar *semi-supervised learning* o *self-supervised pretraining* para aprovechar datos no etiquetados.

