## üîπ Concepto
Una **Convolutional Neural Network (CNN)** es una red neuronal especializada en datos con estructura espacial, como im√°genes.  
Las CNN aprenden autom√°ticamente **caracter√≠sticas jer√°rquicas** mediante:
- **Convoluciones:** filtros que extraen patrones locales (bordes, texturas).  
- **Pooling:** reducci√≥n de dimensionalidad y estabilidad frente a traslaciones.  
- **Capas fully connected:** combinan las caracter√≠sticas para producir la salida final.

En esta secci√≥n entrenaremos una **CNN desde cero** sobre el dataset **CIFAR-10** (im√°genes 32x32, 10 clases).

In [4]:
# üîπ Importar librer√≠as y preparar dataset CIFAR-10
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

device = torch.device('cpu')

# Transformaciones: normalizaci√≥n + aumento simple
transform_train = transforms.Compose([
    transforms.RandomHorizontalFlip(),
    transforms.RandomCrop(32, padding=4),
    transforms.ToTensor(),
    transforms.Normalize((0.5,0.5,0.5), (0.5,0.5,0.5))
])

transform_test = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,0.5,0.5), (0.5,0.5,0.5))
])

train_dataset = datasets.CIFAR10(root='./data', train=True, download=True, transform=transform_train)
test_dataset = datasets.CIFAR10(root='./data', train=False, download=True, transform=transform_test)

train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=64, shuffle=False)


Files already downloaded and verified
Files already downloaded and verified


## üîπ Definici√≥n de la CNN
La arquitectura b√°sica incluye:
- 2 capas convolucionales con ReLU + MaxPooling
- Capa fully connected con Dropout para prevenir overfitting
- Softmax impl√≠cito en CrossEntropyLoss

# üîπ Convolutional Neural Networks (CNNs) ‚Äì Explicaci√≥n completa

Una **CNN (Convolutional Neural Network)** es un tipo de red neuronal especializada en datos con estructura de grilla, como im√°genes, y est√° dise√±ada para aprender **representaciones jer√°rquicas** mediante una combinaci√≥n de capas convolucionales, funciones de activaci√≥n, pooling, fully connected y t√©cnicas de regularizaci√≥n como Dropout y Batch Normalization. La idea principal es extraer autom√°ticamente caracter√≠sticas relevantes de las im√°genes sin necesidad de ingenier√≠a manual de features.

Las **capas convolucionales** (`nn.Conv2d`) aplican filtros (kernels) sobre la imagen de entrada para capturar patrones locales como bordes, texturas o formas. Cada filtro genera un **mapa de activaci√≥n**, y la cantidad de filtros se define por el par√°metro `out_channels`. Los par√°metros principales de una convoluci√≥n son `in_channels` (canales de entrada, por ejemplo 3 para RGB), `out_channels` (n√∫mero de filtros), `kernel_size` (tama√±o del filtro, por ejemplo 3x3), `stride` (paso de desplazamiento del filtro) y `padding` (relleno de ceros alrededor de la imagen para mantener dimensiones). La salida de una convoluci√≥n es un tensor de forma `[batch_size, out_channels, H_out, W_out]`.

Despu√©s de la convoluci√≥n se aplica una **funci√≥n de activaci√≥n** para introducir no linealidad en el modelo. Las m√°s comunes son: **ReLU**, que toma el m√°ximo entre cero y la entrada, evitando gradientes desaparecientes; **Sigmoid**, √∫til para probabilidades, pero que puede saturar en valores extremos; y **Tanh**, que centra la salida entre -1 y 1, aunque tambi√©n puede saturar los gradientes.

Luego se suelen aplicar capas de **pooling**, generalmente `MaxPool2d`, que reducen las dimensiones espaciales del mapa de activaciones conservando la informaci√≥n m√°s relevante. Esto disminuye la complejidad del modelo, hace que la red sea m√°s resistente a traslaciones y reduce la cantidad de par√°metros en las capas posteriores. Por ejemplo, un `MaxPool2d(2)` reduce la altura y anchura a la mitad tomando el valor m√°ximo de cada bloque 2x2.

Despu√©s de varias capas de convoluci√≥n + activaci√≥n + pooling, los mapas de activaci√≥n se **aplanan** (`x.view(x.size(0), -1)`) para ser procesados por capas **fully connected** (`nn.Linear`). Estas capas conectan todas las neuronas de la entrada con todas las neuronas de la salida, combinando las caracter√≠sticas extra√≠das por las convoluciones para generar la predicci√≥n final. Los par√°metros de `nn.Linear` son `in_features` (n√∫mero de entradas, normalmente la salida aplanada) y `out_features` (n√∫mero de salidas, por ejemplo el n√∫mero de clases).

Para mejorar la **generalizaci√≥n y evitar overfitting**, se suele usar **Dropout** (`nn.Dropout(p)`), que apaga aleatoriamente un porcentaje `p` de neuronas durante el entrenamiento. Esto fuerza a la red a no depender excesivamente de ciertas neuronas y distribuye la informaci√≥n entre todas.


# üîπ Explicaci√≥n detallada de cada capa

### 1Ô∏è‚É£ nn.Conv2d(3, 32, kernel_size=3, padding=1)
- **Prop√≥sito:** capa convolucional que extrae caracter√≠sticas locales de la imagen.
- **Par√°metros:**
  - `3`: n√∫mero de canales de entrada. Ejemplo: 3 para im√°genes RGB.
  - `32`: n√∫mero de filtros (o mapas de activaci√≥n) que se aplicar√°n, es decir, cu√°ntas caracter√≠sticas distintas extraer√° esta capa.
  - `kernel_size=3`: tama√±o del filtro (3x3). Este filtro se mueve sobre la imagen aplicando un producto punto local.
  - `padding=1`: agrega un borde de ceros alrededor de la imagen para mantener las dimensiones (H y W) iguales despu√©s de la convoluci√≥n.

- **Salida:** si la imagen de entrada era 32x32x3, la salida ser√° 32x32x32 (altura x anchura x filtros).

---

### 2Ô∏è‚É£ nn.ReLU()
- **Prop√≥sito:** funci√≥n de activaci√≥n no lineal.
- **Qu√© hace:** reemplaza todos los valores negativos por 0.  
- **Por qu√© se usa:** introduce no linealidad y evita el problema de gradientes desaparecidos en redes profundas.

---

### 3Ô∏è‚É£ nn.MaxPool2d(2)
- **Prop√≥sito:** capa de *pooling* para reducir las dimensiones espaciales.
- **Par√°metros:**
  - `2`: tama√±o de la ventana de pooling (2x2).  
- **Qu√© hace:** divide la entrada en bloques 2x2 y toma el valor m√°ximo de cada bloque.
- **Efecto:** reduce la altura y anchura a la mitad (por ejemplo, de 32x32 a 16x16), manteniendo la profundidad (n√∫mero de filtros).

---

### 4Ô∏è‚É£ nn.Conv2d(32, 64, kernel_size=3, padding=1)
- **Prop√≥sito:** segunda capa convolucional que extrae caracter√≠sticas m√°s complejas.
- **Par√°metros:**
  - `32`: canales de entrada (provenientes de la salida de la capa anterior).
  - `64`: n√∫mero de filtros, aumentando la capacidad de aprender caracter√≠sticas m√°s abstractas.
  - `kernel_size=3`: tama√±o del filtro (3x3).
  - `padding=1`: mantiene la dimensi√≥n espacial igual.

- **Salida:** si la entrada era 16x16x32, la salida ser√° 16x16x64.

---

### 5Ô∏è‚É£ nn.ReLU()
- Igual que la primera ReLU, aplica no linealidad.

---

### 6Ô∏è‚É£ nn.MaxPool2d(2)
- Igual que la primera capa de pooling.
- Reduce las dimensiones de 16x16 a 8x8, manteniendo los 64 mapas de activaci√≥n.


El **flujo completo** de una CNN t√≠pica para im√°genes 32x32x3 (como CIFAR-10) ser√≠a:

1. Entrada: Imagen 32x32x3.
2. Conv2d(3‚Üí32, 3x3) + ReLU ‚Üí extracci√≥n de caracter√≠sticas locales.
3. MaxPool2d(2) ‚Üí reducci√≥n de dimensi√≥n espacial a 16x16x32.
4. Conv2d(32‚Üí64, 3x3) + ReLU ‚Üí extracci√≥n de caracter√≠sticas m√°s complejas.
5. MaxPool2d(2) ‚Üí reducci√≥n a 8x8x64.
6. Conv2d(64‚Üí128, 3x3) + ReLU ‚Üí caracter√≠sticas de alto nivel.
7. MaxPool2d(2) ‚Üí reducci√≥n a 4x4x128.
8. Flatten ‚Üí tensor de 2048 neuronas (4*4*128).
9. Linear(2048‚Üí256) + ReLU ‚Üí combinaci√≥n de caracter√≠sticas.
10. Dropout(p=0.5) ‚Üí regularizaci√≥n.
11. Linear(256‚Üí10) ‚Üí salida final de clases.

Durante el **forward pass**, la imagen pasa por todas estas capas generando activaciones que representan cada vez niveles m√°s abstractos de la informaci√≥n. Luego se calcula la **p√©rdida** comparando la predicci√≥n con la verdad (por ejemplo, `CrossEntropyLoss`). En el **backward pass**, se calculan los gradientes mediante **backpropagation**, y un **optimizador** (Adam, SGD, RMSProp) actualiza los pesos. El entrenamiento se realiza por **√©pocas**, mejorando iterativamente la capacidad de la red para generalizar.

Opcionalmente, se puede usar **Batch Normalization** para normalizar las activaciones dentro de cada mini-batch, estabilizando y acelerando el entrenamiento. Tambi√©n se puede aplicar **gradient clipping** para limitar el tama√±o de los gradientes y evitar explosiones.

Las CNNs son muy efectivas en **clasificaci√≥n, detecci√≥n de objetos, segmentaci√≥n de im√°genes y reconocimiento de patrones**. Adem√°s, se pueden usar en **Transfer Learning**, aprovechando modelos preentrenados como ResNet o VGG y reemplazando solo la √∫ltima capa para adaptarlos a un nuevo dataset, reduciendo tiempos de entrenamiento y mejorando performance.

En resumen, una CNN combina convoluciones, activaciones, pooling, fully connected y regularizaci√≥n para aprender representaciones jer√°rquicas de im√°genes de manera eficiente, y cada componente influye en la capacidad de aprendizaje, velocidad de entrenamiento y generalizaci√≥n del modelo.


In [7]:
class SimpleCNN(nn.Module):
    def __init__(self, num_classes=10):
        super().__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 32, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2),
            nn.Conv2d(32, 64, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2)
        )
        self.classifier = nn.Sequential(
            nn.Linear(64*8*8, 128),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(128, num_classes)
        )
    
    def forward(self, x):
        x = self.features(x)
        x = x.view(x.size(0), -1)
        x = self.classifier(x)
        return x

cnn_model = SimpleCNN().to(device)


## üîπ Entrenamiento de la CNN
Usamos **Adam** como optimizador y **CrossEntropyLoss** para clasificaci√≥n m√∫ltiple.  
Entrenaremos por unas pocas √©pocas para demostraci√≥n.

In [9]:
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(cnn_model.parameters(), lr=0.001)

def train(model, loader, epochs=10):
    for epoch in range(epochs):
        model.train()
        total_loss = 0
        correct = 0
        total = 0
        for x, y in loader:
            x, y = x.to(device), y.to(device)
            optimizer.zero_grad()
            y_pred = model(x)
            loss = criterion(y_pred, y)
            loss.backward()
            optimizer.step()
            total_loss += loss.item()
            _, predicted = y_pred.max(1)
            correct += predicted.eq(y).sum().item()
            total += y.size(0)
        acc = correct / total
        print(f"Epoch {epoch+1} | Loss: {total_loss/len(loader):.4f} | Accuracy: {acc:.4f}")

train(cnn_model, train_loader, epochs=10)


Epoch 1 | Loss: 1.1488 | Accuracy: 0.5928
Epoch 2 | Loss: 1.1182 | Accuracy: 0.6062
Epoch 3 | Loss: 1.0852 | Accuracy: 0.6189
Epoch 4 | Loss: 1.0630 | Accuracy: 0.6255
Epoch 5 | Loss: 1.0428 | Accuracy: 0.6320
Epoch 6 | Loss: 1.0285 | Accuracy: 0.6372
Epoch 7 | Loss: 1.0089 | Accuracy: 0.6456
Epoch 8 | Loss: 1.0002 | Accuracy: 0.6508
Epoch 9 | Loss: 0.9865 | Accuracy: 0.6576
Epoch 10 | Loss: 0.9761 | Accuracy: 0.6585
