# Ejercicio 7: Clasificación MNIST con PyTorch

**Objetivo:** Implementar el mismo problema de clasificación MNIST usando PyTorch para comparar la estructura y flujo de trabajo.

**Librerías:** `torch`, `torchvision`, `numpy`, `matplotlib`

In [None]:
# Importar librerías
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import numpy as np
import matplotlib.pyplot as plt

# Configuración para mostrar gráficos en el notebook
%matplotlib inline

**1. Carga el dataset MNIST usando `torchvision.datasets.MNIST`.**
Aplica las transformaciones necesarias (`ToTensor`, `Normalize`).

In [None]:
# Definir transformaciones
# ToTensor convierte la imagen PIL (rango [0, 255]) a un Tensor Float (rango [0.0, 1.0])
# Normalize ajusta el rango a [-1.0, 1.0] para media 0.5 y std 0.5 (común para MNIST)
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,)) # Media y Desviación Estándar para un canal (escala de grises)
])

# Descargar/Cargar datasets de entrenamiento y prueba
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)

print("Datasets cargados.")
print("Tamaño del dataset de entrenamiento:", len(train_dataset))
print("Tamaño del dataset de prueba:", len(test_dataset))

**2. Crea DataLoaders para los conjuntos de entrenamiento y prueba.**

In [None]:
# Definir tamaño del batch
batch_size = 128 # Puede ser el mismo que en Keras o diferente

# Crear DataLoaders
train_loader = DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(dataset=test_dataset, batch_size=batch_size, shuffle=False) # No es necesario barajar para prueba

print("DataLoaders creados.")

**3. Define la arquitectura de la red neuronal.**
Crea una clase que herede de `torch.nn.Module` con:
* Entrada: 784 (imágenes aplanadas 28x28).
* Capa oculta: 128 neuronas con activación ReLU.
* Capa de salida: 10 neuronas (una por dígito).

In [None]:
# Tu código aquí
class MLP(nn.Module):
    def __init__(self):
        super(MLP, self).__init__()
        # ... Definir capa de entrada a oculta (nn.Linear)
        # ... Definir capa oculta a salida (nn.Linear)
        # ... (Opcional) Definir activación ReLU (nn.ReLU)
        # ... (Opcional) Definir Dropout (nn.Dropout)

    def forward(self, x):
        # Aplanar la imagen de entrada (batch_size, 1, 28, 28) a (batch_size, 784)
        x = x.view(x.size(0), -1) 
        # ... Pasar x por la primera capa lineal
        # ... Aplicar ReLU
        # ... (Opcional) Aplicar Dropout
        # ... Pasar por la capa de salida
        return x # La salida son los logits (sin Softmax)

# Instanciar el modelo
model = MLP()
print(model)

**4. Define la función de pérdida y el optimizador.**
* Pérdida: `CrossEntropyLoss` (combina LogSoftmax y NLLLoss).
* Optimizador: `Adam`.

In [None]:
# Tu código aquí
criterion = # ... instanciar nn.CrossEntropyLoss()
optimizer = # ... instanciar optim.Adam(model.parameters(), lr=0.001) # lr es la tasa de aprendizaje

**5. Implementa el bucle de entrenamiento.**

In [None]:
# Definir número de épocas
epochs = 10

# Mover el modelo a la GPU si está disponible (opcional)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

print(f"Entrenando en: {device}")

# Bucle de entrenamiento
for epoch in range(epochs):
    model.train() # Poner el modelo en modo entrenamiento
    running_loss = 0.0
    for i, (images, labels) in enumerate(train_loader):
        # Mover datos a la GPU (opcional)
        images, labels = images.to(device), labels.to(device)
        
        # 1. Poner a cero los gradientes
        # Tu código aquí
        
        # 2. Forward pass: pasar las imágenes por el modelo
        # Tu código aquí
        outputs = # ...
        
        # 3. Calcular la pérdida
        # Tu código aquí
        loss = # ... criterion(outputs, labels)
        
        # 4. Backward pass: calcular gradientes
        # Tu código aquí
        
        # 5. Actualizar pesos
        # Tu código aquí
        
        # Imprimir estadísticas cada cierto número de batches
        running_loss += loss.item()
        if (i+1) % 100 == 0: # Cada 100 batches
            print(f'Epoch [{epoch+1}/{epochs}], Step [{i+1}/{len(train_loader)}], Loss: {loss.item():.4f}')
            
    print(f'Epoch {epoch+1} completada. Loss promedio: {running_loss / len(train_loader):.4f}')

**6. Implementa el bucle de evaluación.**
Calcula la precisión sobre el conjunto de prueba.

In [None]:
# Poner el modelo en modo evaluación
model.eval()

# Desactivar cálculo de gradientes para evaluación
with torch.no_grad():
    correct = 0
    total = 0
    for images, labels in test_loader:
        # Mover datos a la GPU (opcional)
        images, labels = images.to(device), labels.to(device)
        
        # Pasar imágenes por el modelo
        outputs = # Tu código aquí
        
        # Obtener la clase predicha (índice con el valor más alto)
        _, predicted = torch.max(outputs.data, 1)
        
        # Contar el número total de etiquetas
        total += labels.size(0)
        
        # Contar el número de predicciones correctas
        correct += (predicted == labels).sum().item()

accuracy = 100 * correct / total
print(f'Precisión del modelo en el conjunto de prueba: {accuracy:.2f} %')

**7. Entrena el modelo y muestra la precisión final.**
(Ya se hizo en los pasos 5 y 6). Revisa la salida de las celdas anteriores.