# Ejercicio: Clasificaci√≥n de Lenguaje de Se√±as Americano (ASL)

En este ejercicio, construir√°s una red neuronal para clasificar im√°genes del lenguaje de se√±as americano.

## Objetivos de Aprendizaje
- Descargar y preparar un dataset desde Kaggle
- Normalizar datos de im√°genes
- Dise√±ar una arquitectura de red neuronal
- Implementar m√©tricas de evaluaci√≥n
- Entrenar y validar un modelo
- Identificar problemas de overfitting

## Paso 1: Obtener los Datos

### Instrucciones:
1. Ve a Kaggle y busca el dataset **"Sign Language MNIST"**
2. Descarga los archivos:
   - `sign_mnist_train.csv`
   - `sign_mnist_test.csv`
3. Crea una carpeta llamada `asl_data` en el mismo directorio que este notebook
4. Coloca los archivos descargados dentro de la carpeta `asl_data`

**Link del dataset:** https://www.kaggle.com/datasets/datamunge/sign-language-mnist

Una vez descargados, ejecuta la siguiente celda para verificar:

## Paso 2: Importar Librer√≠as

In [None]:
import torch
import torch.nn as nn
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from torch.optim import Adam
from torch.utils.data import Dataset, DataLoader

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Usando dispositivo: {device}")

## Paso 3: Cargar los Datos

In [None]:
# Cargar los datasets
train_df = pd.read_csv("asl_data/sign_mnist_train.csv")
valid_df = pd.read_csv("asl_data/sign_mnist_test.csv")

print(f"Datos de entrenamiento: {train_df.shape}")
print(f"Datos de validaci√≥n: {valid_df.shape}")

In [3]:
# Separar las etiquetas de las caracter√≠sticas
# Completa aqu√≠ 
# Completa aqu√≠ 
# Completa aqu√≠ 

## Paso 4: Explorar los Datos

Antes de continuar, visualicemos algunas im√°genes del dataset para entender con qu√© estamos trabajando.

In [4]:
# Visualizar algunas im√°genes de ejemplo
fig, axes = plt.subplots(2, 5, figsize=(15, 6))
axes = axes.ravel()

for i in range(10):
    # Reshape para formar una imagen 28x28
    # Completa aqu√≠  

plt.tight_layout()
plt.show()

IndentationError: expected an indented block after 'for' statement on line 5 (95844115.py, line 9)

In [5]:
# Informaci√≥n sobre las clases
print("Clases √∫nicas en train:", sorted(y_train.unique()))
print("N√∫mero de clases √∫nicas:", y_train.nunique())
print("Valor m√≠nimo:", y_train.min())
print("Valor m√°ximo:", y_train.max())

# Distribuci√≥n de clases
plt.figure(figsize=(12, 4))
y_train.value_counts().sort_index().plot(kind='bar')
plt.title('Distribuci√≥n de Clases en el Conjunto de Entrenamiento')
plt.xlabel('Clase')
plt.ylabel('Cantidad')
plt.show()

NameError: name 'y_train' is not defined

## Paso 5: Normalizaci√≥n de Datos

### Normalizar los datos

Los valores de los p√≠xeles est√°n en el rango [0, 255]. Para que la red neuronal entrene mejor, necesitamos normalizarlos al rango [0, 1].


1. Verifica el rango actual de valores con `.min()` y `.max()`
2. Normaliza `x_train` y `x_valid` dividiendo por 255

In [6]:
# TODO: Verificar el rango de valores actual
print("Valor m√≠nimo antes de normalizar:", _____)  # Completa aqu√≠
print("Valor m√°ximo antes de normalizar:", _____)  # Completa aqu√≠

# TODO: Normalizar los datos dividiendo por 255
x_train = _____  # Completa aqu√≠
x_valid = _____  # Completa aqu√≠

# Verificar la normalizaci√≥n
print("\nValor m√≠nimo despu√©s de normalizar:", x_train.min())
print("Valor m√°ximo despu√©s de normalizar:", x_train.max())

NameError: name '_____' is not defined

## Paso 6: Crear el Dataset y DataLoader

In [7]:
class MyDataset(Dataset):
    def __init__(self, x_df, y_df):
        self.xs = torch.tensor(x_df).float().to(device)
        self.ys = torch.tensor(y_df.values).to(device)

    def __getitem__(self, idx):
        x = self.xs[idx]
        y = self.ys[idx]
        return x, y

    def __len__(self):
        return len(self.xs)

NameError: name 'Dataset' is not defined

In [None]:
BATCH_SIZE = 32

train_data = MyDataset(x_train, y_train)
train_loader = DataLoader(train_data, batch_size=BATCH_SIZE, shuffle=True)
train_N = len(train_loader.dataset)

valid_data = MyDataset(x_valid, y_valid)
valid_loader = DataLoader(valid_data, batch_size=BATCH_SIZE)
valid_N = len(valid_loader.dataset)

print(f"Tama√±o del conjunto de entrenamiento: {train_N}")
print(f"Tama√±o del conjunto de validaci√≥n: {valid_N}")
print(f"N√∫mero de batches de entrenamiento: {len(train_loader)}")

## Paso 7: Definir la Arquitectura del Modelo

### Crear tu modelo

Debes crear una red neuronal secuencial 


**Pistas:**
- `input_size = 28 * 28`
- `n_classes` debe ser el n√∫mero correcto para evitar el error "out of bounds"
- Usa `nn.Sequential()` para encadenar las capas

In [None]:
# TODO: Define las constantes
input_size = _____  # 28 * 28
n_classes = _____   # Recuerda: y_train.max() + 1

# TODO: Crea el modelo usando nn.Sequential
model = nn.Sequential(

)

model = model.to(device)
print(model)

## Paso 8: Definir Loss y Optimizador

In [None]:
loss_function = nn.CrossEntropyLoss()
optimizer = Adam(model.parameters())

## Paso 9: Funci√≥n de Accuracy

### Implementar get_batch_accuracy

Esta funci√≥n debe:
1. Obtener las predicciones (clase con mayor probabilidad) usando `argmax`
2. Comparar las predicciones con las etiquetas verdaderas
3. Contar cu√°ntas son correctas
4. Retornar la proporci√≥n de aciertos dividido por N (tama√±o total del dataset)

**Pistas:**
- `output.argmax(dim=1, keepdim=True)` obtiene la clase predicha
- `pred.eq(y.view_as(pred))` compara predicciones con etiquetas
- `.sum().item()` suma los aciertos
- Retorna `correct / N`

In [None]:
# TODO: Completa la funci√≥n get_batch_accuracy
def get_batch_accuracy(output, y, N):
    """
    Calcula la accuracy de un batch.
    
    Args:
        output: Logits del modelo (sin softmax)
        y: Etiquetas verdaderas
        N: Tama√±o total del dataset
    
    Returns:
        Proporci√≥n de aciertos en este batch respecto al dataset total
    """
    pred = _____  # Obtener predicciones con argmax
    correct = _____  # Contar cu√°ntas predicciones son correctas
    return _____  # Retornar correct / N

## Paso 10: Funciones de Entrenamiento y Validaci√≥n

Estas funciones ya est√°n implementadas para ti. Est√∫dialas cuidadosamente para entender el proceso de entrenamiento.

In [None]:
def train():
    """
    Entrena el modelo por una √©poca completa.
    """
    loss = 0
    accuracy = 0

    model.train()  # Modo entrenamiento
    for x, y in train_loader:
        # Forward pass
        output = model(x)
        
        # Calcular loss
        batch_loss = loss_function(output, y)
        
        # Backward pass
        optimizer.zero_grad()  # Limpiar gradientes
        batch_loss.backward()  # Calcular gradientes
        optimizer.step()       # Actualizar pesos

        # Acumular m√©tricas
        loss += batch_loss.item()
        accuracy += get_batch_accuracy(output, y, train_N)
    
    print('Train - Loss: {:.4f} Accuracy: {:.4f}'.format(loss, accuracy))

In [None]:
def validate():
    """
    Valida el modelo en el conjunto de validaci√≥n.
    """
    loss = 0
    accuracy = 0

    model.eval()  # Modo evaluaci√≥n
    with torch.no_grad():  # No calcular gradientes
        for x, y in valid_loader:
            output = model(x)

            loss += loss_function(output, y).item()
            accuracy += get_batch_accuracy(output, y, valid_N)
    
    print('Valid - Loss: {:.4f} Accuracy: {:.4f}'.format(loss, accuracy))

## Paso 11: Entrenar el Modelo

Ahora ejecutemos el entrenamiento por 20 √©pocas y observemos los resultados.

In [None]:
epochs = 20

for epoch in range(epochs):
    print('Epoch: {}'.format(epoch))
    train()
    validate()
    print()

## Para analizar y discutir

Observa cuidadosamente los resultados del entrenamiento:
- ¬øQu√© pasa con la accuracy de entrenamiento?
- ¬øQu√© pasa con la accuracy de validaci√≥n?
- ¬øLas dos siguen el mismo patr√≥n?

**Pregunta:** Posiblemente obtengas que el accuracy de entrenamiento alcanz√≥ un nivel bastante alto, pero la accuracy de validaci√≥n no fue tan alta. ¬øQu√© sucedi√≥ aqu√≠?


<details>
<summary><b>Haz clic aqu√≠ para ver la explicaci√≥n</b></summary>

---

## üìö Explicaci√≥n: Overfitting

Este es un ejemplo de que el modelo est√° aprendiendo a categorizar los datos de entrenamiento, pero tiene un rendimiento pobre contra datos nuevos que no ha visto durante el entrenamiento. 

Esencialmente, el modelo est√° **memorizando** el dataset, pero no est√° ganando una comprensi√≥n robusta y general del problema. 

Este es un problema com√∫n llamado **overfitting** (sobreajuste).

### Se√±ales de Overfitting:
1. ‚úÖ Alta accuracy en entrenamiento (~95%+)
2. ‚ùå Accuracy de validaci√≥n significativamente menor
3. üìà La brecha entre train y valid aumenta con las √©pocas

### ¬øPor qu√© sucede?
- El modelo tiene demasiada capacidad (muchos par√°metros)
- Aprende patrones espec√≠ficos del conjunto de entrenamiento
- No generaliza bien a datos nuevos

### Soluciones (que veremos en pr√≥ximas clases):
- **Regularizaci√≥n**: L1, L2, Dropout
- **Data Augmentation**: Aumentar variedad de datos
- **Early Stopping**: Detener el entrenamiento cuando la validaci√≥n empeora
- **Simplificar el modelo**: Menos capas o neuronas

---
</details>

## BonusTrack 

1. **Visualizar predicciones incorrectas**: 
   - Encuentra im√°genes que el modelo clasific√≥ mal
   - ¬øPuedes identificar patrones en los errores?

2. **Experimentar con la arquitectura**:
   - ¬øQu√© pasa si usas menos neuronas (256 en vez de 512)?
   - ¬øQu√© pasa si agregas m√°s capas?

3. **Graficar el learning curve**:
   - Guarda la loss y accuracy de cada √©poca
   - Grafica train vs valid para visualizar el overfitting