# Taller de Deep Learning Básico

## Índice
1. [Introducción](#introducción)
2. [Descenso de Gradiente con NumPy y PyTorch](#descenso-de-gradiente-con-numpy-y-pytorch)
3. [Regresión con Red Neuronal de Una Capa](#regresión-con-red-neuronal-de-una-capa)
4. [Clasificación con Fashion-MNIST](#clasificación-con-fashion-mnist)
5. [Recursos Adicionales](#recursos-adicionales)


## Introducción

Este taller está diseñado para proporcionar una introducción práctica al Deep Learning utilizando PyTorch. A través de ejercicios prácticos, exploraremos conceptos fundamentales como el descenso de gradiente, la construcción de redes neuronales simples para regresión y clasificación.

## Descenso de Gradiente con NumPy y PyTorch

### Ejercicio 1: Optimización de una función simple

#### Parte A: Implementación con NumPy

Consideremos la función simple:

$$R(\beta) = \sin(\beta) + \frac{\beta}{10}$$

**Tareas:**
1. Dibujar una gráfica de esta función en el rango $\beta \in [-6, 6]$.
2. Encontrar la derivada de esta función (a mano).
3. Implementar el descenso de gradiente para encontrar un mínimo local:
   - Punto inicial: $\beta^0 = 2.3$
   - Tasa de aprendizaje: $\rho = 0.1$
   - Visualizar cada iteración en la gráfica
4. Repetir el proceso con $\beta^0 = 1.4$.

**Sugerencias:**
- Para graficar la función, utiliza `numpy.linspace` para crear un rango de valores de $\beta$ y `matplotlib.pyplot` para visualizarlos.
- La derivada de $\sin(\beta)$ es $\cos(\beta)$. ¿Cuál es la derivada de $\frac{\beta}{10}$?
- Para implementar el descenso de gradiente, recuerda la fórmula de actualización: $\beta^{t+1} = \beta^t - \rho \cdot \nabla R(\beta^t)$
- Puedes usar un bucle para iterar el proceso de actualización y almacenar los valores de $\beta$ en cada paso.

In [None]:
# Código inicial para ayudarte a empezar
import numpy as np
import matplotlib.pyplot as plt

# Definir la función
def R(beta):
    # Tu código aquí
    pass

# Definir la derivada de la función
def dR(beta):
    # Tu código aquí
    pass

# Rango para graficar
beta_range = np.linspace(-6, 6, 1000)
y_values = R(beta_range)

# Graficar la función
plt.figure(figsize=(10, 6))
# Tu código aquí

# Implementar descenso de gradiente
def gradient_descent(beta_init, learning_rate, num_iterations=50):
    # Tu código aquí
    pass

# Ejecutar descenso de gradiente con beta_init = 2.3
# Tu código aquí

# Graficar los puntos del descenso de gradiente
# Tu código aquí

# Repetir con beta_init = 1.4
# Tu código aquí

plt.show()

#### Parte B: Implementación con PyTorch

Ahora implementaremos el mismo ejercicio utilizando PyTorch para calcular automáticamente las derivadas y actualizar los pesos.

**Sugerencias:**
- En PyTorch, necesitas crear tensores con `requires_grad=True` para que PyTorch calcule automáticamente las derivadas.
- Usa el método `.backward()` para calcular la derivada de la función con respecto a los parámetros.
- Recuerda reiniciar los gradientes con `optimizer.zero_grad()` o `tensor.grad.zero_()` en cada iteración.

In [None]:
import torch
import matplotlib.pyplot as plt

# Definir la función en PyTorch
def R_torch(beta):
    # Tu código aquí
    pass

# Rango para graficar
beta_range = torch.linspace(-6, 6, 1000)
y_values = R_torch(beta_range)

# Graficar la función
plt.figure(figsize=(10, 6))
# Tu código aquí

# Implementar descenso de gradiente con PyTorch
def gradient_descent_torch(beta_init, learning_rate, num_iterations=50):
    # Inicializar beta como un tensor que requiere gradiente
    beta = torch.tensor(beta_init, requires_grad=True, dtype=torch.float32)
    
    # Tu código aquí para implementar el descenso de gradiente
    
    return beta_history

# Ejecutar y visualizar el descenso de gradiente
# Tu código aquí

plt.show()

## Regresión con Red Neuronal de Una Capa

### Ejercicio 2: Predicción en el Dataset de Diabetes

En este ejercicio, utilizaremos el conjunto de datos clásico de Diabetes para predecir una medida cuantitativa de progresión de la enfermedad un año después de la línea base.

**Descripción del Dataset:**
- 442 registros
- 10 características numéricas (edad, sexo, IMC, presión arterial, y seis mediciones de suero sanguíneo)
- Variable objetivo: medida cuantitativa de progresión de la enfermedad

In [None]:
import numpy as np
import torch
from torch.utils.data import TensorDataset, DataLoader
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Cargar el dataset de diabetes
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target

# Dividir en conjuntos de entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Convertir a tensores de PyTorch
X_train_tensor = torch.FloatTensor(X_train_scaled)
y_train_tensor = torch.FloatTensor(y_train).view(-1, 1)
X_test_tensor = torch.FloatTensor(X_test_scaled)
y_test_tensor = torch.FloatTensor(y_test).view(-1, 1)

# Crear TensorDataset
train_dataset = TensorDataset(X_train_tensor, y_train_tensor)
test_dataset = TensorDataset(X_test_tensor, y_test_tensor)

# Crear DataLoader
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

# Ejemplo de impresión de tamaño
for xb, yb in train_loader:
    print(f"Batch X shape: {xb.shape}, Batch y shape: {yb.shape}")
    break

#### Paso 2: Definir la Red Neuronal

**Tarea:** Define una red neuronal simple con una capa oculta utilizando PyTorch.

**Sugerencias:**
- Crea una clase que herede de `nn.Module`
- Define las capas en el constructor (`__init__`)
- Implementa el método `forward` para definir cómo fluyen los datos a través de la red
- Considera usar una capa oculta con activación ReLU

In [None]:
class SimpleNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(SimpleNN, self).__init__()
        # Define aquí las capas de tu red neuronal
        # Sugerencia: usa nn.Linear para capas completamente conectadas
        # y nn.ReLU (o similar) para funciones de activación
        pass
    
    def forward(self, x):
        # Define aquí cómo fluyen los datos a través de las capas
        pass

# Parámetros de la red
input_size = X_train_tensor.shape[1]  # Número de características
hidden_size = 20  # Tamaño de la capa oculta (puedes experimentar con este valor)
output_size = 1  # Una salida para la regresión

# Crear el modelo
model = SimpleNN(input_size, hidden_size, output_size)
print(model)

#### Paso 3: Entrenamiento

**Tarea:** Configura y entrena la red neuronal.

**Sugerencias:**
- Usa `nn.MSELoss()` como función de pérdida para problemas de regresión
- Prueba con diferentes optimizadores como SGD o Adam
- Implementa un bucle de entrenamiento que itere sobre los datos en mini-lotes
- Monitorea la pérdida durante el entrenamiento

In [None]:
# Definir la función de pérdida y el optimizador
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)  # Puedes probar con diferentes tasas de aprendizaje

# Parámetros de entrenamiento
num_epochs = 1000
batch_size = 32

# Tu código aquí para implementar el bucle de entrenamiento
# Recuerda:
# 1. Iterar sobre las épocas
# 2. Para cada época, iterar sobre los mini-lotes
# 3. Calcular la salida del modelo (forward pass)
# 4. Calcular la pérdida
# 5. Reiniciar los gradientes (optimizer.zero_grad())
# 6. Retropropagar la pérdida (loss.backward())
# 7. Actualizar los pesos (optimizer.step())
# 8. Registrar y mostrar la pérdida

# Graficar la curva de aprendizaje
plt.figure(figsize=(10, 6))
# Tu código aquí
plt.show()

#### Paso 4: Evaluación

**Tarea:** Evalúa el modelo utilizando el error absoluto medio (MAE) para medir el rendimiento en el conjunto de prueba.

**Sugerencias:**
- Usa `model.eval()` para cambiar el modelo al modo de evaluación
- Usa `with torch.no_grad()` para desactivar el cálculo de gradientes durante la evaluación
- Visualiza las predicciones vs. los valores reales en un gráfico de dispersión

In [None]:
import matplotlib.pyplot as plt

# Evaluar el modelo
model.eval()
with torch.no_grad():
    # Tu código aquí para evaluar el modelo en el conjunto de prueba
    # y calcular métricas como MSE y MAE

# Visualizar predicciones vs valores reales
plt.figure(figsize=(10, 6))
# Tu código aquí
plt.show()

## Clasificación con Fashion-MNIST

### Ejercicio 3: Clasificación de Imágenes con Fashion-MNIST

En este ejercicio, implementaremos una red neuronal multicapa para clasificar imágenes del dataset Fashion-MNIST, que contiene 70,000 imágenes en escala de grises de 10 categorías diferentes de prendas de vestir.

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np

# Definir transformaciones
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

# Cargar los conjuntos de datos de entrenamiento y prueba
train_dataset = torchvision.datasets.FashionMNIST(
    root='./data',
    train=True,
    download=True,
    transform=transform
)

test_dataset = torchvision.datasets.FashionMNIST(
    root='./data',
    train=False,
    download=True,
    transform=transform
)

# Crear data loaders
batch_size = 64
train_loader = torch.utils.data.DataLoader(
    train_dataset,
    batch_size=batch_size,
    shuffle=True
)

test_loader = torch.utils.data.DataLoader(
    test_dataset,
    batch_size=batch_size,
    shuffle=False
)

# Definir las clases
classes = ['Camiseta/Top', 'Pantalón', 'Suéter', 'Vestido', 'Abrigo',
           'Sandalia', 'Camisa', 'Zapatilla', 'Bolso', 'Botín']

# Visualizar algunas imágenes de ejemplo
def imshow(img):
    img = img / 2 + 0.5  # desnormalizar
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)))
    plt.axis('off')
    plt.show()

# Obtener algunas imágenes aleatorias
dataiter = iter(train_loader)
images, labels = next(dataiter)

# Mostrar imágenes
plt.figure(figsize=(10, 4))
imshow(torchvision.utils.make_grid(images[:8]))

# Imprimir etiquetas
print(' '.join('%5s' % classes[labels[j]] for j in range(8)))

#### Paso 2: Definir la Red Neuronal

**Tarea:** Define una red neuronal multicapa para clasificación.

**Sugerencias:**
- Recuerda que las imágenes de Fashion-MNIST son de 28x28 píxeles, por lo que necesitarás aplanarlas a un vector de 784 elementos
- Usa varias capas completamente conectadas (`nn.Linear`)
- Considera añadir capas de dropout (`nn.Dropout`) para reducir el sobreajuste
- La capa de salida debe tener 10 neuronas (una para cada clase)

In [None]:
class FashionMNISTNet(nn.Module):
    def __init__(self):
        super(FashionMNISTNet, self).__init__()
        # Tu código aquí para definir la arquitectura de la red
        # Recuerda aplanar la imagen y usar múltiples capas
        pass
    
    def forward(self, x):
        # Tu código aquí para definir el flujo de datos
        pass

# Crear el modelo
model = FashionMNISTNet()
print(model)

# Definir la función de pérdida y el optimizador
# Para problemas de clasificación, CrossEntropyLoss es una buena opción
criterion = nn.CrossEntropyLoss()
# Elige un optimizador adecuado
optimizer = optim.Adam(model.parameters(), lr=0.001)

#### Paso 3: Entrenamiento

**Tarea:** Entrena la red neuronal y monitorea su rendimiento.

**Sugerencias:**
- Implementa un bucle de entrenamiento similar al del ejercicio anterior
- Calcula y registra la precisión (accuracy) además de la pérdida
- Evalúa el modelo en el conjunto de prueba después de cada época

In [None]:
# Parámetros de entrenamiento
num_epochs = 10

# Listas para almacenar las métricas
train_losses = []
train_accs = []
test_accs = []

# Función para calcular la precisión
def calculate_accuracy(model, data_loader, device='cpu'):
    # Tu código aquí para calcular la precisión
    pass

# Tu código aquí para implementar el bucle de entrenamiento
# Recuerda calcular y registrar tanto la pérdida como la precisión

# Graficar las curvas de aprendizaje
plt.figure(figsize=(12, 5))
# Tu código aquí para graficar la pérdida y la precisión
plt.show()

#### Paso 4: Evaluación y Visualización

**Tarea:** Evalúa el modelo entrenado y visualiza sus predicciones.

**Sugerencias:**
- Calcula la precisión global en el conjunto de prueba
- Visualiza algunas predicciones junto con las etiquetas reales
- Calcula y visualiza la matriz de confusión para entender mejor los errores del modelo

In [None]:
# Evaluar el modelo en el conjunto de prueba
model.eval()
with torch.no_grad():
    # Tu código aquí para evaluar el modelo y recopilar predicciones

# Visualizar algunas predicciones
# Tu código aquí

# Calcular y visualizar la matriz de confusión
from sklearn.metrics import confusion_matrix
import seaborn as sns

# Tu código aquí para calcular y visualizar la matriz de confusión

## Recursos Adicionales

### Lecturas Recomendadas

1. **Optimizadores en Deep Learning**: Una de las mejores lecturas sobre optimizadores se encuentra en [este blog](https://www.ruder.io/optimizing-gradient-descent/). Es altamente recomendada para entender en profundidad los diferentes algoritmos de optimización.

2. **Datasets Personalizados en PyTorch**: Para aprender a crear datasets personalizados en PyTorch, puedes revisar [este notebook](https://github.com/santialferez/mlmae/blob/master/Mouth_cat_detection_colab.ipynb) que explica paso a paso cómo implementar la clase `Dataset` de PyTorch.

3. **Documentación Oficial de PyTorch**: Para profundizar en PyTorch, consulta la [documentación oficial](https://pytorch.org/tutorials/) que contiene tutoriales detallados sobre todos los aspectos del framework.

### Ejercicio Opcional

**5. Lectura y Análisis de Implementación Personalizada**

Hace unos pocos años se creó [este notebook](https://github.com/santialferez/mlmae/blob/master/Mouth_cat_detection_colab.ipynb) en PyTorch, con el fin de explicar cómo crear un `Dataset` personalizado en PyTorch. 

**Tarea:**
1. Lee el notebook en detalle y ejecútalo en Colab (puede que necesites actualizar alguna parte del código).
2. El notebook menciona una de las mejores lecturas que existe sobre optimizadores en [este blog](https://www.ruder.io/optimizing-gradient-descent/). Léela para profundizar tu comprensión sobre los diferentes algoritmos de optimización.
3. Reflexiona sobre cómo podrías aplicar estos conocimientos a tus propios proyectos de deep learning.