# Pytorch

## Instalar Pytorch

### Instalar Pytorch en Windows

Esta es la forma más facil de instalar Pytorch en Windows y Linux

```python
pip install torch torchvision
```

Notese que nos descarga tambien torchvision, que es una libreria de Pytorch para el manejo de imagenes que usaremos más adelante.
Pero en la página oficial de Pytorch nos encontraremos con una gran variedad de opciones para instalar Pytorch, dependiendo de la versión de Python que tengamos, de si tenemos o no una GPU, etc. Recomiendo visitar la página oficial de Pytorch para más información: https://pytorch.org/

De todas formar Google Colab ya tiene instalado Pytorch con GPU, por lo que no es necesario instalarlo.


## ¿Qué es PyTorch?

PyTorch es una biblioteca de programación open-source que permite a los desarrolladores realizar cómputos intensivos con tensores. Es especialmente conocida por su flexibilidad y eficiencia en la construcción y entrenamiento de modelos de deep learning. PyTorch se ha convertido en una herramienta fundamental para muchos investigadores y profesionales del aprendizaje automático.

###  Historia y diferencias con otras bibliotecas (como TensorFlow):

* PyTorch fue desarrollado por el grupo de Inteligencia Artificial de Facebook. Su primera versión pública fue lanzada en 2017. Desde entonces, ha crecido exponencialmente en popularidad gracias a su simplicidad y versatilidad.
* Una de las principales diferencias entre PyTorch y otras bibliotecas populares, como TensorFlow, radica en cómo manejan las operaciones de cálculo. Mientras TensorFlow emplea un enfoque de grafo computacional estático, PyTorch utiliza un grafo dinámico, lo que permite a los usuarios cambiar el comportamiento de la red 'al vuelo'. Esto hace que PyTorch sea especialmente útil para investigación y prototipos, donde se requiere experimentación constante y adaptativa.
* Además, esta flexibilidad en PyTorch se traduce en una curva de aprendizaje más intuitiva y amigable para los principiantes, ya que pueden ver y modificar el comportamiento del modelo paso a paso.

### Casos de uso comunes (deep learning, investigación, etc.)

* PyTorch es utilizado en una amplia gama de aplicaciones. En el ámbito académico, se ha convertido en una de las herramientas más populares para la investigación en deep learning debido a su flexibilidad y transparencia.
* Industrias como la de la visión por computadora, el procesamiento de lenguaje natural y la robótica han adoptado PyTorch para construir y entrenar modelos avanzados.
* Además de la investigación y desarrollo de modelos, PyTorch también ofrece herramientas para despliegue en producción, permitiendo a las empresas llevar soluciones basadas en inteligencia artificial al mercado de manera eficiente.

## Tensores

* Un tensor es una generalización de escalares, vectores y matrices a un número arbitrario de dimensiones. Mientras un escalar es un número único y un vector es una lista de números, un tensor puede representar datos en 2D (como una matriz), 3D y más dimensiones.

* Puedes pensar en un tensor como un contenedor multidimensional de datos. Por ejemplo, en el contexto de la visión por computadora, una imagen en color se representa comúnmente como un tensor 3D: altura, ancho y canales de color.

### Relación entre tensores y matrices/vectores/escalares:

* Un escalar es un tensor de dimensión 0 (sin dimensiones).
* Un vector es un tensor de dimensión 1. Por ejemplo, [1, 2, 3] es un tensor 1D.
* Una matriz es un tensor de dimensión 2. Si pensamos en una hoja de cálculo, donde tienes filas y columnas, eso sería un tensor 2D.
* Y como mencioné, una imagen en color podría ser un tensor 3D, y así sucesivamente para datos más complejos.

### Creando tensores:

In [2]:
# Primero, debemos importar la biblioteca de PyTorch
import torch

In [3]:
# 1. Creación básica de un tensor usando torch.Tensor()
tensor_a = torch.Tensor([[1, 2], [3, 4]])
print("Tensor a:")
print(tensor_a)

Tensor a:
tensor([[1., 2.],
        [3., 4.]])


In [None]:
# 2. Tensor lleno de ceros
tensor_zeros = torch.zeros(2, 3)  # Un tensor de tamaño 2x3 lleno de ceros
print("\nTensor de ceros:")
print(tensor_zeros)

In [None]:
# 3. Tensor lleno de unos
tensor_ones = torch.ones(2, 3)  # Un tensor de tamaño 2x3 lleno de unos
print("\nTensor de unos:")
print(tensor_ones)

In [None]:
# 4. Tensor con números aleatorios entre 0 y 1
tensor_rand = torch.rand(3, 3)  # Un tensor de tamaño 3x3 con números aleatorios entre 0 y 1
print("\nTensor aleatorio:")
print(tensor_rand)

In [None]:
# 5. Usando new_ones para crear un tensor basado en otro tensor existente
print("\nTensor original:")
print(tensor_a.size()) # El tamaño del tensor
print(tensor_a)

tensor_b = tensor_a.new_ones(4, 2)  # Un tensor de tamaño 4x2 lleno de unos, pero con las mismas propiedades de tensor_a
print("\nTensor creado con new_ones:")
print(tensor_b)

In [None]:
# 6. Usando randn_like para crear un tensor con valores aleatorios basado en las dimensiones de otro tensor
tensor_randn = torch.randn_like(tensor_a)  # Un tensor con las mismas dimensiones que tensor_a pero lleno de números aleatorios de una distribución normal estándar (media=0, desviación estándar=1)
print("\nTensor aleatorio con randn_like:")
print(tensor_randn)

In [None]:
# 7. Tensor no inicializado
tensor_empty = torch.empty(2, 2)  # Un tensor de tamaño 2x2 no inicializado (puede contener valores residuales en memoria)
print("\nTensor vacío (sin inicializar):")
print(tensor_empty)

Estos ejemplos te muestran varias formas de crear tensores en PyTorch. Es importante tener en cuenta que torch.empty() no inicializa el tensor con ningún valor en particular, así que puede contener valores residuales que estaban en la memoria en ese momento. Es útil cuando necesitas un tensor de ciertas dimensiones pero lo inicializarás posteriormente.

In [None]:

# 8. Especificando el tipo de datos con dtype
# Crear un tensor de float32
tensor_float32 = torch.ones(2, 2, dtype=torch.float32)
print("\nTensor con dtype float32:")
print(tensor_float32)

# Crear un tensor de int32
tensor_int32 = torch.ones(2, 2, dtype=torch.int32)
print("\nTensor con dtype int32:")
print(tensor_int32)

# Nota: PyTorch tiene varios dtypes disponibles, como torch.float64, torch.int16, etc.

Explicación:

* **dtype** en **PyTorch**: Es una especificación del tipo de dato que el tensor va a almacenar. Afecta directamente la cantidad de memoria que el tensor ocupa y la precisión de los cálculos. Elegir el dtype correcto es esencial para asegurar tanto la precisión como la eficiencia del modelo o cálculo.

* **¿Por qué es importante?**: En muchos casos, especialmente en deep learning, es posible que no necesitemos la máxima precisión (como la que proporciona float64). Usar float32 o incluso float16 puede acelerar los cálculos y reducir el uso de memoria sin sacrificar demasiado la precisión o la calidad de los resultados.

* Uso común en **GPUs**: Las GPUs modernas, especialmente aquellas diseñadas para deep learning, están optimizadas para ciertos dtype como float16 (también llamado half precision). Usar este dtype en lugar de float32 o float64 puede acelerar significativamente el entrenamiento de modelos en GPUs.

### Operaciones básicas con tensores:

In [None]:
# Creando algunos tensores de ejemplo
tensor_x = torch.tensor([[1, 2], [3, 4]], dtype=torch.float32)
print("\nTensor x:")
print(tensor_x)
tensor_y = torch.tensor([[5, 6], [7, 8]], dtype=torch.float32)
print("\nTensor y:")
print(tensor_y)

In [None]:
# 1. Suma de tensores
tensor_sum = tensor_x + tensor_y
print("Suma de tensores:")
print(tensor_sum)

# También se puede usar la función add
tensor_sum2 = torch.add(tensor_x, tensor_y)
print("\nSuma usando torch.add:")
print(tensor_sum2)

In [None]:
# 2. Resta de tensores
tensor_diff = tensor_x - tensor_y
print("\nResta de tensores:")
print(tensor_diff)

In [None]:
# 3. Multiplicación elemento a elemento (Hadamard product) https://en.wikipedia.org/wiki/Hadamard_product_(matrices)
tensor_product = tensor_x * tensor_y
print("\nMultiplicación elemento a elemento:")
print(tensor_product)

In [None]:
# 4. Multiplicación matricial https://es.wikipedia.org/wiki/Multiplicaci%C3%B3n_de_matrices
tensor_matmul = torch.matmul(tensor_x, tensor_y)
print("\nMultiplicación matricial:")
print(tensor_matmul)

In [None]:
# Otra forma de hacer multiplicación matricial
tensor_matmul2 = tensor_x @ tensor_y
print("\nOtra forma de multiplicación matricial:")
print(tensor_matmul2)

In [None]:
# 5. División elemento a elemento
tensor_div = tensor_x / tensor_y
print("\nDivisión elemento a elemento:")
print(tensor_div)

In [None]:
# 6. Transposición de un tensor
tensor_transposed = tensor_x.t()
print("\nTransposición de un tensor:")
print(tensor_transposed)

In [None]:
# 7. Reshape (cambio de forma) de un tensor
tensor_reshaped = tensor_x.view(1, 4)  # Cambia el tensor a una forma de 1x4
print("\nReshape de un tensor a 1x4:")
print(tensor_reshaped)

In [None]:
# También se puede usar la función reshape
tensor_reshaped2 = tensor_x.reshape(4, 1)  # Cambia el tensor a una forma de 4x1
print("\nReshape de un tensor a 4x1 usando reshape():")
print(tensor_reshaped2)

## Autograd: Diferenciación Automática

### Concepto y necesidad del cálculo de gradientes en deep learning:

* Cuando entrenamos modelos de deep learning, estamos básicamente ajustando parámetros (o pesos) para minimizar alguna forma de error o pérdida.  Para saber en qué dirección y cuánto ajustar estos parámetros, necesitamos el gradiente del error respecto a cada parámetro.
* El gradiente nos indica la dirección en la cual cambiar un parámetro para minimizar el error, y la magnitud del gradiente nos dice cuánto de ese cambio es necesario.

### ¿Cómo funciona Autograd?:

* Autograd es el sistema en PyTorch que nos permite calcular automáticamente estos gradientes. Lo hace mediante algo llamado 'diferenciación automática', que construye un grafo computacional a medida que ejecutas operaciones. Cada nodo en este grafo es una operación, y las aristas representan tensores que fluyen entre estas operaciones.
* Cuando solicitas el gradiente de una variable, Autograd simplemente sigue este grafo desde el nodo final hasta el nodo de la variable, aplicando la regla de la cadena de cálculo de derivadas a lo largo del camino.

### Uso de requires_grad, .backward() y .grad:

- `requires_grad` es un atributo de los tensores en PyTorch. Cuando lo estableces como `True`, le estás diciendo a PyTorch que deseas mantener un registro de todas las operaciones realizadas en ese tensor, para que luego puedas calcular gradientes.
    - Por ejemplo: `x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)`.
- Una vez que has realizado todas tus operaciones y obtenido un resultado final (por lo general, un valor de pérdida en entrenamiento de modelos), puedes llamar al método `.backward()` en ese tensor final para calcular automáticamente todos los gradientes.
    - Ejemplo: Si `loss` es el resultado final y es un escalar, simplemente puedes hacer `loss.backward()`.
- Después de llamar a `.backward()`, cada tensor que tenía `requires_grad` establecido en `True` tendrá un atributo `.grad` que contendrá el gradiente de ese tensor con respecto al resultado final.
    - "Por ejemplo: Continuando con el tensor `x` mencionado anteriormente, después de `.backward()`, `x.grad` nos dará los gradientes.

### **Notas adicionales y prácticas recomendadas:**
- Es importante recordar que el grafo computacional se reconstruye desde cero en cada iteración. Esto significa que después de llamar a `.backward()`, el grafo se descarta para liberar memoria. Esto es útil porque en entrenamientos de deep learning, generalmente necesitamos actualizar los gradientes en cada época o iteración.
- Si intentas ejecutar `.backward()` nuevamente sin realizar operaciones, obtendrás un error. Si necesitas conservar el grafo para múltiples llamadas a `.backward()`, puedes pasar `retain_graph=True` como argumento, aunque esto es raro y consume más memoria.

In [None]:
import torch

# 1. Creación de tensores con requires_grad=True
x = torch.tensor([2.0, 3.0, 4.0], requires_grad=True)
y = torch.tensor([3.0, 4.0, 5.0], requires_grad=True)

print("Tensores originales:")
print("x:", x)
print("y:", y)
print("----------")

# 2. Realizar algunas operaciones
z = x * y + y**2
print("Resultado de operaciones en z:")
print(z)
print("----------")

# 3. Calcular una "pérdida" ficticia y llamar a .backward()
# Por simplicidad, consideraremos la suma de z como una pérdida
loss = z.sum()
print("Pérdida (suma de z):", loss)
print("----------")

# Backward para calcular gradientes
loss.backward()

# 4. Verificar los gradientes almacenados en .grad
print("Gradientes:")
print("Gradiente de x:", x.grad)  # Debería ser y (derivada de x*y con respecto a x)
print("Gradiente de y:", y.grad)  # Debería ser x + 2*y (derivada de x*y + y^2 con respecto a y)



Al ejecutar este código, lo que estamos haciendo es:

1. Crear dos tensores con `requires_grad=True`, lo que significa que queremos calcular gradientes con respecto a estos tensores.
2. Realizar algunas operaciones básicas con estos tensores.
3. Suponiendo que el resultado que obtenemos (la suma de `z`) es una pérdida que queremos minimizar, llamamos `.backward()` en esa pérdida. Esto instruye a PyTorch para calcular los gradientes de esa pérdida con respecto a todos los tensores con `requires_grad=True`.
4. Finalmente, imprimimos estos gradientes con el atributo `.grad`.

Este es un ejemplo simple pero ilustra cómo las operaciones están siendo rastreadas y cómo se pueden calcular los gradientes automáticamente con Autograd. En la práctica, en lugar de una función arbitraria como en este ejemplo, generalmente tendrías una red neuronal y una función de pérdida real, pero el principio es el mismo.

## Redes Neuronales con PyTorch

### El módulo `torch.nn`:
- `torch.nn` es el módulo en PyTorch diseñado para construir y entrenar redes neuronales. Contiene predefinidas todas las capas y funciones de pérdida que comúnmente necesitarías, simplificando enormemente el proceso de creación y entrenamiento de modelos.

### Definición de una red neuronal simple:
- En PyTorch, una red neuronal se define como una clase que hereda de `nn.Module`. Dentro de esta clase, definimos las capas que la componen y especificamos cómo se procesarán los datos a través de ellas.
- Por ejemplo, una red neuronal simple con una capa oculta podría definirse así:

In [None]:
import torch.nn as nn

class SimpleNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(SimpleNN, self).__init__()
        self.hidden = nn.Linear(input_size, hidden_size)
        self.relu = nn.ReLU()
        self.output = nn.Linear(hidden_size, output_size)
    
    def forward(self, x):
        x = self.hidden(x)
        x = self.relu(x)
        x = self.output(x)
        return x

- Aquí, `nn.Linear` representa una capa completamente conectada. `nn.ReLU` es una función de activación, que introduce no linearidad al modelo.

### Forward pass:
- El método `forward` define cómo se procesa la entrada a través de las capas de la red. Cada vez que pasamos una entrada a través de la red (lo que se conoce como 'forward pass'), este método se ejecuta.
- En el ejemplo anterior, la entrada `x` primero pasa a través de la capa oculta, luego a través de la función de activación ReLU, y finalmente a través de la capa de salida.

### Funciones de activación:

- Las funciones de activación, como ReLU, son esenciales en redes neuronales para introducir no linearidades. Sin ellas, independientemente de cuántas capas tengas, la red seguiría siendo lineal y no podría aprender patrones complejos en los datos.
- Existen varias funciones de activación, como `nn.ReLU`, `nn.Sigmoid`, `nn.Tanh`, y cada una tiene sus propios usos y características.

Con PyTorch, construir una red neuronal es un proceso intuitivo. El módulo `torch.nn` nos proporciona las herramientas para definir y entrenar modelos complejos con relativa facilidad. A medida que profundices en PyTorch, descubrirás que tiene la flexibilidad para construir desde las redes más simples hasta los modelos de aprendizaje profundo más avanzados.

## Entrenamiento de una Red Neuronal Simple

### Carga de datos: DataLoader y Dataset

* Entrenar una red neuronal implica proporcionarle datos en lotes y ajustar sus pesos con base en el error que produce. PyTorch facilita este proceso con sus clases Dataset y DataLoader.
* Dataset es una clase abstracta que representa un conjunto de datos y puede ser personalizada para adaptarse a cualquier fuente de datos. Una vez que tienes tu conjunto de datos definido como un Dataset, puedes usar DataLoader para cargar eficientemente los datos en lotes, barajarlos y paralelizar la carga de datos.
* Estas herramientas te permiten centrarte en la construcción y entrenamiento del modelo en lugar de los detalles de la carga y manipulación de datos.

#### Usando un Dataset Predefinido (por ejemplo, MNIST) con DataLoader:
PyTorch proporciona varios conjuntos de datos comunes a través de `torchvision`. Así es cómo podrías cargar MNIST:

In [None]:
import torchvision
import torchvision.transforms as transforms

# Transformaciones
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])

# Dataset
mnist_dataset = torchvision.datasets.MNIST(root='./data', train=True, transform=transform, download=True)

# DataLoader
mnist_loader = torch.utils.data.DataLoader(dataset=mnist_dataset, batch_size=32, shuffle=True)

# Usando DataLoader en bucle de entrenamiento
for images, labels in mnist_loader:
    # Aquí iría el código de entrenamiento
    pass


```python
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])
```

1. **`transforms.Compose()`**:
   - Es una función de PyTorch dentro del módulo `torchvision.transforms`.
   - Como su nombre indica, permite componer varias transformaciones juntas en una secuencia.
   - Recibe una lista de transformaciones que se aplicarán en el orden dado.

2. **`transforms.ToTensor()`**:
   - Es una transformación de `torchvision` que convierte imágenes PIL (del módulo Python Imaging Library) o ndarrays de NumPy a tensores de PyTorch.
   - Además, escalas las imágenes al rango [0, 1]. Es decir, si una imagen estaba en el rango de 0 a 255 (valores comunes para imágenes en formato uint8), después de `ToTensor`, los valores estarán entre 0 y 1.

3. **`transforms.Normalize((0.5,), (0.5,))`**:
   - Es otra transformación de `torchvision`.
   - Normaliza un tensor de imagen con una media y desviación estándar dadas.
   - En este caso, se utiliza `mean=0.5` y `std=0.5` para cada canal de la imagen. Dado que las imágenes de MNIST son en escala de grises (un solo canal), se proporciona un único valor para la media y la desviación estándar.
   - La operación de normalización que se realiza es la siguiente: 
     ``` 
     imagen_normalizada = (imagen_original - media) / desviación_estándar
     ```
     En este caso, dado que tanto la media como la desviación estándar son 0.5, la operación resultante para la normalización es:
     ``` 
     imagen_normalizada = (imagen_original - 0.5) / 0.5
     ```
   - Como resultado, las imágenes que originalmente estaban en el rango [0, 1] se reescalan para que sus valores estén en el rango [-1, 1].

Entonces, en resumen, esa línea de código define una secuencia de transformaciones que convierte imágenes PIL o ndarrays a tensores y luego las normaliza para que sus valores estén en el rango [-1, 1]. Estas transformaciones serán aplicadas posteriormente a las imágenes del dataset MNIST cuando se carguen.

#### **Creando un Dataset Personalizado:**
Imagina que tienes datos personalizados, por ejemplo, una lista de números y deseas cargarlos en lotes. Aquí hay un ejemplo simple:

In [None]:
import torch
from torch.utils.data import Dataset, DataLoader

class CustomDataset(Dataset):
    def __init__(self, data):
        self.data = data
        # Aquí iría el código de inicialización (si es necesario)

    def __len__(self): # Debe devolver el tamaño del dataset, es obligatorio implementarlo
        return len(self.data)

    def __getitem__(self, index): # Debe devolver un elemento del dataset basado en el índice, es obligatorio implementarlo
        # aqui se puede hacer cualquier cosa con el elemento, como transformaciones, etc.
        return self.data[index]

# Datos de ejemplo
data = list(range(100))  # Una lista simple de 0 a 99

# Creando el dataset personalizado
custom_dataset = CustomDataset(data)

# DataLoader
custom_loader = DataLoader(dataset=custom_dataset, batch_size=10, shuffle=True) #¿Qué pasaría si shuffle=False?

# Usando DataLoader en un bucle
for batch in custom_loader:
    print(batch)

##### Creando un Dataset Personalizado para Imágenes:
Si tienes imágenes en un directorio y etiquetas en un archivo CSV, puedes crear un `Dataset` personalizado:

In [None]:
from torch.utils.data import Dataset, DataLoader
from torchvision import transforms
from PIL import Image
import pandas as pd
import os

class ImageDataset(Dataset):
    def __init__(self, csv_file, img_dir, transform=None):
        self.labels_dataframe = pd.read_csv(csv_file)
        self.img_dir = img_dir
        self.transform = transform

    def __len__(self):
        return len(self.labels_dataframe)

    def __getitem__(self, idx):
        img_name = os.path.join(self.img_dir, self.labels_dataframe.iloc[idx, 0])  # Suponiendo que el nombre de la imagen está en la primera columna
        image = Image.open(img_name)
        label = int(self.labels_dataframe.iloc[idx, 1])  # Suponiendo que la etiqueta está en la segunda columna

        if self.transform:
            image = self.transform(image)

        return image, label

transformations = transforms.Compose([transforms.ToTensor()])
try:
    dataset = ImageDataset(csv_file='labels.csv', img_dir='images/', transform=transformations)
    loader = DataLoader(dataset, batch_size=32, shuffle=True)
except FileNotFoundError:
    print("No se encontró el archivo labels.csv")

Estos ejemplos muestran la flexibilidad y potencia de `Dataset` y `DataLoader` en PyTorch. Esencialmente, puedes adaptar `Dataset` para cualquier formato de datos y luego usar `DataLoader` para manejar la carga eficiente de datos en lotes durante el entrenamiento.

##### Bucles de entrenamiento y validación

* Una vez que los datos están listos, entrenamos el modelo utilizando bucles de entrenamiento. En cada época (una pasada completa por el conjunto de datos), el modelo hace una predicción, calcula el error usando una función de pérdida, y ajusta sus pesos usando un optimizador.
* Es común también tener un bucle de validación. Aquí, pasamos datos de validación (no usados en el entrenamiento) por el modelo para evaluar su desempeño. Sin embargo, durante la validación, no ajustamos los pesos del modelo. Esto nos permite verificar si el modelo está generalizando bien o si está sobreajustando al conjunto de entrenamiento.

![image.png](img/framework_DL.jpg)

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms

# 1. Cargar el conjunto de datos MNIST
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])

train_dataset = torchvision.datasets.MNIST(root='./data', train=True, transform=transform, download=True)
test_dataset = torchvision.datasets.MNIST(root='./data', train=False, transform=transform, download=True)

train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=100, shuffle=True)
test_loader = torch.utils.data.DataLoader(dataset=test_dataset, batch_size=100, shuffle=False)

# 2. Definir la arquitectura MLP
class MLP(nn.Module):
    def __init__(self):
        super(MLP, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 500)
        self.fc2 = nn.Linear(500, 250)
        self.fc3 = nn.Linear(250, 10)
        self.relu = nn.ReLU()

    def forward(self, x):
        x = x.view(-1, 28 * 28) # Aplanar la imagen (28x28 -> 784), el -1 indica que el tamaño se infiere automáticamente
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.fc3(x)
        return x

model = MLP() # Instanciar el modelo
criterion = nn.CrossEntropyLoss() # Función de pérdida, CrossEntropyLoss para clasificación multiclase ya implementa la función softmax
optimizer = optim.SGD(model.parameters(), lr=0.01) # Optimizador

# 3. Bucle de entrenamiento
num_epochs = 10
for epoch in range(num_epochs):
    for i, (images, labels) in enumerate(train_loader):
        # Forward pass
        outputs = model(images)
        loss = criterion(outputs, labels)
        
        # Backward pass and optimization
        optimizer.zero_grad() # Reinicia los gradientes porque backward acumula los gradientes en cada iteración
        loss.backward() # Calcula los gradientes
        optimizer.step() # Actualiza los parámetros
        
        if (i+1) % 100 == 0:
            # Epoch: es el número de veces que el modelo ha visto el conjunto de datos completo
            # Step: es el número de veces que el modelo ha visto un batch
            print(f'Epoch [{epoch+1}/{num_epochs}], Step [{i+1}/{len(train_loader)}], Loss: {loss.item():.4f}')

print("Entrenamiento finalizado!")

# 4. Evaluación del modelo
model.eval()
with torch.no_grad(): # Deshabilita el cálculo de gradientes
    correct = 0
    total = 0
    for images, labels in test_loader:
        outputs = model(images)
        _, predicted = torch.max(outputs.data, 1) # Obtiene el índice de la clase con mayor probabilidad
        total += labels.size(0) # Tamaño del batch
        correct += (predicted == labels).sum().item() # Suma el número de predicciones correctas

    print(f'Precisión del modelo en las 10000 imágenes de prueba: {100 * correct / total}%')

Este código configura y entrena una red neuronal multicapa simple para clasificar imágenes del conjunto de datos MNIST. Las imágenes son de 28x28 píxeles y representan dígitos escritos a mano, del 0 al 9. La red tiene dos capas ocultas y utiliza la función de activación ReLU.

El modelo se entrena durante 10 épocas utilizando la función de pérdida de entropía cruzada y el optimizador SGD. Al final, se evalúa el rendimiento del modelo en el conjunto de prueba de MNIST y se imprime la precisión.

##### Validación

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms

# 1. Cargar el conjunto de datos MNIST
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])

full_train_dataset = torchvision.datasets.MNIST(root='./data', train=True, transform=transform, download=True)
test_dataset = torchvision.datasets.MNIST(root='./data', train=False, transform=transform, download=True)

# Dividir el conjunto de entrenamiento en entrenamiento y validación
train_size = int(0.9 * len(full_train_dataset)) # 90% para entrenamiento
valid_size = len(full_train_dataset) - train_size # 10% para validación
train_dataset, valid_dataset = torch.utils.data.random_split(full_train_dataset, [train_size, valid_size])

train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=100, shuffle=True)
valid_loader = torch.utils.data.DataLoader(dataset=valid_dataset, batch_size=100, shuffle=False)
test_loader = torch.utils.data.DataLoader(dataset=test_dataset, batch_size=100, shuffle=False)

# 2. Definir la arquitectura MLP
class MLP(nn.Module):
    def __init__(self):
        super(MLP, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 500)
        self.fc2 = nn.Linear(500, 250)
        self.fc3 = nn.Linear(250, 10)
        self.relu = nn.ReLU()

    def forward(self, x):
        x = x.view(-1, 28 * 28) # Aplanar la imagen (28x28 -> 784), el -1 indica que el tamaño se infiere automáticamente
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.fc3(x)
        return x

model = MLP() # Instanciar el modelo
criterion = nn.CrossEntropyLoss() # Función de pérdida, CrossEntropyLoss para clasificación multiclase ya implementa la función softmax
optimizer = optim.SGD(model.parameters(), lr=0.01) # Optimizador

# 3. Bucle de entrenamiento
num_epochs = 10
for epoch in range(num_epochs):
    for i, (images, labels) in enumerate(train_loader):
        # Forward pass
        outputs = model(images)
        loss = criterion(outputs, labels)
        
        # Backward pass and optimization
        optimizer.zero_grad() # Reinicia los gradientes porque backward acumula los gradientes en cada iteración
        loss.backward() # Calcula los gradientes
        optimizer.step() # Actualiza los parámetros

        if (i+1) % 100 == 0:
            print(f'Epoch [{epoch+1}/{num_epochs}], Step [{i+1}/{len(train_loader)}], Loss: {loss.item():.4f}')

    # Validación, es simplemente un forward pass con el conjunto de validación
    model.eval()
    with torch.no_grad():
        correct_valid = 0
        total_valid = 0
        for images, labels in valid_loader:
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total_valid += labels.size(0)
            correct_valid += (predicted == labels).sum().item()
    model.train() # Volver al modo de entrenamiento, esto solo es necesario en determinados casos que ya los veremos, pero es un buen hábito ponerlo siempre
    print(f'Epoch [{epoch+1}/{num_epochs}], val accuracy: {100 * correct_valid / total_valid}%')
        
print("Entrenamiento finalizado!")

# 4. Evaluación del modelo
model.eval()
with torch.no_grad(): # Deshabilita el cálculo de gradientes
    correct = 0
    total = 0
    for images, labels in test_loader:
        outputs = model(images)
        _, predicted = torch.max(outputs.data, 1) # Obtiene el índice de la clase con mayor probabilidad
        total += labels.size(0) # Tamaño del batch
        correct += (predicted == labels).sum().item() # Suma el número de predicciones correctas

    print(f'Precisión del modelo en las 10000 imágenes de prueba: {100 * correct / total}%')

## GPU y CUDA con PyTorch

Las GPUs, o Unidades de Procesamiento Gráfico, están diseñadas para realizar múltiples cálculos simultáneamente. Dado que el entrenamiento de modelos de deep learning implica muchas operaciones matemáticas repetitivas, las GPUs pueden acelerar este proceso en órdenes de magnitud en comparación con las CPUs tradicionales.

### Cómo mover tensores y modelos a la GPU:

* PyTorch hace que trabajar con GPUs sea increíblemente simple. Puedes mover un tensor o un modelo entero a la GPU usando el método .to().
    - Por ejemplo, para mover un tensor a la GPU: tensor = tensor.to('cuda').
    - Para mover un modelo: model = model.to('cuda').
* Es esencial que tanto el modelo como los datos estén en la misma ubicación (ya sea CPU o GPU) durante el entrenamiento.

### Diferencias entre entrenamiento en CPU vs GPU

* Mientras que la GPU puede acelerar significativamente el entrenamiento, no todo es ideal. Las GPUs tienen memoria limitada, y es posible que no puedas cargar modelos extremadamente grandes o lotes de datos muy grandes en una sola GPU.
* Sin embargo, las ventajas suelen superar a las desventajas, especialmente para modelos más grandes y conjuntos de datos más grandes. Para problemas pequeños, la diferencia podría no ser significativa, pero a medida que escalas, las GPUs son casi siempre la mejor opción.

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f'Usando {device} para entrenar')

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms

# 1. Cargar el conjunto de datos MNIST
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])

full_train_dataset = torchvision.datasets.MNIST(root='./data', train=True, transform=transform, download=True)
test_dataset = torchvision.datasets.MNIST(root='./data', train=False, transform=transform, download=True)

# Dividir el conjunto de entrenamiento en entrenamiento y validación
train_size = int(0.9 * len(full_train_dataset)) # 90% para entrenamiento
valid_size = len(full_train_dataset) - train_size # 10% para validación
train_dataset, valid_dataset = torch.utils.data.random_split(full_train_dataset, [train_size, valid_size])

train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=100, shuffle=True)
valid_loader = torch.utils.data.DataLoader(dataset=valid_dataset, batch_size=100, shuffle=False)
test_loader = torch.utils.data.DataLoader(dataset=test_dataset, batch_size=100, shuffle=False)

# 2. Definir la arquitectura MLP
class MLP(nn.Module):
    def __init__(self):
        super(MLP, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 500)
        self.fc2 = nn.Linear(500, 250)
        self.fc3 = nn.Linear(250, 10)
        self.relu = nn.ReLU()

    def forward(self, x):
        x = x.view(-1, 28 * 28) # Aplanar la imagen (28x28 -> 784), el -1 indica que el tamaño se infiere automáticamente
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.fc3(x)
        return x

model = MLP().to(device) # Instanciar el modelo
criterion = nn.CrossEntropyLoss().to(device) # Función de pérdida, CrossEntropyLoss para clasificación multiclase ya implementa la función softmax
optimizer = optim.SGD(model.parameters(), lr=0.01) # Optimizador

# 3. Bucle de entrenamiento
num_epochs = 10
for epoch in range(num_epochs):
    for i, (images, labels) in enumerate(train_loader):
        # Pasar al dispositivo
        images = images.to(device)
        labels = labels.to(device)
        ############################
        # Forward pass
        outputs = model(images)
        loss = criterion(outputs, labels)
        
        # Backward pass and optimization
        optimizer.zero_grad() # Reinicia los gradientes porque backward acumula los gradientes en cada iteración
        loss.backward() # Calcula los gradientes
        optimizer.step() # Actualiza los parámetros

        if (i+1) % 100 == 0:
            print(f'Epoch [{epoch+1}/{num_epochs}], Step [{i+1}/{len(train_loader)}], Loss: {loss.item():.4f}')

    # Validación, es simplemente un forward pass con el conjunto de validación
    model.eval()
    with torch.no_grad():
        correct_valid = 0
        total_valid = 0
        for images, labels in valid_loader:
            # pasar al dispositivo
            images = images.to(device)
            labels = labels.to(device)
            ############################
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total_valid += labels.size(0)
            correct_valid += (predicted == labels).sum().item()
        print(f'Epoch [{epoch+1}/{num_epochs}], val accuracy: {100 * correct_valid / total_valid}%')
    model.train() # Volver al modo de entrenamiento, esto solo es necesario en determinados casos que ya los veremos, pero es un buen hábito ponerlo siempre
print("Entrenamiento finalizado!")

# 4. Evaluación del modelo
model.eval()
with torch.no_grad(): # Deshabilita el cálculo de gradientes
    correct = 0
    total = 0
    for images, labels in test_loader:
        # pasar al dispositivo
        images = images.to(device)
        labels = labels.to(device)
        ############################
        outputs = model(images)
        _, predicted = torch.max(outputs.data, 1) # Obtiene el índice de la clase con mayor probabilidad
        total += labels.size(0) # Tamaño del batch
        correct += (predicted == labels).sum().item() # Suma el número de predicciones correctas

    print(f'Precisión del modelo en las 10000 imágenes de prueba: {100 * correct / total}%')

# Ejercicios para manejar tensores

Busca en la documentación de PyTorch y resuelve los siguientes ejercicios:

1. Crea un tensor de 3x3 con valores de una distribución normal estándar.
2. Crea un tensor de 4x4 con valores de una distribución uniforme entre 0 y 1.
3. Crea un tensor de 5x5 con valores de una distribución normal con media 5 y desviación estándar de 1. 
4. Crea un tensor de 3x3 con valores de una distribución normal con media 0 y desviación estándar de 1, pero solo con valores entre 3 y 7.
5. Crea un tensor de 3x3 con valores de una distribución normal con media 0 y desviación estándar de 1, pero solo con valores entre 3 y 7, y luego redondea los valores a enteros.
6. Ahora convierte el tensor anterior a un tensor de tipo `long`.
7. Crea un tensor de 5D. ¿Cómo obtendría las dimensiones del tensor?

PISTA: Busca en la documentación de PyTorch las funciones `torch.randn()`, `torch.rand()`, `torch.normal()`, `torch.clamp()`, `torch.round()`, `torch.long()`, `.masked_fill` y `.shape` o `.size()`.


## Ejercicios para manejar redes neuronales

1. En un notebooks aparte copia el codigo de la red neuronal simple y entrena la red neuronal con el dataset de MNIST. (Preferiblemente en Google Colab)
2. Modifica el código para tener tambien el accuracy en el conjunto de entrenamiento.
3. Almacena los valores de loss y accuracy en cada época.
4. Representa en una grafica la evolución del loss de validación y de entrenamiento en función del número de épocas.
5. Representa en una grafica la evolución del accuracy de validación y de entrenamiento en función del número de épocas.
6. Experimenta con los hiperparametros: (Anotalos en una tabla aparte y compara los resultados obtenidos.)
    - Número de capas ocultas
    - Número de neuronas por capa
    - Funciones de activación
    - Optimizador
    - Número de épocas
    - Tamaño del batch
    - etc.