## Módulo 5 - PyTorch: Redes Neuronales en Python

En este notebook presentaremos una breve introducción a las características principales de PyTorch, una biblioteca para deep learning en Python. Este módulo asume que el lector conoce NumPY, la biblioteca de análisis numérico básico en Python, y scikit-learn, la biblioteca de aprendizaje automático más popular en el lenguaje (la utilizaremos para funciones auxiliares de carga de datos y alguna tarea más, pero no para el aprendizaje propiamente dicho). 


Referencias:

- El notebook está basado principalmente en el libro [Machine Learning with PyTorch and Scikit-Learn](https://github.com/rasbt/machine-learning-book), de Sebastian Raschka, Yuxi Liu y Vahid Mirjalili, en particular los capítulos 12 y 13
- La documentación de PyTorch tienen un [tutorial](https://pytorch.org/tutorials/beginner/basics/intro.html) mostrando cómo entrenar una red neuronal que clasifica prendas, entrenado sobre el dataset FashionMNIST
- Para una introducción paso a paso al uso de PyTorch para DL, el curso de Sebastian Raschka [Deep Learning fundamentals](https://lightning.ai/courses/deep-learning-fundamentals/) es un material excelente

In [6]:
import torch 
import numpy as np

# Este notebook fue elaborado con la versión 2.0.1 de Torch y la versión 1.24.3 de NumPy
print("Versión de Torch:",torch.__version__)
print("Versión de Numpy:",np.__version__)

Versión de Torch: 2.0.1
Versión de Numpy: 1.24.3


## 1. Tensores

Las estructuras básicas de PyTorch son los _tensores_. Los tensores son generalizaciones de los escalares, vectores, matrices, etc. Un escalar es un tensor de rango 0, un vector es un tensor de rango 1, y una matriz es un tensor de rango 2. Los tensores, sin embargo, pueden tener rangos arbitrariamente grandes.  Los tensores son parecidos a los arrays de PyTorch, pero están optimizados para las operaciones de diferenciación automática y pueden correr en GPUs (volveremos sobre esto).

Los tensores pueden crearse directamente, o a partir de listas de Python o arrays de NumPy:

In [8]:
t_a = torch.tensor([1,2,3])
print(t_a)

b = np.array([3,4,5], dtype=np.int32)
t_b = torch.from_numpy(b)
print(t_b)

tensor([1, 2, 3])
tensor([3, 4, 5], dtype=torch.int32)


Podemos consultar las propiedades de un tensor, tales como tipo de datos, y su forma: 

In [12]:
t_c = torch.rand(3,4)
print(t_c)
print(t_c.shape)
print(t_c.dtype)

tensor([[0.5752, 0.7417, 0.1909, 0.6708],
        [0.0739, 0.3009, 0.0959, 0.5807],
        [0.5639, 0.7001, 0.7714, 0.2216]])
torch.Size([3, 4])
torch.float32


Los tensores pueden dinámicamente cambiar su forma (i.e. cuántos valores tiene cada dimensión). PyTorch resuelve de forma "inteligente" estos cambios, siempre que se mantenga la cantidad de elementos. El siguiente ejemplo transforma un tensor que es un vector de 10 elementos, en una matriz de 2 filas por 5 columnas:

In [15]:
t_d = torch.ones(10)
t_d1 = t_d.reshape(2,5) # La convención para el orden es, igual que en numpy, fila/columna
print(t_d)
print(t_d1)

tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])
tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])


## 2. Operaciones con Tensores

Igual que numpy permite operar con arrays, PyTorch utiliza prácticamente las mismas reglas y operaciones para realizar operaciones matemáticas sobre los tensores. 

El siguiente ejemplo multiplica elemento a elemento dos tensores de tamaño 2x3 (el primero, creado a partir de números aleatorios con una distribución uniforme en \[0,1), y el segundo con una distribución normal de media 0 y desviación estándar 1. 

In [22]:
torch.manual_seed(10) # Es buena costumbre fijar la semilla para que los resultados sean reproducibles
t1 = torch.rand(5,2) 
t2 = torch.normal(mean=0,std=1,size=(5,2))

print(t1)
print(t2)

print(torch.multiply(t1,t2))

tensor([[0.4581, 0.4829],
        [0.3125, 0.6150],
        [0.2139, 0.4118],
        [0.6938, 0.9693],
        [0.6178, 0.3304]])
tensor([[-1.0531,  0.9457],
        [-0.8307, -0.3713],
        [ 1.2137, -0.6678],
        [-0.4038, -0.1300],
        [ 0.7410, -0.1425]])
tensor([[-0.4824,  0.4567],
        [-0.2596, -0.2284],
        [ 0.2597, -0.2750],
        [-0.2802, -0.1260],
        [ 0.4578, -0.0471]])


Podemos también hacer cálculos sobre ciertas axes (axis=0 son las filas, axis=1 las columnas, y así sucesivamente). Por ejamplo, para calcular la media de cada una de las columnas del segundo tensor con números aleatorios, utilizamos `torch.mean`:

In [23]:
print(torch.mean(t2,axis=0)) # Debería dar algo cercano a 0...

tensor([-0.0666, -0.0732])


Para calcular multiplicaciones entre matrices, se utiliza `torch.matmul`, que realiza las operaciones [usuales](https://es.wikipedia.org/wiki/Multiplicaci%C3%B3n_de_matrices)

In [26]:
t4 = torch.tensor([[1,2],[3,4]])
t5 = torch.tensor([[5,6],[7,8]])

print(torch.matmul(t4,t5))

tensor([[19, 22],
        [43, 50]])


Si queremos calcular la [norma](https://es.wikipedia.org/wiki/Norma_vectorial) de un tensor, utilizaremos `torch.linalg.norm`:

In [29]:
t6 = torch.rand(100)
print(torch.linalg.norm(t6,ord=2))
print(torch.linalg.norm(t6,ord=1))


tensor(5.8368)
tensor(49.7960)


## 3. Carga de datos

Habiendo visto las operaciones básicas sobre vectores, empezaremos a ver cómo entrenar una red neuronal utilizando PyTorch. Pero antes veremos algunas funciones útiles que PyTorch provee para manejar datasets, especialmente en aquellos casos (la mayoría) donde no podemos guardar todo el dataset en memoria, y deberemos irlo recuperando en pedazos (o batchs) desde disco, así como realizar otras funciones de preprocesamiento antes del aprendizaje propiamente dicho.

Lo primero que vamos a ver es cómo crear un `DataLoader` a partir de un tensor: 

In [31]:
from torch.utils.data import DataLoader
t = torch.rand(20)
data_loader = DataLoader(t)

Habiendo construido el dataset, podemos iterar fácilmente sobre él: 

In [32]:
for item in data_loader:
    print(item)

tensor([0.4809])
tensor([0.0962])
tensor([0.6643])
tensor([0.7610])
tensor([0.7991])
tensor([0.8031])
tensor([0.7717])
tensor([0.6075])
tensor([0.5334])
tensor([0.7489])
tensor([0.0050])
tensor([0.7465])
tensor([0.6390])
tensor([0.6332])
tensor([0.3612])
tensor([0.6436])
tensor([0.6184])
tensor([0.0132])
tensor([0.2650])
tensor([0.7495])


Podemos especificar que los elementos se procesen en batchs de cierto tamaño: 

In [34]:
data_loader = DataLoader(t,batch_size=6,drop_last=False) # No descartamos el último batch si está incompleto
for i, batch in enumerate(data_loader,1):
    print(f'batch {i}:', batch)

batch 1: tensor([0.4809, 0.0962, 0.6643, 0.7610, 0.7991, 0.8031])
batch 2: tensor([0.7717, 0.6075, 0.5334, 0.7489, 0.0050, 0.7465])
batch 3: tensor([0.6390, 0.6332, 0.3612, 0.6436, 0.6184, 0.0132])
batch 4: tensor([0.2650, 0.7495])


Es muy común que tengamos dos tensores que nos interese procesar al mismo tiempo. El caso típico es un tensor con las features, y otro con las etiquetas. Para eso, la clase `TensorDataset` nos permite manejarlos como una unidad:

In [36]:
from torch.utils.data import TensorDataset

# Creamos un mini dataset que tiene 4 elementos y 3 atributos por cada uno
t_x = torch.rand([4,3],dtype=torch.float32)
t_y = torch.arange(4)
joint_dataset = TensorDataset(t_x,t_y)

for example in joint_dataset:
    print('x:', example[0], ' y:', example[1])

x: tensor([0.6414, 0.8605, 0.0916])  y: tensor(0)
x: tensor([0.3973, 0.8914, 0.7675])  y: tensor(1)
x: tensor([0.0880, 0.4807, 0.5685])  y: tensor(2)
x: tensor([0.1676, 0.8042, 0.5398])  y: tensor(3)


Con este dataset, podemos, por supuesto, crear un nuevo DataLoader. En este caso, vamos a especificarle, además, que cada vez que recorra el dataset, mezcle las instancias de forma aleatoria. Esto será muy útil cuando recorramos varias veces el conjunto de entrenamiento para entrenar la red neuronal.

In [41]:
torch.manual_seed(10)
data_loader = DataLoader(dataset=joint_dataset, batch_size=2, shuffle=True, drop_last=False)

Realizamos una iteración...

In [42]:
for i, batch in enumerate(data_loader,1):
    print(f'batch {i}:', batch)

batch 1: [tensor([[0.6414, 0.8605, 0.0916],
        [0.0880, 0.4807, 0.5685]]), tensor([0, 2])]
batch 2: [tensor([[0.3973, 0.8914, 0.7675],
        [0.1676, 0.8042, 0.5398]]), tensor([1, 3])]


Y luego otra, sobre el mismo dataset...

In [43]:
for i, batch in enumerate(data_loader,1):
    print(f'batch {i}:', batch)

batch 1: [tensor([[0.1676, 0.8042, 0.5398],
        [0.0880, 0.4807, 0.5685]]), tensor([3, 2])]
batch 2: [tensor([[0.3973, 0.8914, 0.7675],
        [0.6414, 0.8605, 0.0916]]), tensor([1, 0])]


## 4. Cargando datos con torchvision

Los métodos de `Dataset` y `DataLoader` permite construir datasets de forma muy general, a partir de nuestros datos, utilizando PyTorch. Sin embargo, para los datasets más populares, existen bibliotecas como `TorchVision` o `TorchText` que ya los proveen. Veamos, por ejemplo, cómo importar el dataset [MNIST](http://yann.lecun.com/exdb/mnist/) de números escritos a mano, utilizando `torchvision`

In [47]:
import torchvision
from torchvision import transforms

image_path = './'

# Esto nos permite convertir las features de los píxeles en tensores y los normaliza al rango [0,1]
transform = transforms.Compose([transforms.ToTensor()])

# Importamos los datasets
# Las etiquetas son valores entre 0 y 9 para representar los dígitos.
mnist_train_dataset = torchvision.datasets.MNIST(root=image_path, train=True, transform=transform, download=True)
mnist_test_dataset  = torchvision.datasets.MNIST(root=image_path, train=False, transform=transform, download=True)

batch_size = 64
torch.manual_seed(10)
train_dl = DataLoader(mnist_train_dataset, batch_size, shuffle=True)

## 5. El modelo de computación de PyTorch

PyTorch permite construir _grafos de computación_ para derivar las relaciones entre los tensores, cuando se realizan operaciones entre ellos (una red neuronal no es más que una serie de cálculos sobre tensores, partiendo del tensor inicial con la entrada). Trabajaremos con el ejemplo $ z = 2x(a-b) +c$

In [54]:
def compute_z(a,b,c):
    r1 = torch.sub(a,b)
    r2 = torch.mul(r1,2)
    z = torch.add(r2,c)
    return z
    
c= compute_z(torch.tensor([1,2,3]),torch.tensor([2,2,3]),torch.tensor([1,1,1]))
print(c)

tensor([-1,  1,  1])


La función `compute_z` permite obtener el resultado sobre tensores cualesquiera (lo cual podríamos haber hecho sin problemas con `NumPy`) sino que conoce la forma de computarlo... lo que le permitirá luego calcular automática y eficientemente el gradiente, fundamental para el algoritmo de backpropagation, para aquellos tensores donde los especifiquemos explícitamente.  

In [57]:
a = torch.tensor(3.14, requires_grad=True)
print(a)

b = torch.tensor(12.0, requires_grad=True)
b.requires_grad_
print(b)

tensor(3.1400, requires_grad=True)
tensor(12., requires_grad=True)


## 6. Diferenciación automática

Sabemos que para entrenar una red neuronal necesitamos calcular los gradientes de la función de pérdida con respecto a los pesos de la red. Veremos que PyTorch calcula estos gradientes de forma dinámica, y luego veremos cómo implementar un modelo utilizando estas capacidades


In [59]:
w = torch.tensor(1.0, requires_grad = True)
b = torch.tensor(0.5, requires_grad = True)

# z = wx + b
x = torch.tensor([1.4])
y = torch.tensor([2.1])
z = torch.add(torch.mul(w,x),b)

# mi función de pérdida es la pérdida cuadrática (y-z)^2
loss = (y-z).pow(2).sum()

# calculo el gradiente
loss.backward()
print('dL/dw:',w.grad)
print('dL/db:',b.grad)



dL/dw: tensor(-0.5600)
dL/db: tensor(-0.4000)


Podemos ver que el atributo `grad` de $w$ y de $b$ contiene el gradiente de la función de pérdida respecto al parámetro correspondiente. El método `backward()` es el que hace la magia de la backpropagation (y por eso debemos invocarlo luego de calcular la pérdida). Como en este caso la derivada es muy fácil de calcular ($2x(wx+b-y)$), podemos verificar que PyTorch está haciendo bien las cuentas:

In [60]:
print(2 * x * (( w*x +b) - y ))

tensor([-0.5600], grad_fn=<MulBackward0>)


## 7. nn.Sequential

PyTorch provee una clase [`nn.Sequential`](https://pytorch.org/docs/stable/generated/torch.nn.Sequential.html) que permite especificar redes feed forward de forma muy sencilla. Veamos un ejemplo":



In [63]:
model = nn.Sequential(
    nn.Linear(4,16),
    nn.ReLU(),
    nn.Linear(16,32),
    nn.ReLU()
)

model

Sequential(
  (0): Linear(in_features=4, out_features=16, bias=True)
  (1): ReLU()
  (2): Linear(in_features=16, out_features=32, bias=True)
  (3): ReLU()
)

La red anterior recibe 4 reales como entrada y tiene dos capas: la primera tiene 16 nodos, y su función de activación es una ReLU, mientras que la segunda tiene 32 nodos y también una ReLU como salida. Por lo tanto, esta red tendrá como salida un valor real (y por lo tanto sería adecuada para un problema de regresión). Sobre este modelo, es posible especificar diferentes funciones de activación, aplicar regularizaciones, entre otras muchas funciones. 

## 8. Definición y entrenamiento de una red neuronal

A partir de los datos de los dígitos de MNIST que importamos previamente, vamos a intentar predecir con una red neuronal las clases correspondientes. 

Primero, construimos el modelo de red (seguimos el ejemplo del libro de Rashka mencionado en la introducción): 

In [64]:
hidden_units = [32,16]
image_size = mnist_train_dataset[0][0].shape
input_size = image_size[0] * image_size[1] * image_size [2]

# Nuestro primer paso es convertir las imágenes  a un vector
all_layers = [nn.Flatten()]

for hidden_unit in hidden_units:
    layer = nn.Linear(input_size, hidden_unit)
    all_layers.append(layer)
    all_layers.append(nn.ReLU())
    input_size = hidden_unit

all_layers.append(nn.Linear(hidden_units[-1],10))

model = nn.Sequential(*all_layers)

print(model)

Sequential(
  (0): Flatten(start_dim=1, end_dim=-1)
  (1): Linear(in_features=784, out_features=32, bias=True)
  (2): ReLU()
  (3): Linear(in_features=32, out_features=16, bias=True)
  (4): ReLU()
  (5): Linear(in_features=16, out_features=10, bias=True)
)


A continuación, realizamos el entrenamiento. Para esto, especificamos la función de pérdida (en esta caso, Entropía cruzada) y el optimizador (Adam). Nos intenersa usar entropía cruzada porque es la función de pérdida típica para softmax. 



In [65]:
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
torch.manual_seed(10)


<torch._C.Generator at 0x154bb338070>

Entrenamos por 10 épocas...

In [69]:
num_epochs = 20
for epoch in range(num_epochs):
    accuracy_hist_train = 0
    for x_batch, y_batch in train_dl:
        # Paso forward, obtenemos la predicción de la red con los valores actuales
        pred = model(x_batch)
        # Calculamos la pérdida. 
        loss = loss_fn(pred,y_batch)
        # Backpropagation!
        loss.backward()
        # Ajustamos los pesos utilizando el algoritmo de optimización
        optimizer.step()
        optimizer.zero_grad()
        
        is_correct = (torch.argmax(pred,dim=1) == y_batch).float()
        
        accuracy_hist_train += is_correct.sum()
        
    accuracy_hist_train /= len(train_dl.dataset)
    print(f'Epoch {epoch}  Accuracy '
          f'{accuracy_hist_train:.4f}')
          
          
        

Epoch 0  Accuracy 0.8552
Epoch 1  Accuracy 0.9329
Epoch 2  Accuracy 0.9472
Epoch 3  Accuracy 0.9552
Epoch 4  Accuracy 0.9600
Epoch 5  Accuracy 0.9638
Epoch 6  Accuracy 0.9676
Epoch 7  Accuracy 0.9701
Epoch 8  Accuracy 0.9719
Epoch 9  Accuracy 0.9741
Epoch 10  Accuracy 0.9753
Epoch 11  Accuracy 0.9775
Epoch 12  Accuracy 0.9783
Epoch 13  Accuracy 0.9792
Epoch 14  Accuracy 0.9809
Epoch 15  Accuracy 0.9814
Epoch 16  Accuracy 0.9824
Epoch 17  Accuracy 0.9831
Epoch 18  Accuracy 0.9835
Epoch 19  Accuracy 0.9848


Nuestro modelo logró una accuracy de 98.48% sobre el conjunto de entrenamiento. Veamos ahora cómo es su performance sobre el conjunto de evaluación, para verificar que no hubo sobreajuste...

In [79]:
print((mnist_test_dataset.data).shape)

torch.Size([10000, 28, 28])


In [94]:
# Predecimos utilizando el modelo

# Antes normalizamos los valores RGB
# Esto lo hago porque no paso por el transform
pred = model(mnist_test_dataset.data/255.)

is_correct = ( torch.argmax(pred,dim=1) == mnist_test_dataset.targets).float()
print(f'Test accuracy: {is_correct.mean():.4f}')

Test accuracy: 0.9665


## 9. Más para leer

En el capítulo 13 del libro explica (y hay código asociado) cómo utilizar la biblioteca Lightining Trainer y TensorBoard para mostrar mejor los resultados. El código está disponible en [github](https://github.com/rasbt/machine-learning-book/tree/main/ch13)