# Clase Nº 7 (optativa)

**Plan de la clase:**  
**(1)** Aprendizaje automático o _machine learning_ (con la librería `scikit-learn`)
 - Aprendizaje supervisado <br>
 - Aprendizaje no supervisado 

**(2)** Aprendizaje profundo o _deep learning_ (con la librería `pytorch`)<br>

## Aprendizaje automático

En esta sección vamos a usar la librería `scikit-learn`.
Para instalarla, basta ejecutar `conda install scikit-learn ` en la consola.

`Scikit-learn` provee una serie de funcionalidades útiles para entrenar algoritmos de aprendizaje automático.


In [None]:
import sklearn

### Aprendizaje supervisado

#### Regresión lineal

In [None]:
import numpy as np
from sklearn import linear_model
import matplotlib.pyplot as plt

In [None]:
N = 1000 # Número de observaciones
M = 3 # Número de predictores (features)
beta = np.random.randn(M,1) * 2 # Efecto de cada predictor en la variable "respuesta" (Y)

Simulemos los "datos", $X$, y los efectos $\beta$ de cada predictor en la respuesta :

In [None]:
X = 2 *(np.random.random((N,M)) - 0.5) # los "datos" (uniforme en [-1,1])
print(f"Datos (primeras 5 filas):\n {X[:5]} \n...\n")
print(f"Efectos:\n{beta}" )

In [None]:
plt.hist(X)
plt.show()

Ahora simulemos las respuestas (o "etiquetas") $y=X\beta+\epsilon$, donde $\epsilon\sim \mathcal{N}(0,\sigma^2)$.<br>
Primero, examinemos las dimensiones:

In [None]:
y = X.dot(beta)
print(f"{X.shape} * {beta.shape} = {y.shape}")

In [None]:
sigma = 1
ruido = np.random.randn(N,1) * sigma
y = y + ruido
print("Efectos:\n",beta)

Grafiquemos los datos (marginalizando respecto a todos los predictores salvo uno)

In [None]:
from ipywidgets import interact

def plot_y_vs_xi(Xi):
    
    X
    plt.scatter(X[:, Xi], y)
    plt.xlabel(f"$X_{Xi}$", fontdict={"size":16})
    plt.ylabel("Y", fontdict={"size":16})
    plt.show()
    
interact(
    plot_y_vs_xi, 
    Xi={f"X{i}": i for i in range(M)}
);

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=250)

In [None]:
print(f"Tamaño del dataset de entrenamiento: {X_train.shape[0]}")
print(f"Tamaño del dataset de testeo: {X_test.shape[0]}")

In [None]:
modelo = linear_model.LinearRegression()

In [None]:
modelo = modelo.fit(X_train, y_train)

In [None]:
print(f"Coeficientes reales:\t{beta[:,0]}")
print(f"Coeficientes estimados:\t{modelo.coef_[0]}")

In [None]:
y_pred = modelo.predict(X_test)
print(y_pred)

In [None]:
modelo.score(X_test, y_test)

___

### Aprendizaje no supervisado
Como vimos, en aprendizaje no supervisado no tenemos "etiquetas", sino que tratamos de descubrir patrones en los datos.

#### Clustering
Vamos a ver un ejemplo de un algoritmo de clustering: $k$-medias ($k$-means en inglés).

Primero simulemos algunos datos con una estructura de clusters subyacente. Esto lo hacemos utilizando una función de scikit-learn llamada `make_blobs`:

In [None]:
from sklearn.datasets import make_blobs

X, y = make_blobs(n_samples=1000, random_state=0)

In [None]:
plt.scatter(X[:,0], X[:,1], c=y)
plt.show()

In [None]:
print(y)

In [None]:
from sklearn import cluster
clustering = cluster.KMeans(n_clusters=3)

In [None]:
clustering.fit(X)

In [None]:
# etiquetas de los clusters encontrados
print(clustering.labels_)

In [None]:
print(
  sklearn.metrics.confusion_matrix(y_pred=clustering.labels_, y_true=y)
)

## Aprendizaje profundo

En esta parte vamos a ver los fundamentos del aprendizaje profundo. Vamos a ver cómo funcionan las redes neuronales convolucionales (CNNs), que es el tipo de red neuronal que se usa para procesamiento de imágenes.
Luego vamos a implementar una red neuronal convolucional que aprende a reconocer dígitos.

Instalar:
```
conda install pytorch==1.11 -c conda-forge
conda install torchvision -c conda-forge
```

### Teoría
#### ¿Qué es una red neuronal artificial (ANN)?
Una red neuronal artificial es un modelo matemático que se puede representar como una sucesión de _capas_ que van desde los datos de entrada ($X$) a los datos de salida ($y$, o etiquetas). Cada capa se "comunica" sólo con la inmediata anterior y posterior.

![caption](figuras/NN.png)

Las capas intermedias se llaman _capas ocultas_ o _latentes_. Cada neurona de una capa recibe como entrada una combinación lineal de las salidas de las neuronas de la capa anterior. 

Cada flecha en la figura de arriba representa el _peso_ que le damos a la neurona de la izquierda en la entrada de la neurona de la derecha.

Estos pesos son los parámetros que la red "aprende", de la misma manera que en una regresión lineal sencilla ajustábamos pendiente y ordenada al origen de la recta.

**Pregunta**: *¿Cuántos parámetros "ajustables" tiene la red de arriba?*

#### Funciones de activación
Como sabemos de álgebra lineal, el proceso que describimos hasta ahora equivale a multiplicar vectores por matrices sucesivas veces, es decir hacer $y = B(Ax)$.

Pero esto es equivalente a multiplicar por una sola matriz $C=BA$, es decir, a no tener ninguna capa oculta!

En lugar de hacer esto, para tener más flexibilidad en el tipo de comportamiento que la red captura, en cada capa utilizamos una **función de activación no lineal**.

#### ¿Cómo entrenamos una red neuronal?
En general usamos una técnica **iterativa** que se llama *descenso por gradiente*, donde la "x" es el vector de todos los parámetros de la red (la derivada se convierte en un gradiente) y la función que queremos optimizar es una medida del error que la red está cometiendo en la iteración presente. 

Esta función a optimizar se llama **función de pérdida** (*loss function*) o **función de costo**.

![caption](figuras/gradient_descent.png)

Para calcular el gradiente respecto de cada uno de los parámetros, se debe aplicar la **regla de la cadena** debido a las interdependencias que hay entre las distintas neuronas de la red. La aplicación de la regla en la cadena para redes neuronales se llama **retropropagación**.

En cada iteración, el valor de los pesos de la red se corrige en una cantidad dada por el gradiente de la función de pérdida.

#### Ver también
- [Este](https://www.youtube.com/watch?v=aircAruvnKk) es un video **muy bueno** para ganar una mejor intuición de lo que ocurre en una red neuronal.
- Estos videos del mismo canal explican la matemática detrás de cómo se entrena una red:
  - [Descenso por gradiente](https://www.youtube.com/watch?v=IHZwWFHWa-w)
  - [Retropropagación](https://www.youtube.com/watch?v=Ilg3gGewQ5U)

Así luce una función de pérdida real (respecto a sólo dos parámetros!):
![caption](figuras/loss_function_nn.jpeg)

### Implementación

Vamos a ver cómo usar PyTorch para implementar redes neuronales.
Para importar la librería, ejecutamos:

In [None]:
import torch

In [None]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.optim.lr_scheduler import StepLR

In [None]:
print("La versión de PyTorch que tengo instalada es la %s." % (torch.__version__))

¿Cómo hacemos para generar la red neuronal de más arriba?

Primero, definamos la **arquitectura** de la red neuronal: 2 neuronas de entrada, 1 capa oculta con 3 neuronas y 2 neuronas de salida.

Para ello tenemos que construir una clase que _herede_ de `nn.Module`:

In [None]:
class NuestraPrimeraRed(nn.Module):
    
    def __init__(self):
        super(NuestraPrimeraRed, self).__init__()
        self.capa12 = nn.Linear(2, 3)
        self.capa23 = nn.Linear(3, 2)
        
    def forward(self, x):
        x = self.capa12(x)
        x = F.sigmoid(x)
        y = self.capa23(x)
        return y

Listo!

Ahora podemos inicializar el modelo, llamando al constructor de la clase:

En el siguiente ejemplo vamos a ver cómo entrenaríamos una red.

#### Redes neuronales convolucionales (CNNs)

Las CNNs se basan en el uso de **filtros convolucionales**.

Por ejemplo, este filtro produce una nueva imagen que resalta los bordes horizontales:
<img src="figuras/filtro_convolucional.png" alt="Drawing" style="width: 200px;"/>

![caption](figuras/cnn.png)

### Datos

Vamos a trabajar con un dataset llamado **MNIST**, el cual contiene imágenes de dígitos de 28x28 píxeles.

Para bajarlo, podemos usar PyTorch:

In [None]:
from torchvision import datasets
from torchvision import transforms

In [None]:
mnist_trainset = datasets.MNIST(root='./data', train=True, download=True, transform=transforms.Compose([transforms.ToTensor()]))
mnist_testset = datasets.MNIST(root='./data', train=False, download=True, transform=transforms.Compose([transforms.ToTensor()]))

(En [este link](https://pytorch.org/docs/stable/torchvision/datasets.html) van a poder encontrar otros datasets.)

Examinemos un poco los datos:

In [None]:
print(mnist_trainset.classes)
print(mnist_trainset.train_labels)

In [None]:
# Visualicemos las imágenes

import matplotlib.pyplot as plt

fig=plt.figure(figsize=(20, 10))
for i in range(1, 16):
    img = transforms.ToPILImage(mode='L')(mnist_trainset[i][0])
    fig.add_subplot(1, 16, i)
    plt.title(mnist_trainset[i][1])
    plt.imshow(img)
plt.show()


In [None]:
print(mnist_trainset.data.shape)
print(mnist_trainset.data[0].shape)

### Preparemos los datos

In [None]:
from torch.utils.data import Subset

mnist_valset, mnist_testset = torch.utils.data.random_split(mnist_testset, [int(0.9 * len(mnist_testset)), int(0.1 * len(mnist_testset))])

# para traernos un subconjuntos de los datos
train_dataloader = torch.utils.data.DataLoader(Subset(mnist_trainset, range(5000)), batch_size=64, shuffle=True)
val_dataloader = torch.utils.data.DataLoader(Subset(mnist_valset, range(1000)), batch_size=32, shuffle=False)
test_dataloader = torch.utils.data.DataLoader(Subset(mnist_testset, range(500)), batch_size=32, shuffle=False)

#train_dataloader = torch.utils.data.DataLoader(mnist_trainset, batch_size=64, shuffle=True)
#val_dataloader = torch.utils.data.DataLoader(mnist_valset, batch_size=32, shuffle=False)
#test_dataloader = torch.utils.data.DataLoader(mnist_testset, batch_size=32, shuffle=False)

0) Definamos la arquitectura de la red neuronal

In [None]:
class NuestraSegundaRed(nn.Module):
    def __init__(self):
        super(NuestraSegundaRed, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, 3, 1)
        self.conv2 = nn.Conv2d(32, 64, 3, 1)
        self.dropout1 = nn.Dropout(0.25)
        self.dropout2 = nn.Dropout(0.5)
        self.fc1 = nn.Linear(9216, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = self.conv1(x)
        x = F.relu(x)
        x = self.conv2(x)
        x = F.relu(x)
        x = F.max_pool2d(x, 2)
        x = self.dropout1(x)
        x = torch.flatten(x, 1)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.dropout2(x)
        x = self.fc2(x)
        output = F.softmax(x, dim=1)
        return output

1) Inicializamos el modelo

In [None]:
modelo = NuestraSegundaRed()

1) Definimos la **función de pérdida**. En este caso usamos la *entropía cruzada* (`CrossEntropyLoss`), que es la forma estándar de medir el error cuando la salida es una variable categórica (en lugar de una continua):

In [None]:
criterio = torch.nn.CrossEntropyLoss()

2) Definimos el algoritmo que vamos a usar para entrenar la red (el **optimizador**):

In [None]:
optimizador = torch.optim.Adam(modelo.parameters(), lr=0.001)

### Entrenamiento de la red

In [None]:
import time

In [None]:
no_epochs = 5
train_loss = list()
val_loss = list()
best_val_loss = 1

for epoch in range(no_epochs):
    total_train_loss = 0
    total_val_loss = 0

    modelo.train()

    # training
    for itr, (image, label) in enumerate(train_dataloader):
        optimizador.zero_grad()

        pred = modelo(image)

        loss = criterio(pred, label)
        total_train_loss += loss.item()

        loss.backward()
        optimizador.step()

    total_train_loss = total_train_loss / (itr + 1)
    train_loss.append(total_train_loss)
    
    # validation
    modelo.eval()
    total = 0
    for itr, (image, label) in enumerate(val_dataloader):
        pred = modelo(image)

        loss = criterio(pred, label)
        total_val_loss += loss.item()

        pred = torch.nn.functional.softmax(pred, dim=1)
        for i, p in enumerate(pred):
            if label[i] == torch.max(p.data, 0)[1]:
                total = total + 1

    accuracy = total / len(mnist_valset)

    total_val_loss = total_val_loss / (itr + 1)
    val_loss.append(total_val_loss)

    hora = time.strftime("%H:%M:%S") 
    print('\n{} - Epoch: {}/{}, Train Loss: {:.8f}, Val Loss: {:.8f}, Val Accuracy: {:.8f}'.format(hora, epoch + 1, no_epochs, total_train_loss, total_val_loss, accuracy))

    if total_val_loss < best_val_loss:
        best_val_loss = total_val_loss
        print("Saving the model state dictionary for Epoch: {} with Validation loss: {:.8f}".format(epoch + 1, total_val_loss))
        torch.save(modelo.state_dict(), "checkpoints/model.dth")

Podemos cargar los parámetros del modelo ya entrenado desde el archivo que guardamos en la celda de arriba

In [None]:
modelo.load_state_dict(torch.load("checkpoints/model_preentrenado.dth"))

In [None]:
import PIL

In [None]:
import os

In [None]:
def f(archivo):
    a = PIL.Image.open(archivo)
    a = np.asarray(a)
    a = torch.Tensor(a)
    a = a.expand(1,1,28,28)
    print(modelo(a).argmax())

In [None]:
import ipywidgets as widgets
from ipywidgets import interact

In [None]:
interact(f, archivo=widgets.Dropdown(options=[x for x in os.listdir() if x.endswith("png")]));

In [None]:
import numpy as np

fig=plt.figure(figsize=(20, 10))
plt.plot(np.arange(1, no_epochs+1), train_loss, label="Train loss")
plt.plot(np.arange(1, no_epochs+1), val_loss, label="Validation loss")
plt.xlabel('Loss')
plt.ylabel('Epochs')
plt.title("Loss Plots")
plt.legend(loc='upper right')
# plt.show()
plt.savefig('loss.png')