---
title: "TICS-579-Deep Learning"
subtitle: "Clase 4: Model Training"
author: Alfonso Tobar-Arancibia
institute: <alfonso.tobar.a@edu.uai.cl>
format:
  revealjs:
    width: 1366
    height: 768
    theme: simple
    slide-number: true
    controls: true
    controls-layout: edges
    controls-back-arrows: faded
    transition: slide
    transition-speed: fast
    chalkboard: true
    callout-appearance: simple
    logo: ../logo-uai-blanco.jpeg
    css: ../logo.css
    code-copy: true
    highlight-style: arrow
    pdf-separate-fragments: true
---

```{css, echo=FALSE}
.reveal code {
  max-height: 100% !important;
}
```

## Entrenamiento de la Red {.smaller}

> A diferencia de un Modelo de Machine Learning, las Redes Neuronales se entrenan de manera progresiva (se espera una mejora en cada Epoch). Si nuestra Arquitectura es apropiada nosotros deberíamos esperar que el `Loss` de nuestra ***red siempre disminuya***. ¿Por qué?

:::{.callout-tip .fragment icon=false appearance="default"}
## 💡 Dado que el entrenamiento es progresivo, el modelo puede retomar su entrenamiento desde un set de pesos dados.
:::

::: {.callout-warning .fragment icon=false appearance="default"}
## **¿Siempre buscamos la Red que tenga el mejor Loss de Entrenamiento?** ***¿Cuál es la diferencia entre el `Loss` y el `Rendimento del Modelo`?***
:::

::: {.callout-important .fragment icon=false appearance="default"}
## Al igual que en los modelos de Machine Learning debemos evitar a toda costa el Overfitting. ¿Qué es el overfitting?
:::

## Entrenamiento de la Red {.smaller}

Bias-Variance Tradeoff (Dilema Sesgo-Varianza)
: > Probablemente el concepto más importante para determinar si un modelo tiene potencial o no. Corresponden a dos tipos de errores que pueden sufrir los modelos de ML. 

::: {.columns .fragment}
::: {.column .callout-note appearance="default" icon=false}
## Bias
Corresponde al sesgo, y tiene que ver con la diferencia entre el valor real y el valor predicho. Bajo sesgo implica una mejor predicción.
:::
::: {.column .callout-caution appearance="default" icon=false}
## Variance
Corresponde a la varianza y tiene que ver con la dispersión de los valores predichos. Baja Varianza implica un modelo más estable y menos flexible.
:::

::: {.callout-important .fragment appearance="default" icon=false}
## En general hay que buscar el equilibrio entre ambos tipos de errores:

* Alto Sesgo y baja Varianza: **Underfitting**. 
* Bajo Sesgo y Alta Varianza: **Overfitting**. 

:::
:::

## Model Validation {.smaller}

Validación Cruzada
: > Se refiere al proceso de entrenar un modelo en una cierta porción de los datos, pero validar sus rendimiento y capacidad de ***generalización*** en un set de datos ***no vistos*** por el modelo al momento de entrenar. 

::::{style="font-size: 120%;"}
::: {.callout-warning icon=false appearance="default" }
## ***¿Qué es la Generalización?***
:::

::: {.callout-note icon=false appearance="default" }
## Los dos métodos más populares que se usan en Machine Learning son **Holdout** y **K-Fold.** Más métodos se pueden encontrar en los [docs de Scikit-Learn](https://scikit-learn.org/stable/modules/cross_validation.html). 
:::

::: {.callout-important icon=false appearance="default" }
## Debido a los volúmenes de datos utilizados, el esquema de validación más utilizado es el **Holdout**.
:::
::::

## Model Validation: Holdout {.smaller}

::: {.columns}
::: {.column}

![](img/clase-4/data_split.png){.lightbox fig-align="center"}
:::
::: {.column}

::: {.callout-note appearance="default" icon="false"}
## **Train**
Corresponde a la porción de utilizado para que el modelo aprenda.
:::
::: {.callout-important appearance="default" icon="false"}
## **Validation**
Corresponde a la porción de datos no vistos por el modelo durante el entrenamiento. Se utiliza para medir el nivel de generalización del modelo.
:::
::: {.callout-caution appearance="default" icon="false"}
## **Test**
Se utiliza para evaluar reportando una métrica de diseño del Modelo.
:::

::: {.callout-caution}
A diferencia de un modelo de Machine Learning el proceso de validación del modelo se realiza en conjunto con el entrenamiento. Es decir, se entrena y valida el modelo Epoch a Epoch.
:::
:::
::: 

## Model Validation: K-Fold {.smaller}

![](img/clase-4/k-fold.png){.lightbox fig-align="center" width="60%"}

::: {.callout-important}
Corresponde al proceso de Holdout pero repetido $K$ veces.
:::

# ¿Qué es Pytorch?

## Pytorch {.smaller}
> Es una librería de manipulación de Tensores especializada en Deep Learning. Provee principalmente, manipulación de tensores (igual que Numpy, pero en GPU), además de Autograd (calcula derivadas de manera automática).

Para poder comenzar a utilizarlo se requieren normalmente 3 imports:

```{.python code-line-numbers="|1|2|3|"}
import torch
import torch.nn as nn
import torch.nn.functional as F
```

::: {.callout-important appearance="default" icon=false}
## 👀
* `torch` es donde se encuentran la mayoría de funciones básicas para manipular tensores.
* `torch.nn` es donde se encuentran los módulos necesarios para poder crear redes neuronales (neural networks). Cada módulo es una clase en Python.
* `torch.nn.functional` es donde se encontrarán `utility functions` además de versiones funcionales de elementos de `torch.nn`. 
:::

::: {.callout-tip appearance="default"}
## 👀 Una versión funcional es capaz de replicar la operación de un módulo pero no tiene la capacidad de almacenar los parámetros aprendidos.
:::

## Pytorch en GPU {.smaller}

La principal ventaja de frameworks como Pytorch es su ejecución en GPU, la cual ofrece una enorme capacidad de cómputo por la gran cantidad de núcleos.

:::{.callout-tip appearance="default" style="font-size: 120%;" icon=false}
## 🤓 Las GPUs usan CUDA (una variante compleja de C++), por lo que los errores suelen ser crípticos. Por ello se recomienda desarrollar en CPU y pasar a GPU solo cuando el código ya funcione correctamente y sea necesario entrenar.
:::

```{.python style="font-size: 120%;"}
## Permite automáticamente reconocer si es que existe GPU en el sistema y de existir lo asigna.
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
```
:::{.callout-note appearance="default" style="font-size: 120%;" icon=false}
## 🖥️ El código anterior es particularmente útil para plataformas como Google Colab donde se permite activar o desactivar el uso de GPU.
:::

```{.python style="font-size: 120%;"}
## Fija el entrenamiento en CPU.
device = torch.device("cpu")
```

## Convenciones: Modelo {.smaller}

::::{.columns}
:::{.column}
::: {.callout-caution style="font-size: 90%;" icon=false appearance="default"} 
## Una capa en Pytorch
* Son elementos importados desde `torch.nn`.
* Estos módulos deben ser instanciados para luego ser utilizados.
* Cada capa tiene guarda sus parámetros como `atributos`: 
  * `.weight.data` y `.bias.data` (para los pesos y bias respectivos).
  * **Ojo**: Pytorch utiliza los parámetros de manera transpuesta a como lo aprendimos en clases.

:::

```{.python style="font-size: 120%;"}
## Ejemplo de un capa de parámetros en Pytorch
## Proyecta desde 4 dimensiones a 12 dimensiones
fc1 = nn.Linear(in_features = 4, out_features=12)

## Forward Pass:
## Calcula las activaciones de la capa
fc1(X)

```

:::{.callout-note style="font-size: 90%;" icon=false appearance="default"}
## Output: Activaciones de la capa
:::
```{.python style="font-size: 90%;"}
tensor([[ 0.2620, -0.5313,  0.3907,  ..., -0.0451, -1.2113, -2.9476],
        [-1.2096, -0.2586, -0.1372,  ...,  0.1342, -1.1130, -1.4764],
        [-1.7676, -0.3754, -0.3786,  ...,  0.2964, -1.2234, -1.6176],
        ...,
        [-2.1432, -0.3500, -0.5168,  ...,  0.3048, -1.1075, -1.1932],
        [-2.6030,  0.0033, -0.6494,  ...,  0.8202, -1.6117, -1.0077],
        [ 0.1126, -0.4532,  0.3573,  ...,  0.0660, -1.0688, -2.4856]],
       grad_fn=<AddmmBackward0>)
```
:::
:::{.column}

::: {.callout-tip style="font-size: 90%;" icon=false appearance="default"} 
## Un clase en Pytorch permite crear redes más complejas y poseen 2 métodos principales:
  * Todas las clases deben heredar de `nn.Module`.

* `__init__()`:
  * Se inicializan los módulos con `super().__init__()`.
  * Se definen las capas de la red como atributos de la clase.
    * self.nombre_de_la_capa = nn.Capa(...)
    * self.funcion = nn.Funcion(...)
* `forward()`:
  * Define como se conectan las capas en el Forward Pass.

:::

```{.python style="font-size: 110%;"}
class MLP(nn.Module):
  def __init__(self, in_features, out_features):
    super().__init__()
    
    ## Defincición de capas
    self.fc1 = nn.Linear(in_features, out_features)

  def forward(self,x):
    x = self.fc1(x)
    return x

model = MLP(in_features=4, out_features = 12)
model(X)
```
:::

::::

## Crear Modelos más complejos {.smaller}



::::{.columns}
:::{.column}
::: {.callout-caution style="font-size: 90%;" icon=false appearance="default"} 
## Es posible combinar distintos `nn.Module` en un sólo modelo.
:::

```{.python style="font-size: 120%;"}
class MLP2(nn.Module):
  def __init__(self, in_features, out_features):
    super().__init__()
    self.fc1 = nn.Linear(in_features, out_features)
    self.relu = nn.ReLU(inplace = True)
    self.fc2 = nn.Linear(out_features, 1)

  def forward(self,x):
    x = self.fc1(x)
    x = self.relu(x)
    x = self.fc2(x)
    return x

class SuperMLP(nn.Module):
  def __init__(self):
    super().__init__()
    self.mlp1 = MLP(in_features=4, out_features=12)
    self.mlp2 = MLP2(in_features=12, out_features=8)
  def forward(self, x):
    x = self.mlp1(x)
    x = self.mlp2(x)
    return x

super_model = SuperMLP()
logits = super_model(X)
logits.shape

```

:::
:::{.column}

::: {.callout-tip style="font-size: 90%;" icon=false appearance="default"} 
## Un clase en Pytorch permite crear redes más complejas y poseen 2 métodos principales:
  * Todas las clases deben heredar de `nn.Module`.

* `__init__()`:
  * Se inicializan los módulos con `super().__init__()`.
  * Se definen las capas de la red como atributos de la clase.
    * self.nombre_de_la_capa = nn.Capa(...)
    * self.funcion = nn.Funcion(...)
* `forward()`:
  * Define como se conectan las capas en el Forward Pass.

:::

```{.python style="font-size: 110%;"}
class MLP(nn.Module):
  def __init__(self, in_features, out_features):
    super().__init__()
    
    ## Defincición de capas
    self.fc1 = nn.Linear(in_features, out_features)

  def forward(self,x):
    x = self.fc1(x)
    return x

model = MLP(in_features=4, out_features = 12)
model(X)
```
:::

::::






## Convenciones: Optimizador y Loss Function {.smaller}

* En Pytorch utilizaremos la siguiente nomenclatura:
  * Un `nn.Module` es una Red o un Módulo de una Red.
  * Varios `nn.Module` pueden ser combinados en distintas formas para crear redes más complejas.
* Pytorch requiere fijar el Modo de la Red. Para entrenar se utiliza `model.train()`, mientras que para evaluar se utiliza `model.eval()`.
* El `Loss Function` a utilizar le llamaremos `criterion`.
  * Pero el error de la red lo llamaremos `loss`.
* El cálculo de gradientes lo llamaremos `loss.backward()`. Esto calcula los gradientes y los acumula en cada parámetro del modelo.
  * Pytorch tiene la costumbre de Acumular Gradientes. Por lo tanto, antes de cada Backward Pass se debe reiniciar los gradientes a cero utilizando `optimizer.zero_grad()`.
* El optimizador lo llamaremos `optimizer`. Y llamaremos al proceso de actualizar pesos como `optimizer.step()`.

* Supongamos el caso particular en el cual queremos resolver un problema de clasificación binaria. ¿Cuánto valdría $k$ y cuál sería la **Loss Function** a utilizar?

* Supongamos que queremos transformar una Matriz $X$ de 1000 registros y 10 variables. Además tenemos un vector $y$ el cuál queremos predecir. 
* Supongamos que queremos llevar a 32 variables, luego a 64 para luego generar nuestra predicción. 
* Supongamos además que queremos usar como función de activación la función ReLU  en ambas capas de transformación.
:::
::: {.callout-caution .fragment}
¿Cómo definimos los 3 elementos principales de una red? 
:::
::: {.callout-tip .fragment}
(***Hipótesis***, ***Loss Function*** y ***Optimizador***)
:::


![](img/clase-2/formal_nn.png){.lightbox fig-align="center" width="80%"}  

















## Training-Validation Loop {.smaller}

> Corresponde a la modificación del Training Loop con el Objetivo de Entrenar y Validar de manera simultánea.

![](img/clase-4/forward_train.png){.lightbox fig-align="center" width="60%"}

::: {.callout-note}
Se realiza un Forward Pass con datos de **Train** y se calcula el Loss asociado. Internamente, Pytorch comienza a acumular Gradientes.
:::

## Training-Validation Loop {.smaller}

![](img/clase-4/backward_train.png){.lightbox fig-align="center"}

::: {.callout-note}
Se realiza un Backward Pass, se aplican los gradientes y se aplica el Update Rule.
:::

## Training-Validation Loop {.smaller}

![](img/clase-4/forward_val.png){.lightbox fig-align="center"}

::: {.callout-note}
Se realiza un nuevo Forward Pass, pero esta vez con los datos de **Validación**. En este caso Pytorch internamente sigue acumulando gradientes, lo cual no es correcto. Para ello se debe utilizar un `with torch.no_grad()`. Se calcula un Validation Loss.
:::

## Monitoreo de un Modelo: Validation Curve {.smaller}


::: {.columns}
::: {.column width="60%"}
![](img/clase-4/validation_curve.png){.lightbox fig-align="center"}
:::
::: {.column width="40%"}
::: {.callout-important}
Es importante ser capaz de identificar el momento exacto en el cual el momento comienza su overfitting. Para ello se utiliza el **"Checkpointing"**. 
:::

::: {.callout-note appearance="default"}
## Checkpoint

* Corresponde a un snapshot del modelo a un cierto punto. En la **práctica** se almacenan los parámetros del **mejor modelo** y del **último Epoch**.
:::

::: {.callout-tip appearance="default"}
## EarlyStopping

* Teoricamente, una vez que la red Neuronal alcanza el punto de Overfitting ya no tiene sentido seguir el entrenamiento. Por lo tanto es posible detener el entrenamiento bajo una cierta condición.
:::
:::
::: 



## Model Evaluation {.smaller}

> La Evaluación del Modelo se hará en torno a una métrica definida a priori por el modelador.

::: {.callout-important}
La métrica a utilizar está íntimamente ligada al tipo de modelo.
:::

::: {.columns}
::: {.column}
#### Clasificación

* $Accuracy = \frac{1}{m} \sum_{i = 1}^m 1\{y_i = \hat{y_i}\}$
* $Precision = \frac{TP}{TP + FP}$
* $Recall = \frac{TP}{TP + FN}$
* $F1-Score = 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall}$
:::


::: {.column}
#### Regresión
* $RMSE = \frac{1}{m} \sum_{i=1}^m (y_i-\hat{y_i})^2$
* $MAE = \frac{1}{m} \sum_{i=1}^m |y_i - \hat{y_i}|$
* $MAPE = 100 \cdot \frac{1}{m} \sum_{i=1}^m \frac{|y_i-\hat{y_i}|}{max(\epsilon,y_i)}$
* $SMAPE = \frac{2}{m} \sum_{i=1}^2 \frac{|y_i - \hat{y_i}  |}{max(|y_i + \hat{y_i}|,\epsilon)}$
:::
::: 

::: {.callout-warning}
* Las métricas acá explicadas son métricas básicas de cualquier modelo general de Clasificación y Regresión. Existen muchas otras métricas que son específicas para campos específicos. IoU por ejemplo es una Métrica de Segmentación Semántica, Map\@k es una métrica para modelos de Recomendación, Bleu o Rouge son métricas para NLP, etc. Para ver millones de métricas pueden ver las [docs de Torchmetrics](https://lightning.ai/docs/torchmetrics/stable/all-metrics.html).
:::
::: {.callout-tip}
Es posible utilizar métricas para ir ***monitoreando*** el progreso del modelo Epoch a Epoch. 
:::

# Continuará

::: {.footer}
<p xmlns:cc="http://creativecommons.org/ns#" xmlns:dct="http://purl.org/dc/terms/"><span property="dct:title">Tics-579 Deep Learning</span> por Alfonso Tobar-Arancibia está licenciado bajo <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/?ref=chooser-v1" target="_blank" rel="license noopener noreferrer" style="display:inline-block;">CC BY-NC-SA 4.0

<img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/nc.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1"></a></p>
:::