# MÓDULO 7.  Introducción a Deep Learning  (8 horas)

## **7.1 Introducción al Deep Learning**

El aprendizaje profundo, también conocido como Deep Learning (DL) en inglés, ha experimentado un notorio auge en la última década, consolidándose como un subconjunto destacado dentro de las técnicas de Machine Learning (ML). Este último, a su vez, se sitúa como un componente esencial en el amplio campo de la Inteligencia Artificial, Artificial Intelligence (AI), en inglés. El DL se distingue por su capacidad para procesar y aprender automáticamente a partir de datos, utilizando arquitecturas de redes neuronales profundas, Deep Neural Networks (DNN). Este enfoque ha permitido avances significativos en tareas complejas como el reconocimiento de imágenes, procesamiento del lenguaje natural y la toma de decisiones autónomas en diversas aplicaciones. En este contexto, la intersección entre el DL, el ML y la AI continúa desempeñando un papel crucial en la evolución y aplicación de tecnologías innovadoras.

<center><img src="./img/ai_ml_dl.jpeg"></center>

**Fuente: AI & Machine Learning: The evolution, differences and connections - Kapil Tandon**


### **7.2 Inteligencia Artificial**

La Inteligencia Artificial (IA) representa una fascinante rama de investigación en el ámbito de las ciencias computacionales (Computer Science). Su objetivo principal radica en emular la capacidad humana de adquirir información, analizar datos y tomar decisiones.

<center><img src="./img/ai.png"></center>

**Inicios**

El surgimiento de la IA se remonta a finales de la década de 1950, cuando surgió como un desafío inicial: programar computadoras para realizar tareas que los humanos ejecutan con facilidad pero que las máquinas no habían logrado realizar hasta ese momento.

En 1950, Allan Turing dejó una marca indeleble en el campo de la inteligencia artificial con su artículo Computing Machinery and Intelligence, donde propuso una prueba específica para determinar la inteligencia de una máquina. La famosa Prueba de Turing evalúa si un resultado proviene de una máquina o de un ser humano. Gracias a sus contribuciones, Turing es considerado el padre de la IA.

**Estado del Arte**

Desde sus inicios, la IA ha avanzado enormemente en la consecución de su objetivo original: simular las capacidades humanas. Ha logrado realizar tareas desafiantes y generar soluciones repetitivas. No obstante, los avances en este campo han sido colosales. La IA ha permeado distintos aspectos de nuestra vida cotidiana de manera tan natural que a veces ni siquiera nos percatamos de que estamos utilizando tecnologías basadas en este principio.

<br>

**Algunos Ejemplos**

  1) Aplicaciones Diarias

  * Clasificación de Spam en los emails

  <center><img src="./img/spam.png"></center>

<br>

  * Sugerencias de Netflix
  
  <center><img src="./img/netflix.png"></center>

<br>

2) Aplicaciones en Ciencia

  * Búsqueda eficiente de candidatos a medicamentos.
  
  <center><img src="./img/drugs.png"></center>

<br>

  * Segmentación de elementos quirúrgicos - [CinfonIA](https://cinfonia.uniandes.edu.co/)
  
  <center><img src="./img/segment.png"></center>

<br>

3) Aplicaciones en Ilustración y Arte

  * Copiando estilos

  <center><img src="./img/style.png"></center>

<br>

  * Diseño de Fondos (NVIDIA) - [GauGAN](http://nvidia-research-mingyuliu.com/gaugan/)

  <center><img src="./img/gaugan.png"></center>

<br>

  * Creación Artificial de Rostros - [This person does not exists](https://thispersondoesnotexist.com/)

  <center><img src="./img/tpdne.png"></center>

### **7.3 Aprendizaje Automático**

Un hito clave en la historia de la IA fue el surgimiento del Machine Learning (ML), un conjunto de algoritmos diseñados para construir modelos de aprendizaje entrenados, validados y probados con datos previamente procesados. Este modelo, resultado del ciclo de entrenamiento-validación-testeo, se emplea posteriormente con nuevos datos para realizar predicciones o tomar decisiones basadas en la tarea específica para la cual fue diseñado.

Durante la etapa de entrenamiento, el modelo aprende las características de un conjunto de datos denominado "datos de entrenamiento". Posteriormente, se mejora el modelo mediante un conjunto de "datos de validación", ajustando los parámetros del algoritmo, y finalmente, se evalúa con "datos de testeo" utilizando los parámetros que ofrecieron los mejores resultados. Estos tres conjuntos de datos son completamente diferentes, asegurando que el algoritmo no repite el aprendizaje de los datos de entrenamiento, sino que realmente puede extrapolar resultados para datos nuevos.

Existen dos mecanismos principales de ML:

**Supervisado:**

Este enfoque implica algoritmos donde los datos están etiquetados, es decir, cada dato tiene una etiqueta que lo caracteriza. Esta etiqueta puede representar una clase (manzana, limón, tomate) o un valor numérico. El objetivo del algoritmo es predecir la etiqueta que mejor describe un objeto en función de sus características. Comúnmente, estos algoritmos realizan tareas de regresión o clasificación.

<center><img src="./img/supervised.png"></center>
    
**No Supervisado**

A diferencia del enfoque supervisado, en el mecanismo no supervisado, el algoritmo desconoce las etiquetas de los datos y utiliza únicamente las características para identificar patrones. Este tipo de algoritmos se utilizan comúnmente para visualizar grandes volúmenes de datos con alta dimensionalidad en espacios reducidos (reducción de dimensionalidad) e identificar agrupamientos de datos (clustering).

<center><img src="./img/unsupervised.png"></center>

### **7.4 Aprendizaje Profundo**

El Aprendizaje Profundo (Deep Learning, DL) se configura como un conjunto de algoritmos de aprendizaje automático (ML) fundamentados en redes neuronales, las cuales utilizan progresivamente múltiples capas con la capacidad de extraer representaciones desde niveles bajos hasta altos mediante la manipulación de datos en bruto.

La siguiente imagen ilustra de manera clara un ejemplo de extracción de características. Mientras las primeras capas del algoritmo extraen patrones simples, como diagonales, horizontales o círculos, las capas más profundas pueden identificar conceptos más complejos y relevantes para un observador humano, como partes específicas de una cara.

<center><img src="./img/dl_face.png"></center>

Existen diversas estructuras de Redes Neuronales, cada una diseñada para tareas específicas, entre ellas:

    1. Deep neural networks
    2. Deep belief networks
    3. Deep reinforcement learning
    4. Recurrent neural networks
    5. Convolutional neural networks
    6. Transformers

Al igual que los algoritmos de ML, los métodos de DL se emplean en tareas de regresión y clasificación, así como también en reducción de dimensionalidad y clustering.

**Transferencia de Aprendizaje**

A diferencia de los algoritmos de ML, los de DL permiten la reutilización para nuevas tareas. Dado que los modelos de DL aprenden features a diferentes niveles en cada capa, la información contenida en cada capa (pesos o weights) puede transferirse para resolver problemas nuevos sin necesidad de un entrenamiento desde cero. Esta técnica se conoce como Transfer Learning.

**Redes Adversariales Generativas (GANs)**

Una aplicación fascinante en Aprendizaje Profundo son las Redes Adversariales Generativas (GANs - Generative Adversarial Networks), un par de redes que compiten entre sí para generar datos nuevos que se asemejen a los reales. Mientras una red genera datos, la otra red evalúa la calidad del dato generado. El objetivo es que la red generadora produzca datos tan similares a los reales que la red discriminadora los considere auténticos.

**Transformers**

Una innovación destacada en el ámbito del Aprendizaje Profundo son los modelos basados en Transformers. Estos modelos han revolucionado diversas áreas del procesamiento del lenguaje natural y más allá, al superar limitaciones de las arquitecturas anteriores.

La arquitectura Transformer, introducida en el artículo "Attention is All You Need" por Vaswani et al., se destaca por su mecanismo de atención, que permite a los modelos procesar secuencias de manera paralela y capturar relaciones de largo alcance. Este enfoque ha demostrado ser altamente eficaz en tareas como la traducción automática, la generación de texto y la comprensión del lenguaje.

La principal ventaja de los Transformers radica en su capacidad para manejar secuencias de longitud variable y capturar patrones complejos en datos secuenciales. Su arquitectura ha sido la base de modelos preentrenados, como BERT (Bidirectional Encoder Representations from Transformers), GPT (Generative Pretrained Transformer) y otros, que han establecido nuevos estándares en tareas de procesamiento del lenguaje natural.

Los Transformers también se han extendido a otras áreas más allá del procesamiento del lenguaje natural, aplicándose con éxito en tareas de visión por computadora y otros dominios, consolidándose como una herramienta versátil en el arsenal de técnicas de aprendizaje profundo.


**Algunos Ejemplos**

El Aprendizaje Profundo abarca una amplia variedad de aplicaciones, destacándose en campos como la visión por computadora (CV), el reconocimiento de voz (SR), el procesamiento del lenguaje natural (NLP), la traducción automática (MT), bioinformática, diseño de fármacos y análisis de imágenes médicas. Los resultados obtenidos mediante Aprendizaje Profundo son comparables e incluso superan los logrados por expertos humanos.

## **7.2 Redes Neuronales Artificiales**

### **7.21. Importancia de las Redes Neuronales**

El desarrollo de las Redes Neuronales Artificiales (Artificial Neural Networks, ANN) marcó un paso gigantesco en la resolución de diversas tareas basadas en algoritmos. Aunque los primeros artículos que describían el comportamiento de las ANN datan de la década de los 70, no fue hasta 40 años después que la tecnología que las sustentaría se desarrolló completamente. Además del aumento en la capacidad computacional y las mejoras en el cálculo en paralelo, las ANN se han beneficiado enormemente de la recopilación masiva de datos. Algunos conjuntos de datos basados en imágenes, como CIFAR100, COCO o Imagenet, han sido fundamentales en este avance.

<center><img src="./img/coco-logo.png"></center>
<center><img src="./img/imagenet-logo.jpg"></center>

Esta combinación de factores ha propiciado el rápido avance de las ANN, convirtiéndolas en herramientas esenciales para el estudio, la investigación y el desarrollo. La potencia de las ANN se ha demostrado en una amplia gama de aplicaciones, que van desde tareas de reconocimiento de imágenes hasta el descubrimiento de nuevos medicamentos. Las ANN se han convertido en un componente transversal de las ciencias, tanto sociales como naturales.

Una de las grandes ventajas de las ANN es su capacidad para analizar diversas fuentes de datos, desde texto (en una rama conocida como procesamiento de lenguaje natural - NLP) hasta imágenes y contenido visual enriquecido (video) (en una rama llamada visión por computadora - CV).

### **7.2.2 ¿Qué es una Red Neuronal?**

#### **7.2.2.1 Unidad Neuronal**

Las Redes Neuronales Artificiales constituyen el núcleo del DL. La primera red neuronal se inspiró en el funcionamiento de las neuronas biológicas. La unidad fundamental en ambas, la red neuronal biológica y la artificial, es la neurona. Aunque la comparación suele ser superficial, una manera más efectiva de entender una neurona es visualizarla como una función matemática, donde una entrada produce una salida. La siguiente figura presenta una comparación simple entre una neurona biológica y una neurona artificial (perceptrón).

<center><img src="./img/neuron.png"></center>
**From: Similarity between biological and artificial neural networks (Arbib, 2003a; Haykin, 2009b).**

<br>

**El Perceptrón**

El perceptrón está compuesto por diferentes elementos en dos zonas de transformación. El *input* consiste en los datos recibidos por el perceptrón. Cada dato se pondera por un peso (*weight*) $w_{n}$. Los productos entre las entradas $x$ y los pesos $w$ se suman linealmente junto a un valor constante llamado *bias*, así $z = \Sigma x_n w_{n} + b$ (Transformación lineal). El resultado pasa por una función no lineal, conocida como función de activación, que se activará o no dependiendo del valor de la suma, generando una salida *out* (Transformación no lineal).

Esta activación nos indica si la salida coincide con la esperada, y para determinarlo, calculamos un error, definido como la diferencia entre lo esperado y lo obtenido, $\Delta = y - \bar{y}$. Este error se utiliza para actualizar los pesos. Cada vez que se obtiene una salida del perceptrón, se dice que ha ocurrido una época. Después de cada época, los pesos se actualizan así: $w_n = w_n + \eta*\Delta*x_n$, donde $\eta$ es un parámetro conocido como la tasa de aprendizaje (learning rate).

<center><img src="./img/perceptron.png"></center>


##### **Ejercicio:** Perceptron

A continuación de desarrolla un código en Python que describe el comportamiento de un Perceptron, el modelo más sencillo de una neurona y base de las NN.

In [None]:
import pandas as pd
import pylab as pl
import numpy as np

In [None]:
data = pd.read_csv('./data/percep_linear.csv')
data.head()

In [None]:
x1 = data['X1']
x2 = data['X2']
Y = data['Y']

class_0 = Y == 0 # Esto es una máscara
class_1 = Y == 1 # Esto es una máscara

#-- Graficamos los puntos con sus correspondientes clases
fig = pl.figure(figsize=(4,4))
pl.plot(x1[class_0],x2[class_0],'o', c='black', label='0')
pl.plot(x1[class_1],x2[class_1],'o', c='red', label='1')
pl.xlim(0,1)
pl.ylim(0,1)
pl.legend()
pl.show()

In [None]:
#-- Definimos nuestra función de activación, en este caso usamos un Sigmoide
def act(z):
    return 1/(1 + np.exp(-z))

Otros ejemplos de funciones de activación...

<center><img src="./img/activation.png"></center>

<center><img src="./img/activation2.png"></center>

In [None]:
#-- Definimos el Perceptron

# Inicializamos los pesos en 0
b = 0
w_1 = 0
w_2 = 0

# Inicializamos el número de épocas y la rata de aprendizaje
n_epochs = 15 # Número de épocas
n = 0.5      # Tasa de aprendizaje

# Esta es la función nuestro perceptron encontrará al final de todas las épocas
def y(x):
    return -(b + w_1*x)/w_2

# Entrenamos el Perceptron
for epoch in range(n_epochs):
    for i,j,k in zip(x1,x2,Y):
        
        # Función de Suma
        z = i*w_1 + j*w_2 + b

        # Función de Activación
        sig_z = act(z)

        # Evaluamos la salida (output)
        if sig_z >= 0.5:
            out = 1
        if sig_z < 0.5:
            out = 0

        # Calculamos el error
        error = k - out

        # Actualizamos los pesos
        b = b + n*error
        w_1 += n*error*i
        w_2 += n*error*j

        print('Epoch [{}/{}], bias: {}, w1: {}, w2: {}'.format(epoch+1,n_epochs,b,w_1,w_2))

        fig = pl.figure(figsize=(4,4))
        pl.plot(x1[class_0],x2[class_0],'o', c='black', label='0')
        pl.plot(x1[class_1],x2[class_1],'o', c='red', label='1')
        pl.plot(np.sort(x1),y(np.sort(x1)),'-', c='green',)
        pl.xlim(0,1)
        pl.ylim(0,1)
        pl.legend()
        pl.show()

#### 7.2.2.2 **Perceptron de Multiples Capas - MLP**

Los perceptrones multicapa son un tipo de Red Neuronal Artificial (ANN) formado por múltiples capas de neuronas, lo que les confiere la capacidad de resolver problemas que no son linealmente separables, superando así la principal limitación del perceptrón.

Los perceptrones de múltiples capas son conjuntos de perceptrones conectados, donde la salida de un perceptrón en una capa actúa como entrada para una neurona en la siguiente capa. Esta estructura permite extraer representaciones más complejas y detalladas de la información que ingresa a la ANN.

En este tipo de red, los datos de entrada atraviesan varias capas de neuronas, conocidas como capas ocultas. La salida de estas capas ocultas se convierte en la entrada para una neurona de salida, de la cual obtenemos un único resultado. La siguiente figura esquematiza cómo la información fluye a través de cada neurona en las diferentes capas.

<center><img src="./img/ann.png"></center>

De manera similar a cómo un perceptrón actualiza sus pesos, los perceptrones multicapa actualizan los pesos de todas sus neuronas en un proceso denominado backpropagation (o retropropagación). Este proceso es realizado por el optimizador, que calcula el gradiente de la función de error para cada peso de la red. Estos pesos se actualizan en cada época, y el objetivo es minimizar el error.

<center><img src="./img/backpropagation.png"></center>

Las ANN modernas utilizan una combinación de múltiples capas y se conocen como redes neuronales profundas (**Deep Neural Networks**).


##### **Ejercicio:** Percetron Multicapas

En este ejercicio usaremos el dataset de [red wine quality](https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009) para clasificar el vino entre vino de alta calidad y vino de baja calidad usando todos los *features* del dataset. El modelo que usaremos será un [Multi Layer Perceptron Classifier](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html) del paquete [scikitlearn](https://scikit-learn.org/).

In [None]:
#--- Leemos los datos con pandas
import pandas as pd

data = pd.read_csv('./data/winequality-red.csv')

#-- Identificamos los nombres de las columnas
data.keys()

In [None]:
#-- Cargamos los features y los objetivos

X = data.drop(['quality'], axis = 'columns')
Y = data['quality']

In [None]:
#--- Visualizamos los objetivos en un histograma
import pylab as pl

fig = pl.figure(figsize=(5,5))
pl.hist(Y)
pl.ylabel('Counts')
pl.xlabel('quality')
pl.show()

In [None]:
#-- Convertimos nuestro objetivo en un problema binario
import numpy as np
Y = np.array(Y)

Y[Y<6] = 0
Y[Y>=6] = 1

fig = pl.figure(figsize=(5,5))
pl.hist(Y)
pl.ylabel('Counts')
pl.xlabel('quality')
pl.show()

In [None]:
#--- Dividimos nuestro dataset en Train/Test
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(X,Y)

In [None]:
#--- Cargamos MLPCLassifier para buscar un modelo
from sklearn.neural_network import MLPClassifier

model = MLPClassifier(activation='relu',  hidden_layer_sizes=(2, 2), solver='adam', learning_rate_init=0.1)
model

In [None]:
#--- Entrenamos el modelo y realizamos una predicción
model.fit(X_train,Y_train)
Y_pred = model.predict(X_test)

In [None]:
Y_pred

In [None]:
#--- Evaluamos el modelo con el accuracy_score
from sklearn.metrics import accuracy_score
accuracy_score(Y_pred,Y_test)

### 7.2.2.3 Arquitectura de una Red Neuronal

En resumen, la arquitectura de una ANN está definida por el número y la forma de sus capas. En el estado del arte de estas ANN esas arquitecturas suelen ser un poco complejas, con algunas capas saltando sobre otras capas o capas que retornan información de regreso a capas anteriores.

En el siguiente veremos un ejemplo sencillo de una red neuronal, para entender cuál es la función de cada una de las capas que la componen. Para diseñar esta red neuronal usaremos el framework [PyTorch](https://pytorch.org/) y el dataset estándar para la clasificación de tres especies de flores [IRIS](https://archive.ics.uci.edu/ml/datasets/Iris).

##### **Ejercicio:** Red Neuronal con Pytorch

En este ejercicio construiremos una red neuronal sencilla para hacer un ejercicio de clasificación usando el dataset [IRIS](https://archive.ics.uci.edu/ml/datasets/Iris).

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

iris = load_iris()
iris.keys()

In [None]:
#-- Extraemos la infromación más importante
X = iris['data']
Y = iris['target']
names = iris['target_names']
feature_names = iris['feature_names']

#-- Normalizamos los datos para que tengan media 0 y desviación 1
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

#-- Dividimos los datos entre un conjunto de entrenamiento y testeo
X_train, X_test, Y_train, Y_test = train_test_split(X_scaled, Y, test_size=0.2, random_state=42)

#-- Visualizamos el tamaño de los datos de entrenamiento
np.shape(X_train)

In [None]:
#--Visualizamos los datos
class0 = Y == 0
class1 = Y == 1
class2 = Y == 2


fig = pl.figure(figsize=(10,5))
pl.subplot(1,2,1)
pl.plot(X_scaled[:,0][class0],X_scaled[:,1][class0],'o',c='red', label=names[0])
pl.plot(X_scaled[:,0][class1],X_scaled[:,1][class1],'o',c='blue', label=names[1])
pl.plot(X_scaled[:,0][class2],X_scaled[:,1][class2],'o',c='green', label=names[2])
pl.grid()
pl.legend()
pl.xlabel(feature_names[0])
pl.ylabel(feature_names[1])
pl.subplot(1,2,2)
pl.plot(X_scaled[:,2][class0],X_scaled[:,3][class0],'o',c='red', label=names[0])
pl.plot(X_scaled[:,2][class1],X_scaled[:,3][class1],'o',c='blue', label=names[1])
pl.plot(X_scaled[:,2][class2],X_scaled[:,3][class2],'o',c='green', label=names[2])
pl.grid()
pl.legend()
pl.xlabel(feature_names[2])
pl.ylabel(feature_names[3])
pl.show()

**Redes Neuronales con Pytorch**

Vamos a crear una red neuronal de 3 capas lineales, las dos primeras tendrán funciones de activación tipo ReLU y la última una función de activación tipo Softmax.

In [None]:
#--- Importamos el paquete torch
import torch
from torch.autograd import Variable # Para convertir los datos a tensores

#--- Definimos la secuencia de capas de la ANN
input_dim = X_train.shape[1]
model = torch.nn.Sequential(
                torch.nn.Linear(input_dim, 50),
                torch.nn.ReLU(),
                torch.nn.Linear(50, 50),
                torch.nn.ReLU(),
                torch.nn.Linear(50, input_dim),
                torch.nn.Softmax(dim=1)
                )
model

In [None]:
#-- Definimos el optimizador y el criterio de evaluación

optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
criterion = torch.nn.CrossEntropyLoss()

In [None]:
#--- Definimos el número de épocas

n_epoch  = 100

#-- Convertimos los datos a tensores
X_train_tensor = Variable(torch.from_numpy(X_train)).float()
Y_train_tensor = Variable(torch.from_numpy(Y_train)).long()
X_test_tensor  = Variable(torch.from_numpy(X_test)).float()
Y_test_tensor  = Variable(torch.from_numpy(Y_test)).long()

#-- Definimos párametros para almacenar la evalaución el entrenamiento de la red en función del número de épocas
loss_list     = np.zeros(n_epoch)
accuracy_list = np.zeros(n_epoch)

#-- Iniciamos el entrenamiento
for epoch in range(n_epoch):
    Y_pred = model(X_train_tensor)
    loss = criterion(Y_pred, Y_train_tensor)
    loss_list[epoch] = loss.item()

    # Gradiente Cero
    optimizer.zero_grad()

    # Backpropagation
    loss.backward()

    # Nuevo paso
    optimizer.step()

    correct = (torch.argmax(Y_pred, dim=1) == Y_train_tensor).type(torch.FloatTensor)
    accuracy_list[epoch] = correct.mean()

    print('Epoch [{}/{}], loss: {}, acc: {}'.format(epoch+1,n_epoch,loss_list[epoch],accuracy_list[epoch]))

In [None]:
#-- Graficamos la precisión y la perdida para el set de entrenamiento
fig = pl.figure(figsize=(10, 4))
pl.subplot(1,2,1)
pl.plot(accuracy_list)
pl.ylabel("training accuracy")
pl.xlabel("epcohs")
pl.grid()

pl.subplot(1,2,2)
pl.plot(loss_list)
pl.ylabel("training loss")
pl.xlabel("epochs")
pl.grid()
pl.show()

In [None]:
#-- Evaluamos con el set de testeo

Y_pred = model(X_test_tensor)
loss = criterion(Y_pred, Y_test_tensor)
correct = (torch.argmax(Y_pred, dim=1) == Y_test_tensor).type(torch.FloatTensor)

print('Loss: {}, Acc:{}'.format(loss, correct.mean()))

## **7.3 Imágenes como tipos de datos**

Las imágenes son un tipo de datos fundamental para un científico de datos que aborda tareas de visión por computadora. A diferencia de otros tipos de datos, las imágenes son multidimensionales y contienen información enriquecida además de su tamaño (alto x ancho). Cada píxel también lleva consigo información de intensidad, de modo que un objeto tipo imagen tiene un tamaño (alto, ancho), y cada coordenada tiene un valor de intensidad en una escala de 0 a 1.

<center><img src="./img/gatogris.jpeg"></center>

Por otro lado, las imágenes a color poseen 3 canales diferentes asociados a las escalas RGB (Rojo, Verde y Azul). Por lo tanto, el tamaño de un objeto tipo imagen a color es (alto, ancho, canales), donde cada píxel contiene información de intensidad en las escalas roja, verde y azul. Esta escala varía entre 0 y 255, a diferencia de la escala de grises.

<center><img src="./img/gatocolores.png" width="40%"></center>

Algunas imágenes contienen un cuarto canal asociado al brillo de cada píxel. En este caso, el número de canales es 4 y se reconocen como escalas RGBA.

### 7.3.1 Métricas de evaluación

Por lo general, los problemas que se abordan mediante el uso de imágenes en el área de visión por computadora buscan clasificar diferentes tipos de objetos. Para evaluar la eficiencia de los modelos en su tarea de clasificación, existen diversas métricas.eficiencia de los modelos en su tarea de clasificación existen diferentes métricas.

**Matriz de Confusión**

La matriz de confusión es una herramienta que se utiliza en clasificación para evaluar el rendimiento de un modelo. La matriz muestra el número de verdaderos positivos (TP), verdaderos negativos (TN), falsos positivos (FP) y falsos negativos (FN). La disposición general de la matriz es la siguiente:


$$
\begin{vmatrix}
    TN & FP \\
    FN & TP \\
\end{vmatrix}
$$

Verdaderos Positivos (TP): Instancias positivas que fueron clasificadas correctamente como positivas.
Verdaderos Negativos (TN): Instancias negativas que fueron clasificadas correctamente como negativas.
Falsos Positivos (FP): Instancias negativas que fueron incorrectamente clasificadas como positivas (error tipo I).
Falsos Negativos (FN): Instancias positivas que fueron incorrectamente clasificadas como negativas (error tipo II).

<br>

**F1 Score**

El F1 Score es una métrica que combina la precisión y la cobertura (recall) en un solo valor. Se calcula mediante la fórmula:

$$
F1 = 2\frac{Precision\cdot Recall}{Precision + Recall}
$$

Precision: Porcentaje de instancias clasificadas como positivas que son realmente positivas.
Recall (Cobertura): Porcentaje de instancias positivas que son correctamente clasificadas.

El F1 Score es útil cuando hay un desequilibrio entre las clases.

<br>

**Precision**

La precisión se define como el número de verdaderos positivos dividido por la suma de verdaderos positivos y falsos positivos. Mide la exactitud de las instancias clasificadas como positivas.

$$Precision=\frac{Verdaderos\, Positivos}{Verdaderos\, Positivos + Falsos\, Positivos}$$

**Cobertura (Recall)**

La cobertura, también conocida como recall o sensibilidad, se define como el número de verdaderos positivos dividido por la suma de verdaderos positivos y falsos negativos. Mide la capacidad del modelo para capturar todas las instancias positivas.

$$Recall=\frac{Verdaderos\,Positivos}{Verdaderos\, Positivos+Falsos\, Negativos}$$

**Accuracy**

La exactitud (Accuracy) es una medida general del rendimiento del modelo y se define como la proporción de instancias correctamente clasificadas con respecto al total de instancias.

$$Accuracy=\frac{Verdaderos\, Positivos+Verdaderos\, Negativos}{Total\, de\, Instancias}$$

Es importante considerar el contexto y el desequilibrio de clases al interpretar estas métricas. Cada métrica proporciona información valiosa sobre aspectos específicos del rendimiento del modelo.

#### **Ejercicio:** Métricas de evaluación

En este ejercicio identificaremos uno de los errores más comúnes al momento de entrenar modelos de aprendizaje; el cruce de datos de entrenamiento y evaluación.

Para identificar este error visualizaremos curvas de *loss*, *f1_score* y *accuracy*.

In [None]:
#-- Descomprimimos el dataset
#!unzip data/mnist.zip

In [None]:
#--- Buscamos las direcciones de cada archivo de imagen
from glob import glob

train_files = glob('./mnist/train/*/*.png')
valid_files = glob('./mnist/valid/*/*.png')
test_files = glob('./mnist/test/*/*.png')

train_files[0]

In [None]:
#--- Ordenamos los datos de forma aleatoria para evitar sesgos
import numpy as np

np.random.shuffle(train_files)
np.random.shuffle(valid_files)
np.random.shuffle(test_files)

len(train_files), len(valid_files), len(test_files)

In [None]:
#--- Cargamos los datos de entrenamiento en listas
from PIL import Image

N_train = len(train_files)
X_train = []
Y_train = []

for i, train_file in enumerate(train_files):
    Y_train.append( int(train_file.split('/')[3]) )
    X_train.append(np.array(Image.open(train_file)))

In [None]:
#--- Cargamos los datos de validación en listas
N_valid = len(valid_files)
X_valid = []
Y_valid = []

for i, valid_file in enumerate(valid_files):
    Y_valid.append( int(valid_file.split('/')[3]) )
    X_valid.append( np.array(Image.open(valid_file)) )

In [None]:
#--- Cargamos los datos de testeo en listas
N_test = len(test_files)
X_test = []
Y_test = []

for i, test_file in enumerate(test_files):
    Y_test.append( int(test_file.split('/')[3]) )
    X_test.append( np.array(Image.open(test_file)) )

In [None]:
#--- Visualizamos el tamaño de cada subset
len(X_train), len(X_valid), len(X_test)

In [None]:
#--- Visualizamos la distribución de clases en cada subset
from PIL import Image

fig = pl.figure(figsize=(15,5))
pl.subplot(1,3,1)
pl.hist(np.sort(Y_train))
pl.xlabel('class')
pl.ylabel('counts')
pl.title('Train set')

pl.subplot(1,3,2)
pl.hist(np.sort(Y_valid))
pl.xlabel('class')
pl.ylabel('counts')
pl.title('Valid set')

pl.subplot(1,3,3)
pl.hist(np.sort(Y_test))
pl.xlabel('class')
pl.ylabel('counts')
pl.title('Test set')

pl.show()

Este dataset cuenta con un total de 900 objetos (600 para entrenamiento, 200 para validación y 100 para testeo). Este conjunto de datos es un ejemplo donde las clases están balanceadas, no siempre se tendrán datos de esta forma y se tendrán que usar técnicas de aumentación de datos.

Considerando el total de datos de este dataset,~66% son datos de entrenamiento, otro ~22% de validación y un ~11% para testeo. Esto representa un buen ejemplo de cómo distribuir los datos para entrenar un modelo de aprendizaje profundo.

In [None]:
#-- Visualizamos los datos
fig = pl.figure(figsize=(8,8))
for i in range(4):
    pl.subplot(2,2,i+1)
    pl.imshow(X_test[i*15])
    pl.title(Y_test[i*15])
    pl.axis(False)
pl.show()

In [None]:
#--- Convertimos las listas de datos a tensores de torch
import torch
from torch.autograd import Variable

X_train = Variable(torch.from_numpy(np.array(X_train))).float()
Y_train = Variable(torch.from_numpy(np.array(Y_train))).long()

X_valid = Variable(torch.from_numpy(np.array(X_valid))).float()
Y_valid = Variable(torch.from_numpy(np.array(Y_valid))).long()

X_test = Variable(torch.from_numpy(np.array(X_test))).float()
Y_test = Variable(torch.from_numpy(np.array(Y_test))).long()

X_train.data.size()

In [None]:
#--- Definimos una NN con dos capas ocultas lineales de 100 neuronas
input_dim = 28*28
out_dim = 10
hidden = 100

model = torch.nn.Sequential(
  torch.nn.Linear(input_dim, hidden),
  torch.nn.ReLU(),
  torch.nn.Linear(hidden, out_dim)
)

optimizer = torch.optim.Adam(model.parameters())
criterion = torch.nn.CrossEntropyLoss()

In [None]:
from sklearn.metrics import f1_score # Nueva métrica (La revisaremos la próóxima sesión)

#-- Número de épocas
n_epoch = 100

#-- Listas de evaluación entrenamiento
loss_train = []
f1_train = []
acc_train = []

#-- Listas de evaluación validación
loss_valid = []
f1_valid = []
acc_valid = []

#-- Entrenamineto de la ANN
for epoch in range(n_epoch):
    model.train()

    Xtr = X_train.view(X_train.size(0), -1)
    Y_pred = model(Xtr)

    loss = criterion(Y_pred,Y_train)
    loss_train.append(loss.item())

    Y_pred = torch.argmax(Y_pred, 1)
    f1_train.append( f1_score(Y_train,Y_pred, average='macro') )

    acc = sum(Y_train == Y_pred)/len(Y_pred)
    acc_train.append(acc)

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    print( 'Epoch [{}/{}], loss: {}. f1:{} acc: {} '.format(epoch+1,n_epoch,loss_train[-1], f1_train[-1], acc_train[-1]) )

    model.eval()
    Xvl = X_valid.view(X_valid.size(0), -1)
    Y_pred = model(Xvl)
    loss = criterion(Y_pred,Y_valid)
    loss_valid.append(loss.item())

    Y_pred = torch.argmax(Y_pred, 1)
    f1_valid.append( f1_score(Y_valid, Y_pred, average='macro') )

    acc = sum(Y_valid == Y_pred)/len(Y_pred)
    acc_valid.append(acc)

In [None]:
#-- Visualizamos las curvas de entrenamiento y validación

fig = pl.figure(figsize=(12,3))
pl.subplot(1,3,1)
pl.plot(range(n_epoch), loss_train, label='train')
pl.plot(range(n_epoch), loss_valid, label='valid')
pl.xlabel('n_epoch')
pl.ylabel('loss')
pl.legend()
pl.grid()
pl.subplot(1,3,2)
pl.plot(range(n_epoch), f1_train, label='train')
pl.plot(range(n_epoch), f1_valid, label='valid')
pl.xlabel('n_epoch')
pl.ylabel('f1_score')
pl.legend()
pl.grid()
pl.subplot(1,3,3)
pl.plot(range(n_epoch), acc_train, label='train')
pl.plot(range(n_epoch), acc_valid, label='valid')
pl.xlabel('n_epoch')
pl.ylabel('accuracy')
pl.legend()
pl.grid()

pl.show()

In [None]:
#-- Evaluamos el modelo entrenado con el set de testeo
model.eval()

Xts = X_test.view(X_test.size(0), -1)
Y_pred = model(Xts)
loss = criterion(Y_pred,Y_test)

Y_pred = torch.argmax(Y_pred, 1)
f1 = f1_score(Y_test, Y_pred, average='macro')

acc = sum(Y_test == Y_pred)/len(Y_pred)

print('loss: {}, f1: {}, acc: {}'.format(loss.item(), f1, acc))

In [None]:
#-- Evaluamos el modelo entrenado con el set de entrenamiento
model.eval()

Xt = X_train.view(X_train.size(0), -1)
Y_pred = model(Xt)
loss = criterion(Y_pred,Y_train)

Y_pred = torch.argmax(Y_pred, 1)
f1 = f1_score(Y_train, Y_pred, average='macro')

acc = sum(Y_train == Y_pred)/len(Y_pred)

print('loss: {}, f1: {}, acc: {}'.format(loss.item(), f1, acc))

### 7.3.1 Overfitting y Regularización

El **overfitting** o sobreajuste es otro problema común al entrenar un modelo de aprendizaje automático. Consiste en entrenar modelos que aprenden a la perfección los datos de entrenamiento, perdiendo de esta forma generalidad. De modo, que si al modelo se le pasan datos nuevos que jamás ha visto, no será capaz de realizar una buena predicción.

Existe un problema opuesto al overfitting conocido como **underfitting** o subajuste, en el que el modelo no logra realizar una predicción ni siquiera cercana a los datos de entrenamiento y esta lejos de hacer una generalización.

<center><img src="./img/overfitting.png"></center>

Para evitar el underfitting y el overfitting se pueden utilizar curvas de **loss**, **f1_score** o **accuracy** utilizando los datos de entrenamiento y validación. Haciendo un análisis sobre estas curvas se logra identificar estos problemas.

In [None]:
#--- Definimos una función que nos permita entrenar diferentes modelos de ANN

from sklearn.metrics import f1_score

def train_valid(model, n_epoch, optimizer, criterion):
    loss_train = []
    f1_train = []
    acc_train = []

    loss_valid = []
    f1_valid = []
    acc_valid = []

    for epoch in range(n_epoch):
        model.train()

        Xtr = X_train.view(X_train.size(0), -1)
        Y_pred = model(Xtr)

        loss = criterion(Y_pred,Y_train)
        loss_train.append(loss.item())

        Y_pred = torch.argmax(Y_pred, 1)
        f1_train.append( f1_score(Y_train,Y_pred, average='macro') )

        acc = sum(Y_train == Y_pred)/len(Y_pred)
        acc_train.append(acc)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        print( 'Epoch [{}/{}], loss: {}. f1:{} acc: {} '.format(epoch+1,n_epoch,loss_train[-1], f1_train[-1], acc_train[-1]) )

        model.eval()
        Xvl = X_valid.view(X_valid.size(0), -1)
        Y_pred = model(Xvl)
        loss = criterion(Y_pred,Y_valid)
        loss_valid.append(loss.item())

        Y_pred = torch.argmax(Y_pred, 1)
        f1_valid.append( f1_score(Y_valid, Y_pred, average='macro') )

        acc = sum(Y_valid == Y_pred)/len(Y_pred)
        acc_valid.append(acc)

fig = pl.figure(figsize=(12,3))
pl.subplot(1,3,1)
pl.plot(range(n_epoch), loss_train, label='train')
pl.plot(range(n_epoch), loss_valid, label='valid')
pl.xlabel('n_epoch')
pl.ylabel('loss')
pl.legend()
pl.grid()
pl.subplot(1,3,2)
pl.plot(range(n_epoch), f1_train, label='train')
pl.plot(range(n_epoch), f1_valid, label='valid')
pl.xlabel('n_epoch')
pl.ylabel('f1_score')
pl.legend()
pl.grid()
pl.subplot(1,3,3)
pl.plot(range(n_epoch), acc_train, label='train')
pl.plot(range(n_epoch), acc_valid, label='valid')
pl.xlabel('n_epoch')
pl.ylabel('accuracy')
pl.legend()
pl.grid()
pl.show()

### **7.3.2.1 Underfitting**

El **underfitting** o sub ajuste se puede presentar en las siguientes situaciones:

* **Finalización temprana**: Cuando el modelo se entrena hasta una época temprana a pesar de que la tendencia indica una posible obtención de mejores resultados.

* **Modelo Simple**: Cuando el modelo es tan básico que no es capaz de extraer ningún tipo de patrón efectivo que le permita hacer una generalización de los datos.

In [None]:
#--- Definimos una ANN simple para identificar un error de underfitting
input_dim = 28*28
out_dim = 10

model = torch.nn.Sequential(
  torch.nn.Linear(input_dim, out_dim)
)

optimizer = torch.optim.Adam(model.parameters())
criterion = torch.nn.CrossEntropyLoss()

train_valid(model,30,optimizer,criterion)

In [None]:
#-- Evaluamos el modelo entrenado con el set de testeo
model.eval()

Xts = X_test.view(X_test.size(0), -1)
Y_pred = model(Xts)
loss = criterion(Y_pred,Y_test)

Y_pred = torch.argmax(Y_pred, 1)
f1 = f1_score(Y_test, Y_pred, average='macro')

acc = sum(Y_test == Y_pred)/len(Y_pred)

print('loss: {}, f1: {}, acc: {}'.format(loss.item(), f1, acc))

### **7.3.2.2 Overfitting**

El **overfitting** o sobreajuste es el caso opuesto al subajuste y se puede presentar en la siguiente situación:
una obtención de mejores resultados.

* **Modelo Complejo**: El modelo es tan complejo que aprendió perfectamente los datos de entrenamiento, perdiendo generalidad. Cuando el modelo vea datos nuevos, diferentes a los del entrenamiento, su predicción será errónea.


In [None]:
input_dim = 28*28
out_dim = 10
hidden = 60

model = torch.nn.Sequential(
    torch.nn.Linear(input_dim, hidden),
    torch.nn.ReLU(),
    torch.nn.Linear(hidden, hidden),
    torch.nn.ReLU(),
    torch.nn.Linear(hidden, hidden),
    torch.nn.ReLU(),
    torch.nn.Linear(hidden, hidden),
    torch.nn.ReLU(),
    torch.nn.Linear(hidden, hidden),
    torch.nn.ReLU(),
    torch.nn.Linear(hidden, hidden),
    torch.nn.ReLU(),
    torch.nn.Linear(hidden, out_dim)
)

optimizer = torch.optim.Adam(model.parameters())
criterion = torch.nn.CrossEntropyLoss()

train_valid(model,200,optimizer,criterion)

In [None]:
#-- Evaluamos el modelo entrenado con el set de testeo
model.eval()

Xts = X_test.view(X_test.size(0), -1)
Y_pred = model(Xts)
loss = criterion(Y_pred,Y_test)

Y_pred = torch.argmax(Y_pred, 1)
f1 = f1_score(Y_test, Y_pred, average='macro')

acc = sum(Y_test == Y_pred)/len(Y_pred)

print('loss: {}, f1: {}, acc: {}'.format(loss.item(), f1, acc))

### **7.3.2.3 Regularización**

Un mecanismo que permite evitar el sobreajuste es conocido como **regularización**. La cantidad de regularización afectará el rendimiento de validación del modelo. Muy poca regularización no resolverá el problema de sobreajuste. Demasiada regularización hará que el modelo sea mucho menos efectivo. La regularización actúa como una restricción sobre el conjunto de posibles funciones aprendibles.

<br>

Según [Ian Goodfellow](https://en.wikipedia.org/wiki/Ian_Goodfellow), "*La regularización es cualquier modificación que hacemos a un algoritmo de aprendizaje que tiene como objetivo reducir su error de generalización pero no su error de entrenamiento.*"

<br>

**Regularización de caída de peso**

La pérdida de peso es la técnica de regularización más común (implementada en Pytorch). En PyTorch, la caída de peso se proporciona como un parámetro para el optimizador *decay_weight*. En [este](https://pytorch.org/docs/stable/optim.html) enlace se muestran otros parámetros que pueden ser usados en los optimizadores.

A la caída de peso también se le llama:
  * L2
  * Ridge

Para la disminución de peso, agregamos un término de penalización en la actualización de los pesos:

$w(x) = w(x) − \eta \nabla x - \alpha \eta x$

Este nuevo término en la actualización lleva los parámetros $w$ ligeramente hacia cero, agregando algo de **decaimiento** en los pesos con cada actualización.

In [None]:
input_dim = 28*28
out_dim = 10
hidden = 60

model = torch.nn.Sequential(
    torch.nn.Linear(input_dim, hidden),
    torch.nn.ReLU(),
    torch.nn.Linear(hidden, hidden),
    torch.nn.ReLU(),
    torch.nn.Linear(hidden, hidden),
    torch.nn.ReLU(),
    torch.nn.Linear(hidden, hidden),
    torch.nn.ReLU(),
    torch.nn.Linear(hidden, hidden),
    torch.nn.ReLU(),
    torch.nn.Linear(hidden, hidden),
    torch.nn.ReLU(),
    torch.nn.Linear(hidden, out_dim)
)

optimizer = torch.optim.Adam(model.parameters(), weight_decay=0.01)
criterion = torch.nn.CrossEntropyLoss()

train_valid(model,100,optimizer,criterion)

In [None]:
 #-- Evaluamos el modelo entrenado con el set de testeo
model.eval()

Xts = X_test.view(X_test.size(0), -1)
Y_pred = model(Xts)
loss = criterion(Y_pred,Y_test)

Y_pred = torch.argmax(Y_pred, 1)
f1 = f1_score(Y_test, Y_pred, average='macro')

acc = sum(Y_test == Y_pred)/len(Y_pred)

print('loss: {}, f1: {}, acc: {}'.format(loss.item(), f1, acc))

## **7.4 Exploración de metaparametros**

Una de las tareas fundamentales al momento de diseñar un modelo de aprendizaje automático es la selección de los parámetros del modelo (metaparámetros), hasta el momento los parámetros que hemos utilizados han sido:

* **n_layers** = Número de capas
* **n_neurons** = Número de neuronas
* **n_epoch** = Número de épocas
* **lr** = Tasa de aprendizaje - learning rate
* **weight_decay** = peso de decaímiento

Sin embargo uno de los metaparámetros más importantes al momento de entrenar una NN es el tamaño de los datos con el que el modelo aprende. 
El **batch_size** es un parámetro que regula el tamaño de los datos que el modelo utiliza para entrenarse.

* **batch_size** = Tamaño del subconjunto

#### **Ejercicio: Batch_size**

Utilizar el metaparametro **batch_size** y compare su resultados de *loss*, *f1_score* y *accuracy* para un modelo similar utilizando diferentes épocas.

In [None]:
#--- Definimos una ANN simple sin utilizar batch_size

input_dim = 28*28
out_dim = 10
hidden = 50

learning_rate = 0.01
weight_decay = 0.01

model = torch.nn.Sequential(
  torch.nn.Linear(input_dim, hidden),
  torch.nn.Tanh(),
  torch.nn.Linear(hidden, hidden),
  torch.nn.ReLU(),
  torch.nn.Linear(hidden, hidden),
  torch.nn.ReLU(),
  torch.nn.Linear(hidden, out_dim)
)

optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate, weight_decay=weight_decay)
criterion = torch.nn.CrossEntropyLoss()

**Modelo entrenado en 15 épocas sin batch_size**

In [None]:
from sklearn.metrics import f1_score

n_epoch = 15

loss_train = []
f1_train = []
acc_train = []

loss_valid = []
f1_valid = []
acc_valid = []

for epoch in range(n_epoch):
    model.train()
    Xtr = X_train.view(X_train.size(0), -1)
    Y_pred = model(Xtr)

    loss = criterion(Y_pred,Y_train)
    loss_train.append(loss.item())

    Y_pred = torch.argmax(Y_pred, 1)
    f1_train.append( f1_score(Y_train,Y_pred, average='macro') )

    acc = sum(Y_train == Y_pred)/len(Y_pred)
    acc_train.append(acc)

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    print( 'Epoch [{}/{}], loss: {}. f1:{} acc: {} '.format(epoch+1,n_epoch,loss_train[-1], f1_train[-1], acc_train[-1]) )

    model.eval()
    Xvl = X_valid.view(X_valid.size(0), -1)
    Y_pred = model(Xvl)
    loss = criterion(Y_pred,Y_valid)
    loss_valid.append(loss.item())

    Y_pred = torch.argmax(Y_pred, 1)
    f1_valid.append( f1_score(Y_valid, Y_pred, average='macro') )

    acc = sum(Y_valid == Y_pred)/len(Y_pred)
    acc_valid.append(acc)

In [None]:
fig = pl.figure(figsize=(12,3))
pl.subplot(1,3,1)
pl.plot(range(n_epoch), loss_train, label='train')
pl.plot(range(n_epoch), loss_valid, label='valid')
pl.xlabel('n_epoch')
pl.ylabel('loss')
pl.legend()
pl.grid()
pl.subplot(1,3,2)
pl.plot(range(n_epoch), f1_train, label='train')
pl.plot(range(n_epoch), f1_valid, label='valid')
pl.xlabel('n_epoch')
pl.ylabel('f1_score')
pl.legend()
pl.grid()
pl.subplot(1,3,3)
pl.plot(range(n_epoch), acc_train, label='train')
pl.plot(range(n_epoch), acc_valid, label='valid')
pl.xlabel('n_epoch')
pl.ylabel('accuracy')
pl.legend()
pl.grid()

In [None]:
#-- Evaluamos el modelo entrenado con el set de testeo
model.eval()

Xts = X_test.view(X_test.size(0), -1)
Y_pred = model(Xts)
loss = criterion(Y_pred,Y_test)

Y_pred = torch.argmax(Y_pred, 1)
f1 = f1_score(Y_test, Y_pred, average='macro')

acc = sum(Y_test == Y_pred)/len(Y_pred)

print('loss: {}, f1: {}, acc: {}'.format(loss.item(), f1, acc))

### **7.4.1 Batch Size**
El **batch_size** es un metaparametro que permite seleccionar muestras de datos más pequeñas que el conjunto completo de datos. Usar subconjuntos en el proceso de entrenamiento en vez del conjunto completo, es altamente eficiente desde el punto de vista computacional. De modo que se puede obtener un modelo de igual capacidad usando un menor número de épocas.

<center><img src='./img/epoch_bs_iter.jpg' width="30%"></center>

**Modelo entrenado en 5 épocas con batch_size**

In [None]:
from torch.utils.data import DataLoader
from torch.utils.data import TensorDataset

batch_size = 256

train_ds = TensorDataset(X_train, Y_train)
train_dl = DataLoader(train_ds, batch_size=batch_size, shuffle=True)

In [None]:
#--- Definimos una ANN simple sin utilizar batch_size

input_dim = 28*28
out_dim = 10
hidden = 50

learning_rate = 0.01
weight_decay = 0.01

model = torch.nn.Sequential(
  torch.nn.Linear(input_dim, hidden),
  torch.nn.Tanh(),
  torch.nn.Linear(hidden, hidden),
  torch.nn.ReLU(),
  torch.nn.Linear(hidden, hidden),
  torch.nn.ReLU(),
  torch.nn.Linear(hidden, out_dim)
)

optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate, weight_decay=weight_decay)
criterion = torch.nn.CrossEntropyLoss()

In [None]:
n_epoch = 10

loss_train = []
f1_train = []
acc_train = []

loss_valid = []
f1_valid = []
acc_valid = []

total_it = 0

for epoch in range(n_epoch):
    for batch_id, (X_train_batch, Y_train_batch) in enumerate(train_dl):
        model.train()

        Xtr = X_train_batch.view(X_train_batch.size(0), -1)
        Y_pred = model(Xtr)

        loss = criterion(Y_pred,Y_train_batch)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        loss_train.append(loss.item())

        Y_pred = torch.argmax(Y_pred, 1)
        f1_train.append( f1_score(Y_train_batch,Y_pred, average='macro') )

        acc = sum(Y_train_batch == Y_pred)/len(Y_pred)
        acc_train.append(acc)

        model.eval()
        Xvl = X_valid.view(X_valid.size(0), -1)
        Y_pred = model(Xvl)
        loss = criterion(Y_pred,Y_valid)
        loss_valid.append(loss.item())

        Y_pred = torch.argmax(Y_pred, 1)
        f1_valid.append( f1_score(Y_valid, Y_pred, average='macro') )

        acc = sum(Y_valid == Y_pred)/len(Y_pred)
        acc_valid.append(acc)

        total_it += 1

    print( 'Epoch [{}/{}], loss: {}. f1:{} acc: {} '.format(epoch+1,n_epoch, loss_train[-1], f1_train[-1], acc_train[-1]) )

In [None]:
fig = pl.figure(figsize=(15,5))
pl.subplot(1,3,1)
pl.plot(range(total_it), loss_train, label='train')
# plt.plot(range(total_it), loss_valid, label='valid')
pl.xlabel('n_epoch')
pl.ylabel('loss')
pl.legend()
pl.grid()
pl.subplot(1,3,2)
pl.plot(range(total_it), f1_train, label='train')
pl.plot(range(total_it), f1_valid, label='valid')
pl.xlabel('n_epoch')
pl.ylabel('f1_score')
pl.legend()
pl.grid()
pl.subplot(1,3,3)
pl.plot(range(total_it), acc_train, label='train')
pl.plot(range(total_it), acc_valid, label='valid')
pl.xlabel('n_epoch')
pl.ylabel('accuracy')
pl.legend()
pl.grid()

In [None]:
 #-- Evaluamos el modelo entrenado con el set de testeo
model.eval()

Xts = X_test.view(X_test.size(0), -1)
Y_pred = model(Xts)
loss = criterion(Y_pred,Y_test)

Y_pred = torch.argmax(Y_pred, 1)
f1 = f1_score(Y_test, Y_pred, average='macro')

acc = sum(Y_test == Y_pred)/len(Y_pred)

print('loss: {}, f1: {}, acc: {}'.format(loss.item(), f1, acc))

### **7.4.2 Exploración de Metaparámetros**

La exploración de metaparámetros consiste en la búsqueda de los valores óptimos de estos parámetros que me arrojan los mejores resultados (*loss*, *f1_score* y el *accuracy*), evitando los problemas en el cruze de subsets, underfitting y overfitting.

#### **7.4.2.1 Técnicas de Validación**

Las técnicas de validación consisten en la búsqueda de los metaparametros que mejor resultados nos retornan, las técnicas de validación comúnmente utilizadas son el **K-fold** y el **Grid search**.

**K-fold**

La validación cruzada k-Fold es una técnica utilizada en aprendizaje automático para evaluar el rendimiento de un modelo. El conjunto de datos se divide en k subconjuntos (o "fold"), y el modelo se entrena k veces, cada vez utilizando k-1 subconjuntos como datos de entrenamiento y el subconjunto restante como datos de validación. Se repite este proceso k veces, utilizando un subconjunto diferente como datos de validación en cada iteración. Finalmente, se promedian los resultados de evaluación obtenidos en cada iteración para obtener una métrica de rendimiento general del modelo.

Esta técnica es especialmente útil cuando el conjunto de datos es limitado, ya que maximiza el uso de los datos para entrenamiento y validación.

<center><img src='./img/kfold.png'></center>


**Grid Search**

La búsqueda de cuadrícula (Grid Search) es una técnica utilizada para ajustar los hiperparámetros de un modelo de aprendizaje automático con el objetivo de encontrar la combinación óptima que maximice el rendimiento del modelo. Se seleccionan diferentes valores posibles para cada hiperparámetro, y se evalúa el modelo utilizando todas las combinaciones posibles de estos valores.

Por ejemplo, si se tienen dos hiperparámetros A y B con tres posibles valores cada uno, la búsqueda de cuadrícula evaluará el modelo para las combinaciones (A1, B1), (A1, B2), (A1, B3), (A2, B1), ..., (A3, B3). Luego, se selecciona la combinación que proporciona el mejor rendimiento según una métrica predefinida, como precisión, F1-score, etc.

La búsqueda de cuadrícula es una herramienta valiosa para encontrar la configuración óptima de un modelo, pero puede volverse costosa computacionalmente, especialmente cuando se exploran numerosas combinaciones de hiperparámetros.

<center><img src='./img/grid_search.png'></center>

##### **Ejercicio: Grid Search**

Utilizar la técnica de validación **Grid Search** para encontrar los parámetros óptimos que mejor permiten clasificar el dataset MNIST.

In [None]:
#--- Definimos una función para calcular la matriz de confusión

from sklearn.metrics import confusion_matrix

def CM(Y_true, Y_pred, classes):
    fig = pl.figure(figsize=(5, 5))
    cm = confusion_matrix(Y_true, Y_pred)
    lclasses = np.arange(0,classes)
    cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
    cmap=pl.cm.Blues
    ax = fig.add_subplot(1,1,1)
    im = ax.imshow(cm, interpolation='nearest', cmap=cmap)
    ax.figure.colorbar(im, ax=ax, pad=0.01, shrink=0.86)
    ax.set(xticks=np.arange(cm.shape[1]), yticks=np.arange(cm.shape[0]),xticklabels=lclasses, yticklabels=lclasses)
    ax.set_xlabel("Predicted",size=10)
    ax.set_ylabel("True",size=10)
    ax.set_ylim(classes-0.5, -0.5)

    pl.setp(ax.get_xticklabels(), size=12)
    pl.setp(ax.get_yticklabels(), size=12)

    fmt = '.2f'
    thresh = cm.max()/2.
    for i in range(cm.shape[0]):
        for j in range(cm.shape[1]):
            ax.text(j, i, format(cm[i, j], fmt),ha="center", va="center",size=10 , color="white" if cm[i, j] > thresh else "black")

    pl.show()

# Metaparametros

* **n_layers** = Número de capas
* **n_neurons** = Número de neuronas
* **n_epoch** = Número de épocas
* **lr** = Tasa de aprendizaje - learning rate
* **weight_decay** = peso de decaímiento
* **batch_size** = Tamaño del subconjunto

In [None]:
from sklearn.metrics import f1_score

def train_valid(model, n_epoch, optimizer, criterion):
    loss_train = []
    f1_train = []
    acc_train = []

    loss_valid = []
    f1_valid = []
    acc_valid = []

    for epoch in range(n_epoch):
        model.train()

        Xtr = X_train.view(X_train.size(0), -1)
        Y_pred = model(Xtr)

        loss = criterion(Y_pred,Y_train)
        loss_train.append(loss.item())

        Y_pred = torch.argmax(Y_pred, 1)
        f1_train.append( f1_score(Y_train,Y_pred, average='macro') )

        acc = sum(Y_train == Y_pred)/len(Y_pred)
        acc_train.append(acc)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        model.eval()
        Xvl = X_valid.view(X_valid.size(0), -1)
        Y_pred = model(Xvl)
        loss = criterion(Y_pred,Y_valid)
        loss_valid.append(loss.item())

        Y_pred = torch.argmax(Y_pred, 1)
        f1_valid.append( f1_score(Y_valid, Y_pred, average='macro') )

        acc = sum(Y_valid == Y_pred)/len(Y_pred)
        acc_valid.append(acc)

    print( 'Valid Evaluation loss: {}. f1:{} acc: {} '.format(loss_valid[-1], f1_valid[-1], acc_valid[-1]) )
    CM(Y_valid, Y_pred, 10)

In [None]:
from torch.utils.data import DataLoader
from torch.utils.data import TensorDataset
from tqdm.notebook import  tqdm


bs_list = [256,512,1024]
lr_list = [0.001,0.01,0.1]
wd_list = [0.001,0.01,0.1]
hd_list = [50,80,100]
ne_list = [50,100,150]

pbar = tqdm(total=len(bs_list)*len(lr_list)*len(wd_list)*len(hd_list)*len(ne_list))

for ne in ne_list:
    for bs in bs_list:
        train_ds = TensorDataset(X_train, Y_train)
        train_dl = DataLoader(train_ds, batch_size=bs, shuffle=True)

        for lr in lr_list:
            for wd in wd_list:
                for hd in hd_list:
                    input_dim = 28*28
                    out_dim = 10
                    hidden = hd

                    model = torch.nn.Sequential(
                        torch.nn.Linear(input_dim, hidden),
                        torch.nn.ReLU(),
                        torch.nn.Linear(hidden, out_dim)
                    )

                    optimizer = torch.optim.Adam(model.parameters(), lr=lr, weight_decay=wd)
                    criterion = torch.nn.CrossEntropyLoss()

                    print('ne: {}, hd:{}, wd:{}, lr: {}, bs:{} '.format(ne,hd,wd,lr,bs))
                    train_valid(model,ne,optimizer,criterion)
                    print('###################\n')

                    pbar.update()
pbar.close()

## **7.5 Redes Neuronales Convolucionales**

Una red neuronal convolucional CNN es una de las ANN más comunes y usadas actualmente. Este tipo de red es una variación de un MLP, sin embargo, debido a que su aplicación es realizada en matrices bidimensionales, son muy efectivas para tareas de visión por computador, especificamente en tareas de clasificación y segmentación de imágenes.

<center><img src='./img/cnn.png' width="70%"></center>

### **7.5.1 Capas de una CNN**


**Capas Convolucionales**

A diferencia de las capas densamente conectadas (**Linear**) las redes convolucionales se componen principalmente de capas de convolución que reciben como parámetro de entrada el número de canales que componen el mapa bidimensional (en el caso de la primera capa convolucional es la imagen original). Para imágenes en escala de gris, en numero de canales es 1. En el caso de imágenes a color se podría trata de 3 (RGB) o 4 (RGBA) canales. La salida de una capa convolucional son un número de canales seleccionado. Cada canal tiene un mapa de características asociado y se obtiene al aplicar un kernel (filtro) sobre el mapa de entrada.

**Kernel**

**Ejemplo**:

* *Input (x)*: 3x3
* *Kernel (w)*: 2x2
* *Output (z)*: 2x2

El kernel hace una convolución por toda la imagen, de izquierda a derecha y de arriba a abajo, de modo que la salida es un mapa de características bidimensional donde en valor de cada entrada del mapa corresponde al producto $w*x$. Así por ejemplo, 0x0+ 1x1 + 2x3 + 4x3 = 19.

<center><img src="./img/correlation.png"></center>

Los kernel son definidos aleatoriamente por Pytorch, sin embargo, es posible pasarle un filtro específico para efectuar la convolución.

**Padding**

De acuerdo al ejemplo de la imagen anterior al realizar la convolución, el tamaño del mapa de salida es menor que el tamaño del de entrada. Para evitar esta perdida de información en los bordes se puede utilizar el parametro *padding*. Este parámetro agrega información en los bordes, de modo que al pasar el kernel sobre todo el mapa, se recupera el tamaño inicial. El contenido de estos bordes extra depende del parámetro *padding_mode*, que toma por defecto el valor 'zeros'. En la imagen de ejemplo se aplica un padding igual a 1 y se utilizan ceros como valores por defecto. Más infromación [aquí](https://pytorch.org/docs/stable/generated/torch.nn.Conv2d.html).

<center><img src="./img/conv-pad.png"></center>


**Stride**

Otro parámetro importante en la capa convolucional es el espacio entre cada aplicación del kernel, el kernel por defecto y luego de ejecutado, salta hacia la derecha un paso. Cuando termina horizontalmente, hace un salto vertical arrancando nuevamente desde la izquierda, así hasta barrer toda la imagen.
El valor de estos saltos horizontales y verticales se puede definir usando el parámetro *stride*. En la imagen de ejemplo se aplica un stride de la forma (2,3), dando como resultado una salida de tamaño 2x2.

<center><img src="./img/conv-stride.png"></center>


**Max Pooling y Global Average Pooling**

La idea detrás de la técnica *Pooling* es perder resolución en la imagen para obtener las características más representativas de la imagen. El *max pooling* consiste en tomar el valor máximo de un kernel de *pooling* proyectáándolo en el mapa de salida. Una variedad de este método consiste en tomar el promedio global del kernel y no el máximo. El uso de técnicas de *pooling* se sustenta también en la disminución del número de características en la red.

<center><img src="./img/pooling.png"></center>

### **7.5.2 Calculo del número de características**

Para calcular el tamaño de los mapas de características y el número total de característica de la red se usa la siguiente ecuación.

$$\large{ \frac{W - F + 2P}{S} + 1 }$$

Donde $W$ es el tamaño del ancho del mapa de características, $F$ el tamaño del kernel, $P$ el valor de padding y $S$ el valor del stride. De esta forma y utilizando la ecuación anterior en cada capa se puede controlar el tamaño de características en cada capa.

_(Imágenes tomadas de: Dive into Deep Learning - Aston Zhang, Zachary C. Lipton, Mu Li, and Alexander J. Smola)_

### **7.5.3 Dropout**

Durante el entrenamiento es posible convertir algunos pesos en nulos, de modo que la red no aprenda las mismas conexiones en cada entrenamiento, si no que trate de encontrar diferentes caminos dentro de la red y así garantizar un aprendizaje más general.

Esta es una técnica de regularización que previene la adaptación de las neuronas.


<center><img src="./img/dropout.png"></center>

In [None]:
#--- Definimos la CNN

model = torch.nn.Sequential(
  torch.nn.Conv2d(1, 16, kernel_size=5, stride=1, padding=2),
  # ( (28-5+2*2)/1 ) + 1 = 28   -> 28*28*16

  torch.nn.ReLU(),

  torch.nn.MaxPool2d(kernel_size=2),
  # 28/2 = 14                 -> 14*14*16

  torch.nn.Dropout(p=0.2),

  torch.nn.Conv2d(16, 32, kernel_size=5, stride=1, padding=2),
  # ( (14-5+2*2)/1 ) + 1 = 14   -> 14*14*32

  torch.nn.ReLU(),

  torch.nn.MaxPool2d(kernel_size=2),
  # 14/2 = 7                 -> 7*7*32

  torch.nn.Dropout(p=0.2),

  torch.nn.Flatten(),
  torch.nn.Linear(7*7*32, 10)
)
model

In [None]:
#--- Definimos los criterios de evaluación y el optmizador

criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr = 0.001, weight_decay=0.1)

In [None]:
#--- Visualizamos la estructura de nuestra CNN
import hiddenlayer as hl

In [None]:
#--- Entrenamos la CNN

from sklearn.metrics import f1_score

n_epoch = 10

history = hl.History()
canvas = hl.Canvas()

iter = 0

for epoch in range(n_epoch):
  for batch_id, (X_train_batch, Y_train_batch) in enumerate(train_dl):
    model.train()
    #print(X_train_batch.size())
    Xtr = X_train_batch.unsqueeze(1)
    #print(Xtr.size())
    Y_pred = model(Xtr)

    loss = criterion(Y_pred,Y_train_batch)

    Y_pred = torch.argmax(Y_pred, 1)
    f1 = f1_score(Y_train_batch, Y_pred, average='macro')

    acc = sum(Y_train_batch == Y_pred)/len(Y_pred)

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    iter += 1

    if iter%10 == 0:
        #-- Visualizamos la evolución de los score loss y accuracy
        history.log((epoch+1, iter), loss=loss, accuracy=acc)
        with canvas:
          canvas.draw_plot(history["loss"])
          canvas.draw_plot(history["accuracy"])

### **7.5.4 Visualizando algunos mapas de características**

La visualización del mapa de características es la representación gráfica de las activaciones de las diferentes características (o mapas de características) aprendidas por una red neuronal convolucional (CNN) u otro modelo de aprendizaje profundo. Estos mapas de características son el resultado de aplicar filtros convolucionales a la entrada de la red a medida que se propaga a través de las capas.

Cuando se trabaja con imágenes, las primeras capas de una CNN suelen aprender características simples, como bordes, colores y texturas, mientras que las capas más profundas pueden aprender características más complejas y abstractas asociadas con objetos específicos.

La visualización del mapa de características es útil para entender qué partes de la entrada son destacadas por diferentes filtros y capas de la red. Puede proporcionar información sobre lo que el modelo está mirando y detectando en una imagen.

Existen varias técnicas para visualizar mapas de características, como la activación de mapas de calor que resalta las regiones más activas, la visualización de filtros que muestra los patrones aprendidos por los filtros, y la superposición de activaciones en la imagen original para comprender qué partes específicas de la entrada activaron ciertas características.

In [None]:
#-- Visualizando los mapas de características de la primera capa convolucional
kernels = list(model.children())[0].weight.detach()

fig = pl.figure(figsize=(16,4))
k = 0
for i in range(kernels.size(0)):
    pl.subplot(2,8,k+1)
    pl.imshow(kernels[i].squeeze())
    k += 1
pl.show()

In [None]:
#-- Evaluamos el modelo con nuestro set de validación

model.eval()
Xvl = X_valid.unsqueeze(1)
Y_pred = model(Xvl)
loss = criterion(Y_pred,Y_valid)

Y_pred = torch.argmax(Y_pred, 1)
f1 = f1_score(Y_valid, Y_pred, average='macro')

acc = sum(Y_valid == Y_pred)/len(Y_pred)

print( 'Loss:{:.2f}, F1:{:.2f}, Acc:{:.2f}'.format(loss.item(), f1, acc ) )

### 7.5.5 Uso de una GPU


Una GPU, o Unidad de Procesamiento Gráfico (por sus siglas en inglés, Graphics Processing Unit), es un tipo de procesador diseñado específicamente para acelerar el procesamiento de gráficos y operaciones matemáticas intensivas. Aunque las GPUs tienen su origen en el procesamiento gráfico para juegos y aplicaciones multimedia, su capacidad para realizar cálculos paralelos de manera eficiente las ha convertido en una herramienta esencial para el desarrollo de modelos de Deep Learning (DL).

La importancia de las GPUs en el desarrollo de modelos de DL se debe a varias razones:

1. **Paralelismo Masivo:** Las GPUs están diseñadas para manejar múltiples tareas simultáneamente. Dado que muchas operaciones en modelos de DL, como multiplicaciones de matrices, pueden realizarse de manera independiente, las GPUs son altamente eficientes en realizar cálculos en paralelo.

2. **Aceleración de Entrenamiento:** El entrenamiento de modelos de DL implica ajustar millones o incluso miles de millones de parámetros. Las GPUs permiten acelerar significativamente este proceso al realizar cálculos de manera paralela, lo que reduce el tiempo de entrenamiento de días a horas o incluso minutos.

3. **Arquitecturas Especializadas:** Empresas como NVIDIA han desarrollado arquitecturas de GPU específicas para cargas de trabajo de aprendizaje profundo, como la arquitectura NVIDIA CUDA. Estas arquitecturas incluyen características y optimizaciones específicas para mejorar el rendimiento en tareas de DL.

4. **Flexibilidad de Frameworks de DL:** Los frameworks populares de DL, como TensorFlow y PyTorch, están diseñados para aprovechar la capacidad de procesamiento paralelo de las GPUs. Esto facilita a los desarrolladores implementar y entrenar modelos de manera eficiente.

5. **Desarrollo de Modelos más Complejos:** El uso de GPUs permite a los investigadores y desarrolladores abordar problemas más complejos mediante la creación de modelos más grandes y sofisticados. Esto ha llevado al desarrollo de modelos de DL más avanzados, como las redes neuronales profundas y los modelos de transformer.

In [None]:
#-- Después de activar el entorno GPU se selecciona el dispositivo

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)

In [None]:
#--- Definimos el modelo

model = torch.nn.Sequential(
  torch.nn.Conv2d(1, 16, kernel_size=5, stride=1, padding=2),
  #out: ( (28-5+2*2)/1 ) + 1 = 28   -> 28 x 28 x16

  torch.nn.ReLU(),

  torch.nn.MaxPool2d(kernel_size=2),
  #out: 28/2 = 14                 -> 14 x 14 x 16

  torch.nn.Dropout(p=0.2),

  torch.nn.Conv2d(16, 32, kernel_size=5, stride=1, padding=2),
  #out: ( (14-5+2*2)/1 ) + 1 = 14   -> 14 x 14 x 32

  torch.nn.ReLU(),

  torch.nn.MaxPool2d(kernel_size=2),
  #out: 14/2 = 7                 -> 7 x 7 x 32

  torch.nn.Dropout(p=0.2),

  torch.nn.Flatten(),
  torch.nn.Linear(7*7*32, 10)
)
model

In [None]:

#-- Cargamos el modelo en la GPU
model.to(device)

criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr = 0.001, weight_decay=0.1)

n_epoch = 10

history2 = hl.History()
canvas2 = hl.Canvas()

iter = 0

for epoch in range(n_epoch):
    for batch_id, (X_train_batch, Y_train_batch) in enumerate(train_dl):

        #-- Cargamos los datos en la GPU
        X_train_batch, Y_train_batch = X_train_batch.to(device), Y_train_batch.to(device)

        model.train()
        Xtr = X_train_batch.unsqueeze(1)
        Y_pred = model(Xtr)

        loss = criterion(Y_pred,Y_train_batch)

        Y_pred = torch.argmax(Y_pred, 1)

        #-- Calculamos el f1 en la cpu
        f1 = f1_score(Y_train_batch.cpu(),Y_pred.cpu(), average='macro')

        acc = sum(Y_train_batch == Y_pred)/len(Y_pred)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        iter += 1

        if iter%10 == 0:
            history2.log((epoch+1, iter), loss=loss, accuracy=acc)
            with canvas2:
                canvas2.draw_plot(history2["loss"])
                canvas2.draw_plot(history2["accuracy"])

In [None]:
#-- Validamos el modelo

X_valid, Y_valid = X_valid.to(device), Y_valid.to(device)
model.eval()
Xvl = X_valid.unsqueeze(1)
Y_pred = model(Xvl)
loss = criterion(Y_pred,Y_valid)

Y_pred = torch.argmax(Y_pred, 1)
f1 = f1_score(Y_valid.cpu(), Y_pred.cpu(), average='macro')

acc = sum(Y_valid == Y_pred)/len(Y_pred)

print( 'Loss:{:.2f}, F1:{:.2f}, Acc:{:.2f}'.format(loss.item(), f1, acc ) )

### 7.5.6 Arquitecturas de CNN

Existe una variedad de arquitecturas de CNN que han sido diseñadas utilizando diferentes combinaciones de capas y algoritmos para la obtención de mejores resultados.
La mayoría de estas CNN han probado su habilidad en datasets como COCO, Imagenet y CIFAR100, obteniendo muy buenos resultados.
A continuación se mencinaran algunas de las CNN más conocidas.


**LeNet y AlexNet**

A la izquierda la estructura de LeNet (La primera CNN) y AlexNet su predecesora. AlexNet fue diseñada para abordar el reto del dataset **Imagenet**.
AlexNet, desarrollada por Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton en 2012, fue una red neuronal convolucional (CNN) que marcó un hito en la visión por computadora y el aprendizaje profundo. Destacó por su arquitectura profunda con ocho capas de aprendizaje, incluyendo capas convolucionales y totalmente conectadas. Introdujo el uso extensivo de Rectified Linear Units (ReLU) como funciones de activación, abordando la desaparición del gradiente. AlexNet implementó "dropout" para prevenir sobreajuste, aplicó aumento de datos y se benefició significativamente de la computación en paralelo con GPU. En la competición ImageNet, superó métodos tradicionales, influyendo en el desarrollo de redes neuronales profundas y popularizando el uso de CNN en visión por computadora.

<center><img src="./img/alexnet.png"></center>

In [None]:
import torch

model = torch.hub.load('pytorch/vision:v0.10.0', 'alexnet', pretrained=True)
model

In [None]:
list(model.children())[0][0]

**De AlexNet a VGG**

VGG (Visual Geometry Group) fue un grupo de investigación en la Universidad de Oxford que presentó VGGNet en 2014, una red neuronal convolucional (CNN) que se destacó por su estructura uniforme y profundidad. Utilizando bloques repetitivos de convoluciones 3x3 y agrupación máxima 2x2, VGGNet ofreció una arquitectura fácilmente escalable. Aunque no fue la primera en adoptar una arquitectura profunda, su simplicidad y comprensibilidad la hicieron influyente en el campo del aprendizaje profundo. Existieron variantes de 16 y 19 capas, contribuyendo al desarrollo de arquitecturas más avanzadas en la clasificación de imágenes.

<center><img src="./img/vgg.png"></center>

In [None]:
import torch

model = model = torch.hub.load('pytorch/vision:v0.10.0', 'vgg16', pretrained=True)
model

**De VGG a NiN (Network in Network)**

Network in Network (NiN) fue una arquitectura de red neuronal propuesta por los investigadores Min Lin, Qiang Chen y Shuicheng Yan en 2014. La característica distintiva de NiN radica en la introducción de bloques de "micro-redes" dentro de las capas convolucionales tradicionales. Estos bloques, denominados "módulos NiN", consisten en capas convolucionales 1x1 seguidas de capas convolucionales convencionales. Esta estructura permitió la captura de patrones más complejos y la mejora de la representación de características. Además, NiN promovió la utilización de capas convolucionales 1x1 como "máquinas de aprendizaje profundo" dentro de la red, ayudando a mejorar la eficiencia y reducir la dimensionalidad. Si bien NiN no reemplazó por completo las arquitecturas convencionales, su enfoque innovador influyó en la exploración de técnicas para mejorar la capacidad de representación de las redes neuronales convolucionales.

<center><img src="./img/nin.png"></center>

**Redes Residuales - ResNet**

ResNet, o Redes Residuales, fue una arquitectura de red neuronal propuesta por Kaiming He, Xiangyu Zhang, Shaoqing Ren y Jian Sun en 2015. Destacó por introducir el concepto de bloques residuales, donde las activaciones se combinan directamente con las activaciones anteriores, facilitando el entrenamiento de redes extremadamente profundas. La idea clave era permitir que las capas aprendieran las diferencias residuales en lugar de intentar aprender las funciones completas, lo que abordó el desafío de los gradientes que disminuyen en el entrenamiento de redes profundas. ResNet logró superar problemas de degradación y permitió entrenar redes con más de cien capas, llevando a un rendimiento excepcional en tareas de visión por computadora. Esta innovadora arquitectura se convirtió en un pilar fundamental en el diseño de redes neuronales profundas.

<center><img src="./img/resnet-block.png"></center>

<center><img src="./img/resnet18-90.png"></center>


_(Imágenes tomadas de: Dive into Deep Learning - Aston Zhang, Zachary C. Lipton, Mu Li, and Alexander J. Smola)_

### **7.5.7 Batch Normalization**

Batch normalization es un método que normaliza cada sub-set de datos (bath_size), como se mencionó inicialmente es necesario que los datos se normalicen para evitar que se tengan distancias muy diferentes entre ellos. En una imagen a color se pueden tener valores de 0 hasta 255. Normalizando los datos las distancias de los datos van de 0 a 1. Esto ayuda a la red neuronal a trabajar mejor. Cuando normalizamos los datos solo la capa de entrada se beneficia de esto, conforme los datos pasan por otras capas ocultas esta normalización se va perdiendo.

In [None]:
import torch

model = model = torch.hub.load('pytorch/vision:v0.10.0', 'resnet18', pretrained=True)
model

## **7.6 Transferencia de Aprendizaje**

Una de las ventajas del DL es el uso de modelos preentrenados para resolver tareas nuevas, tareas para las cuales la ANN no fue entrenada inicialmente.
Esto es posible dado que en cada capa de la ANN se aprenden diferentes características con diferentes niveles de abstracción. La ANN se puede cortar en cualquier capa y utilizar los pesos aprendidos hasta esa capa. A la capa cortada se le pueden anexar nuevas capas. Posteriormente se entrena el modelo con los nuevos datos. Este entrenamiento es más rápido pues inicia desde un punto avanzado y no desde cero. Esta técnica se conoce como transferencia de aprendizaje (**transfer learning**).

<center><img src="./img/transfer.png"></center>
Sebastian Ruder, "Transfer Learning - Machine Learning's Next Frontier". http://ruder.io/transfer-learning/, 2017.

<br>

El *Transfer Learning* es un método de optimización, un atajo para ahorrar tiempo y obtener mejores resultados, pues se suelen utilizar modelos entrenados con grandes datasets, que continen alta cantidad de clases y variabilidad de datos.

<br>

Este método tiene tres grandes ventajas:

* **Inicio avanzado**. La capacidad inicial en el modelo de origen (antes de refinar el modelo) es mayor de lo que sería iniciando desde cero.
* **Pendiente más alta**. La tasa de precisión durante el entrenamiento del modelo es más pronunciada.
* **Asíntota superior**. La tasa de convergencia del modelo entrenado es mejor.


### **7.6.1 Cargando un modelo pre-entrenado**

Para nuestro ejercicio usaremos ResNet18, una red Red Neuronal Convolucional con 18 capas de profundidad. Recordemos que el nombre de **Residual-Net** proviene de la estrategia de usar conexiones de salto residualmente dentro de bloques (llamados bloques residuales, ver Figura), donde la entrada *x* se agrega directamente a la salida del bloque, es decir, *F(x) + x* garantizando el aumento en la profundidad de la red al omitir ciertas capas utilizando conexiones de omisión o bloques residuales. Un gran avance para el problema de optimización/degradación con redes profundas.
[Paper de presentación de ResNet](https://arxiv.org/pdf/1512.03385.pdf).

<center><img src="./img/resnet.png"></center>

<br>

El modelo pre-entrenado puede clasificar imágenes en al menos 1000 categorías diferentes, tal como teclado, mouse, lápiz y diferentes clases de animales. Dada la variedad de objetos en el dataset de entrenamieto el modelo es rico en representación de features en un alto rango de clases. ResNet fue entrenado con [Imagenet](https://image-net.org/) un gigantesco dataset visual diseñado para el uso de proyectos en reconocimiento de objetos. Imagenet tiene al menos 14 millones de imágenes anotadas. La entrada de la red tiene un tamaño de 224x224x3.

Al momento de cargar los datos es necesario reescalarlos al tamaño de entrada del modelo reciclado en este caso (224,224,3). Es necesario reescalar y normalizar las imágenes (La normalización se hace usando la media y la desviación estándar). La normalización ayuda a la red a converger más rápido.

In [None]:
import torchvision.transforms as transforms

#--- Transformamos los datos para adaptarlos a la entrada de ResNet 224x224 px
data_transform = transforms.Compose([
                 transforms.Resize((224, 224)),
                 transforms.Grayscale(3), #Dado que MNIST tiene un solo canal, lo cambiamos a 3 para no tener que modificar más capas en el modelo
                 transforms.ToTensor(),
                 transforms.Normalize(mean=[0.485, 0.456, 0.406],std=[0.229, 0.224, 0.225])
                 ])

In [None]:
#--- Cargamos los datos de entrenamiento en listas
from PIL import Image

N_train = len(train_files)
X_train = []
Y_train = []

for i, train_file in enumerate(train_files):
    Y_train.append( int(train_file.split('/')[3]) )
    X_train.append( np.array(data_transform(Image.open(train_file) )))

In [None]:
#--- Cargamos los datos de testeo en listas
N_test = len(test_files)
X_test = []
Y_test = []

for i, test_file in enumerate(test_files):
    Y_test.append( int(test_file.split('/')[3]) )
    X_test.append( np.array(data_transform(Image.open(test_file)) ))

In [None]:
#-- Visualizamos los datos
import matplotlib.pyplot as plt

fig = plt.figure(figsize=(8,8))
for i in range(4):
    plt.subplot(2,2,i+1)
    plt.imshow(X_test[i*15].reshape(224,224,3))
    plt.title(Y_test[i*15])
    plt.axis(False)
plt.show()

In [None]:
#--- Convetimos las listas con los datos a tensores de torch
import torch
from torch.autograd import Variable

X_train = Variable(torch.from_numpy(np.array(X_train))).float()
Y_train = Variable(torch.from_numpy(np.array(Y_train))).long()

X_test = Variable(torch.from_numpy(np.array(X_test))).float()
Y_test = Variable(torch.from_numpy(np.array(Y_test))).long()

X_train.data.size()

In [None]:
#-- Creamos el DataLoader

batch_size = 32

train_ds = torch.utils.data.TensorDataset(X_train, Y_train)
train_dl = torch.utils.data.DataLoader(train_ds, batch_size=batch_size, shuffle=True)

### **7.6.2 Entrenando el modelo**

In [None]:
#--- Seleccionamos y cargamos el modelo
import torch

model = torch.hub.load('pytorch/vision:v0.10.0', 'resnet18', pretrained=True)
model

In [None]:
#--- Congelamos los pesos en las capas del modelo para que no se actualicen
for p in model.parameters():
    p.requires_grad = False

#--- Definimos el número de clases
out_dim = 10

#--- Reescribimos la nueva capa de salida con el nuevo dataset
model.fc = torch.nn.Sequential(
    torch.nn.Linear(model.fc.in_features, out_dim)
)

model.load_state_dict(model.state_dict())

model

In [None]:
#--- Visualizamos la estructura de nuestra CNN
import hiddenlayer as hl

In [None]:
#--- Creamos variables para almacenar los scores en cada época

#model = model.cuda()

model.train()

#--- Definimos nuestro criterio de evaluación y el optimizador
optimizer = torch.optim.SGD(model.parameters(), lr=0.001, weight_decay=0.1)
criterion = torch.nn.CrossEntropyLoss()


#--- Entrenamos el modelo usando únicamente 5 épocas
n_epochs = 5

history = hl.History()
canvas = hl.Canvas()

iter = 0

for epoch in range(n_epochs):
    for batch_idx, (X_train_batch, Y_train_batch) in enumerate(train_dl):
        # Pasamos os datos a 'cuda'

        # X_train_batch = X_train_batch.cuda()
        # Y_train_batch = Y_train_batch.cuda()

        # Realiza una predicción
        Y_pred = model(X_train_batch)

        # Calcula el loss
        loss = criterion(Y_pred, Y_train_batch)

        Y_pred = torch.argmax(Y_pred, 1)

        # Calcula el accuracy
        acc = sum(Y_train_batch == Y_pred)/len(Y_pred)

        # Backpropagation
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        if iter%10 == 0:
            #-- Visualizamos la evolución de los score loss y accuracy
            history.log((epoch+1, iter), loss=loss, accuracy=acc)
            with canvas:
                canvas.draw_plot(history["loss"])
                canvas.draw_plot(history["accuracy"])

        iter += 1
        del X_train_batch, Y_train_batch, Y_pred

In [None]:
#-- Validamos el modelo
from sklearn.metrics import f1_score

# model.cpu()
model.eval()

Y_pred = model(X_test)
loss = criterion(Y_pred,Y_test)

Y_pred = torch.argmax(Y_pred, 1)
f1 = f1_score(Y_test, Y_pred, average='macro')

acc = sum(Y_test == Y_pred)/len(Y_pred)

print( 'Loss:{:.2f}, F1:{:.2f}, Acc:{:.2f}'.format(loss.item(), f1, acc ) )

In [None]:
#--- Guardamos el nuevo Modelo
torch.save(model,open('./ResNet_MNIST.pt','wb'))

In [None]:
CM(Y_test, Y_pred, 10)

## **7.7 Lecturas Recomendadas**

1. [Visualizing and Understanding Convolutional Networks](https://arxiv.org/abs/1311.2901)

2. [Dive into Deep Learning](https://d2l.ai/index.html)

3. [Attention is all you need](https://arxiv.org/abs/1706.03762)