# Introducción al Aprendizaje Profundo

<center>
    <img src="figures/intro-deep-1.jpg" width="1300"/>
</center>

## Generalidades

Una ANN realiza **composiciones de funciones** simples para formar una función más compleja.

En teoría, una única composición de funciones simples puede aproximar a casi cualquier función compleja, pero esto requiere una **enorme cantidad de parámetros**.

<center>
    <img src="figures/ann-ex-1.png" width="400"/>
</center>

Incluso es posible demostrar que un MLP con varias capas ocultas usando la **función identidad**, no tiene ninguna ventaja frente al MLP con solo una capa oculta.


El aprendizaje profundo realiza **repetidas composiciones** de funciones no-lineales (muchas capas ocultas), lo que tiene un gran poder expresivo

\begin{align}
    \hat{\mathbf{Y}} = f_1( f_2( f_3( ... f_n( \mathbf{X} ) ) ) )
\end{align}

Esto puede reducir considerablemente la cantidad de parámetros totales necesarios dependiendo de las funciones de activación usadas.

<center>
    <img src="figures/intro-deep-2.jpg" width="600"/>
</center>



Las arquitecturas profundas aprovechan mejor los **patrones repetitivos** en los datos para lograr mejor generalización incluso en áreas del espacio con pocos o sin datos.

Usualmente estos patrones repetitivos se aprenden como pesos de **atributos jerarquizados**.

<center>
    <img src="figures/intro-deep-3.gif" width="800"/>
</center>



## Ejemplo
Una función unidimensional toma alternadamente valores +1 o -1 un total de 8 veces. ¿De qué forma puede construirse una ANN para aproximar esta función?

<center>
    <img src="figures/funscale-deep-1.png" width="600"/>
</center>

Usando una **ANN superficial**, deberían por lo menos haber 8 unidades para aproximar cada valor (sin contar las unidades de sesgo u offset)

Así, dependiendo de la entrada, debería "activarse" una de las 8 unidades para entregar la salida correcta

<center>
    <img src="figures/ann-ex-3.png" width="1000"/>
</center>

Usando una **ANN profunda**, se podrían usar 3 capas de 2 unidades para obtener un total de 8 "caminos" que se activan para entregar la salida correcta dependiendo de la entrada.

<center>
    <img src="figures/funscale-deep-3.png" width="500"/>
</center>

Así, la ANN profunda aprende parámetros de forma **jerarquizada**. 

Por ejemplo, la primera capa aprende un escalón simple, la segunda capa aprende un escalón doble, y sucesivamente.

In [66]:
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error
import time
import numpy as np

X = [[0.], [1.], [2.], [3.], [4.], [5.], [6.], [7.]]
y = [1., -1., 1., -1., 1., -1., 1., -1.]

model = MLPRegressor(random_state=4, tol=1.e-8, alpha=1.e-8, hidden_layer_sizes=(128,),
                   activation='relu', solver='lbfgs', max_iter=int(1e8), batch_size=1)
start = time.time()
model.fit(X, y)
stop = time.time()

print(f"Training time: {stop - start}s")
total_params = sum(w.size for w in model.coefs_) + sum(b.size for b in model.intercepts_)
print("Total params: ", total_params)

y_predict = model.predict(X)
print(mean_squared_error(y, y_predict))
print(y_predict)

Training time: 0.019870758056640625s
Total params:  385
0.6853406373795268
[ 1.01409946 -1.00355292  0.42308979  0.25430478  0.08908553 -0.07613373
 -0.24135298 -0.40657224]


In [64]:
model = MLPRegressor(random_state=4, tol=1.e-8, alpha=1.e-8, hidden_layer_sizes=10*(8, ),
                   activation='relu', solver='lbfgs', max_iter=int(1e8), batch_size=1)
start = time.time()
model.fit(X, y)
stop = time.time()

print(f"Training time: {stop - start}s")
total_params = sum(w.size for w in model.coefs_) + sum(b.size for b in model.intercepts_)
print("Total params: ", total_params)

y_predict = model.predict(X)
print(mean_squared_error(y, y_predict))
print(y_predict)

Training time: 0.10773944854736328s
Total params:  673
1.6784778015206738e-09
[ 0.99998779 -1.00001646  1.00003037 -1.00001361  1.00000117 -0.99989996
  0.99995655 -1.00000155]


# Arquitecturas comunes

## Redes superficiales (shallow network)
La mayoría de los modelos de aprendizaje automático (regresión lineal, logística, SVM, PCA, etc.) pueden simularse como una red neuronal de 1 ó 2 capas ocultas.

<center>
    <img src="figures/ann-5.png" width="500"/>
</center>

Un tipo de red superficial sería el perceptrón multicapa con 1 ó 2 capas ocultas.

Estas redes están totalmente conectadas, es decir, hay conexión directa entre todas las unidades.

Son un tipo de red prealimentada (feed forward) en las que el flujo va direccionalmente desde capas anteriores a capas posteriores.

<center>
    <img src="figures/ann-gif-1.gif" width="700"/>
</center>

## Redes de base radial (RBF, radial basis function)

A pesar de no ser profunda, difiere de las redes prealimentadas ya que tienen una parte entrenada no supervisadamente y una parte entrenada supervisadamente.

Comúnmente tienen una capa oculta con una cantidad de unidades superior al de la capa de entrada.

<center>
    <img src="figures/rbf-1.png" width="700"/>
</center>

Primero, de manera no supervisada se obtiene el **vector prototipo** $\bar{\mu_i}$ para la $i$-ésima unidad oculta. Además, se obtiene un **ancho de banda** $\sigma_i$ para cada unidad oculta.

Luego, para cada vector de atributos $\bar{X}$ que pasa a la capa oculta se define la **función de activación radial** $\phi_{i}(\bar{X})$ como sigue:

\begin{split}
    h_{i} = \phi_{i}(\bar{X}) = \text{exp} \left( {- \frac{ \| \bar{X} - \bar{\mu_i} \|^{2} }{ 2 \sigma_{i}^2 } } \right) \; \forall i \in \{1, ..., m\}
\end{split}

<center>
    <img src="figures/rbf-2.jpeg" width="500"/>
</center>

Cada una de las $m$ unidades ocultas tendrá gran influencia en los datos cercanos a su vector prototipo. Es decir, este tipo de red actúa como un método de **agrupamiento**.

Luego se calcula la predicción en la capa de salida de la red como se fuera un **perceptrón**, es decir:

\begin{split}
    \hat{y} = \sum_{i=1}^{m} w_{i} \phi_{i}(\bar{X}) = \sum_{i=1}^{m} w_{i} \text{exp} \left( {- \frac{ \| \bar{X} - \bar{\mu_i} \|^{2} }{ 2 \sigma_{i}^2 } } \right)
\end{split}

Los valores de los pesos $w_{i}$ se aprenden de forma **supervisada** como en una red prealimentada. También se implementa una neurona de sesgo.

## Máquinas restringidas de Boltzmann

Utilizan el concepto de minimización de energía para crear una red neuronal de forma no supervisada.

También se puede ser un entrenamiento posterior de forma supervisada.

Es diferente a las redes prealimentadas en varios sentidos:
- Modela la **probabilidad conjunta** de los atributos en vez de minimizar una función de costo.
- Tienen **flujo no directo**, ya que aprenden relaciones probabilísticas en vez de mapeos entrada-salida.
- Crea representaciones **latentes** (ocultas) de los datos.

## Redes neuronales recurrentes

Las conexiones entre unidades pueden crear **ciclos**, por lo que la salida de una neurona puede afectar a su propia entrada.

Son especialmente útiles para modelar comportamiento **temporales** o dinámicos.

<center>
    <img src="figures/recurrent-1.png" width="500"/>
</center>


## Redes neuronales convolucionales 

Históricamente han sido el tipo de ANN más exitosa, usadas principalmente para reconocimiento de imágenes, localización de objetos y procesamiento de texto, entre otros.

Están inspiradas por el funcionamiento del cortex visual de los gatos, en donde porciones específicas del campo visual activan ciertas neuronas.

<center>
    <img src="figures/convolution-2-gif.gif" width="800"/>
</center>

## Redes generativas adversativas



<center>
    <img src="figures/GAN.png" width="700"/>
</center>

# Implementación en Python

## Librerías

Hay principalmente 3 librerías para implementar modelos de aprendizaje profundo en Python:

- Tensorflow
- Pytorch
- Keras

Estas librerías permiten formar fácilmente capas convolucionales, pooling, etc.

Se diferencian en cuanto a la complejidad de usar, compatibilidad, velocidad, etc.

<center>
    <img src="figures/comparison-deep.png" width="1200"/>
</center>

## Uso de la GPU

Debido a la considerable mayor cantidad de atributos y operaciones computacionales presentes en una red profunda, los tiempos de entrenamiento son mucho mayores.

Esto se logra solucionar mediante el uso de la tarjeta gráfica (GPU) en vez del procesador central (CPU) para realizar los cálculos.

<center>
    <img src="figures/gpu-1.png" width="800"/>
</center>

El poder usar la GPU para los cálculos se logra mediante la plataforma **CUDA** de Nvidia.

Las librerías anteriores pueden detectar si la GPU del PC es compatible con CUDA. 

<center>
    <img src="figures/cuda.jpg" width="500"/>
</center>

En **Keras**, si la GPU es compatible los cálculos se realizarán automáticamente en ella.

Aquí se puede revisar el listado de GPUs compatibles:

https://developer.nvidia.com/cuda-gpus



## Links para configuración de TensorFlow

https://www.tensorflow.org/install/pip?hl=es-419#windows-wsl2_1

https://www.tensorflow.org/install/gpu?hl=es-419

https://www.youtube.com/watch?v=0S81koZpwPA

# Ejemplo de MLP en Keras (TensorFlow)

In [2]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y)

num_features = X_train.shape[1]
num_classes = len(np.unique(y))

print('Número de atributos = ', num_features)
print('Número de clases = ', num_classes)

Número de atributos =  4
Número de clases =  3


In [83]:
#Normalización estándar
normalizer = layers.Normalization()
normalizer.adapt(X_train)

#Construye modelo
model = keras.Sequential([
    normalizer,
    layers.Dense(16, activation="relu"),
    layers.Dense(8, activation="relu"),
    layers.Dense(num_classes, activation="softmax")
])

#Definición de hiperparámetros del entrenamiento (Compilación)
model.compile(
    optimizer=keras.optimizers.Adam(learning_rate=1e-3),
    loss=keras.losses.SparseCategoricalCrossentropy(),
    metrics=["accuracy"]
)

In [80]:
history = model.fit(
    X_train, y_train,
    validation_split=0.2,
    epochs=10,
    batch_size=16,
    verbose=1
)

Epoch 1/10
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 28ms/step - accuracy: 0.9667 - loss: 0.0486 - val_accuracy: 1.0000 - val_loss: 0.0092
Epoch 2/10
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 12ms/step - accuracy: 0.9719 - loss: 0.0501 - val_accuracy: 1.0000 - val_loss: 0.0094
Epoch 3/10
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step - accuracy: 0.9737 - loss: 0.0502 - val_accuracy: 1.0000 - val_loss: 0.0093
Epoch 4/10
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 13ms/step - accuracy: 0.9808 - loss: 0.0319 - val_accuracy: 1.0000 - val_loss: 0.0089
Epoch 5/10
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step - accuracy: 0.9696 - loss: 0.0544 - val_accuracy: 1.0000 - val_loss: 0.0089
Epoch 6/10
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 12ms/step - accuracy: 0.9719 - loss: 0.0442 - val_accuracy: 1.0000 - val_loss: 0.0087
Epoch 7/10
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━

In [82]:
#Evaluacion
loss, acc = model.evaluate(X_test, y_test, verbose=0)
print(f"Test accuracy: {acc:.3f}  |  Test loss: {loss:.4f}")

Test accuracy: 0.967  |  Test loss: 0.0758
