<a href="https://colab.research.google.com/github/JCaballerot/Deep_learning_program/blob/main/Deep_learning_program/Deep_learning_program/Modulo_IV/Lab_Autoencoders.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1 align="center"><font size="5">AUTOENCODERS</font></h1>

<div class="alert alert-block alert-info" style="margin-top: 20px">
Bienvenido a este laboratorio sobre autoencoders.
<font size = "3"> <strong> En este laboratorio encontrarás una explicación de qué es un autoencoder, cómo funciona y verás una implementación de un autoencoder en TensorFlow.</strong></font>
<br>
<br>
<h2>Tabla de Contenidos</h2>
<ol>
 <li><a href="#ref1">Introducción</a></li>
 <li><a href="#ref2">Feature Extraction y Dimensionality Reduction</a></li>
 <li><a href="#ref3">Estructura del Autoencoder</a></li>
 <li><a href="#ref4">Performance</a></li>
 <li><a href="#ref5">Entrenamiento: Loss Function</a></li>
 <li><a href="#ref6">Código</a></li>
</ol>
</div>
<br>
Al final de este laboratorio, debería poder crear autoencoders simples y aplicarlos a problemas que implican aprendizaje no supervisado.
<br>
<p></p>
<hr>

<a id="ref1"></a>
<h2>Introducción</h2>
Un autoencoder, también conocido como autoassociator o Diabolo networks, es una red neuronal artificial empleada para recrear la entrada dada.
Toma un conjunto de entradas <b>sin etiquetar</b>, las codifica y luego intenta extraer la información más valiosa de ellas.
Se utilizan para extracción de características, aprendizaje de modelos generativos de datos, reducción de dimensionalidad y se pueden utilizar para compresión.

Un artículo de 2006 llamado <b> <a href="https://www.cs.toronto.edu/~hinton/science.pdf"> Reducción de la dimensionalidad de los datos con redes neuronales </a>, realizado por GE Hinton y RR Salakhutdinov </b>, mostró mejores resultados que años de refinamiento de otros tipos de red, y fue un gran avance en el campo de las redes neuronales, un campo que estuvo "estancado" durante 10 años.

Ahora, los autoencoders, basados en máquinas restringidas de Boltzmann, se emplean en algunas de las aplicaciones de deep learning más grandes. Son los componentes básicos de Deep Belief Networks (DBN).

<center><img src="https://ibm.box.com/shared/static/xlkv9v7xzxhjww681dq3h1pydxcm4ktp.png" style="width: 350px;"></center>

<hr>

<a id="ref2"></a>
<h2>Feature Extraction y Dimensionality Reduction</h2>

Un ejemplo dado por Nikhil Buduma en KdNuggets (<a href="http://www.kdnuggets.com/2015/03/deep-learning-curse-dimensionality-autoencoders.html"> enlace </a>) dio un Excelente explicación de la utilidad de este tipo de redes neuronales.

Digamos que quieres extraer la emoción que siente la persona en una fotografía. Usando la siguiente imagen en escala de grises de 256x256 píxeles como ejemplo:

<img src="https://ibm.box.com/shared/static/r5knpow4bk2farlvxia71e9jp2f2u126.png">

Pero cuando usamos esta imagen, ¡comenzamos a encontrarnos con un cuello de botella! ¡Porque esta imagen con un tamaño de 256x256 píxeles se corresponde con un vector de entrada de 65536 dimensiones! Si usáramos una imagen producida con cámaras de celular convencionales, que genera imágenes de 4000 x 3000 píxeles, tendríamos 12 millones de dimensiones para analizar.


Este cuello de botella se problematiza aún más a medida que aumenta la dificultad de un problema de machine learning a medida que se involucran más dimensiones. Según un estudio de 1982 de CJ Stone (<a href="http://www-personal.umich.edu/~jizhu/jizhu/wuke/Stone-AoS82.pdf"> enlace </a>), el momento de ajustarse a un modelo, es óptimo si:
<br><br>
<div class="alert alert-block alert-info" style="margin-top: 20px">
<h3><strong>$$m^{-p/(2p+d)}$$</strong></h3>
<br>
Donde:
<br>
m: número de datos
<br>
d: dimensionalidad de los datos
<br>
p: Parámetros del modelo
</div>

Como puede ver, ¡aumenta exponencialmente!
Volviendo a nuestro ejemplo, no necesitamos utilizar todas las 65.536 dimensiones para clasificar una emoción. Un humano identifica las emociones de acuerdo con una expresión facial específica, algunas <b> características clave </b>, como la forma de la boca y las cejas.

<center><img src="https://ibm.box.com/shared/static/m8urvuqujkt2vt1ru1fnslzh24pv7hn4.png" height="256" width="256"></center>

<hr>

<a id="ref3"></a>
<h2>Estructura del Autoencoder</h2>

<img src="https://ibm.box.com/shared/static/no7omt2jhqvv7uuls7ihnzikyl9ysnfp.png" style="width: 400px;">


Un autoencoder se puede dividir en dos partes, el <b> encoder </b> y el <b> decoder </b>.

El encoder necesita comprimir la representación de una entrada. En este caso vamos a reducir la dimensión del rostro de nuestro actor, de 2000 dimensiones a solo 30 dimensiones, haciendo pasar los datos por capas de nuestro encoder.

El decoder funciona como una red de encoders a la inversa. Funciona para recrear la entrada lo más fielmente posible. Esto juega un papel importante durante el entrenamiento, porque obliga al codificador automático a seleccionar las características más importantes en la representación comprimida.


<hr>

<a id="ref4"></a>
<h2>Performance</h2>

Una vez realizado el entrenamiento, puede utilizar los datos codificados como datos fiables reducidos dimensionalmente, aplicándolos a cualquier problema donde la reducción dimensional parezca apropiada.


<img src="https://ibm.box.com/shared/static/yt3xyon4g2jyw1w9qup1mvx7cgh28l64.png">


Esta imagen fue extraída del <a href="https://www.cs.toronto.edu/~hinton/science.pdf"> artículo </a> de GE Hinton y RR Salakhutdinov, sobre la reducción bidimensional para 500 dígitos del MNIST, con PCA a la izquierda y autoencoder a la derecha. Podemos ver que el autoencoder nos proporcionó una mejor separación de datos.

<hr>

<a id="ref5"></a>
<h2>Entrenamiento: Loss function</h2>

Un autoencoder utiliza la función de pérdida para entrenar adecuadamente la red. La función de pérdida calculará las diferencias entre nuestra producción y los resultados esperados. Después de eso, podemos minimizar este error con el descenso de gradiente. Hay más de un tipo de función de pérdida, depende del tipo de datos.

<h3>Valores Binarios:</h3>
$$l(f(x)) = - \sum_{k} (x_k log(\hat{x}_k) + (1 - x_k) \log (1 - \hat{x}_k) \ )$$

Para valores binarios, podemos usar una ecuación basada en la suma de la entropía cruzada de Bernoulli.

$ x_k $ es una de nuestras entradas y $\hat{x}_k $ es la salida respectiva.

Usamos esta función para que si $ x_k $ es igual a uno, queremos acercar $ \hat{x}_k$ lo más cerca posible de uno. Lo mismo si $x_k$ es igual a cero.

Si el valor es uno, solo necesitamos calcular la primera parte de la fórmula, es decir, $-x_klog(\hat{x}_k)$. Lo cual resulta simplemente calcular $-log (\hat{x}_k)$.

Y si el valor es cero, necesitamos calcular solo la segunda parte, $(1 - x_k) \log (1 - \hat{x}_k) \ )$ - que resulta ser $log (1 - \hat{x}_k) $.



<h3>Real values:</h3>
$$l(f(x)) = - \frac{1}{2}\sum_{k} (\hat{x}_k- x_k \ )^2$$

Como la función anterior se comportaría mal con entradas que no sean 0 o 1, podemos usar la suma de diferencias al cuadrado para nuestra función de pérdida. Si usa esta función de pérdida, es necesario que use una función de activación lineal para la capa de salida.

Como en el ejemplo anterior, $ x_k $ es una de nuestras entradas y $\hat{x}_k $ es la salida respectiva, y queremos que nuestra salida sea lo más similar posible a nuestra entrada.

<h3>Loss Gradient:</h3>

$$\nabla_{\hat{a}(x^{(t)})} \ l( \ f(x^{(t)}))  = \hat{x}^{(t)} - x^{(t)} $$

Usamos el descenso del gradiente para alcanzar el mínimo local de nuestra función $l( \ f(x^{(t)})$, dando pasos hacia el negativo del gradiente de la función en el punto actual.

Nuestra función sobre el gradiente $(\nabla_{\hat{a}(x^{(t)})})$ de la pérdida de $l( \ f(x^{(t)})$ en la preactivación de la capa de salida.

En realidad, es una fórmula simple, se hace calculando la diferencia entre nuestra salida $\hat{x}^{(t)}$ y nuestra entrada $x^{(t)}$.

Entonces nuestra red propaga hacia atrás nuestro gradiente $\nabla_{\hat{a}(x^{(t)})} \ l( \ f(x^{(t)}))$ a través de la red usando <b>backpropagation</b>.

<hr>

<a id="ref6"></a>
<h2>Codigo</h2>

Para esta parte, analizamos una gran cantidad de código Python 2.7.11. Vamos a utilizar el conjunto de datos MNIST para nuestro ejemplo. Puede encontrar mas detalle del código en <a href="https://github.com/aymericdamien"> aquí </a>.

Llamemos a nuestras librerías y hagamos que los datos MNIST estén disponibles para su uso.

In [65]:
import numpy as np
import matplotlib.pyplot as plt

import keras
from keras.layers import Input, Dense
from keras.models import Model
from keras.datasets import mnist
from keras.optimizers import RMSprop


In [66]:
from keras.datasets import mnist

# Cargar el conjunto de datos MNIST
(x_train, y_train), (x_test, y_test) = mnist.load_data()


In [67]:
# Normalizar y aplanar los datos

x_train = x_train.astype('float32') / 255.
x_test = x_test.astype('float32') / 255.

x_train = x_train.reshape((len(x_train), np.prod(x_train.shape[1:])))
x_test = x_test.reshape((len(x_test), np.prod(x_test.shape[1:])))


Ahora, seteemos los parámetros que va a utilizar nuestra red.

In [68]:
# Parámetros de la red
batch_size = 500
training_epochs = 100
learning_rate = 0.01


Ahora necesitamos crear nuestro codificador. Para ello vamos a utilizar funciones sigmoides. Las funciones sigmoides ofrecen excelentes resultados con este tipo de red. Esto se debe a que tiene un buen derivado que se adapta bien a la retropropagación. Podemos crear nuestro codificador usando la función sigmoidal como esta:

In [69]:
# Capa de entrada
input_img = Input(shape=(784,))

# Encoder
encoded = Dense(256, activation='sigmoid')(input_img)
encoded = Dense(128, activation='sigmoid')(encoded)
encoded = Dense(56,  activation='sigmoid')(encoded)
# Decoder
decoded = Dense(56,  activation='sigmoid')(encoded)
decoded = Dense(256, activation='sigmoid')(encoded)
decoded = Dense(784, activation='sigmoid')(decoded)


In [70]:
# Autoencoder
autoencoder = Model(input_img, decoded)

Construyamos nuestro modelo.
En la variable <code> cost </code> tenemos la función de pérdida y en la variable <code> optimizer </code> tenemos nuestro gradiente usado para el backpropagation.

In [71]:
# Compilar modelo
autoencoder.compile(optimizer = RMSprop(learning_rate = learning_rate), loss = 'mean_squared_error')
early_stopping = keras.callbacks.EarlyStopping(patience = 10, restore_best_weights = True)


In [None]:
# Entrenar modelo

history = autoencoder.fit(x_train, x_train,
                          epochs = training_epochs,
                          batch_size = batch_size,
                          shuffle = True,
                          validation_data = (x_test, x_test),
                          callbacks = [early_stopping])


In [None]:
import pandas as pd
import matplotlib.pyplot as plt

pd.DataFrame(history.history).plot(figsize=(8, 4))
plt.grid(True)
plt.gca().set_ylim(0, 5.4559e-04)

In [None]:
# Visualizar las reconstrucciones
examples_to_show = 8
decoded_imgs = autoencoder.predict(x_test[:examples_to_show])

Ahora, apliquemos codificador y decodificador para nuestras pruebas.

Visualicemos nuestros resultados

In [None]:
# Mostrar las imágenes originales y sus reconstrucciones
n = examples_to_show
plt.figure(figsize=(10, 2))
for i in range(n):
    # Original
    ax = plt.subplot(2, n, i + 1)
    plt.imshow(x_test[i].reshape(28, 28))
    plt.gray()
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)

    # Reconstrucción
    ax = plt.subplot(2, n, i + 1 + n)
    plt.imshow(decoded_imgs[i].reshape(28, 28))
    plt.gray()
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)
plt.show()


Como puede ver, las reconstrucciones tuvieron éxito. Se puede ver que se agregó algo de ruido a la imagen.

Usando autoencoders para modelos generativos

In [98]:
# Seleccionar una imagen
image_index = 14  # Por ejemplo, elegir la imagen 123 del conjunto de test
image = x_test[image_index].reshape(28, 28)

In [None]:
plt.imshow(image)

In [100]:
# Procedimiento para hacer la mitad 'missing'
half_missing = image.copy()
half_width = half_missing.shape[1] // 2
half_missing[half_width:, :] = 0  # Hace la mitad derecha 'missing'

In [None]:
plt.imshow(half_missing)

In [102]:
half_missing = half_missing.astype('float32') / 255.
half_missing = half_missing.reshape(1, 28, 28, 1)

In [None]:
# Asegurando que 'half_missing' tiene la forma correcta antes de predecir
half_missing_flat = half_missing.reshape(1, 28*28)  # Cambia la forma de la imagen a [1, 784]

# Ahora pasa la imagen aplanada al autoencoder
decoded_img = autoencoder.predict(half_missing_flat)

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 4))

# Imagen original
ax = plt.subplot(1, 3, 1)
plt.imshow(image.reshape(28, 28), cmap='gray')
ax.set_title("Original")
plt.gray()
ax.get_xaxis().set_visible(False)
ax.get_yaxis().set_visible(False)

# Imagen con mitad missing
ax = plt.subplot(1, 3, 2)
plt.imshow(half_missing.reshape(28, 28), cmap='gray')
ax.set_title("Half Missing")
plt.gray()
ax.get_xaxis().set_visible(False)
ax.get_yaxis().set_visible(False)

# Imagen reconstruida
ax = plt.subplot(1, 3, 3)
plt.imshow(decoded_img.reshape(28, 28), cmap='gray')
ax.set_title("Reconstructed by Autoencoder")
plt.gray()
ax.get_xaxis().set_visible(False)
ax.get_yaxis().set_visible(False)

plt.show()

<hr>

### Gracias por completar este laboratorio!

### Referencias:
- https://en.wikipedia.org/wiki/Autoencoder
- http://ufldl.stanford.edu/tutorial/unsupervised/Autoencoders/
- http://www.slideshare.net/billlangjun/simple-introduction-to-autoencoder
- http://www.slideshare.net/danieljohnlewis/piotr-mirowski-review-autoencoders-deep-learning-ciuuk14
- https://cs.stanford.edu/~quocle/tutorial2.pdf
- https://gist.github.com/hussius/1534135a419bb0b957b9
- http://www.deeplearningbook.org/contents/autoencoders.html
- http://www.kdnuggets.com/2015/03/deep-learning-curse-dimensionality-autoencoders.html/
- https://www.youtube.com/watch?v=xTU79Zs4XKY
- http://www-personal.umich.edu/~jizhu/jizhu/wuke/Stone-AoS82.pdf