<a href="https://colab.research.google.com/github/ulises1229/Intro-ML-Python/blob/master/code/Dia_5.ipynb\" target="_parent\"><img src="https://colab.research.google.com/assets/colab-badge.svg\" alt="Open In Colab\"/></a>

# Día 5: Aprendizaje profundo (Deep Learning)
<ul>
    <li><strong>Autor:</strong> Walter Rosales</li>
    <li><strong>Contacto:</strong> <a href="mailto:walt22r@outlook.com">walt22r@outlook.com</a>
</ul>

---
#### Deep Learning, Machine Learning e Inteligencia Artificial ¿son lo mismo?

> <img src="../figs/nvidia-ai-comparison.png" width=700/>
>
> Fig 1. Linea temporal del surgimiento de Inteligencia Artificial, Machine Learning y Deep Learning. 
> 
> Fuente: <a href="https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/">Blog de NVIDIA</a>

Como se puede apreciar en la Fig. 1, en realidad una es un subconjunto de la otra. En particular Deep Learning es un subconjunto de Machine Learning, que a su vez lo es de algo mucho más grande que se denomina Inteligencia Artificial. Puedes encontrar más información también en [este artículo de IBM](https://www.ibm.com/cloud/blog/ai-vs-machine-learning-vs-deep-learning-vs-neural-networks).

Existe una particularidad que define a los algoritmos de Deep Learning dentro de los de Machine Learning, y es su capacidad de aprender sin necesidad de una intervención/decisión humana directo respecto al modelo (ver Fig. 2).

> <img src="../figs/ML_vs_DL.png" width=700/>
>
> Fig. 2. Comparación entre algoritmos de Machine Learning y Deep Learning

---
## Deep Learning

Conjunto de algoritmos que utilizan una estrategia de capas ocultas (_hidden layers_) con funciones de activación no lineales internas entre una capa de entrada y una de salida. Es decir, modelos bioinspirados por el funcionamiento general del cerebro biológico, como se establece de forma general en [este otro artículo de IBM](https://www.ibm.com/cloud/learn/deep-learning).

> <img src="../figs/bioinspired_DL_neuron.png" width=440>
> 
> Fig. 3: a) Esquema de una neurona del sistema nervioso biológico. b) Representación matemática/computacional de una neurona artificial.
> 
> Fuente: [Zhu, G., Jiang, B., Tong, L., Xie, Y., Zaharchuk, G., &amp; Wintermark, M. (2019). Applications of deep learning to neuro-imaging techniques. Frontiers in Neurology, 10. https://doi.org/10.3389/fneur.2019.00869 ](https://www.frontiersin.org/articles/10.3389/fneur.2019.00869/full)

En la Fig. 3 podemos observar cómo se plantea la similitud entre una neurona biolígica, y se respectivo modelo matemático que se utiliza para emular su respuesta ante estímulos y que sirve como base para construir redes neuronales artificiales como es mostrado en la Fig. 4.

> <img src="../figs/bioinspired_DL_network.jpg" width=600>
> 
> Fig. 4: Emulación de una red neuronal artificial (B) y su representación análoga en el sistema nervioso biológico (A) para clasificar a partir de datos gráficos (imagen) como entrada.
>
> Fuente: [Mohamed K.S. (2020) Deep Learning and Cognitive Computing: Pillars and Ladders. In: Neuromorphic Computing and Beyond. Springer, Cham. https://doi.org/10.1007/978-3-030-37224-8_4](https://link.springer.com/chapter/10.1007/978-3-030-37224-8_4)


### Modelos de Deep Learning

Existen diversos modelos de Deep Learning, cada día habiendo más y más, siendo los más comúnes los feed-forward neural network (también conocidos como ANN de Artificial Neural Network), Convolutional Neural Networks (CNN), Recurrent Neural Network (RNN) y muchas más (ver Fig. 5). Y sus actuales aplicaciones son el mejor referente de su éxito, algunos de los más importantes están mencionados en [Wikipedia](https://en.wikipedia.org/wiki/Deep_learning#Applications).

> <img src="../figs/DL_architectures.png" width=500 />
> 
> Fig. 5: Diagramas de las diferentes arquitecturas de redes neuronales más comúnes en la literatura actual. 
>
> Fuente: [Kwon, S.H.; Kim, J.H. (2021) Machine Learning and Urban Drainage Systems: State-of-the-Art Review. Water, 13. https://doi.org/10.3390/w13243545](https://www.mdpi.com/2073-4441/13/24/3545)

Siguiendo todos estos un patrón esencial, cuentan con tres componentes básicos: una capa de entrada, una o varias capas ocultas y una capa de salida (ver Fig. 6), siendo la primera donde ingresan los datos, las siguientes donde se procesa y se _aprende_ y la última aquella que da la _predicción_ del modelo.

> <img src="../figs/ANN_architecture.png" width=600 />
>
> Fig. 6: Esquema general de un modelo de red neuronal artificial (ANN) ejemplificando los tres tipos de capas que la componen: entrada ($i$), ocultas ($h_n$) y salida ($o$).
>
> Fuente: [Bre, F., Gimenez, J. M., &amp; Fachinotti, V. D. (2018). Prediction of wind pressure coefficients on building surfaces using artificial neural networks. Energy and Buildings, 158, 1429–1441. https://doi.org/10.1016/j.enbuild.2017.11.045](https://www.sciencedirect.com/science/article/abs/pii/S0378778817325501?via%3Dihub)


### Requerimientos para crear un modelo de DL

Para crear un modelo de DL es necesario contar con los siguientes cuatro pilares básicos:
1. Datos
2. Arquitectura
3. Función de pérdida
4. Optimizador

#### Datos
Al ser los algoritmos de DL pertenecientes a la categoría de Aprendizaje Supervisado, es necesario que todos los datos estén _etiquetados_ con su correspondiente _respuesta correcta_ o _esperada_ la cual se utilizará para evaluar el rendimiento del modelo. El tipo de datos que se puede utilizar es altamente variado, desde imágenes, texto plano, vídeos hasta simples valores numéricos; la limitante es que puedan se representados de forma numérica para ingresarlos a las capas de entrada.

#### Arquitectura
Es necesario definir qué estructura (estática) se desea utilizar (i.e. CNN, RNN, ANN, etc.), así como la estructura (número de capas ocultas, neuronas en cada una, funciones de activación, etc.). Recuerda que hay diversas redes _ideales_ para cierto tipo de datos de entrada, pero no te limites, **deja salir tu creatividad**.

#### Función de pérdida
Es la forma de evaluar si el modelo está haciendo las cosas bien o no, nuevamente dependerá de tu caso, pero las más comúnes son:

**Regresión**
- Mean Absolute Error (error absoluto promedio) $MAE = \frac{1}{n}\sum_{i=1}^{n}|{Y_i - \hat{Y}_i}|$
- Mean Squared Error (error cuadrático medio) $MSE = \frac{1}{n}\sum_{i=1}^{n}(Y_i - \hat{Y}_i)^2$

**Clasificación**
- Binary Cross Entropy (clasificación binaria) $H_p(q) = -\frac{1}{n}\sum_{i=1}^{n}Y_i \dot log(p(Y_i)) + (1 - Y_i) \dot log(1 - p(Y_i))$ donde $p(Y_i) = \hat{Y}_i$, puedes indagar un poco más [aquí](https://towardsdatascience.com/understanding-binary-cross-entropy-log-loss-a-visual-explanation-a3ac6025181a)
- Categorical Cross Entropy (clasificación de múltiples categorías)

#### Optimizador
Para poder actualizar los parámetros de cada capa es necsario definir un algoritmo para hacerlo, ese es el optimizador, es decir, qué regla (fórmula matemática) vamos a seguir para actualizarlo. Esto está relacionado con el proceso de _backpropagation_ que es la clave para actualizar los valores dependiendo de la pérdida (error) que hubo entre $Y_i$ y $\hat{Y}_i$ (también denotada como $Y^*$ (ver Fig. 7) ¨**pero no te espantes, no debes de comprender todas las operaciones matemáticas, tan solo conocer cómo es el proceso**.

> <img src="../figs/backpropagation.png" width=600 />
>
> Fig. 7: Diagrama y algoritmo de backpropagation, así como regla de actualización de parámetros (optmimización) como se ilustra en la sección (b) en el punto (ii).
>
> Fuente: [Backpropagation, Medium](https://medium.com/@jorgesleonel/backpropagation-cc81e9c772fd)

Algunos de los algoritmos más usados son:
- Stochastic Gradient Descent (SGD)
- ADAM

Puedes encontrar información sobre estos y muchos otros en [este artículo en Medium](https://medium.com/mlearning-ai/optimizers-in-deep-learning-7bf81fed78a0).

Una vez tienes estos cuatro pilares básicos, **¡estamos list@s para entrenar nuestro modelo de DL!**

---

### DL 101: "Hello Neural Networks"
Para crear modelos de DL en Python una de las bibliotecas más utilizadas es [TensorFlow](https://www.tensorflow.org/about), desarrollada por Google y de código abierto (open source).

In [None]:
import tensorflow as tf
print("Versión de TensorFlow:", tf.__version__)

#### Datos

Ocuparemos una base de datos muy utilizada en DL y que es abierta para su uso, conocida como MNIST ([sitio oficial](http://yann.lecun.com/exdb/mnist/), [artículo en Wikipedia](https://en.wikipedia.org/wiki/MNIST_database)) esta base de datos consiste en imágenes con dígitos del 0 al 9 escritos a mano.

In [None]:
mnist = tf.keras.datasets.mnist ## Cargamos localmente el dataset que está precargado en tensorflow

## Lo leemos y a su vez separamos en set de train y test
(x_train, y_train), (x_test, y_test) = mnist.load_data()

Exploremos ahora un poco el dataset para saber con qué estamos trabajando

In [None]:
print(x_train.shape) # De aquí podemos ver cuántas imágenes hay en el set de train, y qué tamaño tienen
print(x_test.shape) # Igualmente para el de test

Es decir, hay 60,000 imágenes en el set de train, y 10,000 en el de test. Todas estas imágenes son de 28x28 pixeles. Vamos a explorarlas un poco más.

In [None]:
# Algunas bibliotecas que nos van a ser de mucha ayuda
import numpy as np
import matplotlib.pyplot as plt

# Veamos cómo luce una imagen
imagen = x_train[0]
print(imagen)

In [None]:
# Mejor veamos cómo serían esos números convertidos a una imagen
plt.figure()
plt.imshow(imagen, cmap=plt.cm.binary)
plt.colorbar()
plt.show()

In [None]:
# Veamos cómo luce la "predicción esperada" que corresponde a esa imagen
prediccion = y_train[0]
print(prediccion)

Como pudiste notar tanto en la matriz, como en la escala de colores de la imagen, los valores van desde 0 hasta 255 (código RGB de 8-bits usualmente), una técnica muy común cuando se trabaja con imágenes es transformarlas y pasar de un rango [0, 255] a uno [0, 1] de forma que los valores no tiendan a infinito si se mutiplican en algún momento.

Podemos hacer eso fácilmente porque nuestras imágenes son tensores (algo muy parecido a un arreglo de Numpy multi-dimensional) a los que les podemos aplicar operaciones matemáticas de la forma que ya conocemos.

In [None]:
x_train, x_test = x_train / 255, x_test / 255 # dividimos entre el valor máximo para normalizar

Veamos cómo lucen algunos de nuestras imágenes en el set de train

In [None]:
# Guardemos cuántas imágenes hay en el set de train
train_len = x_train.shape[0]

# Hagamos múltiples sub-gráficas en una misma
plt.figure(figsize=(10,10))
for i in range(25):
    plt.subplot(5,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    indice_random = np.random.randint(train_len) # seleccionamos un índice de imagen al azar
    imagen_random = x_train[indice_random]
    plt.imshow(imagen_random, cmap=plt.cm.binary) # desplegamos la imagen
    plt.xlabel(y_train[indice_random]) # desplegamos su correspondiente predicción esperada
plt.show()

#### Arquitectura
Veamos la parte más intrigante de construir un modelo de DL, la arquitectura de la red.

En esta ocasión vamos a entrenar un modelo tipo ANN simple, con únicamente una capa oculta, para eso vamos a ocupar la función [`Sequential` de TensorFlow](https://www.tensorflow.org/api_docs/python/tf/keras/Sequential), la cual nos permite ir agregando capas de forma secuencial como si fueran una lista de pasos.

En este caso nuestra red va a tener una forma del tipo:
> - Capa de entrada de **28x28 (784) neuronas**
> - Una **capa oculta con 300 neuronas y función de activación del tipo ReLU** ([más aquí](https://towardsdatascience.com/activation-functions-neural-networks-1cbd9f8d91d6))
>> <img src="../figs/activation_functions.png" width=400 />
>> 
>> Fig. 8: Gráficas de diferentes funciones de activación comúnmente utilizadas
> - Una estrategia del tipo **_dropout_ con probabilidad 0.5**
>> <img src="../figs/dropout.png" width=400 />
>>
>> Fig. 9: Esquema de la funcionalidad de una estrategia de _dropout_ donde antes de la iteración todos los pesos $w_i \neq 0$, y en la iteración siguiente un cierto número de conexiones _j_ (dado por la probabilidad) tiene peso $w_j = 0$ durante esa iteración.
> - Una capa de salida con **10 neuronas**

In [None]:
# Creamos nuestro primer modelo en tensorflow
tamano_imagen = imagen.shape # tamaño de las imágenes en pixeles
numero_categorias = len(np.unique(y_train)) # número de categorías a predecir

primer_modelo = tf.keras.models.Sequential([
  tf.keras.layers.Flatten(input_shape=tamano_imagen),
  tf.keras.layers.Dense(300, activation='relu'),
  tf.keras.layers.Dropout(0.5),
  tf.keras.layers.Dense(numero_categorias)
])

In [None]:
# Retomamos nuestra imagen del 5 que ya habíamos ocupado antes
plt.imshow(x_train[:1][0], cmap=plt.cm.binary);
print(x_train[:1].shape)

In [None]:
# Veamos qué sucede si aplicamos nuestro modelo a una de nuestras imágenes del set de train
prediccion_primer_modelo = primer_modelo(x_train[:1]).numpy()
print(prediccion_primer_modelo.shape)
prediccion_primer_modelo

¿Qué significa este resultado? Bueno, simplemente son resultados que arroja la capa de salida de nuestro modelo, que si recordamos tenía 10 neuronas, mismas que nos están dando un valor final y por tanto un vector de dimensión 10. Y eso quiere decir que... ¿Cuál es la predicción entonces?

##### Regresión vs Clasificación

Si nuestro problema fuera de regresión, seguramente este valor nos sería de mucha utilidad y podríamos tomarlo como la predicción del modelo. Sin embargo, nuestro problema es de clasificación **¿cierto?**.

Para situaciones de clasificación usualmente se utiliza una capa extra, conocida como _softmax_ y que nos permite crear una distribución donde la suma de todos los valores del vector de salida sea 1. En conclusión, algo que podemos interpretar como una distribución de probabilidades, y por tanto cada valor del vector representará la probabilidad de que la respuesta sea cada dígito de las opciones posibles (en este caso diez, dpigitos del 0 al 9). Veamos esto en acción.

In [None]:
tensor_probabilidades = tf.nn.softmax(prediccion_primer_modelo).numpy()
print(tensor_probabilidades.shape)
probabilidades = tensor_probabilidades[0] # En realidad es un tensor con un único elemento, que es la predicción a nuestra primera imagen
probabilidades

In [None]:
for i, proba in enumerate(probabilidades):
    print(f"La probabilidad de que sea un {i} es {proba:.3f}")

print(f"\nLa probabilidad más alta es que sea un dígito {np.argmax(probabilidades)} con probabilidad {np.max(probabilidades):.3f}")

#### Función de pérdida 
Como podemos ver, el modelo en realidad es bastante malo para predecir y en este caso es evidente para nosotros que se equivocó, pero para comunicarle eso es necesario utilizar una función de pérdida, la cual le diga de forma matemática al modelo qué tanto y cómo se equivocó.

Para este ejemplo vamos a utilizar la función _Sparse Categorical Cross Entropy_ que nos permite evaluar entre varias clases y no solo de forma binaria (puedes ver más [de esta función de pérdida](https://www.tensorflow.org/api_docs/python/tf/keras/losses/SparseCategoricalCrossentropy), o la lista de [todas las disponibles en TensorFlow](https://www.tensorflow.org/api_docs/python/tf/keras/losses)) y también considera que tú puedes hacer tus propias funciones de pérdida si es necesario.

In [None]:
# creamos una nueva instancia de esta función de pérdida, la cual vamos a ocupar para medir el error
funcion_perdida = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True) # from_logits hace referencia a que tiene que convertir primero a distribución de probabilidades
funcion_perdida(y_train[:1], prediccion_primer_modelo).numpy() # Una respuesta aleatoria sería equivalente a tf.math.log(1/10) ~= 2.3 (1/10 de probabilidad de que fuera correcta por simple azar)

Es decir, la probabilidad de que salga la categoría correcta es equivalente a que saliera por simple azar dado que $log(\frac{1}{10}) \approx 2.3$

#### Optimizador
Ya que tenemos cómo medir el error, ahora solo falta definir la forma matemática en que vamos a actualizar los parémetros durante el entrenamiento, en otras palabras un optimizador. En este caso vamos a partir del más común, el Stochastic Gradient Descente (SGD), pero no dudes en revisar todos los disponibles en [la lista de TensorFlow](https://www.tensorflow.org/api_docs/python/tf/keras/optimizers)

#### Compilar (TensorFlow)
Cuando creamos un modelo de deep learning en TensorFlow es conveniente compilarlo antes de empezar con el entrenamiento, esto nos permite que sea más rápido y controlado, así como par definir las características que va a tener el entrenamiento, como lo es la función de pérdida y el optimizador a utilizar.

In [None]:
primer_modelo.compile(optimizer='sgd', loss=funcion_perdida, metrics=['accuracy']) # compilamos nuestro modelo y definimos que la forma de medir su rendimiento sea a través del 'accuracy'

#### Entrenamiento
Una vez que ya tenemos nuestro modelo compilado, el último paso es comenzar a entrenar con los datos. ¡Sí, por fin lo lograste! En este caso vamos a darle el set de train para entrenar, y definimos que haga **5** vueltas de entrenamiento con el set completo (_epochs_).

In [None]:
primer_modelo.fit(x_train, y_train, epochs=5)

#### Evaluación
**¡Así de fácil!** Qué te parece si ahora lo evaluamos sobre el set de test.

In [None]:
primer_modelo.evaluate(x_test,  y_test, verbose=2) # Obtenemos las métricas sobre el set de test

Veamos esto un poco más claro retomando nuestro dígito 5 de más arriba.

In [None]:
# Retomamos nuestra imagen del 5 que ya habíamos ocupado antes
plt.imshow(x_train[:1][0], cmap=plt.cm.binary);
print(x_train[:1].shape)

In [None]:
# Evaluamos la predicción del modelo entrenado
pred = primer_modelo(x_train[:1]).numpy()
probabilidades = tf.nn.softmax(pred).numpy()
print(probabilidades)
print(f"\nLa probabilidad más alta es que sea un dígito {np.argmax(probabilidades[0])} con probabilidad {np.max(probabilidades[0]):.3f}")

---
### Ejercicio 1
Ahora que tenemos un modelo básico funcional, ¡es momento de explorar! Prueba modificando tu modelo (arquitectura, función de pérdida, optimizador, épocas de entrenamiento) para ver si puedes conseguir un mejor rendimiento. ¡Éxito!

---
#### Mejoras menores
Podemos evitarnos la necesidad de evaluar dentro de la función de pérdida las probabilidades, y meterlas en nuestro modelo, de forma que la salida sea en sí la distribución de probabilidad de las posibles categorías.

In [None]:
# Podemos hacerlo agregrando una nueva capa al modelo que ya teníamos, o volviendo a construirlo y agregándola al final de la secuencia de capas
modelo_probabilidad = tf.keras.Sequential([
  primer_modelo,
  tf.keras.layers.Softmax()
])

# Que es equivalente a este
modelo_probabilidad = tf.keras.models.Sequential([
  tf.keras.layers.Flatten(input_shape=tamano_imagen),
  tf.keras.layers.Dense(300, activation='relu'),
  tf.keras.layers.Dropout(0.5),
  tf.keras.layers.Dense(numero_categorias),
  tf.keras.layers.Softmax() # nueva capa
])

pred_modelo_proba = modelo_probabilidad(x_train[:1]).numpy()
# Vemos cómo luce ahora la salida en comparación con la anterior
print(f"Salida primer modelo: {prediccion_primer_modelo}\nSalida modelo probabilidad: {pred_modelo_proba}")

In [None]:
# Podemos hacer el proceso de entrenar nuestro modelo de probbailidad, pero hay que hacer cambios mínimos, principalmente en la función de pérdida
funcion_perdida_proba = tf.keras.losses.SparseCategoricalCrossentropy() # ahora que la salida es una densidad de probabilidades, podemos ignorar el parámetro `from_logits` ya que el _default_ es `False`
modelo_probabilidad.compile(optimizer='sgd', loss=funcion_perdida_proba, metrics=['accuracy'])

In [None]:
modelo_probabilidad.fit(x_train, y_train, epochs=5) # Entrenamos el nuevo modelo
modelo_probabilidad.evaluate(x_test,  y_test, verbose=2) # Obtenemos las métricas sobre el set de test

¡Impresionante, ahora sí ya hiciste tu primer gran entrada al mundo de Deep Learning!

---
### Evaluación con datos reales

In [None]:
# Hagamos la prueba con sus imágenes, para probar la red en un caso real
import os
import PIL
from PIL import Image, ImageOps

images = []
labels = []

path = os.path.join('..', 'ENENIST')
for im_path in os.listdir(path):
    dot_split = im_path.split('.')
    if dot_split[-1] in ["png", "jpg", "jpeg"]:
        try:
            label = int(dot_split[0].split('_')[-1])
        except Exception as e:
            print(f"Error: {e} with image '{im_path}'")
            continue
        im = Image.open(os.path.join(path, im_path))
        im = im.resize((28, 28))
        im = ImageOps.grayscale(im)
        im_arr = np.asarray(im)
        images.append(im_arr)
        labels.append(label)

x_new = tf.convert_to_tensor(images)
#y_new = tf.convert_to_tensor(labels)
y_new = labels

In [None]:
preds = modelo_probabilidad(x_new).numpy()
plt.figure(figsize=(10,10))
for i in range(len(images)):
    plt.subplot(len(images)//5+1,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(x_new[i], cmap=plt.cm.binary)
    plt.xlabel(f"Real: {y_new[i]}   Pred: {np.argmax(preds[i])}")
plt.show()

---
### Fashion MNIST
Probemos entrenar un modelo con otro dataset, ahora llamado _Fashoin MNIST_, el cual es muy similar a _MNIST_, pero de ropa. Nuevamente hay 10 categorías, en las cuales se pueden clasificar las imágenes que lo contienen, son las siguientes:

|Etiqueta (label)|Categoría|
|-|-|
|0|T-shirt/top|
|1|Trouser|
|2|Pullover|
|3|Dress|
|4|Coat|
|5|Sandal|
|6|Shirt|
|7|Sneaker|
|8|Bag|
|9|Ankle boot|

In [None]:
# Cargamos los datos
fashion_mnist = tf.keras.datasets.fashion_mnist
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

print(f"Imágenes en set de train: {x_train.shape[0]} de dimensión: {x_train.shape[1:]}\nImágenes en set de test: {x_test.shape[0]}")
# Veamos cómo lucen las etiquetas
print(f"Etiquetas: {y_train}")

In [None]:
# Para comprender mejor de forma humana, podemos hacer un arreglo con las categorías como texto
nombres_clases = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot'] # lista de categorías en su índice correspondiente

# Veamos cómo lucen las etiquetas convertidas a texto
mapeo_etiqueta = lambda x: (list(map(lambda i: nombres_clases[i], x))) if type(x) != type(np.uint8()) else nombres_clases[x]
etiquetas = mapeo_etiqueta(y_train)
etiquetas[:10] # solo veamos las primeras 10 por simplicidad

In [None]:
# Visualizamos una de las imágenes
plt.figure()
plt.imshow(x_train[0], cmap=plt.cm.binary)
plt.colorbar()
plt.grid(False)
plt.show()

In [None]:
# Normalizamos las imágenes
x_train, x_test = x_train / 255.0, x_test / 255.0

In [None]:
# Analicemos nuevamente un poco más de imágenes
train_len = x_train.shape[0]

# Hagamos múltiples sub-gráficas en una misma
plt.figure(figsize=(10,10))
for i in range(25):
    plt.subplot(5,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    indice_random = np.random.randint(train_len) # seleccionamos un índice de imagen al azar
    imagen_random = x_train[indice_random]
    plt.imshow(imagen_random, cmap=plt.cm.binary) # desplegamos la imagen
    y = y_train[indice_random]
    plt.xlabel(f"{mapeo_etiqueta(y)} ({y})") # desplegamos su correspondiente predicción esperada, según el nombre de la clase correspondientes
plt.show()

---
### Ejercicio 2
Muy bien, ya tenemos los datos listos, ¡ahora hay que terminar los pasos restantes!
Deberás:
- Crear una arquitectura de red para entrenar con los nuevos datos
- Seleccionar una función de pérdida que te permita evaluar de forma adecuada el error durante el entrenamiento
- Elegir un optimizador para actualizar los parámetros de la red
- Indicar el número de épocas que deseas que se entrene el modelo

Una vez que tengas eso, ¡evalúa su desempeño en el set de test!

---
###### Ayudas para graficar
Algunas funciones útiles para imprimir de forma más interesante los resultados del modelo (no te preocupes si no comprendes todo lo que está sucediendo en cada línea del código, solo son funciones adicionales complementarias para un mejor despliegue)

In [None]:
class_names = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

# Imprimimos una imagen en escala de grises, e indicamos la categoría predicha y la probabilidad con que lo asegura el modelo
def plot_image(i, predictions_array, true_label, img):
    true_label, img = true_label[i], img[i] # obtenemos los datos 
    plt.grid(False)
    plt.xticks([])
    plt.yticks([])
    plt.imshow(img, cmap=plt.cm.binary) # desplegamos la imagen
    
    # Obtenemos la predicción de mayor probabilidad, y la pintamos según si fue correcta (azul) o incorrecta (roja)
    predicted_label = np.argmax(predictions_array)
    if predicted_label == true_label:
        color = 'blue'
    else:
        color = 'red'
    # Añadimos esa leyenda a la figura
    plt.xlabel("{} {:2.0f}% ({})".format(class_names[predicted_label],
                                100*np.max(predictions_array),
                                class_names[true_label]),
                                color=color)


# Gráfica de barras con la distribución de probabilidad para todas las categorías
def plot_value_array(i, predictions_array, true_label):
    true_label = true_label[i] # obtenemos la predicción correcta
    plt.grid(False)
    plt.xticks(range(10)) # colocamos 10 barras (número de categorías posibles)
    plt.yticks([])
    thisplot = plt.bar(range(10), predictions_array, color="#777777") # hacemos una gráfica de barras
    plt.ylim([0, 1]) # definimos el rango máximo
    predicted_label = np.argmax(predictions_array) # obtenemos la predicción con mayor probabilidad

    thisplot[predicted_label].set_color('red') # pintamos todas las erróneas de color rojo
    thisplot[true_label].set_color('blue') # pintamos la correcta de azul

In [None]:
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(10)
])

model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=3)

modelo_con_probabilidad = tf.keras.Sequential([model, 
                                         tf.keras.layers.Softmax()])

#### Visualizamos las predicciones

In [None]:
## ¡OJO: aquí debes de poner el nombre que le hayas asignado a tu modelo! Y presta atención a que es necesario que la predicción ya sea una distribución de probabilidades
predicciones = modelo_con_probabilidad.predict(x_test)

i = 0 # índice de la imagen a visualizar
plt.figure(figsize=(6,3))
plt.subplot(1,2,1)
plot_image(i, predicciones[i], y_train, x_train)
plt.subplot(1,2,2)
plot_value_array(i, predicciones[i],  y_train)
plt.show()

In [None]:
## Imprimimos algunos más para analizar un comportamiento general
n_filas = 5
n_columnas = 3
n_imagenes = n_filas*n_columnas
plt.figure(figsize=(2*2*n_columnas, 2*n_filas))
for i in range(n_imagenes):
    plt.subplot(n_filas, 2*n_columnas, 2*i+1)
    plot_image(i, predicciones[i], y_test, x_test)
    plt.subplot(n_filas, 2*n_columnas, 2*i+2)
    plot_value_array(i, predicciones[i], y_test)
plt.tight_layout()
plt.show()

---
#### Ejercicio 3 (opcional)
¿Crees poder lograr un mejor rendimiento? Prueba modificar tu aruitectura, optimizador, etc. ¡pero ten cuidado con el overfitting!

---
Fuentes:
1. [Tutorial de TensorFlow sobre MNIST](https://www.tensorflow.org/tutorials/quickstart/beginner)
2. [Tutorial de TensorFlow sobre Fashion MNIST](https://www.tensorflow.org/tutorials/keras/classification)
---
### Reto
Si quieres seguir explorando cómo crear modelos de DL con TensorFlow cada vez más complejos y versátiles, prueba con el [siguiente tutorial de TensorFlow](https://www.tensorflow.org/tutorials/keras/text_classification_with_hub) para clasificación a partir de lenguaje natural (texto).
Y si te sientes cómodo, no dudes en visitar el sitio web de [Kaggle](https://www.kaggle.com/) es un recurso básico e impresionante para el mundo del DL.