<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marcoteran/deeplearning/blob/master/notebooks/3.1_deepleaningintroduction_dnn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Abrir en Colab" title="Abrir y ejecutar en Google Colaboratory"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/marcoteran/deeplearning/blob/master/notebooks/3.1_deepleaningintroduction_dnn.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" alt="Abrir en Kaggle" title="Abrir y ejecutar en Kaggle"/></a>
  </td>
</table>

### Ejemplo de código
# Sesión 07: Introducción al Aprendizaje profundo
## Deep Learning y series de tiempo

**Name:** Marco Teran **E-mail:** marco.tulio.teran@gmail.com,
[Website](http://marcoteran.github.io/),
[Github](https://github.com/marcoteran),
[LinkedIn](https://www.linkedin.com/in/marcoteran/).
___

#### Importar librerías importantes

Definimos primero unas librerías y funciones que vamos a usar a durante la sesión:

In [None]:
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd

# Visualizations
import matplotlib.pyplot as plt
#import seaborn as sns; sns.set()  # for plot styling

# Machine learning
from sklearn.datasets import make_blobs, make_moons
from sklearn.cluster import KMeans, SpectralClustering, AgglomerativeClustering, DBSCAN
from IPython.display import HTML
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from scipy.stats import mode
from sklearn.metrics import pairwise_distances_argmin

from IPython.display import Image
%matplotlib inline

## Neurona artificial

<img src="http://upload.wikimedia.org/wikipedia/commons/thumb/6/60/ArtificialNeuronModel_english.png/600px-ArtificialNeuronModel_english.png" width="60%">

* El perceptrón es un algoritmo de clasificación que genera una predicción para una entrada $(x)$ de la siguiente manera:
$$\textrm{Predicción}(x)=\begin{cases}
C_{1} & \mbox{si }f(x)\ge \theta\\
C_{2} & \mbox{si }f(x)<\theta
\end{cases}$$

* De igual forma, $f(x)$ está definida como una suma ponderada sobre los elementos de la entrada:
$$
f(x) = w_0 + \sum_{i=1}^{n} {w_i x_i}
$$
dónde $x$ corresponde a la entrada, $w$ corresponde a los pesos que se multiplican por la entrada $x$ y $w_0$ al sesgo.

* Para poder generar $\textrm{Predicción}(x)$, se toma la salida de $f(x)$ y se le aplica una **función de activación** $\varphi$. Así la salida del perceptrón es de la siguiente forma:
$$
y = varphi(w_0 + \sum_{i=1}^{n} {w_i x_i})
$$

* Es común encontrar en la literatura que se mencione que una neurona se activó, si su valor de la salida $y$ superó el umbral $\theta$ definido para la neurona.

**¿Cómo escoger $\varphi$?**

## Función de activación

### Función de activación de paso

El caso más sencillo se conoce como la función de activación de paso. La función de activación de paso se define de la siguiente manera:

$$\textrm{H}(x)=\begin{cases}
0 & \mbox{si }x\ge \theta\\
1 & \mbox{si }x<\theta
\end{cases}$$

La cual observamos a continuación

<img src="https://c.mql5.com/2/4/act1.png" align="middle"  width="20%">

### Función de activación logística

La función de activación logística está basada en la función sigmoide $\sigma$. La función sigmoíde para cualquier valor $z$ se define de la siguiente manera:

$$\sigma(z) = \frac{1}{1 + e^{-z}}$$

<img width= 300 src="http://upload.wikimedia.org/wikipedia/commons/thumb/b/b5/SigmoidFunction.png/400px-SigmoidFunction.png" align="middle"  width="15%">

Cómo se puede observar en la imagen, la función sigmoide genera valores entre $0$ y $1$. A diferencia de la función de activación de paso, la sigmoide genera una transición entre $0$ y $1$. La salida del perceptrón queda definida de la siguiente manera:

$$
y = \sigma(w_0 + \sum_{i=1}^{n} {w_i x_i})
$$

___

## Ejemplo 1: El "Hello World" del *Deep Learning* con Redes neuronales

En la primera aplicación de cualquier proyecto, se recomienda comenzar con algo muy simple que permita entender el funcionamiento general del código. En el caso de la creación de redes neuronales, una muestra útil es aprender la relación entre dos números.

Si se está escribiendo código para una función como la siguiente si ya se conocen las reglas:

```
float hw_function(float x){
    float y = (2 * x) - 1;
    return y;
}
```
¿Cómo se entrenaría una red neuronal para hacer la misma tarea? Pues utilizando datos. Al alimentar la red con un conjunto de valores $X$ y otro conjunto de valores $Y$, debería ser capaz de aprender la relación entre ellos.

Este enfoque es muy diferente al que se suele utilizar en programación tradicional, por lo que es necesario repasarlo detalladamente

### Importar Tensorflow y Keras
Para utilizar TensorFlow y Keras en Python, es necesario importar sus librerías correspondientes. Para ello, se puede utilizar el siguiente código en una celda de Python:

In [None]:
import tensorflow as tf
print(tf.__version__)

In [None]:
from tensorflow import keras

Esto importará la librería de TensorFlow, imprimirá la versión actual instalada y luego importará la librería de Keras dentro de TensorFlow. Con esto, ya se puede comenzar a trabajar con redes neuronales y deep learning en Python.

### Definir y compilar la red neuronal

Este modelo es la red neuronal más simple posible, ya que tiene una sola capa y una neurona, y la forma de entrada es solo un valor. En otras palabras, la capa es completamente conectada y la entrada es una dimensión. La capa densa es una de las capas más comunes en una red neuronal, y en este caso tiene solo una unidad.

Aunque es un modelo muy básico, es útil para entender cómo se construye una red neuronal en TensorFlow y Keras. Además, se puede entrenar este modelo con datos y luego utilizarlo para hacer predicciones.

Para crear un modelo de red neuronal en TensorFlow y Keras en Python, se puede utilizar el siguiente código en una celda de Python:

In [None]:
model = tf.keras.Sequential([keras.layers.Dense(units=1, input_shape=[1])])

**Sequential:** se utiliza para definir una secuencia de capas en la red neuronal.

Este código creará un modelo de red neuronal secuencial utilizando la librería de Keras dentro de TensorFlow
* En este caso, el modelo tendrá una capa densa con una unidad y una entrada de una dimensión
* Esta estructura básica es útil para comenzar a trabajar con redes neuronales simples, aunque es importante tener en cuenta que los modelos más complejos requerirán una estructura más sofisticada.

A continuación, se compila la Red Neural. Al compilarla, se deben especificar dos funciones: **una función de pérdida** y un **optimizador**.

Aunque normalmente se utilizan muchas matemáticas para el aprendizaje de la máquina, en este caso están encapsuladas en funciones para facilitar el proceso.

* La **función de pérdida** mide las respuestas estimadas contra las respuestas correctas conocidas y determina qué tan bien o qué tan mal se desempeñó la red neuronal.

* Luego, se utiliza la **función de optimización** para hacer otra suposición. Basándose en cómo fue la función de pérdida, se intentará minimizar la pérdida. En ese punto, la red neuronal puede proponer algo como $y = 5x + 5$, que, aunque sigue siendo bastante malo, está más cerca del resultado correcto (es decir, la pérdida es menor).

Este proceso se repetirá durante el número de épocas, *ephocs*, especificadas. Para la función de pérdida se utiliza *"error cuadrado medio"* y para el optimizador se utiliza *"descenso gradiente estocástico"*. Aunque no es necesario entender las matemáticas detrás de estas funciones por ahora, es importante saber que funcionan.

Con el tiempo, se aprenderán las diferentes funciones de pérdida y optimizador apropiadas para diferentes escenarios.

In [None]:
model.compile(optimizer='sgd', loss='mean_squared_error')

### Obtención de los datos

A continuación se presentan algunos datos que se alimentarán en la red neuronal:
- Se generan 6 valores para $x$ y 6 valores para $y$, cuya relación entre ellos sea de la forma $y=2x-1$. Por ejemplo, si $x = -1$, entonces $y = -3$, y así sucesivamente.

Para manejar estos datos, se utiliza la biblioteca de Python llamada `'Numpy'`, la cual proporciona estructuras de datos de tipo matriz que son una forma estándar de hacerlo. Los valores se especifican como un `np.array[]`.

In [None]:
xs = np.array([-1.0,  0.0, 1.0, 2.0, 3.0, 4.0], dtype=float)
ys = np.array([-3.0, -1.0, 1.0, 3.0, 5.0, 7.0], dtype=float)

### Entrenando la Red neuronal

Durante el proceso de entrenamiento de la red neuronal, la cual *"aprende"* la relación entre los $X$ y los $Y$, se utiliza la función `model.fit()`.

Aquí, la red neuronal pasará por un bucle en el que hará una suposición, medirá la calidad de la suposición (también conocido como la *pérdida*), usará el optimizador para hacer otra suposición y repetirá el proceso durante el número de épocas especificado.
Al ejecutar este código, se puede ver la pérdida en el lado derecho.

In [None]:
model.fit(xs, ys, epochs=500)

El parámetro `epochs` especifica cuántas veces el modelo pasará por el bucle de suposición, medición y optimización mencionado anteriormente. En este caso, se establece en $500$.

Una vez que se ha entrenado un modelo para aprender la relación entre $X$ e $Y$, se puede utilizar el método `model.predict` para determinar el valor de $y$ correspondiente a un valor de $x$ desconocido previamente (*generalización*).
Por ejemplo, si se proporciona un valor de $x$ igual a $10$, ¿cuál sería el valor de $y$ correspondiente?
- Se sugiere que se realice una predicción antes de ejecutar el código correspondiente para comprobar los resultados.

In [None]:
print(model.predict([10.0]))

Una posible respuesta sería que se podría haber esperado un valor de $19$ para $y$ cuando $x$ es igual a $10$. Sin embargo, el resultado real es ligeramente menor.

Es importante tener en cuenta que las redes neuronales trabajan con probabilidades y, por lo tanto, basan sus cálculos en los datos que se les han proporcionado para entrenar el modelo. En este caso, la red neuronal calculó que existe una alta probabilidad de que la relación entre $x$ e $y$ sea $y = 2x-1$, pero con sólo seis puntos de datos, no se puede estar seguro de que esta sea la relación correcta. Como resultado, el valor obtenido para $x = 10$ es muy cercano a $19$, pero no necesariamente igual a $19$.

Es importante tener en cuenta que este patrón es común en las redes neuronales. Las probabilidades son una parte integral del proceso y, a menudo, se utilizan técnicas de codificación para determinar el resultado final basándose en esas probabilidades, especialmente en problemas de clasificación.

___

## Ejemplo 2: Clasificador de digitos

En el siguiente código se presenta una introducción a la clasificación de dígitos de la base de datos MNIST utilizando redes neuronales. La base de datos MNIST consta de 70.000 imágenes de dígitos escritos a mano, en escala de grises de 28x28 píxeles, que deben ser clasificadas en su respectivo dígito.

Este código utiliza la biblioteca TensorFlow, una de las herramientas más populares para la creación de redes neuronales, para construir y entrenar una red neuronal capaz de clasificar los dígitos de MNIST con alta precisión. Además, se discuten las técnicas de preprocesamiento de datos necesarias para preparar la base de datos MNIST para el entrenamiento de la red neuronal.

El objetivo de este código es proporcionar una guía paso a paso sobre cómo construir una red neuronal para clasificar los dígitos de MNIST utilizando técnicas de aprendizaje automático. Con este conocimiento, los usuarios podrán aplicar estas técnicas a otras bases de datos de imágenes y desarrollar soluciones personalizadas para problemas similares de clasificación de imágenes.

### Obtención de los datos

Los datos del MNIST están disponibles directamente en el API de los conjuntos de datos de tf.keras. Se carga la base de datos MNIST utilizando Keras, que es una biblioteca de redes neuronales de código abierto en Python. Esta base de datos contiene un conjunto de imágenes de dígitos escritos a mano, junto con sus etiquetas correspondientes:

In [None]:
mnist = tf.keras.datasets.mnist

Los datos de entrenamiento y prueba se dividen en dos grupos, cada uno consistente en un conjunto de imágenes y un conjunto de etiquetas.
La tupla (x_train, y_train) contiene los datos de entrenamiento, mientras que la tupla (x_test, y_test) contiene los datos de prueba.

In [None]:
(x_train, y_train), (x_test, y_test) = mnist.load_data()

Se muestra una imagen del conjunto de entrenamiento. La imagen se selecciona utilizando la notación de corchetes, donde 8 es el índice de la imagen.
El parámetro `cmap` indica que la imagen se mostrará en blanco y negro.

In [None]:
plt.imshow(x_train[8], cmap=plt.cm.binary)

Se imprime la etiqueta correspondiente a la imagen seleccionada anteriormente, es decir, la etiqueta del dígito que representa.

In [None]:
# Ver la etiqueta
print(y_train[8])

Estas líneas de código imprimen el número de dimensiones de los datos de entrenamiento, su forma y su tipo de datos.

In [None]:
print("Número de dimensiones de x_train:", x_train.ndim)
print("Tamaño de x_train:", x_train.shape)
print("Tipo de datos de x_train:", x_train.dtype)

Se crea una nueva matriz llamada my_slice que contiene las primeras 100 imágenes del conjunto de entrenamiento. Esta nueva matriz se selecciona utilizando la notación de corchetes.

In [None]:
my_slice = x_train[0:100,:]
print(my_slice.shape)

Se crea una nueva matriz llamada my_slice que contiene una sección de 14x14 píxeles de cada imagen del conjunto de entrenamiento. La nueva matriz se selecciona utilizando la notación de corchetes con la sintaxis "inicio:final".

In [None]:
my_slice = x_train[:,7:-7,7:-7]
print(my_slice.shape)

### Preprocesado de datos de entrada en una red neuronal

Acontinuación, se muestra cómo se preprocesan los datos de entrenamiento y prueba para la clasificación de dígitos utilizando redes neuronales.

Se convierten los datos de entrenamiento y prueba a 'float32'

In [None]:
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')

Se normalizan los valores de los pixeles a un rango entre 0 y 1

In [None]:
x_train/=255
x_test/=255

Se remodelan los datos de entrenamiento y prueba para tener un tamaño de (número de muestras, número de pixeles)

In [None]:
x_train_rs = x_train.reshape(60000,784)
x_test_rs = x_test.reshape(10000,784)

Se muestran los tamaños de los datos de entrenamiento y prueba remodelados

In [None]:
print(x_train_rs.shape)
print(x_test_rs.shape)

Se importa la función `to_categorical` de `keras.utils` para convertir las etiquetas a una codificación **one-hot**

In [None]:
from tensorflow.keras.utils import to_categorical

Se muestra la etiqueta del primer dato de prueba antes de la codificación 'one-hot'

In [None]:
print(y_test[0])

In [None]:
# Tamaño de las etiquetas
print(y_train.shape)

Se convierten las etiquetas de entrenamiento y prueba a una codificación **one-hot**

In [None]:
y_train = to_categorical(y_train, num_classes=10)
y_test = to_categorical(y_test, num_classes=10)

Se muestra el tamaño de las etiquetas de entrenamiento después de la codificación 'one-hot'

In [None]:
print(y_test[0])

In [None]:
# Tamaño de las etiquetas
print(y_train.shape)

### Definición del modelo

Se crea un modelo secuencial vacío.

In [None]:
model = tf.keras.models.Sequential()

Se agrega una capa densa al modelo con 10 neuronas, función de activación *sigmoide* y tamaño de entrada (`input_shape`) de 784.

In [None]:
model.add(keras.layers.Dense(10, activation='sigmoid', input_shape=(784,)))

**Dense:** añade una capa de neuronas.

Se agrega una segunda capa densa al modelo con 10 neuronas, función de activación `softmax`.

In [None]:
model.add(keras.layers.Dense(10, activation='softmax'))

#### La función de activación `softmax`

La función de activación `softmax` es una función que se utiliza comúnmente en la capa de salida de una red neuronal para generar una distribución de probabilidad sobre múltiples clases.
* Toma una entrada de un vector de cualquier tamaño y produce una salida que representa una distribución de probabilidad discreta sobre las clases.

La salida se calcula como la exponencial de cada elemento del vector de entrada dividido por la suma de todas las exponenciales de los elementos del vector de entrada.
La fórmula matemática de la función softmax es:

$$ \mbox{softmax}(x_i) = \frac{e^{x_i}}{\sum e^{x_j}}\;\text{para}\;j= 1, 2, \ldots, n;\;i = 1, 2,\ldots, n$$

`softmax` toma un conjunto de valores y elige el mayor, es decir, convierte una lista como [0.1, 0.1, 0.05, 0.1, 9.5, 0.1, 0.05, 0.05, 0.05] en [0,0,0,0,1,0,0,0,0,0]. Esto permite evitar la necesidad de buscar manualmente el valor más grande y ayuda a ahorrar tiempo en la codificación.

Se muestra un resumen del modelo creado.

In [None]:
model.summary()

### Configuración del proceso de aprendizaje

Se compila el modelo utilizando la función de pérdida de *entropía cruzada categorica*, el optimizador *SGD* y se utiliza la precisión (*accuracy*) como métrica.

In [None]:
model.compile(loss="categorical_crossentropy", optimizer='sgd', metrics=['accuracy'])

#### La función de activación `categorical_crossentropy`
La función de activación `categorical_crossentropy` es una medida de distancia que se utiliza para comparar la salida del modelo de clasificación multiclase con las etiquetas reales.
- Se utiliza comúnmente en problemas de clasificación con varias clases.

Se calcula sumando la pérdida de cada clase para todas las muestras y se define como:

$$Categorical Crossentropy = - \sum_{c=1}^{M} y_{i,c} \log(p_{o,c})$$

donde $y_{i,c}$ es una variable indicadora que toma el valor $1$ si la muestra $i$ pertenece a la clase $c$ y $0$ en caso contrario. $p_{o,c}$ es la probabilidad predicha por el modelo para la muestra $o$ y la clase $c$.

### Entrenamiento del modelo

Se ajusta el modelo utilizando el conjunto de entrenamiento, 5 épocas y se especifica el conjunto de etiquetas para la salida.

In [None]:
model.fit(x_train_rs, y_train, epochs=5)

### Evaluación del modelo

Se evalúa el modelo utilizando el conjunto de prueba y se almacenan la pérdida y la precisión (accuracy) en las variables `test_loss` y `test_acc`, respectivamente.

In [None]:
%%capture
test_loss, test_acc = model.evaluate(x_test_rs, y_test);

Se muestra la precisión obtenida por el modelo en el conjunto de prueba.

In [None]:
print('Precisión de testeo: ', test_acc)

### Generación de predicciones

Se muestra una imagen del conjunto de prueba.

In [None]:
plt.imshow(x_test[11], cmap=plt.cm.binary)

Se utilizan los datos de prueba para realizar predicciones utilizando el modelo.

In [None]:
predictions = model.predict(x_test_rs)

Se encuentra el índice de la predicción más probable para la imagen en la posición 11 del conjunto de prueba.

In [None]:
np.argmax(predictions[11])

Se muestran las probabilidades de cada clase para la imagen en la posición 11 del conjunto de prueba.

In [None]:
print(predictions[11])

Se suma las probabilidades predichas para la imagen en la posición 11 del conjunto de prueba, la cual debe ser 1.

In [None]:
np.sum(predictions[11])

___

## Ejemplo 3: Redes neuronales en Keras: Fashion-MNIST

En esta ocasión, se explorará un escenario en el que se desea reconocer diferentes prendas de vestir, entrenando una red neuronal a partir del conjunto de datos Fashion MNIST.
Este conjunto de datos contiene 70,000 imágenes de ropa en escala de grises, distribuidas en 10 categorías diferentes, cada una con 7,000 imágenes.

**Objetivo:** Utilizar una red neuronal para clasificar correctamente cada imagen en su categoría correspondiente, sin perder la información relevante contenida en cada imagen.

### Obtención de los datos

Los datos del MNIST de la moda están disponibles directamente en el API de los conjuntos de datos de tf.keras. Lo cargas así:

In [None]:
fashion_mnist = tf.keras.datasets.fashion_mnist

Llamar a `load_data` en este objeto le dará dos conjuntos de dos listas, estos serán los valores de entrenamiento y prueba para los gráficos que contienen las prendas de vestir y sus etiquetas.

In [None]:
# Carga de datos
(training_images, training_labels), (test_images, test_labels) = fashion_mnist.load_data()

Crea una lista de nombres de clases para las diferentes categorías de ropa

In [None]:
class_names = ['T-shirt/top', 'Trouser/pants', 'Pullover shirt', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

Para evaluar la calidad de los valores de las imágenes y las etiquetas de entrenamiento, es importante visualizarlos. Una forma sencilla de hacer esto es imprimir una imagen de entrenamiento y su etiqueta correspondiente. También se puede experimentar con diferentes índices de la matriz de imágenes para comparar los resultados. Por ejemplo, el índice 42 muestra una imagen diferente de la bota que el índice 0.

Se establecen opciones de impresión para que los arrays sean mostrados con una longitud de línea máxima de 200

In [None]:
np.set_printoptions(linewidth=200)

Muestra la primera imagen del conjunto de datos de entrenamiento y su etiqueta correspondiente

In [None]:
plt.imshow(training_images[0])
print('Etiqueta correspondiente: ', training_labels[0])
print('Imprime los valores: ', training_images[0])

Para **normalizar** una lista de valores en Python, se puede dividir cada elemento de la lista por el valor máximo de la lista. En este caso, el valor máximo es 255, por lo que se puede normalizar la lista de imágenes de entrenamiento y prueba dividiendo cada elemento por 255.

Convierte los datos de entrenamiento y prueba en tipo `float32`

In [None]:
training_images = training_images.astype('float32')
test_images = test_images.astype('float32')

Normaliza los valores de píxel de los datos de entrenamiento y prueba para que estén en un rango de 0 a 1

In [None]:
training_images /= 255
test_images /= 255

En la programación de una red neuronal, se divide el conjunto de datos en dos grupos: el conjunto de entrenamiento y el conjunto de prueba. La razón detrás de esto es tener un conjunto de datos para entrenar el modelo y otro conjunto de datos que el modelo aún no ha visto para evaluar su desempeño en clasificar valores que no ha visto antes. Al finalizar el proceso, se probará el modelo con datos de prueba que no ha visto antes para verificar su capacidad de clasificación.

Imprime los tamaños de los datos de entrenamiento y prueba, así como la longitud de las etiquetas de entrenamiento y prueba

In [None]:
print("Tamaño de train_images: ", training_images.shape)
print("Cantidad de train_labels: ", len(training_labels))
print("Tamaño de test_images: ", test_images.shape)
print("Cantidad de test_labels: ", len(test_labels))

Muestra las etiquetas de entrenamiento

In [None]:
training_labels

A continuación, se crea un arreglo de figuras de tamaño 12x12 para mostrar 50 imágenes de entrenamiento y sus etiquetas correspondientes

In [None]:
plt.figure(figsize=(12,12))
for i in range(50):
    plt.subplot(10, 5, i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(training_images[i], cmap=plt.cm.binary)
    plt.xlabel(class_names[training_labels[i]])
plt.show()

### Definir modelo

Crea un modelo secuencial de Keras

In [None]:
model = tf.keras.Sequential()

Agrega una capa de aplanamiento (`Flatten`) y una capa de 10 neuronas con activación sigmoidal

In [None]:
model.add(keras.layers.Flatten(input_shape=(28,28)))
model.add(keras.layers.Dense(10, activation='sigmoid'))

**Flatten:** esta capa se encarga de convertir una imagen en formato cuadrado en un conjunto de una sola dimensión.

Agrega una capa de 10 neuronas con activación softmax

In [None]:
model.add(keras.layers.Dense(10, activation='softmax'))

Imprime un resumen del modelo

In [None]:
model.summary()

Importa bibliotecas adicionales para mostrar el diagrama del modelo

In [None]:
#!pip install pydot
#!pip install graphviz
#!conda install -c anaconda pydot=1.2.3
#!conda install -c anaconda pyparsing=2.2.0
#!conda install GraphViz

import errno
import pydot
from tensorflow.keras.utils import plot_model

Muestra el diagrama del modelo en un archivo PNG

In [None]:
plot_model(model, to_file='model.png',show_shapes=True)

### Configurar el modelo

Después de definir el modelo, el siguiente paso es construirlo realmente. Esto se hace compilándolo con una función de optimización y pérdida, como se hizo anteriormente. Luego, se entrena el modelo llamando a `model.fit`, que ajusta los datos de entrenamiento a sus etiquetas de entrenamiento. En otras palabras, el modelo aprende la relación entre los datos de entrenamiento y sus etiquetas reales, para que en el futuro, cuando se le presenten datos similares a los de entrenamiento, pueda hacer una predicción de cómo se verían esos datos.

Compila el modelo con el optimizador `sgd`, la pérdida `sparse_categorical_crossentropy` y la métrica `accuracy`

In [None]:
model.compile(optimizer='sgd',
             loss='sparse_categorical_crossentropy',
             metrics=[('accuracy')])

La función de activación `sparse_categorical_crossentropy` es una medida de la pérdida que se utiliza en el entrenamiento de modelos de aprendizaje automático para clasificación de múltiples clases.
- Se utiliza cuando las etiquetas de clase no están codificadas como vectores one-hot, sino que se proporcionan como enteros.
- Se calcula tomando la media del logaritmo de las probabilidades de clase verdadera dada la salida del modelo.
- La diferencia con categorical_crossentropy es que esta última espera las etiquetas de clase como vectores one-hot.

### Entrenamiento del modelo

Entrena el modelo con los datos de entrenamiento durante 5 épocas

In [None]:
model.fit(training_images, training_labels, epochs=5)

Una vez que finalice el entrenamiento, se mostrará un valor de precisión al final de la última época. Este valor podría ser algo así como 0.9098, lo que indica que la red neuronal tiene una precisión del 91% en la clasificación de los datos de entrenamiento. En otras palabras, logró encontrar una coincidencia de patrón entre la imagen y las etiquetas el 91% de las veces. Aunque no es excelente, es aceptable considerando que solo se entrenó durante 5 épocas y se hizo bastante rápido.

Para evaluar el rendimiento del modelo en datos no vistos, se utilizan las imágenes de prueba. Se llama a la función `model.evaluate` y se le pasan los dos conjuntos de datos para obtener la pérdida de cada uno.

### Evaluación del modelo

Evalúa el modelo en los datos de prueba y captura los resultados para imprimirlos más tarde

In [None]:
%%capture
model.evaluate(test_images, test_labels)

Muestra la precisión del modelo en los datos de prueba

In [None]:
print('Precisión de testeo: ', test_acc)

La precisión de la red neuronal que se entrenó fue de aproximadamente 0,8838 al evaluarla con imágenes de prueba, lo que indica que tuvo una precisión del 88%. Como es común en el aprendizaje automático, es probable que no tenga el mismo rendimiento con datos no vistos como con los datos en los que se entrenó.

### Generación de predicciones

Se realiza una predicción utilizando el modelo entrenado en el conjunto de prueba

In [None]:
predictions = model.predict(test_images)

Se imprime la predicción correspondiente a la imagen en la posición 5

In [None]:
predictions[5]

Se imprime la etiqueta verdadera correspondiente a la imagen en la posición 5

In [None]:
test_labels[5]

A continuación una función que muestra una imagen con su etiqueta verdadera y su predicción

In [None]:
def plot_image(i, predictions_array, true_label, img):
    # Se obtienen los valores necesarios para mostrar la imagen y su información
    predictions_array, true_label, img = predictions_array, true_label[i], img[i]
    # Se configura el gráfico
    plt.grid(False)
    plt.xticks([])
    plt.yticks([])
    # Se muestra la imagen en escala de grises
    plt.imshow(img, cmap=plt.cm.binary)
    # Se obtiene el índice de la predicción con mayor probabilidad
    predicted_label = np.argmax(predictions_array)
    # Si la predicción es correcta, el texto aparecerá en azul, de lo contrario en rojo
    if predicted_label == true_label:
        color = 'blue'
    else:
        color = 'red'
    # Se agrega el texto a la imagen, incluyendo la etiqueta predicha y la probabilidad
    plt.xlabel("{} {:2.0f}% ({})".format(class_names[predicted_label],
                                         100*np.max(predictions_array),
                                         class_names[true_label]),
                                         color=color)

Función que muestra la gráfica de barras de las predicciones para una imagen dada

In [None]:
def plot_value_array(i, predictions_array, true_label):
    # Se obtienen los valores necesarios para mostrar la gráfica
    predictions_array, true_label = predictions_array, true_label[i]
    # Se configura el gráfico
    plt.grid(False)
    plt.xticks(range(10))
    plt.yticks([])
    # Se muestra la gráfica de barras con las probabilidades para cada etiqueta
    thisplot = plt.bar(range(10), predictions_array, color="#007700")
    plt.ylim([0, 1])
    # Se colorea de rojo la barra correspondiente a la predicción con mayor probabilidad
    predicted_label = np.argmax(predictions_array)
    thisplot[predicted_label].set_color('red')
    # Se colorea de negro la barra correspondiente a la etiqueta verdadera
    thisplot[true_label].set_color('black')

Se muestra la imagen y su gráfica de barras para la imagen en la posición 5

In [None]:
i = 5
plt.figure(figsize=(6,3))
plt.subplot(1,2,1)
plot_image(i, predictions[i], test_labels, test_images)
plt.subplot(1,2,2)
plot_value_array(i, predictions[i],  test_labels)
plt.show()

Se muestra la imagen y su gráfica de barras para la imagen en la posición 8

In [None]:
i = 8
plt.figure(figsize=(6,3))
plt.subplot(1,2,1)
plot_image(i, predictions[i], test_labels, test_images)
plt.subplot(1,2,2)
plot_value_array(i, predictions[i],  test_labels)
plt.show()

Se muestra una grilla con varias imágenes y sus gráficas de barras correspondientes

In [None]:
# Traza las primeras X imágenes de prueba, su etiqueta predicha y la etiqueta verdadera.
# Colorea las predicciones correctas en azul, las incorrectas en rojo
num_rows = 7
num_cols = 2
num_images = num_rows*num_cols
plt.figure(figsize=(2*2*num_cols, 2*num_rows))
for i in range(num_images):
    plt.subplot(num_rows, 2*num_cols, 2*i+1)
    plot_image(i, predictions[i], test_labels, test_images)
    plt.subplot(num_rows, 2*num_cols, 2*i+2)
    plot_value_array(i, predictions[i], test_labels)
plt.show()

### Mejorar el modelo

A continuación, se ha mejorado la red neuronal secuencial.
La mejora de la red neuronal incluye tres capas:
1. Una capa de aplanamiento (`Flatten`)
2. Una capa densa (`Dense`) con una función de activación `sigmoidal`
3. Una capa de salida densa con una función de activación `softmax`.

La red neuronal se compila utilizando el optimizador `Adam`, una función de pérdida de entropía cruzada categórica dispersa y la métrica de precisión.

In [None]:
# Crear modelo secuencial de keras
model = tf.keras.Sequential()
# Agregar capa de aplanamiento y especificar forma de entrada
# Agregar capa densa con 10 unidades y activación sigmoidal
# Agregar capa densa con 10 unidades y activación softmax
model.add(keras.layers.Flatten(input_shape=(28,28)))
model.add(keras.layers.Dense(10, activation='sigmoid'))
model.add(keras.layers.Dense(10, activation='softmax'))

#Compilar el modelo, especificando el optimizador, la función de pérdida y la métrica
model.compile(optimizer='adam',
             loss='sparse_categorical_crossentropy',
             metrics=[('accuracy')])

# Entrenar el modelo con los datos de entrenamiento durante 5 épocas
model.fit(training_images, training_labels, epochs=5)

# Evaluar el modelo en los datos de prueba y obtener la pérdida y precisión
test_loss, test_acc = model.evaluate(test_images, test_labels);
# Imprimir la precisión en los datos de prueba
print('\nPrecisión en los datos de prueba: ', test_acc)

## Referencias generales

- [Deep Learning en Wikipedia](https://es.wikipedia.org/wiki/Aprendizaje_profundo)
- [Perceptrón](hhttps://es.wikipedia.org/wiki/Perceptr%C3%B3n)
- [MLP](https://es.wikipedia.org/wiki/Perceptr%C3%B3n_multicapa)

___
¡Todo bien! ¡Es todo por hoy! 😀