# Primer ejemplo con Keras + Python

Este es nuestro primer [Jupyter Notebook](http://jupyter.org) de Deep Learning con [Keras](https://keras.io) (y Python). 

En este primer notebook únicamente mostraremos un ejemplo de red neuronal con un par de capas que aborda el famoso problema MNIST. El objetivo es simplemente ver el flujo de trabajo habitual para atacar un problema con Keras, pero no nos detendremos en los detalles de cómo se usa Keras ni de la potencia que podemos extraer a las diversas funcionalidades que proporciona. En notebooks posteriores profundizaremos en su uso y en las características propias de Deep Learning que podemos abordar.

Para ejecutar los diversos chunks (así se llaman) de código que conforman este notebook puedes pulsar en el botón *Run* que puedes encontrar en cada uno de ellos, o bien situando el cursor dentro del chunk y presionando la comnbinación *Shift+Enter* (también tienes la opción de usar las opciones de ejecución en el menú *Run* de la barra del navegador Jupyter. Ten en cuenta que algunas opciones pueden cambiar dependiendo del entorno en el que estés trabajando con este notebook (Jupyter Notebook, Jupyter Lab, o Collab de Google.. cualquiera de los tres funcionan de forma similar, pero con ligeras diferencias). 

## Nuestro primer modelo con Keras

El primer paso es cargar la librería keras que permitirá interactuar a Python con la librería de Deep Learning que usemos (en nuestro caso, [Tensorflow](https://www.tensorflow.org)).

In [1]:
import keras
keras.__version__
from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())

Using TensorFlow backend.


[name: "/device:CPU:0"
device_type: "CPU"
memory_limit: 268435456
locality {
}
incarnation: 2757388288108368353
, name: "/device:GPU:0"
device_type: "GPU"
memory_limit: 3230918246
locality {
  bus_id: 1
  links {
  }
}
incarnation: 12369717276712349432
physical_device_desc: "device: 0, name: GeForce 940MX, pci bus id: 0000:01:00.0, compute capability: 5.0"
]


### Preparación de los datos

A continuación vamos a cargar los datos del problema [MNIST](https://en.wikipedia.org/wiki/MNIST_database), una gran base de datos de dígitos escritos a mano que sevirá como primera aproximación a la resolución de un problema de clasificación haciendo uso de Redes Neuronales.

Afortunadamente, este problema es tan común que Keras proporciona una instrucción directa para descargar las imágenes (de 28x28 pixels en escala de grises) que representan los miles de dígitos escritos a mano. El paso, que veremos que es habitual en muchos problemas que veremos en el curso, consta de dos pasos: primero cargar la librería de Keras que prporciona las herramientas para trabajar con el dataset concreto (que comúnmente están en el paquete `keras.datasets`, y después ejecutar el proceso de carga de los datos (que serán descargados la primera vez desde un repositorio que viene por defecto predefinido en ese paquete):

In [2]:
from keras.datasets import mnist

(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

Observa que el proceso de carga de datos separa adecuadamente las diversas partes de que consta este dataset:  (conjunto de entrenamiento, conjunto de test), y cada uno de estos conjuntos está formado por un conjunto de imágenes, con sus respectivas etiquetas de clasificación (*labels*).

Podemos explorar un poco cómo son cada una de estas variables haciendo uso de instrucciones específicas de Python que nos dan información acerca de su estructura y muestra los primeros valores:

In [3]:
train_images.shape

(60000, 28, 28)

In [4]:
len(train_labels)

60000

In [5]:
train_labels

array([5, 0, 4, ..., 5, 6, 8], dtype=uint8)

De forma análoga, podemos explorar las imágenes que se usarán para test:

In [6]:
test_images.shape

(10000, 28, 28)

In [7]:
len(test_labels)

10000

In [8]:
test_labels

array([7, 2, 1, ..., 4, 5, 6], dtype=uint8)

Si queremos ver alguna de las imágenes que hay en el dataset, podemos hacer uso de la instrucción adecuada de, por ejemplo, la librería `matplotlib`:

In [9]:
from matplotlib import pyplot as plt
import numpy as np

def gen_image(arr):
    conv = (np.reshape(arr, (28, 28)) * 255).astype(np.uint8)
    plt.imshow(conv, interpolation='nearest')
    return plt

gen_image(test_images[0]).show()

<Figure size 640x480 with 1 Axes>

El flujo de trabajo es similar al que se sigue siempre en los procesos de ML Supervisado: mostramos al modelo (una red neuronal, en nuestro caso) los datos de *entrenamiento*, `train_images` y `train_labels`; el modelo debe *aprender* a asociar las imágenes con las etiquetas asociadas; Por último, verificamos el aprendizaje realizado comprobando sobre `test_images` que las respuestas dadas por el modelo (*predicciones*) coinciden con las almacenadas en `test_labels`.

Ya estamos en condiciones de definir nuestra primera red neuronal (muy básica, con solo una capa de entrada y una de salida) que consumirá los datos anteriores para ver si somos capaces de dar una primera solución al problema del reconocimiento de dígitos manuscritos.

En nuestro caso, vamos a situar una capa de entrada con 784 (= 28 * 28) neuronas (que recibirán cada uno de los 784 pixels de cada imagen), con función de activación ReLU, y una capa de salida con 10 neuronas (para cada una de las posibles etiquetas de salida), y con activación softmax (por lo que se podrá interpretar como una probabilidad de salida que indica lo probable que es que la imagen de entrada tenga cada una de las etiquetas como salida):

In [10]:
from keras import models
from keras import layers

network = models.Sequential()
network.add(layers.Dense(512, activation='relu', input_shape=(28 * 28,)))
network.add(layers.Dense(10, activation='softmax'))


El elemento básico de las redes neuronales es lo que se conoce como *capa* (*layer*), un módulo de procesamiento de datos que se puede ver como un "filtro" de datos. Como veremos más adelante, las capas extraen *representaciones* de los datos que reciben, que se espera que sean más significativas para el problema que resuelve la red. La mayor parte del aprendizaje profundo consiste en encadenar capas simples formando algo que puede verse como un proceso de "destilación de datos" progresiva.

En este caso, la red consta de una secuencia de dos capas densas, que son capas neurales totalmente conectadas. La segunda (y última) capa es una capa "softmax" de 10 salidas, lo que significa que devolverá una matriz de 10 valores de probabilidad (que suman 1). Cada uno de estos valores será la probabilidad de que la imagen actual pertenezca a una de las 10 clases (los dígitos del 0 al 9).

Hasta ahora solo hemos definido la estructura de la red, pero no hemos dado ninguna información acerca de cómo se llevará a cabo el entrenamiento. Para ello, hemos de indicarle a Keras algunas características adicionales, tales como el optimizador que permitirá modificar los pesos de la red, qué función objetivo (de error) se usará para dirigir esta optimización, y la métrica que usaremos para medir cómo se va comportando la red a medida que se entrena. Keras proporciona la función *compile* que permite establecer estas (y otras) propiedades sobre una red ya definida:


In [11]:
network.compile(optimizer='rmsprop',
                loss='categorical_crossentropy',
                metrics=['accuracy'])


Observa que muchas de las ejecuciones que hacemos no proporcionan una salida imprimible, sino que modifican el contenido de ciertas variables para su ejecución posterior.

Debido a que la red neuronal que vamos a usar debe recibir como dato de entrada cada imagen de forma aplanada (es decir, no como una matriz de 28x28, sino como un vector de 28x28=784 posiciones), nuestro primer paso es hacer uso de las instrucciones que proporciona Keras para transformar la forma de los datos de entrada. Además, aprovecharemos para normalizar el contenido de estas imágenes (están en escalas de grises con valores `uint8` entre 0 y 255, y las pasaremos a valores `float32` en [0,1]):


In [12]:
train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype('float32') / 255

test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype('float32') / 255

Además, vamos a convertir las etiquetas (que vienen en el dataset como valores enteros), en vectores binarios para que se corresponda con la salida que nuestra red va a proporcionar:

In [13]:
from keras.utils import to_categorical

train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

### Proceso de entrenamiento

Preparados los datos y definida la red (estructura y funcionalidad), podemos hacer uso de la instrucción *fit* para comenzar el proceso de entrenamiento sobre los datos que tenemos. Esencialmente, hemos de indicar sobre qué datos entrenar (entrada y salidas), cuántas iteraciones (epochs) y con qué tamaño de batch (cada cuántos ejemplos el algoritmos actualiza los pesos).

Durante el proceso de entrenamiento, Keras informa de los valores que toma la función objetivo, así como de la/s métrica/s que hemos fijado en la compilación.

In [14]:
network.fit(train_images, train_labels, epochs=5, batch_size=128)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1e3d6444da0>

Observa que los valores mostrados son el error y métricas en los propios datos de entrenamiento, pero la labor de un modelo de aprendizaje es generalizar bien sobre datos que el proceso de entrenamiento no ha visto anteriormente, razón por la que tenemos un conjunto de test que nos permite evaluar cómo se comporta la red entrenada sobre ejemplos que no ha usado para ajustarse.

ALcanzamos rápidamente una precisión de 0.989 (i.e. 98.9%) en el conjunto de entrenamiento, veamos cómo de bien se comporta con los datos de test (que no ha usado para aprender):

In [15]:
test_loss, test_acc = network.evaluate(test_images, test_labels)



In [16]:
print('test_acc:', test_acc)

test_acc: 0.9795



Lo normal es que la red se comporte ligeramente peor en los datos de test que en los datos de entrenamiento, ya que el proceso de entrenamiento consiste precisamente en ajustar los pesos para que el error cometido en estos últimos se minimice. Esta diferencia de comportamiento entre entrenamiento y test se denomina **overfitting** (o **sobreajuste**). En todo caso, con una red tan simple como hemos usado, se alcanzan cotas del 98% de aciertos.

Finalmente, podemos ver las predicciones que hace la red sobre algunos datos del conjunto de test (mostramos también las etiquetas aaociadas a los datos usados, pero ten en cuenta que están en formato binarizado, y el índice 1 corresponde a la etiqueta 0, el índice 2 a la etiqueta 1, etc...):

In [17]:
np.argmax(network.predict(test_images[2:3]))

1

In [18]:
test_labels[2:3]

array([[0., 1., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)