# Hello World of Deep Learning

Cargamos el set de imágenes de entrenamiento y de testeo de la librería de Keras.

In [14]:
from keras.datasets import mnist
from keras import models
from keras import layers
from tensorflow.keras.utils import to_categorical
import numpy as np

(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

Las imágenes están codificadas como arrays de Numpy y las etiquetas son un array de digitos entre 0 y 9.

In [15]:
train_images.shape

(60000, 28, 28)

In [16]:
len(train_labels)

60000

In [17]:
test_labels

array([7, 2, 1, ..., 4, 5, 6], dtype=uint8)

### Hacemos la arquitectura de la red.

La red consiste de dos capas densas, o totalmente conectadas y una última capa softmax de 10 vías que nos va a arrojar la un puntaje, que va a ser la probabilidad de que ese número corresponda a la imagen.

In [18]:
network = models.Sequential()
network.add(layers.Dense(512, activation='relu', input_shape=(28 * 28,)))
network.add(layers.Dense(10, activation='softmax'))

### Instanciamos el modelo (Compilamos).
Para entrenar el modelo elegimos:
* Una función de perdida, que va a permitir al sistema medir la performance en la data de entrenamiento e ir guiándose.
* Un optimizador, que es el mecanismo con el cual la red se va a ir actualizando basada en la data y la función de perdida.
* Una métrica para monitorear el entrenamiento, nos enfocamos solo en la precisión (la fracción de imágenes correctamente clasificadas).

In [19]:
network.compile(optimizer='rmsprop',
                loss='categorical_crossentropy',
                metrics=['accuracy'])

Antes de entrenar tenemos que preprocesar la data, ya que los valores deberían estar entre 0 y 1.
Teníamos lo valores guardados en un array de forma (60000, 28, 28) con valores de tipo uint8 en el intervalo de 0 y 255, los transformamos en un array de float32 con forma (60000, 28 * 28) con valores entre 1 y 0.

In [20]:
train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype('float32') / 255
test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype('float32') / 255

También tenemos que tranformar la etiquetas en "categorías"

In [21]:
train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

Ahora estamos listos para entrenar el modelo.

In [22]:
network.fit(train_images, train_labels, epochs=5, batch_size=128)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f3cbb8521d0>

Vemos que rápidamente llegamos a una precisión del 98,9%, vamos a probar el modelo ahora el el la data de testeo.

In [23]:
test_loss, test_acc = network.evaluate(test_images, test_labels)
print('test_acc:', test_acc)

test_acc: 0.9735999703407288


La precisión en el set de testeo es de 97,4% que es un poco más baja que en el set de entrenamiento. Esta diferencia es un ejemplo de overfitting, el cual es muy bajo.