# Clasiﬁcador de números escritos a mano:

El dataset MNIST fue desarrollado para evaluar modelos de redes neuronales. Está constituido por un gran conjunto de imágenes en blanco y negro, de 28x28 píxeles. 60000 son usadas para entrenar el modelo, y 10000 para evaluarlo.

### Imágenes MNIST:

Se importan todas las librerias y dataset necesarios:

In [1]:
#Importamos la librería numpy de python como np:
import numpy as np  
#Se inicializa una semilla aleatoria constante para asegurarnos que la comparación de los modelos es consistente
np.random.seed(0)  #for reproducibility            
#Se importan todas las librerias necesarias de Keras:
from keras.datasets import mnist #Dataset de MNIST
#Y_train vector de 60000 elementos, con valores del 0 al 9
#Y_test vector de 10000 elementos, con valores del 0 al 9
(X_train, Y_train), (X_test, Y_test) = mnist.load_data() #Se almacenan las imágenes en variables
from keras.models import Sequential 
from keras.layers import Dense, Activation
from keras.layers import Convolution2D, MaxPooling2D
from keras.layers import Dropout, Flatten
from keras.utils import np_utils

Using TensorFlow backend.


Se estructura el conjunto de datos. Se trata de imágenes 28x28, lo cual dará lugar a 784 píxeles, que serán los valores de entrada. Los valores tomados en una escala de grises pueden variar de 0 a 255. En redes neuronales resulta útil normalizar los valores tomados por las entradas entre 0 y 1.

In [2]:
n_pixels = X_train.shape[1] * X_train.shape[2] #X_train.shape = (60000, 28, 28)
#Se transorma X_train en una matriz 60000x28x28x1
X_train = X_train.reshape(X_train.shape[0], X_train.shape[1], X_train.shape[2], 1).astype('float32') 
#Se transorma X_test en una matriz 10000x28x28x1
X_test = X_test.reshape(X_test.shape[0], X_test.shape[1], X_test.shape[2], 1).astype('float32')
#Normalizamos el conjunto de datos entre 0 y 1:
X_train = X_train / 255 
X_test = X_test / 255
###Codificamos los vectores en matrices binarias
#Con to_categorical se transforma en una matriz con las mismas columnas que clases. 
Y_train = np_utils.to_categorical(Y_train) 
Y_test = np_utils.to_categorical(Y_test) 
num_classes = Y_test.shape[1] #10 tipos de clases, números del 0 al 9
#Y_test.shape = (10000, 10), Matriz 10000 fil x 10 col(=clases)

### Modelo de CNN:

Se crea el modelo de Red CNN que clasificará las imágenes. Consta de las siguientes capas:

   -CAPA CONVOLUCIONAL: 32 mapeadores de 5x5.

   -CAPA POOLING: capa de reducción de dimensiones 2x2 que actuará quedandose con el valor máximo (función MaxPooling)  

   -CAPA DROPOUT: durante el entrenamiento, excluye aleatoriamente el número (en tanto por uno) que se le indique de las neuronas de la capa, para reducir el sobreajuste.

   -CAPA FLATTEN: Necesaria para que la salida pueda ser procesada por una capa fully-conected. Transforma la matriz de 2 dimensiones en un vector.

   -CAPA FULLY-CONECTED: formada por 128 neuronas, con función de activación relu (rectificadora).

   -CAPA SALIDA: formada por 10 neuronas, correspondientes a las clases (números del 0 al 9). 

In [3]:
def CNN(): 
    model = Sequential() #Se crea un modelo secuencial, capa tras capa 
    #Capa Conv:
    model.add(Convolution2D(32, 5, 5, init='glorot_uniform', border_mode='valid', input_shape=(28, 28, 1), activation='relu')) 
    #Capa Pooling:
    model.add(MaxPooling2D(pool_size=(2, 2))) 
    #Capa Dropout:
    model.add(Dropout(0.25)) 
    #Capa Flatten:
    model.add(Flatten()) 
    #Capa Fully-conected:
    model.add(Dense(128, activation='relu')) 
    #Capa de salida:
    model.add(Dense(num_classes, activation='softmax')) 
    #Compile calcula la función gradiente y prepara el modelo para su entrenamiento
    #Se define el tipo de pérdida y el optimizador
    model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy']) 
    return model


### Entrenamiento de la Red CNN:

El método básico de entrenamiento dentro del modelo secuencial es fit(self, x, y, batch_size=32, nb_epoch=10, verbose=1, callbacks=[], validation_split=0.0, validation_data=None, shuffle=True, class_weight=None, sample_weight=None).

Con este método se puede fijar el número de ciclos (nb_epoch), con actualizaciones de gradiente cada batch_size ejemplos.

In [4]:
model = CNN()
model.fit(X_train, Y_train, validation_data=(X_test, Y_test), nb_epoch=10, batch_size=200, verbose=2) 

Instructions for updating:
Colocations handled automatically by placer.
Instructions for updating:
Please use `rate` instead of `keep_prob`. Rate should be set to `rate = 1 - keep_prob`.
Instructions for updating:
Use tf.cast instead.


  after removing the cwd from sys.path.
  


Train on 60000 samples, validate on 10000 samples
Epoch 1/10
 - 21s - loss: 0.2540 - acc: 0.9282 - val_loss: 0.0832 - val_acc: 0.9755
Epoch 2/10
 - 20s - loss: 0.0803 - acc: 0.9763 - val_loss: 0.0549 - val_acc: 0.9828
Epoch 3/10
 - 19s - loss: 0.0557 - acc: 0.9831 - val_loss: 0.0479 - val_acc: 0.9849
Epoch 4/10
 - 19s - loss: 0.0453 - acc: 0.9858 - val_loss: 0.0384 - val_acc: 0.9865
Epoch 5/10
 - 19s - loss: 0.0358 - acc: 0.9888 - val_loss: 0.0365 - val_acc: 0.9887
Epoch 6/10
 - 19s - loss: 0.0308 - acc: 0.9901 - val_loss: 0.0345 - val_acc: 0.9880
Epoch 7/10
 - 20s - loss: 0.0265 - acc: 0.9917 - val_loss: 0.0323 - val_acc: 0.9890
Epoch 8/10
 - 19s - loss: 0.0224 - acc: 0.9927 - val_loss: 0.0381 - val_acc: 0.9880
Epoch 9/10
 - 20s - loss: 0.0188 - acc: 0.9941 - val_loss: 0.0335 - val_acc: 0.9890
Epoch 10/10
 - 19s - loss: 0.0158 - acc: 0.9952 - val_loss: 0.0312 - val_acc: 0.9897


<keras.callbacks.History at 0x1a30f1f9f98>

### Cálculo de la función pérdida:

El método evaluate(self, x, y, batch_size=32, verbose=1, sample_weight=None) se encarga de calcular la función de pérdidadados unos datos de entrada.

In [5]:
score = model.evaluate(X_test, Y_test, verbose=1)
print('Test accuracy:', score[1])

Test accuracy: 0.9897
