<a href="https://colab.research.google.com/github/jtelle/Complete-Python-3-Bootcamp/blob/master/Copia_de_Pr%C3%A1ctica_Redes_Neuronales.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Clasificación de dígitos con Redes Neuronales**



La base de datos MNIST es una gran base de datos de dígitos manuscritos que se utiliza comúnmente para la capacitación de varios sistemas de procesamiento de imágenes y las pruebas en el campo del aprendizaje automático.

![MNIST](https://camo.githubusercontent.com/d440ac2eee1cb3ea33340a2c5f6f15a0878e9275/687474703a2f2f692e7974696d672e636f6d2f76692f3051493378675875422d512f687164656661756c742e6a7067)



Cada imagen tiene 28 x 28 píxeles cuadrados (784 píxeles en total). Se utiliza una división estándar del conjunto de datos para evaluar y comparar modelos, en la que se utilizan 60.000 imágenes para formar un modelo y un conjunto separado de 10.000 imágenes para probarlo.



**Carga de datos**

La variable X contiene las matrices de los pixeles de los dígitos, mientras que la variable y contiene las etiquetas correspondientes a cada dígito

In [None]:
from keras.datasets import mnist
(X_train, y_train), (X_test, y_test) = mnist.load_data()

In [None]:
len(X_train)

In [None]:
len(X_test)

In [None]:
X_test[0].shape

Vamos a visualizar la primera imagen del conjunto de entrenamiento


In [None]:
import matplotlib.pyplot as plt
plt.imshow(X_train[0], 'gray')
print("Digit class:", y_train[0])

Utiliza esta celda para dibujar algún otro dígito del conjunto de entrenamiento junto con su etiqueta


In [None]:
# Introduce tu código


Antes de construir modelos de redes neuronales vamos a normalizar los datos. Al ser una imagen en escala de grises, basta por dividir entre 255 para que todos los valores estén comprendidos en el intervalo [0,1]

In [None]:
X_train = X_train.astype('float32')/255

Realiza la misma operación con el conjunto de test

In [None]:
# Introduce tu código


Para la variable de salida, tenemos que codificarla con el método 'one hot encoding'

In [None]:
from keras.utils import np_utils
Y_train = np_utils.to_categorical(y_train, 10) # We have 10 classes to codify

In [None]:
y_train, Y_train

Realiza la misma operación con el conjunto de test

In [None]:
# Introduce tu código


## 1. Red neuronal de una capa
Utilizamos una red secuencial, en la que cada capa es seguida de otra en formato de cadena

In [None]:
from keras.models import Sequential
model = Sequential()

Creamos la capa, especificando el número de entradas y salidas de la red

In [None]:
from keras.layers.core import Dense
denselayer = Dense(10, input_shape=(784,))

Añadimos la capa a la red

In [None]:
model.add(denselayer)

Añadimos la función de activación softmax a la salida

In [None]:
from keras.layers.core import Activation
model.add(Activation('softmax'))

La definición de la red está completa. Podemos ver una descripción de la misma con el siguiente comando

In [None]:
model.summary()

Tras definir la arquitectura el siguiente paso es compilar la red. Para este paso, hay que especificar la función de error (usaremos 'categorical crossentropy'), el método de optimización (usaremos 'stochastic gradient descent'), y la métrica de desempeño que queremos observar al finalizar

In [None]:
model.compile(loss='categorical_crossentropy', optimizer='sgd', metrics=['accuracy'])

A continuación vamos a entrenar la red. Para ello, debemos transformar las matrices de píxeles en vectores, para que puedan utilizarse como entrada en la red neuronal

In [None]:
trainvectors = X_train.reshape(60000, 784)

Comprobamos que nuestro conjunto de entrenamiento tiene 784 columnas (características) y 60000 filas

In [None]:
trainvectors.shape

Realiza la misma operación en el conjunto de test


In [None]:
# Inserta tu código


Entrenamos la red con el comando **fit**


In [None]:
model.fit(
    trainvectors, # Training data
    Y_train, # Labels of training data
    batch_size=128, # Batch size for the optimizer algorithm
    epochs=20, # Number of epochs to run the optimizer algorithm
    verbose=2 # Level of verbosity of the log messages
)

Una vez entrenada, obtenemos las predicciones para el conjunto de test

In [None]:
preds = model.predict_classes(testvectors)

Comprobamos, para un ejemplo, si la predicción coincide con la realidad

In [None]:
plt.imshow(X_test[0], 'gray')
print("Real class", y_test[0], "predicted class", preds[0])

Veamos ejemplos en los que el modelo ha fallado

In [None]:
import numpy as np
(fails,) = np.where(y_test != preds)
idx = 0
plt.imshow(X_test[fails[idx]], 'gray')
print("Real class", y_test[fails[idx]], "predicted class", preds[fails[idx]])

Medimos la precisión del clasificador

In [None]:
score = model.evaluate(testvectors, Y_test)
print("Test loss", score[0])
print("Test accuracy", score[1])

## 2. Red Neuronal de varias capas (Multilayer Perceptron)
Añadimos capas a nuestra red neuronal, con función de activación de tipo sigmoide

In [None]:
model = Sequential()
model.add(Dense(10, input_shape=(784,)))
model.add(Activation('sigmoid'))
model.add(Dense(10))
model.add(Activation('softmax'))

model.summary()

Compilamos y entrenamos la nueva red, evaluando el nuevo desempeño

In [None]:
model.compile(loss='categorical_crossentropy', optimizer='sgd', metrics=['accuracy'])
model.fit(
    trainvectors, # Training data
    Y_train, # Labels of training data
    batch_size=128, # Batch size for the optimizer algorithm
    epochs=20, # Number of epochs to run the optimizer algorithm
    verbose=2 # Level of verbosity of the log messages
)
score = model.evaluate(testvectors, Y_test)
print("Test loss", score[0])
print("Test accuracy", score[1])

Para mejorar el desempeño de la red, vamos a incrementar el número de neuronas en las capas ocultas, utilizar la función de activación ReLU y modificar el algoritmo de optimización por *adam* (mejora del algoritmo de gradiente descendente)

In [None]:
model = Sequential()
model.add(Dense(100, input_shape=(784,)))
model.add(Activation('relu'))
model.add(Dense(10))
model.add(Activation('softmax'))

In [None]:
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(
    trainvectors, # Training data
    Y_train, # Labels of training data
    batch_size=128, # Batch size for the optimizer algorithm
    epochs=20, # Number of epochs to run the optimizer algorithm
    verbose=2 # Level of verbosity of the log messages
)
score = model.evaluate(testvectors, Y_test)
print("Test loss", score[0])
print("Test accuracy", score[1])

Define una nueva red con dos capas ocultas, cada una con 512 neuronas y una función de activación ReLU. Para la salida, utiliza la función de activación *softmax*. Utiliza *adam* como algoritmo de optimización y compara el desempeño de esta nueva red con los resultados anteriores

In [None]:
# Introduce tu código


A continuación, vamos a introducir regularización con el método **dropout**. En este ejemplo, creamos una capa dropout, que recibe las salidas de la capa anterior y las asigna a 0 con una probabilidad del 30%


In [None]:
from keras.layers.core import Dropout
model = Sequential()
model.add(Dense(512, input_shape=(784,)))
model.add(Activation('relu'))
model.add(Dropout(0.3))
model.add(Dense(10))
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=["accuracy"])
model.fit(
    trainvectors, # Training data
    Y_train, # Labels of training data
    batch_size=128, # Batch size for the optimizer algorithm
    epochs=20, # Number of epochs to run the optimizer algorithm
    verbose=2 # Level of verbosity of the log messages
)
score = model.evaluate(testvectors, Y_test)
print("Test loss", score[0])
print("Test accuracy", score[1])

## 3. Redes Neuronales Convolucionales
Para mejorar el desempeño del clasificador de imágenes, necesitamos redes que consideren los datos de entrada como imágenes, y tengan en cuenta la relación entre los píxeles. Las redes convolutivas son la mejor manera de hacer esto

Para las redes convolucionales, necesitamos organizar los datos en forma de tensores, con las siguientes dimensiones:  
- Índice de la imagen (por ejemplo, la 3ª imagen del dataset)
- Índice de la fila
- Índice de la columna
- Índice del canal RGB

En nuestro caso, tenemos imágenes en blanco y negro de 28 filas x 28 columnas 

In [None]:
traintensor = X_train.reshape(60000, 28, 28, 1)
testtensor = X_test.reshape(10000, 28, 28, 1)

Cuando definimos una red convolucional, las capas de convolución y pooling trabajan conjuntamente. La manera más habitual de utilizar estas capas es siguiendo el siguiente patrón:
- Una capa convolucional con función de activación ReLU
- Una capa pooling
- Dropout (si queremos introducir regularización)

Definimos por tanto nuestra red:

In [None]:
from keras.layers.convolutional import Convolution2D, MaxPooling2D

img_rows = 28
img_cols = 28
kernel_size = 3 # Size of the kernel for the convolution layers
pool_size = 2 # Size of the pooling region for the pooling layers

model = Sequential()

model.add(Convolution2D(32, # Number convolution channels to generate
                        (kernel_size, kernel_size), # Size of convolution kernels
                        padding='valid', # Strategy to deal with borders
                        input_shape=(img_rows, img_cols, 1))) # Size = image rows x image columns x channels
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(pool_size, pool_size)))
model.add(Dropout(0.25))

Tras las capas convolucionales+pooling, tenemos que transformar el tensor a un vector, de manera que la salida final de la red sea el número de clases (en nuestro caso 10). Para ello creamos una capa de tipo **Flatten**, seguida de una capa de tipo **Dense**

In [None]:
from keras.layers.core import Flatten
model.add(Flatten())
model.add(Dense(10))
model.add(Activation('softmax'))

A continuación, compilamos y entrenamos nuestra red convolucional

In [None]:
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=["accuracy"])
model.fit(
    traintensor, # Training data
    Y_train, # Labels of training data
    batch_size=128, # Batch size for the optimizer algorithm
    epochs=20, # Number of epochs to run the optimizer algorithm
    verbose=2 # Level of verbosity of the log messages
)
score = model.evaluate(testtensor, Y_test)
print("Test loss", score[0])
print("Test accuracy", score[1])

Construye y entrena una CNN con las siguientes capas:
- Dos capas convolucionales con 32 kernels de tamaño 3x3 y función ReLU
- Una Capa MaxPooling de tamaño 2
- Un 25% de DropOout
- Una capa de tipo Flatten
- Una capa densa con 128 neuronas y función ReLU
- Un 50% de dropout
- Una capa de salida densa con función de activación softmax

¿Hay mejora en el desempeño?

In [None]:
# Introduce tu código


Por último, probamos la arquitectura **[LeNet](http://yann.lecun.com/exdb/lenet/)**, cuya efectividad ha sido demostrada en este caso particular. Las capas que utiliza son las siguientes: 
- Capa convolucional con 20 kernels de tamaño 5 y función ReLU
- MaxPooling de tamaño 2 y stride 2
- 25% Dropout
- Capa convolucional con 50 kernels de tamaño 5 y función ReLU
- MaxPooling de tamaño 2 y stride 2
- 25% Dropout
- Capa Flatten
- Capa Densa con 500 neuronas y función ReLU
- 50% Dropout
- Capa Densa con función softmax


In [None]:
img_rows = 28
img_cols = 28

model = Sequential()

model.add(Convolution2D(20, (5, 5),
                        padding='valid',
                        input_shape=(img_rows, img_cols, 1)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))
model.add(Dropout(0.25))
model.add(Convolution2D(50, (5, 5)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))
model.add(Dropout(0.25))
model.add(Flatten())
model.add(Dense(500))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(10))
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=["accuracy"])
model.fit(
    traintensor, # Training data
    Y_train, # Labels of training data
    batch_size=128, # Batch size for the optimizer algorithm
    epochs=20, # Number of epochs to run the optimizer algorithm
    verbose=1 # Level of verbosity of the log messages
)
score = model.evaluate(testtensor, Y_test)
print("Test loss", score[0])
print("Test accuracy", score[1])