# Taller de ‚ú®ü¶Üredes neuronalesü¶Ü‚ú®

### Vamos a entrenar una red neuronal simple utilizando Keras (un toolkit basado en TensorFlow) y la usaremos para reconocer los n√∫meros manuscritos del corpus MNIST 

Pero antes que nada, importamos todo lo necesario para poder trabajar:

In [None]:
import numpy as np
import keras
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.layers import Dropout
from keras.layers import BatchNormalization as BN
from keras.layers import GaussianNoise as GN
from tensorflow.keras.optimizers import Adam
from keras.utils import np_utils
from keras.layers import Reshape
from keras.callbacks import LearningRateScheduler as LRS

Aqu√≠ definimos los "hiperpar√°metros" de la red:
- Tama√±o de batch, que s√≥n el n√∫mero de muestras que se procesan cada vez antes de actualizar los pesos de la red
- √âpocas, que representan el n√∫mero m√°ximo de veces que veremos el conjunto de entrenamiento por completo
- N√∫mero de clases entre las que nuestro modelo ha de clasificar. En el caso de MNIST, son 10 (n√∫meros del 0 al 9)

In [None]:
batch_size = 512
epochs = 100
num_classes = 10

A continuaci√≥n, prepararemos los datos üíæ
Para ello, descargamos MNIST i tratamos un poquit√≠n los datos:
- Reconstruimos las im√°genes (que originalmente vienen en vectores de 784 dimensiones) en matrizes de 28x28 (para verlos como im√°genes). Esto se hace primero que nada por conveniencia, por si se quieren visualizar los datos, adem√°s de por si se quiere hacer alg√∫n tipo de data augmentation mediante paneos, rotaciones...
- Codificamos los n√∫meros a floats de 32 bits para que sean m√°s manejables por la red y los dividimos entre 255 para escalarlos a valores entre 0 y 1.
- Convertimos las etiquetas (num√©ricas) a una representaci√≥n interna de Keras para poder trabajar m√°s c√≥modamente

In [None]:
(x_train, y_train), (x_test, y_test) = mnist.load_data()

print("Training set", x_train.shape)
print("test set", x_test.shape)

x_train = x_train.reshape(60000, 28, 28, 1)
x_test = x_test.reshape(10000, 28, 28, 1)
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')

def show_img(img):
  import matplotlib.pyplot as plt

  img = np.array(img)
  plt.imshow(img, cmap= 'gray')

show_img(x_test[0])

x_train /= 255
x_test /= 255

y_train = keras.utils.np_utils.to_categorical(y_train, num_classes)
y_test = keras.utils.np_utils.to_categorical(y_test , num_classes)

Ahora ya por fin vamos a definir el modelo ü§ñ üéâ üìà

Utilizaremos la API secuencial de Keras, con la que podemos a√±adir capas simplemente poniendo model.add(*capa*)

Las capas que hemos a√±adido son de dos tipos
- Reshape, para reconstruir de nuevo las im√°genes en vectores (la entrada de una red normal)
- Dense, que implementa una capa densa de neuronas con un n√∫mero de unidades igual a su primer par√°metro. La activaci√≥n de la capa se especifica mediante texto con el par√°metro _activation_

Pod√©is ver que, en este caso, he construido una red con tres capas de 1024, 1024 y 10 neuronas respectivamente, aunque no es necesario seguir esta tendencia. Se pueden generar redes en forma de "embudo", simulando una arquitectura "encoder-decoder"... El l√≠mite es vuestra imaginaci√≥n xdd

Finalmente, mostramos un "resumen" del modelo, donde vemos todas las capas y par√°metros que hemos creado.

In [None]:
model = Sequential()

model.add(Reshape(target_shape=(784,), input_shape=(28,28,1)))
model.add(Dense(1024, activation='relu'))
model.add(Dense(1024, activation='relu'))
model.add(Dense(num_classes, activation='softmax'))
model.summary()

En esta celda definimos el optimizador que utilizaremos para entrenar la red (en este caso, Adam, que funciona muy bien) y "compilamos" el modelo especificando la funci√≥n de p√©rdida, el optimizador a utilizar y las m√©tricas que queremos monitorizar.

Dado que estamos manejando un problema de clasificaci√≥n, utilizamos la entrop√≠a cruzada como funci√≥n de p√©rdida. Para tareas de regresi√≥n (generaci√≥n de im√°genes, por ejemplo), en cambio, se puede utilizar el error cuadr√°tico medio.

In [None]:
opt = Adam(learning_rate=0.001)
model.compile(loss='categorical_crossentropy', optimizer=opt, metrics=['accuracy'])

Aqu√≠ definimos un "scheduler" para el learning rate. Este paso no es obligatorio, puesto que podemos utilizar un ratio de aprendizaje fijo durante todo el entrenamiento, pero es una buena idea ir reduciendo este par√°metro durante el entrenamiento para ser capaces de alcanzar m√≠nimos m√°s "estrechos".

Tambi√©n podemos utilizar esta celda para a√±adir otras "callbacks", que simplemente son funciones que se ejecutan al final de cada √©poca para controlar factores como el ratio de aprendizaje, paradas tempranas para evitar largas ejecuciones sin mejoras o guardar "checkpoints" de los mejores modelos hasta el momento.

In [None]:
def scheduler(epoch, lr):
  if epoch < 10:
    return lr
  else:
    return lr * np.exp(-0.1)

lrs = LRS(scheduler)
callbacks = [lrs]

Finalmente, entrenamos el modelo. Esto simplemente lo hacemos ejecutando la funci√≥n "fit". En este paso, pasamos todos los par√°metros necesarios que hemos estado preparando (datos, tama√±o de batch, √©pocas, callbacks...) y evaluamos el √∫ltimo modelo respecto al conjunto de test.

In [None]:
history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_data=(x_test, y_test),
                    callbacks=callbacks)

score = model.evaluate(x_test, y_test, verbose=0)

print('Test loss:', score[0])
print('Test accuracy:', score[1])

Finalmente, imprimimos la evoluci√≥n de la tasa de aciertos a lo largo del proceso de entrenamiento

In [None]:
import matplotlib.pyplot as plt

plt.plot(history.history['accuracy'])
plt.plot(history.history['val_accuracy'])
plt.title('model accuracy')
plt.ylabel('accuracy')
plt.xlabel('epoch')
plt.legend(['train', 'test'], loc='upper left')
plt.show()

Y esto es todo!! :)

Ahora, como ejercicio, ten√©is que tratar de aumentar esa tasa de aciertos tanto como pod√°is (tranquilos, no es un concurso). Para ello, pod√©is modificar los hiperpar√°metros que quer√°is, aumentar el n√∫mero de capas del modelo o su n√∫mero de unidades, a√±adir t√©cnicas como dropout, ruido gaussiano, normalizaci√≥n de pesos por batch... Adem√°s de todas las cosas que se os ocurran :D

Si ten√©is dudas, me pregunt√°is. Mi mejor intento ha obtenido una tasa m√°xima de 0.9941 de acierto en test. √Ånimo :)