<img src="mioti.png" style="height: 100px">
<center style="color:#888">Módulo Data Science in IoT<br/>Asignatura Deep Learning</center>
# Challenge S3: Redes Neuronales Profundas en Keras (DNNs)

## Objetivos

El objetivo de este challenge es optimizar una DNN capaz de distinguir entre imágenes de prendas de ropa de la base de datos Fasion MNIST.

## Punto de partida

El punto de partida se corresponde con el código que hemos visto en el worksheet:

In [1]:
import numpy as np
np.random.seed(123)  # for reproducibility

from keras.models import Sequential
from keras.layers import Dense, Activation, Flatten
from keras.utils import np_utils

import keras
# Import Fashion MNIST data
fashion_mnist = keras.datasets.fashion_mnist.load_data()
(train_images, train_labels), (test_images, test_labels) = fashion_mnist

# Primeras 10000 imágenes, las utilizamos como validación
X_valid = train_images[:10000]
Y_valid = train_labels[:10000]

X_train = train_images[10000:]
Y_train = train_labels[10000:]

X_test = test_images
Y_test = test_labels

X_train = X_train.reshape(X_train.shape[0], 28*28)
X_valid = X_valid.reshape(X_valid.shape[0], 28*28)
X_test = X_test.reshape(X_test.shape[0], 28*28)

X_train = X_train.astype('float32')
X_valid = X_valid.astype('float32')
X_test = X_test.astype('float32')
X_train = X_train / 255
X_valid = X_valid / 255
X_test = X_test / 255

# Convert 1-dimensional class arrays to 10-dimensional class matrices
Y_train = np_utils.to_categorical(Y_train, 10)
Y_valid = np_utils.to_categorical(Y_valid, 10)
Y_test = np_utils.to_categorical(Y_test, 10)

model = Sequential()
model.add(Dense(512, activation='relu', input_shape=(28*28,)))
model.add(Dense(512, activation='relu'))
model.add(Dense(10, activation='softmax'))

model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

model.fit(X_train, Y_train, 
          batch_size=128, epochs=10, verbose=1, validation_data=[X_valid, Y_valid])

score = model.evaluate(X_test, Y_test, verbose=0)
print(score)


Using TensorFlow backend.


Instructions for updating:
Colocations handled automatically by placer.
Instructions for updating:
Use tf.cast instead.
Train on 50000 samples, validate on 10000 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
[0.3456415989637375, 0.8808]


## Tareas

Vamos a comenzar utilizando algunos métodos de normalización entre capas que no vimos en la sesión anterior. Posteriormente optimizaremos el entrenamiento del modelo ajustando la tasa de aprendizaje (learning rate) para refinar el resultado mediante la reducción de la misma en zonas donde la función de coste no varía demasiado:


### Añadir Batch Normalization

Una de las técnicas de normalización que mejoran las condiciones de convergencia de las redes y que están propocionando muy buenos resultados es la normalización de cada batch. De esta manera, conseguimos que la entrada a la siguiente capa de la red mantenga una distribución aproximadamente estándar N(0,1) para cada batch. También es una manera de hacer que la red generalice mejor.

A continuación, añada dos capas "BatchNormalization" tras cada una de las capas dense y compruebe el resultado:

In [2]:
import numpy as np
np.random.seed(123)  # for reproducibility
from keras.layers.normalization import BatchNormalization

from keras.models import Sequential
from keras.layers import Dense, Activation, Flatten
from keras.utils import np_utils

import keras
# Import Fashion MNIST data
fashion_mnist = keras.datasets.fashion_mnist.load_data()
(train_images, train_labels), (test_images, test_labels) = fashion_mnist

# Primeras 10000 imágenes, las utilizamos como validación
X_valid = train_images[:10000]
Y_valid = train_labels[:10000]

X_train = train_images[10000:]
Y_train = train_labels[10000:]

X_test = test_images
Y_test = test_labels

X_train = X_train.reshape(X_train.shape[0], 28*28)
X_valid = X_valid.reshape(X_valid.shape[0], 28*28)
X_test = X_test.reshape(X_test.shape[0], 28*28)

X_train = X_train.astype('float32')
X_valid = X_valid.astype('float32')
X_test = X_test.astype('float32')
X_train = X_train / 255
X_valid = X_valid / 255
X_test = X_test / 255

# Convert 1-dimensional class arrays to 10-dimensional class matrices
Y_train = np_utils.to_categorical(Y_train, 10)
Y_valid = np_utils.to_categorical(Y_valid, 10)
Y_test = np_utils.to_categorical(Y_test, 10)

model = Sequential()
model.add(Dense(512, activation='relu', input_shape=(28*28,)))
model.add(BatchNormalization())
model.add(Dense(512, activation='relu'))
model.add(BatchNormalization())
model.add(Dense(10, activation='softmax'))


model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

model.fit(X_train, Y_train, 
          batch_size=128, epochs=10, verbose=1, validation_data=[X_valid, Y_valid])

score = model.evaluate(X_test, Y_test, verbose=0)
print(score)

Train on 50000 samples, validate on 10000 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
[0.38905851290225985, 0.8689]


¿Ha mejorado el resultado? ¿Por qué?

Mejora el resultado al utilizar normalizacion entre las capas y reducir la varianza interna. 

### Ajuste de la tasa de aprendizaje para optimizar el rendimiento de la red

Muchas veces, cuando la función de coste llega a una zona cerca del mínimo, la tasa de aprendizaje es muy grande para acercarse lo más posible a ese mínimo. Por eso, una de las formas de modificar ese valor durante el entrenamiento es llegar a un punto donde no vemos mejora en rendimiento en nuestro conjunto de validación, y empezar a reducir a la mitad el valor de nuestra tasa de aprendizaje. 

Para ello, podemos utilizar uno de los Callbacks de Keras llamado: ReduceLROnPlateau. Puedes encontrar la información sobre él en el siguiente enlace: https://keras.io/callbacks/#reducelronplateau

Es posible que tengas que aumentar las iteraciones máximas para llegar a un caso en el que lleguemos a aplicar este callback, o ver mejor su influencia.

Puedes empezar con el código anterior (o sin batch normalization si no lo has conseguido añadir), con una paciencia de 2 iteraciones y una reducción del 50% del valor de la tasa de aprendizaje.

In [4]:
from keras.callbacks import EarlyStopping
from keras.callbacks import ReduceLROnPlateau

model = Sequential()
model.add(Dense(512, activation='relu', input_shape=(28*28,)))
model.add(BatchNormalization())
model.add(Dense(512, activation='relu'))
model.add(BatchNormalization())
model.add(Dense(10, activation='softmax'))


model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

reduce_lr = [EarlyStopping(monitor='val_loss', mode='min', patience=5),
             ReduceLROnPlateau(monitor='val_loss', factor=0.5,
                              patience=2, min_lr=0.001, verbose = 2)]

model.fit(X_train, Y_train, 
          batch_size=128, epochs=30, verbose=1, validation_data=[X_valid, Y_valid], callbacks=reduce_lr)

score = model.evaluate(X_test, Y_test, verbose=0)
print(score)

Train on 50000 samples, validate on 10000 samples
Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30

Epoch 00007: ReduceLROnPlateau reducing learning rate to 0.001.
Epoch 8/30
Epoch 9/30
Epoch 10/30

Epoch 00010: ReduceLROnPlateau reducing learning rate to 0.001.
Epoch 11/30
Epoch 12/30

Epoch 00012: ReduceLROnPlateau reducing learning rate to 0.001.
Epoch 13/30
[0.39473962216377256, 0.8717]


¿Mejora ahora el resultado?

Se observa como se mejora el resultado al controlar el learning rate con las funciones callback.