# Practice: Fashion MNIST con diversas redes

### Ejemplo adaptado por el equipo de AI Saturdays Euskadi.

Con este Practice el objetivo será el de entender cómo puede ser el proceso de modelado de redes neuronales con una serie de datos dados.

En este caso, el dataset que se usará es el __*Fashion MNIST*__, el cual es análogo al dataset original [MNIST (creado por Yann LeCun et al.)](http://yann.lecun.com/exdb/mnist/), solo que en vez de clasificar 10 digitos (los dígitos del 0 al 9), se clasifican __prendas__.

Para ello, los labels o etiquetas que nos encontraremos harán referencia a los siguientes:

| Label | Descripción |
| :-: | :- |
| 0 | Camiseta / Top |
| 1 | Pantalón |
| 2 | Jersey |
| 3 | Vestido |
| 4 | Abrigo |
| 5 | Sandalia |
| 6 | Camisa |
| 7 | Zapatilla |
| 8 | Bolso |
| 9 | Botín |

**Instrucciones:**

- Se usará el lenguaje de programación Python 3.
- Se usarán las librerías de python: Pandas, Numpy y Keras.

**Mediante este ejercicio, aprenderemos:**
- Entender y ejecutar los Notebooks con Python.
- Ser capaz de utilizar funciones de Python y librerías adicionales.
- Aplicar un modelo de NN.
- Mejorar la predicción optimizando el modelo.
- Hacer comparación con otros modelos de NN, cambiando ajustes y sus arquitecturas correspondientes.

¡Empecemos!

### 0. Importación de librerías

Como trabajaremos con Keras, las librerías que se importarán son relativas a Keras. ¡Recuerda instalar Keras en tu entorno en caso de que aún no lo tengas!

In [20]:
from tensorflow.keras.datasets import fashion_mnist
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.utils import to_categorical

## Análisis de datos

### 1. Importa el dataset.

Este dataset está ya integrado dentro de Keras en su respectivo ```tensorflow.keras.datasets.fashion_mnist```. Por lo tanto, utilizaremos su método propio ```load_data()``` para cargar los Train y Test sets.

In [13]:
#Solo una linea de codigo.
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

### 2. Aplana el dataset.

Al igual que en el dataset MNIST, en el Fashion MNIST tratamos ficheros de dos dimensiones (imágenes de tamaño 28x28 píxeles). Por ello, y como el modelo que vamos a generar primero se basa en el perceptrón con 1 capa, necesitamos aplanar los datos de training y test, y después convertirlos en variables categóricas.

__Pistas: ```reshape()``` y ```to_categorical()``` te pueden ayudar.__

In [26]:
# Cuatro lineas de codigo
x_train_flat = x_train.reshape(x_train.shape[0], x_train.shape[1] * x_train.shape[2])
x_test_flat = x_test.reshape(x_test.shape[0], x_test.shape[1] * x_test.shape[2])
y_train_cat = to_categorical(y_train)
y_test_cat = to_categorical(y_test)

In [27]:
#Imprime los tamanos de nuestros vectores de train y test
x_train_flat.shape

(60000, 784)

### Modelo 1: Perceptrón.

Sin entrar demasiado al detalle de las funciones de activación, a modo de "regla de oro", plantéate el uso de estas activaciones en las siguientes situaciones:

1. Utiliza ReLU ('relu') cuando puedas, para las neuronas de cada capa oculta.
2. Utiliza Softmax ('softmax') cuando tu output quieres que sea una clasificación entre más de dos categorías.
3. Utiliza Sigmoid ('sigmoid') cuando tu output conste de dos categorías.

Como puedes observar a continuación, la __construcción__ de un modelo consta de las siguientes partes:

* ```Sequential()```: Indica a Keras que vas a empezar a añadir una secuencia de capas.
* ```add()```: Añades la capa con los detalles que necesitas. En la primera capa que generes has de definir la dimensión del input (```input_dim```), en las siguientes no es necesario.
* ```compile()```: Das las pautas de cómo se ha de entrenar la red (función de loss, optimizador y métrica a optimizar).

Por lo tanto, vamos a crear el primer modelo, basado en el Perceptrón, para resolver este problema de clasificación que tenemos entre manos.

In [32]:
# Construccion del modelo
def perceptron_model():
    
    inputs = Input(shape=(784,))
    x = Dense(units=10, activation='relu')(inputs)
    outputs = Dense(units=10, activation='softmax')(x)
    
    return Model(inputs=inputs, outputs=outputs)

model = perceptron_model()
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.summary()

Model: "model_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_5 (InputLayer)         [(None, 784)]             0         
_________________________________________________________________
dense_8 (Dense)              (None, 10)                7850      
_________________________________________________________________
dense_9 (Dense)              (None, 10)                110       
Total params: 7,960
Trainable params: 7,960
Non-trainable params: 0
_________________________________________________________________


Y ahora vamos a __entrenar__ el modelo. Como se puede observar, se indica el número de _epochs_ (iteraciones completas sobre el dataset) que queremos hacer, así como la división de datos de entrenamiento y validación (0.1 implica un 10%).

In [34]:
# Entrenamiento del modelo
model.fit(x_train_flat, y_train_cat, epochs=10, validation_split=0.1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f77647865b0>

Y una vez hecho el entrenamiento, vamos a __evaluar__ la precisión en el conjunto de test:

In [31]:
# Evaluacion de precision del modelo

_, test_acc = model.evaluate(x_test_flat, y_test_cat)
print(test_acc)

0.10000000149011612


__Modelo 1__: Hemos logrado una precisión aproximada de un __84%__... ¡A ver si podemos hacerlo mejor!

### 4. Modelo 2: Perceptrón con más neuronas.

Ahora vamos a hacer __exactamente lo mismo que para el Modelo 1__, pero en vez de tener 10 neuronas, ponle 50 en la primera capa.

In [None]:
# Construccion del modelo


In [None]:
# Entrenamiento del modelo


In [None]:
# Evaluacion de precision del modelo


__Modelo 2__: Hemos logrado una precisión aproximada de un __86%__... Ha mejorado, ¡pero a ver si podemos hacerlo mejor!

### 5. Modelo 3: Perceptrón Multicapa.

Y ahora, vamos a añadir __una nueva capa al Perceptrón__, para convertirlo en un Perceptrón Multicapa. 

Se supone que con esto deberíamos conseguir un mejor output (cuanto más profunda la red, generalmente ajusta mejor).

In [None]:
# Construccion del modelo


In [None]:
# Entrenamiento del modelo


In [None]:
# Evaluacion de precision del modelo


__Modelo 3__: Hemos logrado una precisión aproximada de un __87%__... Ha mejorado, pero tampoco es que sea para echar cohetes el asunto...

¿Habrá que probar una __arquitectura distinta__?

### 6. Modelo 4: Red Neuronal Convolucional (CNN)

No se va a entrar demasiado al detalle, pero una __Red Neuronal Convolucional (CNN)__ permite detectar patrones en imágenes mejor que una red de Perceptrón, debido al tipo de operaciones que ejecuta.

Por ello, te dejamos aquí un _snippet_ de código bastante habitual de cómo se usan. Como verás, hay varios nuevos imports:

* ```Conv2D```: Permite hacer operaciones de convolución.
* ```MaxPooling2D```: Permite hacer operaciones de Pooling.
* ```Flatten```: Facilita el proceso de Flatten o aplanado de los resultados previos.

Y normalmente se suelen usar de manera encadenada, debido a cómo es la operación de convolución.

In [None]:
# Cargado de librerias

from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten
import numpy as np

# Seleccion de train y test set

(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
x_train = x_train[:,:,:,np.newaxis] / 255.0
x_test = x_test[:,:,:,np.newaxis] / 255.0
y_train = to_categorical(y_train)
y_test = to_categorical(y_test)

In [None]:
# Construccion del modelo

model4 = Sequential()
model4.add(Conv2D(filters=64, kernel_size=2, padding='same', activation='relu', input_shape=(28,28, 1))) 
model4.add(MaxPooling2D(pool_size=2))
model4.add(Flatten())
model4.add(Dense(10, activation='softmax'))
model4.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

In [None]:
# Representacion de la arquitectura del modelo

model4.summary()

In [None]:
# Entrenamiento del modelo

model4.fit(x_train, y_train, epochs=10, validation_split=0.1)

In [None]:
# Evaluacion de precision del modelo

_, test_acc = model4.evaluate(x_test, y_test)
print(test_acc)

¡Anda! Ha mostrado una mejor performance que las arquitecturas anteriores..., aproximadamente de un __90%__.

Aunque cabe decir que era de esperar, se ha demostrado que las __CNNs__ son buenas para el tratamiento de imágenes debido al tipo de operaciones que realizan (operación de convolución).

No obstante, no está dentro del temario de este itinerario de _Machine Learning_ el tratar las bondades de estas CNNs.