# PRÁCTICA INDEPENDIENTE: Optimización

En esta práctica independiente, continuamos explorando distintas alternativas de optimización para entrenar un clasificador capaz de etiquetar imágenes correspondientes a las distintas prendas de vestir del dataset [Fashion-MNIST](https://github.com/zalandoresearch/fashion-mnist)

![Fashion_MNIST](https://github.com/zalandoresearch/fashion-mnist/blob/master/doc/img/fashion-mnist-sprite.png?raw=true)

## Consignas

1. Explorar distintas configuraciones de los optimizadores estudiados, variando los argumentos (*learning rate*, *decay*, Nesterov, Beta 1 y Beta 2, etc.).
2. Explorar `RMSProp` y `RMSProp` con *momentum* y Nesterov, y probar distintas configuraciones en cada caso.
3. En la práctica guiada, hicimos una única prueba para cada optimizador. Ahora bien, si quisiéramos comparar la performance y los tiempos de entrenamiento de cada prueba, una únca corrida no sería suficiente para asegurarnos que un determinado optimizador es mejor que otro, dada la aleatoriedad intrínseca al proceso de aprendizaje de las redes neuronales. Iterar diez veces sobre el entrenamiento de una misma arquitectura de red con cada uno de los siguientes los optimizadores en su versión por defecto: `SGD`, `Adagrad`, `RMSProp`y `Adam`. Volcar los tiempos de entrenamiento y accuracy scores sobre el set de testeo de cada iteración en sendas tablas. Luego, visualizar con [boxplots](https://seaborn.pydata.org/generated/seaborn.boxplot.html) las distintas distribuciones de performance y tiempos de entrenamiento.

In [0]:
# Importamos las librerías, módulos y utilidades necesarias
import numpy as np
import pandas as pd
import time

import matplotlib.pyplot as plt
import seaborn as sns

import keras
from keras.utils import to_categorical
from keras.datasets import fashion_mnist

# Cargamos el dataset
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

In [0]:
# Almacenamos en variables la cantidad de etiquetas objetivo y el tamaño de las imágenes, así como también el input size de nuestros modelos
num_labels = len(np.unique(y_train))
image_size = x_train.shape[1]
input_size = image_size * image_size

# Hacemos un reshape de los datos y convertimos a float
x_train = x_train.reshape((60000, input_size))
x_train = x_train.astype('float64') / 255

x_test = x_test.reshape((10000, input_size))
x_test = x_test.astype('float64') / 255

# Convertimos el vector objetivo a categórico
y_train = to_categorical(y_train)
y_test = to_categorical(y_test)

In [0]:
from keras import models, layers

# Definimos la arquitectura de la red
network = models.Sequential()
network.add(layers.Dense(256, activation='relu', input_dim=input_size))
network.add(layers.Dense(256, activation='relu'))
network.add(layers.Dense(10, activation='softmax'))

In [0]:
# Importamos el módulo optimizers
from keras import optimizers

1. Explorar distintas configuraciones de los optimizadores estudiados, variando los argumentos (*learning rate*, *decay*, Nesterov, Beta 1 y Beta 2, etc.).

2. Explorar `RMSProp` con *momentum* y Nesterov, y probar distintas configuraciones en cada caso.


3. En la práctica guiada, hicimos una única prueba para cada optimizador. Ahora bien, si quisiéramos comparar la performance y los tiempos de entrenamiento de cada prueba, una únca corrida no sería suficiente para asegurarnos que un determinado optimizador es mejor que otro, dada la aleatoriedad intrínseca al proceso de aprendizaje de las redes neuronales. Iterar diez veces sobre el entrenamiento de una misma arquitectura de red con cada uno de los siguientes los optimizadores en su versión por defecto: `SGD`, `Adagrad`, `RMSProp`y `Adam`. Volcar los tiempos de entrenamiento y accuracy scores sobre el set de testeo de cada iteración en sendas tablas. Luego, visualizar con [boxplots](https://seaborn.pydata.org/generated/seaborn.boxplot.html) las distintas distribuciones de performance y tiempos de entrenamiento.