# Ejercicio Práctica 8: más sobre inicialización, batch normalization y dropout 

En este ejercicio insistiremos un poco más en la inicialización, batch-normalization y dropout. Entrenaremos un modelo dado y haremos predicciones tomando como punto de partida la base de datos [Fashion MNIST](https://www.tensorflow.org/datasets/catalog/fashion_mnist?hl=es-419)

### 1. Dataset

Tras llamar a **tensorflow** y **keras**, carga los datos de datos   [Fashion MNIST](https://www.tensorflow.org/datasets/catalog/fashion_mnist?hl=es-419) que usamos en esta práctica, y genera los datos de entrenamiento **(X_train_full, y_train_full)** y de test **(X_test, y_test)**. A continuación, divide **(X_train_full, y_train_full)** en dos subconjunto de datos, a saber  **(X_valid, y_valid)** y **(X_train, y_train)** , el primero de los cuales contiene los primeros $5000$ datos, y el segundo el resto. Has de dividir **X_train** , **X_test** y **X_valid** por $255.0$ para hacer que el rango de grises de las imágenes varíe entre $0$ y $1$.

Finalmente, imprime la información referente al tamaño de todo estos datos.



In [1]:
import tensorflow as tf
from tensorflow import keras

In [2]:
# Completar aquí
fashion_mnist = keras.datasets.fashion_mnist

(X_train_full, y_train_full), (X_test, y_test) = fashion_mnist.load_data()

# Dividir los datos de entrenamiento en datos de validación y de entrenamiento
X_valid, X_train = X_train_full[:5000], X_train_full[5000:]
y_valid, y_train = y_train_full[:5000], y_train_full[5000:]

X_valid = X_valid / 255.0
X_train = X_train / 255.0
X_test = X_test / 255.0

print(f"X_train_full shape: {X_train_full.shape}")
print(f"X_valid shape: {X_valid.shape}")
print(f"X_train shape: {X_train.shape}")
print(f"X_test shape: {X_test.shape}")
# --------------------


X_train_full shape: (60000, 28, 28)
X_valid shape: (5000, 28, 28)
X_train shape: (55000, 28, 28)
X_test shape: (10000, 28, 28)


A continuación damos nombres a los **labels** de la base de datos

In [3]:
class_names = ["T-shirt/top", "Trouser", "Pullover", "Dress", "Coat",
               "Sandal", "Shirt", "Sneaker", "Bag", "Ankle boot"]
print(class_names[y_test[1]])
print(y_test[1])

Pullover
2


### 2. Construcción del modelo de predicción

Construye un modelo de predicción tipo **MultiLayer Perceptron** diferente del que hicimos en la práctica, el que tú quieras, pero ha de incluir inicialización de parámetros, batch normalization y dropout. Imprime por pantalla las características del modelo que hayas creado.

### 3. Compilación del modelo

Compilar el modelo significa que hemos de indicar la función de pérdida (función objetivo a minimizar), el algoritmo de optimización que usaremos y, opcionalmente, las métricas que nos pueda interesar medir.

Recuerda que todo esto se hace con el método [compile](https://keras.io/api/models/model_training_apis/).

Compila el modelo con la función de pérdida **sparse_categorial_crossentropy**, el optimizador será **Adam** y la métrica **accuracy**.

La función de pérdida **sparse_categorial_crossentropy** se define como

$$
J(\omega) = -\frac{1}{N}\sum_{n=1}^Ny_n\log(\hat{y}_n(\omega)) + (1-y_n)\log(1-\hat{y}_n(\omega))
$$
donde $y_n$ son los true labels e $\hat{y}_n(\omega)$ son los que predice el modelo, ambos para la instance $n$.

Has de explicar qué significa la métrica **accuracy**.


In [4]:
# Completar aquí
from tensorflow.keras import layers, models, regularizers

# Definimos el model
model = models.Sequential()
model.add(layers.Flatten(input_shape=[28, 28]))
model.add(layers.Dense(300, kernel_initializer='he_normal', activation='relu'))
model.add(layers.BatchNormalization())
model.add(layers.Dropout(0.3))
model.add(layers.Dense(100, kernel_initializer='he_normal', activation='relu'))
model.add(layers.BatchNormalization())
model.add(layers.Dropout(0.3))
model.add(layers.Dense(10, activation='softmax'))

# Mostramos las características del modelo
model.summary()
# --------------------


  super().__init__(**kwargs)


In [5]:
# Completar aquí
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
# --------------------


La métrica **accuracy** mide el porcentaje de predicciones correctas realizadas por el modelo sobre el total de ejemplos. En un problema de clasificación, `accuracy` se calcula como: 

$$\text{Accuracy}=\dfrac{\text{Número de predicciones correctas}}{\text{Total de predicciones}}$$
 
Esta métrica es particularmente útil para problemas de clasificación balanceados, ya que indica cúantas veces el modelo acertó en la predicción de la clase correcta en comparación con el total de predicciones realizadas

### 4. Training the model. Entrenamos el modelo con el [método fit](https://keras.io/api/models/model_training_apis/)

Has de entrenar el modelo sobre los datos (X_train, y_train), pero usa también (X_valid, y_valid) para validar. Has de tomar mini-batch de tamaño $100$ y $30$ epochs   

In [6]:
# Completar aquí
history = model.fit(X_train, 
                    y_train, 
                    epochs=30, 
                    batch_size=100, 
                    validation_data=(X_valid, y_valid)
                    )
# --------------------


Epoch 1/30
[1m550/550[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 3ms/step - accuracy: 0.7392 - loss: 0.7559 - val_accuracy: 0.8416 - val_loss: 0.4479
Epoch 2/30
[1m550/550[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 4ms/step - accuracy: 0.8367 - loss: 0.4500 - val_accuracy: 0.8610 - val_loss: 0.3870
Epoch 3/30
[1m550/550[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 4ms/step - accuracy: 0.8500 - loss: 0.4128 - val_accuracy: 0.8630 - val_loss: 0.3711
Epoch 4/30
[1m550/550[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 3ms/step - accuracy: 0.8598 - loss: 0.3851 - val_accuracy: 0.8740 - val_loss: 0.3400
Epoch 5/30
[1m550/550[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 4ms/step - accuracy: 0.8642 - loss: 0.3775 - val_accuracy: 0.8686 - val_loss: 0.3470
Epoch 6/30
[1m550/550[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 3ms/step - accuracy: 0.8638 - loss: 0.3711 - val_accuracy: 0.8724 - val_loss: 0.3476
Epoch 7/30
[1m550/550[0m 

A continuación nos ocupamos de analizar la evolución del algoritmo de optimización (training process).
Para ello usaremos  **pandas**.

Importa **pandas** y después almacena e imprime la historia de la evolución del aprendizaje en un DataFrame de pandas.

La información importante está en la última línea donde obtenemos el llamado **error de entrenamiento** para los datos de entrenamiento. También devuelve el error sobre los datos de validación. Estos últimos se utilizan para tunear los hiperparámetros del modelo (número de layers, de neuronas por layer, learning rate, etc.) pero de eso no nos ocupamos en esta asignatura. Eso lo dejamos para las asignaturas de Machine Learning. 

In [7]:
# Completar aquí
import pandas as pd

# Analizar a evolución del algoritmo
history_df = pd.DataFrame(history.history)
print(history_df)

# Obtener el error de entrenamiento y el error sobre los datos de validación
training_error = history_df['loss'].iloc[-1]
validation_error = history_df['val_loss'].iloc[-1]
print(f"Error de entrenamiento: {training_error:.4f}")
print(f"Error de validación: {validation_error:.4f}")
# --------------------

    accuracy      loss  val_accuracy  val_loss
0   0.794800  0.579355        0.8416  0.447919
1   0.839909  0.444025        0.8610  0.387030
2   0.852000  0.408401        0.8630  0.371115
3   0.858327  0.389561        0.8740  0.340020
4   0.863873  0.375927        0.8686  0.346990
5   0.864673  0.369099        0.8724  0.347556
6   0.868636  0.357159        0.8774  0.326679
7   0.873745  0.345018        0.8842  0.317230
8   0.873418  0.341342        0.8886  0.309179
9   0.877455  0.333432        0.8820  0.321510
10  0.881818  0.323244        0.8738  0.345933
11  0.882236  0.321608        0.8778  0.330205
12  0.882655  0.319686        0.8882  0.302880
13  0.883091  0.315661        0.8830  0.315882
14  0.885836  0.310173        0.8882  0.309511
15  0.886836  0.304597        0.8800  0.314512
16  0.885964  0.302492        0.8900  0.301768
17  0.888000  0.302006        0.8950  0.293495
18  0.888473  0.300021        0.8820  0.315579
19  0.889473  0.297007        0.8874  0.301157
20  0.891855 

Finalmente, evaluamos nuestro modelo de predicción sobre los datos test con  [model.evaluate](https://keras.io/api/models/model_training_apis/). La salida (llamada **error de generalización**) es un vector de dos componentes, una para la función de pérdida y la otra para la métrica. Lo importante aquí es la métrica.


In [8]:
# Completar aquí
# Evaluamos el modelo sobre los datos de test
test_loss, test_accuracy = model.evaluate(X_test, y_test)
print("Error de generalización")
print(f"Función de pérdida: {test_loss:.4f}")
print(f"Métrica de precisión: {test_accuracy:.4f}")
# --------------------


[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.8761 - loss: 0.3270
Error de generalización
Función de pérdida: 0.3254
Métrica de precisión: 0.8768


Podemos hacer predicciones sobre datos concretos con [model.predict](https://keras.io/api/models/model_training_apis/). Por ejemplo, podemos comparar los resultados que devuelve el modelo de predicción con los datos reales sobre los primeros $3$ datos test: 

In [9]:
X_new = X_test[:3]

y_pred = model.predict(X_new)
print(f"y_predict = {y_pred.round(2)}")

print(f"y_true = {y_test[:3]}")

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 134ms/step
y_predict = [[0.   0.   0.   0.   0.   0.   0.   0.01 0.   0.99]
 [0.   0.   0.99 0.   0.   0.   0.   0.   0.   0.  ]
 [0.   1.   0.   0.   0.   0.   0.   0.   0.   0.  ]]
y_true = [9 2 1]


Como puedes observar en los resultados anteriores, **y_pred.round(2)** redondea a 2 cifras decimales la probabilidad de cada clase. Así, el modelo de predicción anterior predice los valores correctos (clases $9$, $2$ y $1$, respectivamente. Recuerda que siempre empezamos a contar en cero). 

Para acabar la práctica, vuelve a ejercutar todo el código pero comentando las líneas que hacen referencia a **batch normalization** y **dropout** y compara los resultados obtenidos, es decir, escribe los errores de entrenamiento y de generalización.

In [10]:
# Definimos el modelo
model2 = models.Sequential()
model2.add(layers.Flatten(input_shape=[28, 28]))
model2.add(layers.Dense(300, kernel_initializer='he_normal', activation='relu'))
# model.add(layers.BatchNormalization())
# model.add(layers.Dropout(0.3))
model2.add(layers.Dense(100, kernel_initializer='he_normal', activation='relu'))
# model.add(layers.BatchNormalization())
# model.add(layers.Dropout(0.3))
model2.add(layers.Dense(10, activation='softmax'))

model2.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# Mostramos las características del modelo
model2.summary()

  super().__init__(**kwargs)


In [11]:
history2 = model.fit(X_train, y_train, epochs=30, batch_size=100, validation_data=(X_valid, y_valid))

Epoch 1/30
[1m550/550[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 4ms/step - accuracy: 0.9001 - loss: 0.2664 - val_accuracy: 0.8892 - val_loss: 0.3009
Epoch 2/30
[1m550/550[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 4ms/step - accuracy: 0.9018 - loss: 0.2636 - val_accuracy: 0.8914 - val_loss: 0.3037
Epoch 3/30
[1m550/550[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 4ms/step - accuracy: 0.9012 - loss: 0.2642 - val_accuracy: 0.8988 - val_loss: 0.2902
Epoch 4/30
[1m550/550[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 3ms/step - accuracy: 0.8986 - loss: 0.2677 - val_accuracy: 0.8962 - val_loss: 0.2901
Epoch 5/30
[1m550/550[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 3ms/step - accuracy: 0.9017 - loss: 0.2655 - val_accuracy: 0.8952 - val_loss: 0.2970
Epoch 6/30
[1m550/550[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 3ms/step - accuracy: 0.9039 - loss: 0.2614 - val_accuracy: 0.8888 - val_loss: 0.2907
Epoch 7/30
[1m550/550[0m 

In [12]:
history_df_2 = pd.DataFrame(history2.history)
print(history_df_2)

training_error2 = history_df_2['loss'].iloc[-1]
validation_error2 = history_df_2['val_loss'].iloc[-1]
print(f"Error de entrenamiento: {training_error2:.4f}")
print(f"Error de validación: {validation_error2:.4f}")

    accuracy      loss  val_accuracy  val_loss
0   0.899873  0.267729        0.8892  0.300925
1   0.900400  0.267160        0.8914  0.303736
2   0.900745  0.266476        0.8988  0.290197
3   0.900764  0.263024        0.8962  0.290067
4   0.901491  0.263819        0.8952  0.297023
5   0.905018  0.257005        0.8888  0.290720
6   0.901564  0.258023        0.8892  0.298054
7   0.904400  0.256395        0.8912  0.301422
8   0.904509  0.253283        0.8948  0.284440
9   0.904945  0.253229        0.8908  0.305715
10  0.907073  0.250020        0.8970  0.290958
11  0.907836  0.245698        0.8958  0.288125
12  0.907145  0.246933        0.8964  0.295738
13  0.909055  0.244792        0.8916  0.294326
14  0.909164  0.240209        0.8978  0.280207
15  0.911018  0.238900        0.8918  0.292908
16  0.910673  0.238958        0.8990  0.281252
17  0.911582  0.238225        0.8954  0.292876
18  0.911545  0.233708        0.8972  0.285363
19  0.912273  0.233316        0.8932  0.300985
20  0.912927 

In [13]:
test_loss_2, test_accuracy_2 = model2.evaluate(X_test, y_test)
print("Error de generalización")
print(f"Función de pérdida: {test_loss_2:.4f}")
print(f"Métrica de precisión: {test_accuracy_2:.4f}")

[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.0354 - loss: 2.3840
Error de generalización
Función de pérdida: 2.3844
Métrica de precisión: 0.0367


In [14]:
# Diferencias totales
print(f"Error de entrenamiento: {(training_error2 - training_error):.4f}")
print(f"Error de validación: {(validation_error2 - validation_error):.4f}")
print("Error de generalización")
print(f"Función de pérdida: {(test_loss_2 - test_loss):.4f}")
print(f"Métrica de precisión: {(test_accuracy_2 - test_accuracy):.4f}")

Error de entrenamiento: -0.0373
Error de validación: -0.0075
Error de generalización
Función de pérdida: 2.0591
Métrica de precisión: -0.8401


## Análisis de los resultados obtenidos comparando los modelos con y sin Batch Normalization (BN) y Dropout

### Error de entrenamiento
El error de entrenamiento es menor porque en el **modelo con BN y Dropout** en comparación con el modelo sin estas técnicas. Esto se debe a que el primer modelo lograba un mejor ajuste a los datos de entrenamiento, posiblemente debido a que la regularización ayuda a evitar el sobreajuste imponiendo restricciones al modelo, forzándolo a ser más general.

### Error de validación
En cuanto al error de validación, vemos que la diferencia es **positiva**, lo cual indica que el **modelo sin BN y Dropout** tiene un error de validación menor que el modelo con BN y Dropout. Esto puede deberse a que las técnicas de regularización aplicadas están haciendo que el modelo sea menos capaz de ajustarse completamente a los patrones presentes en los datos de validación.

### Error de generalización
- Función de pérdida

El resultado obtenido con la función de pérdida es **significativamente mayor** que en el modelo sin BN y Dropout, lo que indica que el modelo sin técnicas de regularización tiene un peor rendimiento cuando se enfrenta datos nuevos, posiblemente debido a que el modelo está **sobreajustando** los datos de entrenamiento y validación, lo que se traduce en un mal rendimiento en el conjunto de prueba.

- Métrica de precisión

La métrica de precisión tiene una **diferencia negativa** significativa. Esto indica que la **precisión** del modelo con BN y Dropout es significativamente mejor que la del modelo sin ellas. En otras palabras, el modelo con regularización es más capaz de generalizar a nuevos datos, ya que tiene una mayor precisión