<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/twyncoder/tf-handson-tcb/blob/main/L04_IntroCNN_clasificacionMulticlase.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table>

# Redes de Aprendizaje Profundo básicas con Keras y Tensorflow.
## *Convolutional Deep Neural Networks (CNN) para clasificación multi-clase*

# 0. Preparación del entorno y comprobación de requisitos

In [1]:
# Common imports
import os
import pandas as pd
import numpy as np
import sklearn
import tensorflow as tf
from tensorflow import keras

# Confusion matrix
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.model_selection import train_test_split

# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# Where to save the figures
PROJECT_ROOT_DIR = "."
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images")
os.makedirs(IMAGES_PATH, exist_ok=True)

def save_fig(fig_name, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_name + "." + fig_extension)
    print("Saving figure", fig_name)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

def print_history(history,title=None, extension='png'):
    pd.DataFrame(history.history).plot(figsize=(8, 5))
    plt.grid(True)
    #plt.gca().set_ylim(0, 1)
    plt.xlabel("epochs")
    if(title!=None):
        plt.title(title)
        save_fig(title,fig_extension=extension)

### Información de versiones

In [2]:
print(tf.__version__)

2.17.1


### Comprobar si disponemos de una GPU

In [3]:
tf.config.list_physical_devices('GPU')

[]

# 1. Dataset

In [4]:
from numpy import load
data = load('bloodmnist.npz')
X_train_orig = data['train_images']
X_valid_orig = data['val_images']
X_test_orig = data['test_images']
Y_train = data['train_labels']
Y_valid = data['val_labels']
Y_test = data['test_labels']

A continuación se dispone de las etiquetas de las clases a las que pueden pertenecer las imágenes.

In [7]:
labels = ["basophil","eosinophil","erythroblast","immature granulocytes",
          "lymphocyte","monocyte","neutrophil","platelet"]

**¡AHORA TÚ!**
- Averigua las dimensiones de los datos de entrada proporcionados en el dataset
- Escribe una función para mostrar ejemplos de la base de datos con su etiqueta correspondiente y llámala desde la celda de más abajo

In [5]:
#TODO

In [None]:
def show_example(x,y):
    #<<<FIXME>>>

In [None]:
N = 5
show_example(X_train_orig[N],Y_train[N])

### Estandarización de las entradas

In [10]:
X_mean = X_train_orig.mean(axis=0, keepdims=True)
X_std = X_train_orig.std(axis=0, keepdims=True) + 1e-7
X_train = (X_train_orig - X_mean) / X_std
X_valid = (X_valid_orig - X_mean) / X_std
X_test = (X_test_orig - X_mean) / X_std

**¡AHORA TÚ!**
- Observa las dimensiones de `X_mean` y `X_std` con `.shape` y explica cómo se está haciendo la estandarización de los datos de entrada a la red.
- Observa que `X_mean` y `X_std` se calculan sobre el set de entrenamiento, pero después se aplican también para **pseudo estandarizar** el set de validación y el set de test, ¿puedes explicar por qué no se calculan `X_mean` y `X_std` sobre todas las imágenes disponibles y solamente sobre el set de entrenamiento?.

In [11]:
#TODO

# 2. Entrenamiento

## Modelo 'base' de red neuronal

In [None]:
model1 = keras.models.Sequential()
model1.add(keras.layers.Conv2D(16, kernel_size=(3, 3),
                 activation='relu', padding='same',
                 input_shape=(28, 28, 3)))
model1.add(keras.layers.MaxPooling2D((2, 2)))
model1.add(keras.layers.Conv2D(32, kernel_size=(3, 3),
                 activation='relu',  padding='same'))
model1.add(keras.layers.MaxPooling2D(pool_size=(2, 2)))
model1.add(keras.layers.Flatten())
model1.add(keras.layers.Dense(32, activation='relu'))
model1.add(keras.layers.Dense(<<<FIXME>>>, activation='softmax'))

**¡AHORA TÚ!**
- En base a la anterior definición de red neuronal:
  - Añade el valor adecuado en <<<FIXME>>>
  - Busca información sobre `keras.layers.Conv2D()` y averigua qué quiere decir `padding='same'`. ¿Qué otra opción existe para este parámetro y qué implicaciones tiene usarla?
  - ¿Cuántos _feature maps_ o `channels` se generan a la salida de la primera capa? ¿de qué tamaño son los `kernels` de convolución?
  - ¿Eres capaz de intuir cuáles serán las dimensiones de los _feature maps_ después de realizar el primer _pooling_?


**¡AHORA TÚ!**
- Obtén un `summary()` de la red anterior responde a las siguientes cuestiones:
   - Asegúrate de entender cómo disminuye el tamaño de las capas en `height` y `width` desde 28x28 px a la entrada hasta 7x7 después de la última capa de _pooling_.
   - ¿Cuántos parámetros entrenables tiene la red? Compara esta cifra con el número de parámetros de los modelos _fully connected_ de cuadernos anteriores. ¡Estamos creando una red con menos parámetros y esperamos que se comporte mejor!
   - ¿Eres capaz de explicar el número de parámetros entrenables de alguna de las capas?
   - Puedes probar a cambiar la configuración de `model1` y ver cómo afecta a los tamaños y número de capas.

In [17]:
#TODO SUMMARY

**¡AHORA TÚ!**
- Entrena la red neuronal durante 15 epochs con un optimizador `adam`
- Ve observando durante el entrenamiento los resultados de `acc` y `val_acc`

In [19]:
#TODO COMPILE MODEL

In [None]:
#TODO FIT MODEL

**¡AHORA TÚ!**
- Muestra una gráfica la evolución del entrenamiento
  - ¿Se produce _overfitting_ durante el entrenamiento? Si es así, ¿a partir de qué _epoch_ aproximadamente?

In [None]:
#TODO PLOT HISTORY

## Batch Normalization

Vamos a incorporar capas de `BatchNormalization()` a nuestro modelo.
- Llámalo esta vez `model2`
- Batch Normalization actúa como técnica de regularización.
- Prueba a introducirlo entre las capas de convolución y _pooling_ y en la penúltima capa _fully connected_
- **No** debes incluir las activaciones en la capa anterior a `BatchNormalization()` **pero debes** incluir una capa de activación en la capa siguiente.
- ¿Cuántos parámetros entrenables y no entrenables se han añadido a la red?
- **No entrenes la red todavía**

In [23]:
#TODO BATCHNORMALIZATION

## Early Stopping

- Parar el entrenamiento es una forma de prevenir que la red sobreentrene y también de no gastar tiempo de cómputo innecesariamente.
- Se puede dejar a la red que siga entrenando durante un tiempo, pero utilizar después en la etapa de inferencia los parámetros que proporcionaron el menor `val_loss` o la mejor `val_acc` (distintos de los de la última _epoch_).

In [30]:
early_stopping_cb = keras.callbacks.EarlyStopping(patience=3,verbose=1)
model_checkpoint_cb = keras.callbacks.ModelCheckpoint("model2.keras", save_best_only=True)

**¡AHORA TÚ!**
- Vamos a entrenar la red `model2` durante 15 _epochs_ y a guardar los resultados del entrenamiento en una variable `history2`
- Para el entrenamiento, incluye los _callbacks_ `early_stopping_cb` y `model_checkpoint_cb` tal y como los hemos definido arriba. Para ejecutar varios _callback_ simultáneamente recuerda que puedes hacer una lista con corchetes en la llamada en la función `fit()`.
- Mientras se realiza el entrenamiento revisa información sobre `EarlyStopping()` y `ModelCheckpoint()`.
   - https://keras.io/api/callbacks/early_stopping/
   - https://keras.io/api/callbacks/model_checkpoint/


In [31]:
#TODO EARLY STOPPING

**¡AHORA TÚ!**
- Finalizado el entrenamiento, representa un gráfico con la evolución de la red y a continuación, responde a las siguientes preguntas:
  - ¿En qué _epoch_ se ha parado el entrenamiento?
  - ¿En qué _epoch_ se obtenía el menor _val_loss_?
  - ¿Los parámetros de qué epoch se han salvado en 'model2.keras'?

In [33]:
#TODO PLOT HISTORY

## Variación dinámica del learning rate
- Una forma de prevenir el sobreentrenamiento es ir disminuyendo de manera dinámica el _learning rate_. De hecho, algunos optimizadores lo hacen internamente de manera automática.
- Entre las estrategias más utilizadas encontramos _Reduce on plateau_, que consiste en añadir un _callback_ para que se reduzca el `learning_rate` cuando el _loss_ se queda en una meseta.

In [36]:
lr_scheduler = keras.callbacks.ReduceLROnPlateau(monitor='val_loss',factor=0.4, patience=2,verbose=1)

**¡AHORA TÚ!**
- Vamos a volver a entrenar modelo `model1` (sin _Batch Normalization_) o `model2`, pero esta vez variando el _learning rate_ dinámicamente.
- Vuelve a definir el modelo y llámalo `model3`

In [37]:
#TODO NEW MODEL

**¡AHORA TÚ!**
- Añade el _callback_ `lr_scheduler` durante el entrenamiento, junto con  `model_checkpoint_cb`.
- Opcionalmente puedes añadir el callback `early_stopping_cb`, pero si el entrenamiento para demasido pronto y no se disminuye el _learning_rate_ y quieras quitarlo para poder observar bien el efecto de `lr_scheduler`.
- Para no sobreescribir `model2.h5` será mejor que vuelvas a definir `model_checkpoint_cb` e incluir esta vez `model3.keras`.
- Lanza un entrenamiento con al menos 20 epochs y empleando el siguiente optimizador
- Mientras se realiza revisa información sobre `EarlyStopping()`.
   - https://keras.io/api/callbacks/reduce_lr_on_plateau/
- Grafica los resultados y compara con entrenamientos anteriores

In [44]:
optimizer = keras.optimizers.Adam(learning_rate=0.001)

In [45]:
#TODO DEFINE CALLBACK

In [None]:
#TODO COMPILE MODEL

In [None]:
#TODO FIT MODEL

In [None]:
#TODO PLOT HISTORY

## Dropout
- Puedes introducir capas de Dropout de la siguiente manera.

`keras.layers.Dropout(rate=...)`

**¡AHORA TÚ!**
- Crea un nuevo modelo `model4` añadiendo capas de dropout  después de las capas de _pooling_ en `model2`. Puedes probar con valores de `rate=0.25` por ejemplo.
- Lanza un entrenamiento de al menos 20 _epochs_ y con _Early Stopping_ y que guarde los pesos en `model4.keras`. Utiliza un valor de `epochs` y `patience` acorde a las capacidades de procesamiento de tu ordenador. Si es lento no pongas valores elevados. El valor de `patience` en el callback que reduce el _learning_rate_ deberá ser mayor que en callback que hace el _model_checkpoint_.
- Durante el mismo busca información sobre las capas `Dropout` y el parámetro `rate`.
- Grafica nuevamente los resultados y compara el entrenamiento con los modelos anteriores
- Por último, si el entrenamiento no se hubiera parado en la última _epoch_, salva los resultados con `model4.save("model4.keras")`

In [None]:
#TODO DEFINE MODEL

In [None]:
#TODO COMPILE MODEL

In [None]:
#TODO CALLBACKS

In [None]:
#TODO FIT MODEL

In [None]:
#TODO PLOT HISTORY

## 3. Test
**¡AHORA TÚ!**
- Carga alguno de los modelos salvados anteriormente y evalúalo (usando `evaluate()`), sobre las muestras reservadas para test.
- A continuación:
  - Evalúa el modelo sobre el set de test empleando `evaluate()`
  - En otra celda genera predicciones con `predict()` sobre **todo el subconjunto de test**.

In [57]:
#TODO LOAD MODEL

In [None]:
#TODO EVALUATE MODEL

In [None]:
#TODO PREDICT

### Matriz de confusión
**¡AHORA TÚ!**
- Utiliza las predicciones anteriores para generar un matriz de confusión normalizada y otra sin normalizar.
    - https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html

In [None]:
#TODO

### Métricas de rendimiento
**¡AHORA TÚ!**
- Genera ahora una matriz de confusión sin normalizar.

In [None]:
#TODO

**¡AHORA TÚ!**
- Observa cómo podemos obtener los TP,TN,FP y FN a partir de la matriz de confusión `conf`.
- Revisa el significado de estas variables y entiende cómo se han obtenido a partir de `conf`. ¿Por qué estas variables se expresan en forma de vectores en lugar de valores escalares?

In [71]:
TP = np.diag(conf)
FP = conf.sum(axis=0) - TP
FN = conf.sum(axis=1) - TP
TN = conf.sum() - (FP + FN + TP)
FP = FP.astype(float)
FN = FN.astype(float)
TP = TP.astype(float)
TN = TN.astype(float)

**¡AHORA TÚ!**
- Calcula e imprime la métrica F1-score para cada clase y su valor medio.
- ¿Cuáles son las clases con las mejores/peores métricas F1-score?
- Prueba a calcular e imprimir también las métricas _Accuracy_, _Sensitivity_ y _Specificity_.

In [None]:
#TODO

# 4. Mejorando el modelo

### L1 and L2 Regularization
- Podemos incluir regularización L2 con factor 0.01 en las capas Dense o Conv2D de la siguiente manera:
```
keras.layers.Dense(100, activation= ...,                                  
                    kernel_regularizer=keras.regularizers.l2(0.01))
keras.layers.Conv2D(32, kernel_size=...,kernel_regularizer=keras.regularizers.l2(0.01),...)
 - `l2(0.01)` para L2 con factor 0.01
 - `l1(0.1)` para L1 con factor 0.1
 - `l1_l2(0.1, 0.01)` para L1 y L2 con factores 0.1 y 0.01 respectivamente
```

**¡AHORA TÚ!**
- Crea un nuevo modelo `model5` probando a introducir regularización en las distintas capas de `model3` y entrena durante al menos 25 épocas utilizando _Early Stopping_ y algún otro _callback_ de tu elección.

In [None]:
#TODO...

### (Opcional) Aumentando la profundidad de la red

**¡AHORA TÚ!**
- Para hacer este apartado se requiere utilizar la nube de cómputo o un ordenador potente configurados con GPUs
- Lo que tenemos hasta ahora no es una red suficientemente _"deep"_. Crea un modelo `model6` aumentando el número de capas convolucionales de la red `model4` y la profundidad de la red (número de filtros de convolución).   
  - Deberías aumentar el número de channels en las capas más profundas de la red, ¿sabes contestar por qué?.
   - Observa que también puedes aumentar el número de neuronas en la capa _hidden_ de perceptrón multicapa (MLP) que hay al final de la red.
   - Controla el número de parámetros entrenables y número de capas en un tamaño manejable para el equipo que estás utilizando.
   - No utilices regularización L2 en este experimento si tu ordenador es demasiado lento.
   - Recuerda que puedes añadir _callbacks_ para variar el _learning rate_ dinámicamente.
   - Lanza el entrenamiento para un número de _epochs_ elevado (por ejemplo 50) y recuerda que puedes utilizar _early stopping_ ajustando el parámetro _patience_.
- A ver si puedes obtener un resultado cercano a `val_accuracy` en torno a 93%... ¡o mejor aún!

In [None]:
#TODO

## Ampliación

- Blog towardsdatascience: The 4 Convolutional Neural Network Models That Can Classify Your Fashion Images

https://towardsdatascience.com/the-4-convolutional-neural-network-models-that-can-classify-your-fashion-images-9fe7f3e5399d
- Fashion MNIST benchmark

https://paperswithcode.com/sota/image-classification-on-fashion-mnist