# Taller de refuerzo de Keras (I)

En este taller, llevaremos a cabo un repaso de:
- Carga de datos en estructuras apropiadas
- Manejo de estructuras de datos
- EDA y limpieza básicos
- Particiones de entrenamiento, validación y test
- Definición de modelos de redes neuronales
- Compilación y entrenamiento de modelos
- Evaluación

**El objetivo del modelo será tratar de averiguar si un vino es tinto o blanco, dadas sus características químicas, como la acidez volátil o los sulfatos.**

## Carga de librerías, módulos y funciones

In [49]:
# Carga de datos 
import pandas as pd

# Operaciones y cálculos con vectores
import numpy as np

# Visualización de datos
import matplotlib.pyplot as plt
import seaborn as sns

# Funciones auxiliares de preprocesamiento y de evaluación
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import confusion_matrix

# Deep Learning
from tensorflow.keras import Sequential
from tensorflow.keras import layers

## Carga de datos

Los datos a utilizar en este taller se encuentran disponibles en los siguientes enlaces:

- White wine: http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv
- Red whine: http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv

In [3]:
# Carga *white wine* en una variable llamada *white_wine*


In [4]:
# Carga *red wine* en una variable llamada *red_wine*


## Análisis exploratorio y limpieza de datos

### Toma de contacto

In [None]:
# Muestra las 3 primeras filas de white_wine, haciendo uso del método head() de pandas


In [None]:
# Muestra información acerca de white_wine, haciendo uso del método info() de pandas


In [None]:
# Muestra las 3 primeras filas de red_wine, haciendo uso del método head() de pandas


In [None]:
# Muestra información acerca de red_wine, haciendo uso del método info() de pandas


### Duplicados

In [None]:
# Comprueba el número de registros duplicados en white_wine


In [7]:
# Si hay duplicados, elimínalos


In [None]:
# Comprueba el nuevo número de filas de white_wine


In [None]:
# Comprueba el número de registros duplicados en red_wine


In [10]:
# Si hay duplicados, elimínalos


In [None]:
# Comprueba el nuevo número de filas de red_wine


### Valores faltantes

In [None]:
# Comprueba el número de valores faltantes en cada columna de white_wine


In [None]:
# Si hay valores faltantes, trátalos como consideres conveniente


In [None]:
# Comprueba el número de valores faltantes en cada columna de red_wine


In [None]:
# Si hay valores faltantes, trátalos como consideres conveniente


### Outliers

In [None]:
# Boxplot de la variable "alcohol" de white_wine


In [None]:
# Boxplot de la variable "alcohol" de red_wine


### Combinación de fuentes de información

In [None]:
# Añade una columna "type" a white_wine con valor constante 0


In [16]:
# Añade una columna "type" a red_wine con valor constante 1


In [17]:
# Combina ambos dataframes


### Correlaciones

In [18]:
# Calcula la matriz de correlaciones entre las variables
# Usa el método corr() de pandas


In [None]:
# Muestra un capa de calor de las correlaciones
# Usa la librería Seaborn de visualización


En caso de detectar variables altamente correlacionadas entre sí, podría ser necesario aplicar alguna técnica de selección de varialbles o reducción de dimensionalidad (como PCA), con el fin de eliminar información redundante para el modelo, además de reducir el número de parámetros y, con ello, el coste computacional.

### Otras técnicas de calidad del dato
Junto a los anteriores pasos del proceso de calidad del dato, sería conveniente realizar otras comprobaciones y, en caso necesario, los ajustes pertinentes para lograr un estado de los datos óptimo. Recordemos que un buen proceso de calidad del dato es iterativo y, a grandes rasgos, se podría enfocar en aspectos como los siguientes:

![dataquality.PNG](attachment:dataquality.PNG)

Recordemos que, además, todo proceso de exploración y limpieza de datos debe apoyarse en visualizaciones gráficas.

### Particiones de entrenamiento, validación y test
Para poder realizar un buen ajuste del modelo, lo ideal es utilizar tres particiones de datos:
- Una para entrenarlo (*train set*)
- Otra para evaluarlo durante el entrenamiento (*validation set*)
- Una última partición para realizar una evaluación final, una vez concluido el entrenamiento (*test set*)

Para hacer la partición de train y test, podemos hacer uso de *train_test_split* de la librería Scikit Learn.

In [None]:
# Guarda las características (features) en una variable X


In [None]:
# Guarda el target en una variable y
# Previamente, aplica un np.ravel() para aplanar los valores


In [24]:
# Crea una partición de train (70% de los datos) y test (30%)
# Fija una semilla de 42 para garantizar la repetibilidad de los resultados


### Estandarización

La estandarización de un conjunto de datos suele ser un requisito común, ya que el ajuste puede complicarse si las características individuales no se encuentran distribuidas normalmente (distribución gaussiana con media 0 y varianza unitaria).

In [26]:
# Instancia el scaler y ajústalo en el set de entrenamiento


In [27]:
# Escala el set de entrenamiento


In [28]:
# Escala el set de pruebas


## Definición de un modelo de red neuronal

### Tipos de capas en Keras

Las capas son los componentes básicos de las redes neuronales en Keras. Una instancia de Layer es invocable, al igual que una función:

`from tensorflow.keras import layers
layer = layers.Dense(32, activation='relu')
inputs = tf.random.uniform(shape=(10, 20))
outputs = layer(inputs)`

Sin embargo, a diferencia de una función, las capas mantienen un estado, ya que sus pesos se actualizan cuando la capa recibe datos durante el entrenamiento, almacenándose en *layer.weights*.

Las siguientes se pueden considerar las **capas fundamentales** de Keras:
- **Capa Dense**, que simplemente es la clásica capa neuronal completamente conectada (documentación disponible en https://keras.io/api/layers/core_layers/dense/).
- **Capa Conv1D**, que es una capa de convolución de 1D y que se usa, por ejemplo, para casos de convolución temporal (documentación disponible en https://keras.io/api/layers/convolution_layers/convolution1d/).
- **Capa Conv2D**, que es una capa de convolución de 2D y que se usa, por ejemplo, para casos de convolución espacial sobre imágenes (documentación disponible en https://keras.io/api/layers/convolution_layers/convolution2d/).
- **Capa Conv3D**, que es una capa de convolución de 3D y que se usa, por ejemplo, para casos de convolución espacial sobre volúmenes (documentación disponible en https://keras.io/api/layers/convolution_layers/convolution3d/).
- **Capa SimpleRNN**, que es una capa recurrente completamente conectada donde la salida debe retroalimentarse a la entrada (documentación disponible en https://keras.io/api/layers/recurrent_layers/simple_rnn/). 
- **Capa LSTM**, que es una capa de tipo LSTM (documentación disponible en https://keras.io/api/layers/recurrent_layers/lstm/).
- **Capa SimpleRNN**, que es una capa de tipo GRU (documentación disponible en https://keras.io/api/layers/recurrent_layers/gru/).

### Funciones de activación de cada capa
Cada capa debe tener asociada una función de activación, que se especifica mediante el argumento *activation* de la capa y que será la misma para todas las neuronas que compongan dicha capa. En Keras, se pueden utilizar, entre otras, las siguientes funciones de activación:

- ***relu function***
- ***sigmoid function***
- ***softmax function***
- ***softplus function***
- ***softsign function***
- ***tanh function***
- ***elu function***
- ***exponential function***

***Para más información acerca de las funciones de activación de keras, consultar: https://keras.io/api/layers/activations/***

### Inicialización de los pesos de una capa

Hay distintas técnicas de inicialización de pesos de una capa, y además los argumentos de palabras clave que se utilizan para pasar inicializadores a las capas dependen de la capa. Por lo general, son simplemente *kernel_initializer* y *bias_initializer*. En Keras, están disponibles las siguientes opciones de inicialización de pesos:
- **RandomNormal**
- **RandomUniform**
- **TruncatedNormal**
- **Zeros**
- **Ones**
- **GlorotNormal**
- **GlorotUniform**
- **HeNormal**
- **HeUniform**
- **Identity**
- **Orthogonal**
- **Constant**
- **VarianceScaling**

***Para más información acerca de las técnicas de inicialización de pesos de keras, consultar: https://keras.io/api/layers/initializers/***

### Ejemplo de definición de un modelo con varias capas en Keras
Utilizando el método *add()* de Keras, se puede definir un modelo de red neuronal de forma secuencial como se muestra a continuación:

`model = keras.Sequential(name="my_sequential")`

`model.add(layers.Dense(60, 
                        input_dim = 60,
                        activation="relu", 
                        kernel_initializer="glorot_uniform",
                        bias_initializer="zeros",
                        name="layer1"))`

En este caso, al modelo se le ha asignado el nombre "my_sequential" (útil para comparar varios modelos) y está compuesto únicamente por una capa con las siguientes características:
- Es de tipo denso (completamente conectada)
- Tiene 60 neuronas (*nodos* o, simplemente, *unidades*)
- Función de activación ReLu
- Inicialización de pesos mediante la técnica de Xavier Glorot *uniforme*
- Inicialización de biases en 0
- El nombre de la capa es "layer1"

***Para más información acerca de los modelos secuenciales de keras, consultar: https://keras.io/guides/sequential_model/***

A continuación, para seguir desarrollando el caso de uso de predicción del tipo de vino, utiliza el método *add()* de Keras y define un modelo secuencial de nombre "Model_1" con la siguiente estructura:
- 1 capa de entrada de tipo denso con 12 neuronas,función de activación ReLu, inicialización de pesos mediante la técnica de Xavier uniforme, inicialización de biases en 0 y nombre de la capa "Layer_1". Asegúrate de que esta capa esté preparada para recibir entradas con las dimensiones de los datos que se han cargado al principio del notebook. *Nota: haz uso del argumento input_shape*.
- 1 capa oculta de tipo denso con 8 neuronas, función de activación ReLu, inicialización de pesos mediante la técnica de Xavier uniforme, inicialización de biases en 0 y nombre de la capa "Layer_2".
- 1 capa de salido de tipo denso con un número apropiado de neuronas y una función de activación también adecuada para la predicción que se desea obtener, inicialización de pesos mediante la técnica de Xavier uniforme, inicialización de biases en 0 y nombre de la capa "Layer_3".

In [None]:
# Calcula el input shape del modelo


In [40]:
# Define el modelo


In [None]:
# Muestra el summary del modelo


In [None]:
# Muestra la configuración del modelo


In [None]:
# Muestra los pesos recién inicializados del modelo


## Compilación del modelo

Antes de entrenar un modelo con el método *fit()* de Keras, es necesario especificar una función de pérdida, un optimizador y, opcionalmente, algunas métricas para monitorear.

> Bloque con sangría



Para ello, se le pasan estos hiperparámetros al modelo como argumentos del método *compile()* de Keras:

`model.compile(
    optimizer=keras.optimizers.RMSprop(learning_rate=1e-3),
    loss=keras.losses.SparseCategoricalCrossentropy(),
    metrics=[keras.metrics.SparseCategoricalAccuracy()],
)`

***Para más información acerca del método compile() de Keras, consultar: https://keras.io/api/models/model_training_apis/***

### Tipos de funciones de pérdida
El propósito de las funciones de pérdida es calcular la cantidad que un modelo debe buscar minimizar durante el entrenamiento.

Las siguientes funciones de pérdida son de las más populares:
- **BinaryCrossentropy**: calcula la pérdida de entropía cruzada entre etiquetas verdaderas y etiquetas predichas, por lo que se utiliza aplicaciones de clasificación binaria (etiquetas 0 o 1).
- **CategoricalCrossentropy**: calcula la pérdida de entropía cruzada para dos o más clases de etiquetas. Espera que las etiquetas se proporcionen en una representación one_hot (es decir, de tipo *one hot encoding*). Esta codificación puede llevarse a cabo mediante el método get_dummies() de la librería pandas, mediante el OneHotEncoder() de Scikit Learn, de forma manual...

***Para más información acerca de las funciones de pérdida disponibles en Keras, consultar https://keras.io/api/losses/***

### Optimizadores

El método fundamental de optimización en IA es el de descenso de gradiente. Sin embargo, existen muchas variaciones que se han ideado con el fin de poner solución a los diversos problemas que suelen experimentar las redes neuronales (como el de los mínimos locales).

Algunos de los optimizadores disponibles en Keras son los siguientes:
- **SGD** (el clásico Stochastic Gradient Descent)
- **RMSprop**
- **Adam**
- **Adagrad**
- **Adadelta** 
- **Adamax**
- **Nadam**
- **Ftrl**

***Para más información acerca de los optimizadores disponibles en Keras, consultar https://keras.io/api/optimizers/*** 

### Métricas de monitorización
Una métrica es una función que se utiliza para juzgar el rendimiento del modelo.

Las funciones métricas son similares a las funciones de pérdida, excepto por el hecho de que los resultados de evaluación obtenidos por una métrica no se utilizan al entrenar el modelo, mientras que los de la pérdida sí. De todos modos, es posible utilizar cualquier función de pérdida como métrica.

***Para más información acerca de los optimizadores disponibles en Keras, consultar https://keras.io/api/metrics/*** 

In [44]:
# Compila el modelo anterior, utilizando pérdida de tipo binary_crossentropy, 
# optimizador tipo Adam y métrica de monitorización de tipo accuracy


## Ajuste del modelo

In [None]:
# Ajusta el modelo utilizando el set de entrenamiento
# Establece 20 epochs y un tamaño de lote de 1 sola muestra
# Para mostrar información durante el entrenamiento, establece la verbosidad en 1
# Guarda el historial de entrenamiento en una variable llamada history


## Evaluación 

In [None]:
# Evalúa el modelo con el dataset de prueba
# Usa el método evaluate() de Keras


Edita esta celda de tipo Markdown y escribe algunas conclusiones acerca del resultado de la evaluación. ¿Qué significa cada uno de los dos valores que se muestran?

## Predicción

In [None]:
# Utiliza el modelo ajustado para realizar predicciones en el dataset de prueba
# Usa el método predict() de Keras y guarda las predicciones en una variable llamada probs


# Muestra las predicciones


In [None]:
# Ahora, utiliza el modelo ajustado para realizar predicciones en el dataset de prueba
# Para ello, ejecuta el código de esta misma celda:

# Muestra las predicciones


Edita esta celda de tipo Markdown y añade algunas conclusiones acerca de las dos predicciones realizadas en las celdas anteriores. ¿Qué diferencia hay entre ambas? ¿A qué se refiere cada una de ellas?

## Ampliaciones

### Primer experimento

Tras la generación del modelo de clasificación binaria anterior, realiza ahora otro experimento con las siguientes variaciones:

- Define y entrena un nuevo modelo utilizando 3 capas ocultas. Añade más de 20 neuronas en cada una de las capas ocultas.
- Asigna "Model_2" como nombre de este nuevo modelo.
- Evalúa el modelo utilizando el dataset de prueba.

In [60]:
# Define el modelo


In [61]:
# Compila el modelo


In [None]:
# Entrena el modelo


In [None]:
# Evalúa el modelo


Edita esta celda de tipo Markdown y escribe algunas conclusiones comparando el rendimiento de los dos modelos entrenados hasta este momento. ¿Ha mejorado sustancialmente el rendimiento del modelo al hacer más compleja la arquitectura? ¿Ha merecido la pena?

### Segundo experimento

Hasta ahora, no hemos controlado el verdadero rendimiento del modelo durante el entrenamiento, ya que no hemos utilizado ningún set de validación ni ninguna técnica de paralización inteligente del ajuste para prevenir el overfitting. 

Por suerte, nuestros dos modelos han respondido bien ante los datos de prueba una vez entrenados, pero podría haberse producido un gran sobreajuste al aumentar tanto la complejidad del modelo. En general, existen dos técnicas básicas muy efectivas para controlar este riesgo:
- Regularización, que puede aplicarse de varias maneras. En Keras, los regularizadores se aplican capa a capa.
- Early stopping, que monitorea el rendimiento del modelo durante el entrenamiento al realizar una validación en un subconjunto de validación a medida que se avanza en el ajuste. Cuando se detecta que el rendimiento del modelo empieza a empeorar en el dataset de validación y, en cambio, sigue aumentando en el de entrenamiento, se finaliza automáticamente el ajuste. De esta manera, se evita que empeore el overfitting que estaba empezando a producirse.

Ejemplo de aplicación de regularización en una capa:

`layers.Dense(
    units=64,
    kernel_regularizer= "l1_l2",
    bias_regularizer= "l2",
    activity_regularizer= "l2"
)`

Donde:
- kernel_regularizer aplica una penalización en el kernel de la capa
- bias_regularizer aplica una penalización en el sesgo de la capa
- activity_regularizer aplica una penalización en la salida de la capa

Por otro lado, a continuación se muestra un ejemplo de aplicación de early stopping durante el entrenamiento:

`callback = tf.keras.callbacks.EarlyStopping(monitor='loss', patience=3)`

`# Este callback finalizará automáticamente el entrenamiento cuando no haya mejora en la pérdida durante 3 epochs consecutivas`

`model = tf.keras.models.Sequential([tf.keras.layers.Dense(10)])`

`model.compile(tf.keras.optimizers.SGD(), loss='mse')`

`history = model.fit(np.arange(100).reshape(5, 20), np.zeros(5),
                     epochs=10, batch_size=1, callbacks=[callback],
                     verbose=0)`

***Para más información acerca de los regularizadores disponibles en Keras, consultar https://keras.io/api/layers/regularizers/*** 

***Para más información acerca de los optimizadores disponibles en Keras, consultar https://keras.io/api/callbacks/early_stopping/***  


Como segundo experimento, define, entrena y evalúa el mismo modelo utilizado en el experimento 1, aplicando:
- Regularización en el kernel de la capa de tipo L1 (Lasso) 
- Early stopping con paciencia máxima para 3 epochs

### Tercer experimento
Realiza ahora las siguientes variaciones:
- Establece la variable "quality" como el nuevo target y utiliza el resto de variables (incluida "type") como features. Ten en cuenta que, de esta forma, el problema pasa a ser de clasificación multiclase, así que haz los cambios necesarios en la arquitectura y compilación del modelo.
- Nombra al modelo "Model_3".
- Experimenta con algún nuevo optimizador.
- Inicializa los pesos de forma adecuada.
- Añade algún tipo de regularización.
- Entrena y evalúa este nuevo modelo utilizando el dataset de prueba. 
- Aplica early stopping.
