# Módulo 1: Análisis de datos en el ecosistema Python

### Sesión (16)

**16/01/2023**

## Clasificación con Redes Neuronales (Neural Network Clasification) 

Las redes neuronales artificiales están basadas en el funcionamiento de las redes de neuronas biológicas. Podemos aplicar estas estructuras para crear **un modelo de clasificación basado en el funcionamiento de las redes neuronales artificiales**.

### Procesado de información de una neurona artificial
Aquí se representa **el procesado de los datos al atravesar una neurona** dentro de la estructura de una red neuronal artificial:

![image-3.png](attachment:image-3.png)

### Valores de salida y pesos de las redes neuronales

Las respuestas calculadas por las redes o los valores de salida pueden ser:
* **continuos**, como el precio de una compra determinada o una vivienda! 
* **categóricos**, como el producto que más se venderá el próximo año o la especie de una flor!.
* **binarios**, como por ejemplo si una persona padece de una enfermedad o no. (_el caso binario es un caso particular donde tenemos dos categorías_).

Para poder llevar a cabo el procesado, cada conexión entre las neuronas llamada ***sinapsis*** tendrá asignada un valor o un **peso** que equivale a la **fuerza** de la señal que se trasmite a otras. El ajuste de estos pesos para tener una red neuronal que haga lo que queremos es fundamental. 

Existen **distintos métodos para ajustar estos pesos**, como **el descenso de gradiente (Gradient Descent)** y **el Backpropagation**. 

### Ejemplo de la calidad del aire

En los últimos años, los **altos niveles de contaminación** durante ciertos periodos secos en **Madrid** ha obligado a las autoridades a tomar medidas contra el uso de automóviles en el centro de la ciudad, y ha sido utilizado como razón para **proponer modificaciones drásticas en el urbanismo de la ciudad**. 

Gracias a la **web de [Datos Abiertos del Ayuntamiento de Madrid](https://datos.madrid.es/portal/site/egob/menuitem.400a817358ce98c34e937436a8a409a0/?vgnextoid=eba412b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextchannel=eba412b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default)**, los datos de calidad del aire están públicamente disponibles e incluyen **datos históricos diarios y horarios de los niveles registrados desde 2001 hasta 2018** y la lista de estaciones que se utilizan para el análisis de contaminación.

Vamos a utilizar **una muestra** que se ha preparado en base a estos datos que muestran la **calidad del aire** en varias estaciones de **Madrid** según diferentes variables.

In [1]:
# importamos las librerías necesarias 
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

In [None]:
# Modificamos los parámetros de los gráficos en matplotlib
from matplotlib.pyplot import rcParams

rcParams['figure.figsize'] = 12, 6 # el primer dígito es el ancho y el segundo el alto
rcParams["font.weight"] = "bold"
rcParams["font.size"] = 10
rcParams["axes.labelweight"] = "bold"

### Cargar los datos preparados y preprocesados para el modelo

In [None]:
# Cargar el dataset desde un archivo

df_aire_calidad = pd.read_csv('Calidad_aire_procesado')

In [None]:
# Consultar los registros del DataFrame
df_aire_calidad

In [None]:
# La información útil sobre los datos guardados en formato DataFrame
df_aire_calidad.info()

### Planteamiento del ejercicio de clasificación

Se ha creado una variable objetivo de nombre ***Escenario*** con 2 clases como 0,1 del modo que:  

* El **nivel 0** se corresponda a los valores **por debajo del percentil 25 o el primer cuartil (Q1)** de la variable objetivo original (`Calidad_NO2`).    
* El **nivel 1** se corresponde a los valores **por encima del percentil 25 o el primer cuartil (Q1)**.  

Procedemos a dividir el datset en conjuntos de train y test (usualmente con un reparto de 80% - 20%).  

**Vamos a intentar predecir si la calidad de aire de las distintas zonas está en el nivel 0, 1.**


In [None]:
df_aire_calidad.describe()

In [None]:
# Graficar la distribución de los valores originales
plt.figure(figsize=(20,6))
sns.violinplot(data=df_aire_calidad, orient='v')
plt.show()

In [None]:
## Preparar el conjunto de datos del modelo

# Variables independientes (features)
X = df_aire_calidad.drop('Escenario', axis='columns')

# Variable dependiente (target) que son los niveles de aire con menos contaminación
y = df_aire_calidad['Escenario']

Se puede observar la necesidad de llevar todas las variables de entrada a una escala estándar.

In [None]:
# importar los objetos necesarios de la librería sklearn
from sklearn.preprocessing import MinMaxScaler

# declarar el tipo de escalamiento y aplicarlo al conjunto de datos
escalado = MinMaxScaler().fit(X)
dataset_normal = escalado.transform(X)
dataset_normal

In [None]:
# Lo convertimos en un DataFrame, añadiendole sus etiquetas
X_normal = pd.DataFrame(dataset_normal, columns=X.columns)
print(type(X_normal))
X_normal

In [None]:
X_normal.describe().round(4)

In [None]:
# Graficar la distribución de los valores estandarizados
plt.figure(figsize=(20,6))
sns.boxplot(data=X_normal,  orient='v')
plt.show()

### **Paso 2.**  Dividir el dataset en Training y Test set

In [None]:
# Separar los conjuntos de datos de entrenamiento (Training) y de prueba (Test) para las variables de entrada y salida
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_normal, y, test_size=0.2, random_state=88)

In [None]:
# "test_size" representa la proporción del conjunto de datos a incluir en la división de Test
print(X_train.shape[0])
print(X_test.shape[0])
X_train.shape[0] + X_test.shape[0]

#### **Paso 3.** Cargar y elegir el clasificador __Neural Netwok Classifier (MLPClassifier)__

In [None]:
# Importar el módulo que corresponde al algoritmo
from sklearn.neural_network import MLPClassifier

# Asignar el algoritmo que vamos a aplicar 
clas_mlp = MLPClassifier(random_state=100)

### **Paso 4.** Entrenar el modelo de clasificación Bayesiana con los datos de entrenamiento

In [None]:
# Entrenar el modelo
clas_mlp.fit(X_train, y_train)

Ahora que el modelo está entrenado, sacamos las predicciones, analizamos los resultados y obtenemos algunas métricas del modelo basadas en el conjunto de datos de prueba. Según las métricas, podremos observar si el modelo clasificó correctamente todos los escenarios o no.

### **Paso 5.** Obtener las predicciones 

In [None]:
# Calcular las predicciones con el conjunto de prueba
y_pred = clas_mlp.predict(X_test)

In [None]:
# Imprimir la salida del modelo (los niveles de calidad del aire)
print(y_pred)

### **Paso 6.** Evaluación del modelo a través de sus métricas

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

Existen otra serie de metricas para calificar los modelos de clasificación que se detallan a continuación. Algunas de estas medidas se resumen en un informe llamado **classification_report**.

In [None]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

disp = ConfusionMatrixDisplay(confusion_matrix=confusion_matrix(y_test, y_pred),
                               display_labels=clas_mlp.classes_)
disp.plot()

plt.show()

In [None]:
# Calcular el área bajo la curva de funcionamiento del receptor
from sklearn.metrics import roc_auc_score
roc_auc_score(y_test, y_pred)

In [None]:
# Graficar la curva ROC
from sklearn.metrics import RocCurveDisplay

RocCurveDisplay.from_predictions(y_test, y_pred)

plt.show()

Vamos a obtener más información acerca del modelo:

In [None]:
# Parámetros indicados en la definicón del modelo

clas_mlp.get_params()

In [None]:
# Sacar diferentes parámetros del modelo que se ha entrenado
clas_mlp.__getstate__()

In [None]:
# Se puede consultar incluso el coste (la métrica de error) y su evolución durante las iteraciones de entrenamiento
plt.plot(clas_mlp.loss_curve_)
plt.title("Loss Curve", fontsize=14)
plt.xlabel('Iterations')
plt.ylabel('Loss')
plt.show()

Se puede apreciar que las redes neuronales artificiales disponesn de muchos ajustes y por lo tanto tienen **diversos hiperparámetros** como: 

* ``hidden_layer_sizes``: tupla, longitud = n_capas - 2, predeterminado = (100,). El i-ésimo elemento representa el número de neuronas en la i-ésima capa oculta.
* ``activation``:  {'identity', 'logistic', 'tanh', 'relu'}, predeterminado = 'relu'. La función de activación para las capas ocultas.
* ``solver``:  {'lbfgs', 'sgd', 'adam'}, predeterminado = 'adam'. El solucionador para la optimización del peso.
* ``max_iter``: int, predeterminado = 200. Número máximo de iteraciones. 
* ``alpha``: float, predeterminado = 0.0001. Parámetro de penalización L2 (término de regularización).
* ``tol``: float, predeterminado = 1e-4. Tolerancia para la optimización. Cuando la pérdida o la puntuación no mejoran al menos ``tol`` en ``n_iter_no_change`` iteraciones consecutivas se considera que se ha alcanzado la convergencia y se detiene el entrenamiento.


Procedemos a modificar un par de estos valores y volver a generar una red distinta: 

In [None]:
# Definimos otra red modificando los valores por defecto de algunos hiperparámetros
red_mlp = MLPClassifier(hidden_layer_sizes=(100,200,100),
                        max_iter=10000,
                        alpha=1e-5,
                        tol=1e-5,
                        random_state=100)


# Ajustamos el algoritmo al conjunto de datos de entrenamiento
red_mlp.fit(X_train, y_train)

# lanzamos las predicciones (para el conjunto de test que son los datos no vistos por el algoritmo en la fase de modelización)
y_pred_mlp = red_mlp.predict(X_test)

print('Acuuracy:', accuracy_score(y_test, y_pred_mlp))

print(classification_report(y_test, y_pred_mlp))

print('AUC:', roc_auc_score(y_test, y_pred_mlp))

In [None]:
# Graficar la curva ROC
from sklearn.metrics import RocCurveDisplay

RocCurveDisplay.from_predictions(y_test, y_pred_mlp)

plt.show()

In [None]:
# Se puede consultar incluso el coste (la métrica de error) y su evolución durante las iteraciones de entrenamiento
plt.plot(red_mlp.loss_curve_)
plt.title("Loss Curve", fontsize=14)
plt.xlabel('Iterations')
plt.ylabel('Loss')
plt.show()

---

## Clasificación con Redes Neuronales profundas mediante ___Keras___

**[Keras](https://keras.io/)** es una librería de Python de código abierto (con licencia MIT) para facilitar el desarrollo de los modelos de __Deep Learning__. _Keras_ es un paquete ___minimalista___ que su principal objetivo es acelerar la generación de redes neuronales profundas.
 _Keras_ funciona como una _interfaz de uso intuitivo_ (__API__) que permite __acceder y trabajar a alto nivel__ con varios frameworks como _Theano_ y sobre todo __`TensorFlow`__.
 
_Keras_ se puede ejecutar sin problema sobre las CPU y también contra las __GPU__ que aumentan la eficiencia computacional en muchos casos.  En lugar de instalar los paquetes por separado, el enfoque recomendado es __instalar _Keras_ como parte de la instalación de _TensorFlow___. A partir de la versión 2.0, cuando instala _TensorFlow_, Keras también se instalará automáticamente.

In [None]:
pip install tensorflow

Podemos __importar__ y acceder a las funciones y los métodos de _Keras_ usando dos enfoques distintos:  

- mediante la librería ___Keras___ 
- A través de ___Tensorflow___

Lo importante es __ser consistente en todo el código__ que desarrollamos y usar la mism manera cada vez que importamos los objetos y las funciones de _Keras_ para evitar confusiones y hacer que el código sea más fácil de leer.

In [None]:
import keras
print(keras.__version__)

In [None]:
import tensorflow
print(tensorflow.keras.__version__)

In [None]:
from tensorflow import keras as ks
print(ks.__version__)

_Keras_ como es de esperar y acorde con sus objetivos, tiene un __enfoque muy práctico__ a la hora de definir, compilar y ajustar las redes neuronales profundas. Principalmente se construyen las redes mediante modelos con una secuencia de capas, llamada tipo __`Secuencial`__.

In [None]:
from keras.models import Sequential

# Declarar el modelo que se va a crear
modelo_ks = Sequential()
modelo_ks

Después de instanciar un modelo de la clase `Sequential`, debemos indicar **la capa de entrada (Input Layer)** que recibe los **valores que se vienen dado al inico** de una observación considerando como un **estímulo inicial**. Lógicamente, el número de las _variables de entrada (__features__)_ determina el tamaño de esta capa. 

In [None]:
# La dimensión de las observaciones
X_train.shape

In [None]:
from keras import Input

modelo_ks.add(Input(shape=(X_train.shape[1],)))

Después, se van añadiendo más capas en __el orden deseado__. Por ahora, utilizamos un tipo de capa llamada _capa densa (__Dense__)_ o completamente conectada. Una capa densa tiene una **cantidad específica de neuronas**, que es un parámetro que se eleige en la definición de la capa. 

Este tipo de capas son las **más comunes** y se les conoce como _completamente conectada (__Fully-Connected__)_ porque cada neurona en la capa densa obtiene una conexión con todas las neuronas de entrada o de la capa anterior y todas las neuronas de salida o de la capa posterior. 

![image.png](attachment:image.png)

Se indican las __funciones de activación__ que se aplicarán a cada capa: 

In [None]:
from keras.layers import Dense

# Añadir las capas ocultas (Hidden Layers)
modelo_ks.add(Dense(100, activation='relu'))
modelo_ks.add(Dense(200, activation='relu'))
modelo_ks.add(Dense(100, activation='relu'))

Finalmente se define la última capa o la __capa de salida (Output Layer)__ que debe tener el tamaño de la salida del modelo.

In [None]:
# Definir la capa final (Ouput Layer)
modelo_ks.add(Dense(1, activation='sigmoid'))

![image.png](attachment:image.png)


Una vez definida la estructura de la red, se __compila__ el modelo especificando una serie de __hiperparámetros__ como:

* ``loss``: La medida de __error__ o __la función de pérdida (Loss function)__. Por defecto se suele seleccionar `'binary_crossentropy'` que se conoce como ___log-loss___ o la entropía cruzada (_Cross-entropy_) que resume **la diferencia promedio entre las distribuciones de probabilidad real y predicha** para predecir la clase primera clase.  
 
* ``optimizer``: El algoritmo de optimización. se utiliza comunmente `'Adam'` como el algoritmo de descenso de gradiente estocástico (___stochastic gradient descent___) con una eficiencia considerable.
* ``metrics``:  Añade una **lista de métricas** para que el modelo las evalúe durante el entrenamiento, pero que **no influyan en el entrenamiento**. Se utiliza principàlmente `'accuracy'` entre cualquier otra métrica de clasificación en este caso.

In [None]:
# Compilar e indicar los ajustes del modelo
modelo_ks.compile(loss='binary_crossentropy', optimizer='Adam', metrics=['accuracy'])

Podemos consultar todas las declaraciones realizadas respecto al modelo antes de seguir con el proceso de entrenamiento:

In [None]:
modelo_ks.summary()

Después de especificar la estructura de la red y los ajustes del algoritmo de clasificación, procedemos a **ajustar el modelo** contra el conjunto de datos de entrenamiento **de forma iterativa** y considerando estos argumentos:  

* ``epochs``: Número de **iteraciones** que se van a realizar para **recorrer todo el conjunto de training**.  

* ``batch_size``: Número de muestras por actualización de gradiente o mejor dicho, la **cantidad de observaciones que se consideran antes de que se actualicen los pesos del modelo** dentro de cada _epoch_. Si no se especifica, el valor predeterminado de *batch_size* es __32__.

In [None]:
# Ajustar el modelo a los datos del entrenamiento.
modelo_ks.fit(X_train, y_train, epochs=10, batch_size=50)

Ahora tenemos a nuestra red neronal **entrenada y ajustada** a los datos de entrenamiento. Podemos incluso consultar los parámetros o mejor dicho **los pesos de la red** 
 mediante el atributo **`.weights`**:

In [None]:
modelo_ks.weights

Con el objetivo de evaluar el modelo, podemos **guardar la salida del paso de entrenamiento** para poder registrar las métricas evaluadas en cada _epoch_ y al mismo tiempo entrenar el modelo.

In [None]:
registros = modelo_ks.fit(X_train, y_train, epochs=10, batch_size=50)

In [None]:
# Consultar la info registrada
print(registros.epoch)
print(registros.history)

In [None]:
# Graficamos el rendimiento durante el training
plt.figure(figsize=(20,6))
plt.plot(registros.epoch, registros.history['loss'], linewidth=3, label='training Log-Loss')
plt.xticks(registros.epoch)
plt.xlabel('epochs')
plt.ylabel('Loss')
plt.title('La evolución de error')
plt.legend(loc = 'upper right')
plt.show()

In [None]:
# Graficamos el rendimiento durante el training
plt.figure(figsize=(20,6))
plt.plot(registros.epoch, registros.history['accuracy'], linewidth=3, label='training Accuracy')
plt.xticks(registros.epoch)
plt.xlabel('epochs')
plt.ylabel('Accuracy')
plt.title('La evolución del porcentaje de acierto')
plt.legend(loc = 'lower right')
plt.show()

Para los modelos desarrollados con _Keras_ podemos usar el método **`.evaluate`** para **evaluar directamente el rendimiento del modelo** sobre cualquier conjunto de datos sin sacar las predicciones explícitamente.

In [None]:
modelo_ks.evaluate(X_train, y_train)

In [None]:
_, accuracy_ks_train = modelo_ks.evaluate(X_train, y_train, batch_size=50)
print('Accuracy del modelo en trainig: %.3f' % accuracy_ks_train) 

# El operador % aquí es un "string formatting operator" que se usa para dar formato a una cadena reemplazando el carácter % con un valor.

# El %.3f es un especificador de formato que le dice a Python que formatee el valor de "accuracy_ks" como un número de tipo "float" con 3 decimales.

In [None]:
# Con este mismo método pòdemos sacar el rendimiento del modelo sobre el conjunto de datos de prueba (test)
_, accuracy_ks_test = modelo_ks.evaluate(X_test, y_test, batch_size=50)
print('Accuracy del modelo en test: %.3f' % accuracy_ks_test) 

Aquí también podemos generar las predicciones del modelo usando el método **`.predict`** sobre el modelo entrenado.

In [None]:
# lanzamos las predicciones (para el conjunto de test que son los datos no vistos por el algoritmo en la fase de modelización)
y_pred_ks = modelo_ks.predict(X_test)
y_pred_ks

Analizamos la salida directa del modelo que al parecer es en forma de probabilidades que tiene cada observación para pertenecer a la clase 1.

In [None]:
pd.Series(y_pred_ks).describe()

In [None]:
# La salida es un array bidimensional
print(y_pred_ks.shape)
print(y_pred_ks.ndim)

In [None]:
# Redimensionar y reordenar el array
y_pred_ks.reshape(-1)

In [None]:
# Aplanar los valores del array 
y_pred_ks.flatten()

In [None]:
# Consultar las características estadística de la salida
pd.Series(y_pred_ks.flatten()).describe().round(4)

In [None]:
# Consultar el histograma y analizar la distribución de las predicciones
pd.Series(y_pred_ks.reshape(-1)).hist(bins=100, grid=False)

Evidentemente para poder comparar los valores predichos con los reales debemos filtrar las predicciones, cortando las estimaciones por un umbrall (_threshold_).

In [None]:
np.where(y_pred_ks<0.5, 0, 1)

In [None]:
threshold = 0.5
y_pred_keras = np.where(y_pred_ks < threshold, 0, 1)
y_pred_keras

In [None]:
# Ahora calculamos las métricas del siempre con las funciones de sklearn
print('Acuuracy:', accuracy_score(y_test, y_pred_keras))

print(classification_report(y_test, y_pred_keras))

print('AUC:', roc_auc_score(y_test, y_pred_keras))

En función del umbrall que se considera para filtrar la salida cruda del modelo, las métricas del modelo pueden variar algo.

In [None]:
threshold = 0.75
y_pred_keras = np.where(y_pred_ks < threshold, 0, 1)

print('Acuuracy:', accuracy_score(y_test, y_pred_keras))

print(classification_report(y_test, y_pred_keras))

print('AUC:', roc_auc_score(y_test, y_pred_keras))

El mejor valor de umbral **depende del caso de uso específico** y la compensación (_trade-off_) deseada entre la tasa de verdaderos positivos (TPR) y la tasa de falsos positivos (FPR).

Una forma de encontrar el umbral óptimo para un modelo de clasificación binaria sería analizar la curva de características operativas del receptor (**ROC**). La curva ROC traza la tasa de verdaderos positivos contra la tasa de falsos positivos para un rango de valores de umbral, y **el umbral óptimo** corresponde al punto en la curva ROC que está **más cerca de la esquina superior izquierda** (es decir, el punto con el TPR más alto y el FPR más bajo).

In [None]:
from sklearn.metrics import roc_curve
fpr, tpr, thresholds = roc_curve(y_test, y_pred_ks)

# Sacar el índice del umbral con el TPR más alto y el FPR más bajo
indice_umbral = np.argmax(tpr - fpr)

# Sacar el valor del mejor umbral
umbral_opt = thresholds[indice_umbral]

print("El mejor umbral sería: ", umbral_opt)


In [None]:
# Ahora volvemos a sacar las métricas usando el umbral "óptimo"
threshold = umbral_opt

y_pred_keras = np.where(y_pred_ks < threshold, 0, 1)

print('Acuuracy:', accuracy_score(y_test, y_pred_keras))

print(classification_report(y_test, y_pred_keras))

print('AUC:', roc_auc_score(y_test, y_pred_keras))

Podemos juntar todos los pasos implicados en el entrenamiento y validación del modelo.

In [None]:
# importar los módulos, las clases y las funciones a utilizar
import tensorflow as tf
from keras.models import Sequential
from keras import Input
from keras.layers import Dense
from sklearn.metrics import accuracy_score, classification_report, roc_curve, roc_auc_score

# Declarar el modelo que se va a crear
modelo_ks = Sequential()

modelo_ks.add(Input(shape=(X_train.shape[1],)))
modelo_ks.add(Dense(100, activation='relu'))
modelo_ks.add(Dense(200, activation='relu'))
modelo_ks.add(Dense(100, activation='relu'))
modelo_ks.add(Dense(1, activation='sigmoid'))

# Compilar e indicar los ajustes del modelo
modelo_ks.compile(loss='binary_crossentropy', optimizer='Adam', metrics=['accuracy', 'AUC'])

# Consultar el resumen del modelo definido
modelo_ks.summary()

# Ajustar el modelo a los datos del entrenamiento.
registros = modelo_ks.fit(X_train, y_train, epochs=10, batch_size=50)

# lanzamos las predicciones para el conjunto de test 
y_pred_ks = modelo_ks.predict(X_test)

# Sacar el índice del umbral con el TPR más alto y el FPR más bajo
fpr, tpr, thresholds = roc_curve(y_test, y_pred_ks)
indice_umbral = np.argmax(tpr - fpr)

# Sacar el valor del mejor umbral
umbral_opt = thresholds[indice_umbral]
print("El mejor umbral sería: ", umbral_opt)

# Filtrar las predicciones 
y_pred_keras = np.where(y_pred_ks < umbral_opt, 0, 1)

print('Acuuracy:', accuracy_score(y_test, y_pred_keras))

print(classification_report(y_test, y_pred_keras))

print('AUC:', roc_auc_score(y_test, y_pred_keras))

Se puede observar que los resultados generados se pueden variar un poco en cada ejecución. Para tener una cierta __reproducibilidad__ en estos análisis podemos **fijar la semilla de diferentes procesos y cálculos estocásticos** a distintos niveles que utilizan varios algoritmos durante el proceso de entrenamiento:

- A nivel de procesos en __`python`__:   Ajustar el generador aleatorio `random` en un valor fijo.
- A nivel de procesos en __`numpy`__:   Ajustar el generador aleatorio `np.random` en un valor fijo.
- A nivel de procesos en __`tensorflow`__:   Ajustar el generador aleatorio `tf.random` en un valor fijo.


In [None]:
# importar los módulos, las clases y las funciones a utilizar
import random
import tensorflow as tf
from keras.models import Sequential
from keras import Input
from keras.layers import Dense
from sklearn.metrics import accuracy_score, classification_report, roc_curve, roc_auc_score

# Fijar la semilla para conseguir la reproducibilidad de los resultados
semilla = 333
random.seed(semilla)   # Fijar la semilla a nivel de `python`
np.random.seed(semilla)  # Fijar la semilla a nivel de `numpy`  
tf.random.set_seed(semilla)  # Fijar la semilla a nivel de `tensorflow`


# Declarar el modelo que se va a crear
modelo_ks = Sequential()

modelo_ks.add(Input(shape=(X_train.shape[1],)))
modelo_ks.add(Dense(100, activation='relu'))
modelo_ks.add(Dense(200, activation='relu'))
modelo_ks.add(Dense(100, activation='relu'))
modelo_ks.add(Dense(1, activation='sigmoid'))

# Compilar e indicar los ajustes del modelo
modelo_ks.compile(loss='binary_crossentropy', optimizer='Adam', metrics=['accuracy', 'AUC'])

# Consultar el resumen del modelo definido
modelo_ks.summary()

# Ajustar el modelo a los datos del entrenamiento.
registros = modelo_ks.fit(X_train, y_train, epochs=50, batch_size=100)

# Calcular las predicciones para el conjunto de test 
y_pred_ks = modelo_ks.predict(X_test)

# Sacar el índice del umbral con el TPR más alto y el FPR más bajo
fpr, tpr, thresholds = roc_curve(y_test, y_pred_ks)
indice_umbral = np.argmax(tpr - fpr)
# Sacar el valor del mejor umbral
umbral_opt = thresholds[indice_umbral]
print("El mejor umbral sería: ", umbral_opt)

# Filtrar las predicciones 
y_pred_keras = np.where(y_pred_ks < umbral_opt, 0, 1)
print('Acuuracy:', accuracy_score(y_test, y_pred_keras))
print(classification_report(y_test, y_pred_keras))
print('AUC:', roc_auc_score(y_test, y_pred_keras))

Cuando tengamos un númeo mayor de _epochs_ tendrémos una mejor representación en las gráficas de _Loss_ y las métricas del modelo. 

In [None]:
# Graficamos el rendimiento durante el training
plt.figure(figsize=(20,6))
plt.plot(registros.epoch, registros.history['loss'], linewidth=3, label='training Log-Loss')
plt.xticks(registros.epoch)
plt.xlabel('epochs')
plt.ylabel('Loss')
plt.title('La evolución de error')
plt.legend(loc = 'upper right')
plt.show()

El método de **`.fit`** nos permite pasar un conjunto de _validación_, a parte de los datos de _training_, con el objetivo de reservar una parte de los datos y registrar en cada _epoch_ el rendimiento del modelo en los dos conjuntos de datos. 

In [None]:
# importar los módulos, las clases y las funciones a utilizar
import random
import tensorflow as tf
from keras.models import Sequential
from keras import Input
from keras.layers import Dense
from sklearn.metrics import accuracy_score, classification_report, roc_curve, roc_auc_score
from keras.backend import clear_session

# Resetear el estado global de keras
clear_session()

# Fijar la semilla para conseguir la reproducibilidad de los resultados
semilla = 333
random.seed(semilla)   # Fijar la semilla a nivel de `python`
np.random.seed(semilla)  # Fijar la semilla a nivel de `numpy`  
tf.random.set_seed(semilla)  # Fijar la semilla a nivel de `tensorflow`

# Declarar el modelo que se va a crear
modelo_ks = Sequential()
modelo_ks.add(Input(shape=(X_train.shape[1],)))
modelo_ks.add(Dense(100, activation='relu'))
modelo_ks.add(Dense(200, activation='relu'))
modelo_ks.add(Dense(100, activation='relu'))
modelo_ks.add(Dense(1, activation='sigmoid'))

# Compilar e indicar los ajustes del modelo
modelo_ks.compile(loss='binary_crossentropy', optimizer='Adam', metrics=['accuracy', 'AUC'])

# Consultar el resumen del modelo definido
modelo_ks.summary()

# Ajustar el modelo a los datos del entrenamiento.
registros = modelo_ks.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=50, batch_size=100)

# Calcular las predicciones para el conjunto de test 
y_pred_ks = modelo_ks.predict(X_test)

# Calcular el mejor umbral
fpr, tpr, thresholds = roc_curve(y_test, y_pred_ks)
indice_umbral = np.argmax(tpr - fpr)
umbral_opt = thresholds[indice_umbral]
print("El mejor umbral sería: ", umbral_opt)

# Filtrar las predicciones  y evaluar el modelo
y_pred_keras = np.where(y_pred_ks < umbral_opt, 0, 1)
print('Acuuracy:', accuracy_score(y_test, y_pred_keras))
print(classification_report(y_test, y_pred_keras))
print('AUC:', roc_auc_score(y_test, y_pred_keras))



In [None]:
# Graficamos el rendimiento para el training y test
plt.figure(figsize=(20,6))
plt.plot(registros.epoch, registros.history['loss'], linewidth=3, label='training Log-Loss')
plt.plot(registros.epoch, registros.history['val_loss'], linewidth=3, label='test Log-Loss')
plt.xticks(registros.epoch)
plt.xlabel('epochs')
plt.ylabel('Loss')
plt.title('La evolución de error')
plt.legend(loc = 'upper right')
plt.show()

In [None]:
# Graficamos el rendimiento para el training y test
plt.figure(figsize=(20,6))
plt.plot(registros.epoch, registros.history['accuracy'], linewidth=3, label='training Accuracy')
plt.plot(registros.epoch, registros.history['val_accuracy'], linewidth=3, label='test Accuracy')
plt.xticks(registros.epoch)
plt.xlabel('epochs')
plt.ylabel('Accuracy')
plt.title('La evolución del porcentaje de acierto')
plt.legend(loc = 'lower right')
plt.show()

In [None]:
# Graficamos el rendimiento para el training y test
plt.figure(figsize=(20,6))
plt.plot(registros.epoch, registros.history['auc'], linewidth=3, label='training AUC')
plt.plot(registros.epoch, registros.history['val_auc'], linewidth=3, label='test AUC')
plt.xticks(registros.epoch)
plt.xlabel('epochs')
plt.ylabel('AUC')
plt.title('La evolución del área debajo del la curva ROC')
plt.legend(loc = 'lower right')
plt.show()

Volvemos a juntar todos los pasos de generación y evaluación del modelo, silenciando el proceso de ajuste de la red indicando **`verbose=0`**

In [None]:
# importar los módulos, las clases y las funciones a utilizar
import random
import tensorflow as tf
from keras.models import Sequential
from keras import Input
from keras.layers import Dense
from sklearn.metrics import accuracy_score, classification_report, roc_curve, roc_auc_score
from keras.backend import clear_session

# Resetear el estado global de keras
clear_session()

# Fijar la semilla para conseguir la reproducibilidad de los resultados
semilla = 333
random.seed(semilla)   # Fijar la semilla a nivel de `python`
np.random.seed(semilla)  # Fijar la semilla a nivel de `numpy`  
tf.random.set_seed(semilla)  # Fijar la semilla a nivel de `tensorflow`

# Declarar el modelo que se va a crear
modelo_ks = Sequential()
modelo_ks.add(Input(shape=(X_train.shape[1],)))
modelo_ks.add(Dense(100, activation='relu'))
modelo_ks.add(Dense(200, activation='relu'))
modelo_ks.add(Dense(100, activation='relu'))
modelo_ks.add(Dense(1, activation='sigmoid'))

# Compilar e indicar los ajustes del modelo
modelo_ks.compile(loss='binary_crossentropy', optimizer='Adam', metrics=['accuracy', 'AUC'])

# Consultar el resumen del modelo definido
modelo_ks.summary()

# Ajustar el modelo a los datos del entrenamiento.
registros = modelo_ks.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=30, batch_size=100, verbose=0)

# Calcular las predicciones para el conjunto de test 
y_pred_ks = modelo_ks.predict(X_test)

# Calcular el mejor umbral
fpr, tpr, thresholds = roc_curve(y_test, y_pred_ks)
indice_umbral = np.argmax(tpr - fpr)
umbral_opt = thresholds[indice_umbral]
print("El mejor umbral sería: ", umbral_opt)

# Filtrar las predicciones  y evaluar el modelo
y_pred_keras = np.where(y_pred_ks < umbral_opt, 0, 1)
print('Acuuracy:', accuracy_score(y_test, y_pred_keras))
print(classification_report(y_test, y_pred_keras))
print('AUC:', roc_auc_score(y_test, y_pred_keras))

# Graficamos la evolución de error (Logic Loss)
plt.figure(figsize=(20,6))
plt.plot(registros.epoch, registros.history['loss'], linewidth=3, label='training Log-Loss')
plt.plot(registros.epoch, registros.history['val_loss'], linewidth=3, label='test Log-Loss')
plt.xticks(registros.epoch)
plt.xlabel('epochs')
plt.ylabel('Loss')
plt.title('La evolución de error')
plt.legend(loc = 'upper right')
plt.show()

# Graficamos la evolución del porcentaje de acierto (Accuracy)
plt.figure(figsize=(20,6))
plt.plot(registros.epoch, registros.history['accuracy'], linewidth=3, label='training Accuracy')
plt.plot(registros.epoch, registros.history['val_accuracy'], linewidth=3, label='test Accuracy')
plt.xticks(registros.epoch)
plt.xlabel('epochs')
plt.ylabel('Accuracy')
plt.title('La evolución del porcentaje de acierto')
plt.legend(loc = 'lower right')
plt.show()

# Graficamos la evolución del área debajo del la curva ROC
plt.figure(figsize=(20,6))
plt.plot(registros.epoch, registros.history['auc'], linewidth=3, label='training AUC')
plt.plot(registros.epoch, registros.history['val_auc'], linewidth=3, label='test AUC')
plt.xticks(registros.epoch)
plt.xlabel('epochs')
plt.ylabel('AUC')
plt.title('La evolución del área debajo del la curva ROC')
plt.legend(loc = 'lower right')
plt.show()


---

### **`Ejercicio 16.1`**

Saca la gráfica del **Learning Curve** con la estructura del último modelo analizado en la sesión, definiendo y aplicando una función nueva considerando los siguientes puntos. Explica si este último modelo tiene un buen rendimiento comparando con modelos anteriores:
- La función toma solamente una entrada para el hiperparámetro `epochs`. Dibuja diferentes curvas para distintos números de iteraciones (_`epochs`_: `{10, 30, 50}`)
- La curva muestra la evolución de `Accuracy` tanto para el conjunto de _training_ como para el dataset de _test_
- `semilla = 333`
- Filtra los resultados de cada modelo sin buscar el umbral óptimo (`umbral = 0.5`)
- (*Sugerencia*: No incluyas más de `15` puntos en el eje horizontal y empieza la gráfica con un mínimo de _100_ muestras para los modelos que se van a ajustar)

In [None]:
# Solución
# Ejercicio 16.1

---

### **`Ejercicio 16.2`**

**`16.2.1`** Saca la gráfica de **Complexity Curve** con la estructura del último modelo analizado en la sesión, considerando los siguientes puntos. Analiza la curva y explica qué valor sería mejor según este análisis para el número de las iteraciones:
- Considera un rango para asignar al único hiperparámetro que se va a analizar en esta gráfica (número de iteraciones), usando funciones de `numpy`
- `epochs`: `{10,  20,  30,  40,  50,  60,  70,  80,  90, 100}`
- La curva muestra la evolución de `Accuracy` tanto para el conjunto de _training_ como para el dataset de _test_
- `semilla = 333`
- Filtra los resultados de cada modelo sin buscar el umbral óptimo (`umbral = 0.5`)
- (*Sugerencia*: No incluyas más de `15` puntos en el eje horizontal y empieza la gráfica con un mínimo de _100_ muestras para los modelos que se van a ajustar)


**`16.2.2`** Saca la gráfica de *Complexity Curve* al igual que el punto anterior, **excepto la métrica de clasificación**, considerando el siguiente punto y analiza y compara con los resultados con el ejercicio `16.2.1`.
- La curva muestra la evolución de `AUC` tanto para el conjunto de _training_ como para el dataset de _test_


In [None]:
# Solución
# Ejercicio 16.2.1

In [None]:
# Solución
# Ejercicio 16.2.2