# Práctica 2. Regresión para la predición de la calidad del vino

Preprocesamiento del dataset [**wine-quality**](http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/) y construcción de redes neuronales *Multilayer Perceptron* para predecir la calidad del vino.

**Autor**: Nicolás Cubero

**Fecha**: 6 de Abril de 2020

## Importar librerías

In [45]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import StratifiedKFold, train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score, cohen_kappa_score, r2_score
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import RMSprop, Adam

## Carga de datos

Primeramente, procedemos a cargar los *datasets* desde los ficheros *csv*:

In [2]:
# Cargar los datos de los vinos blancos
white = pd.read_csv('winequality-white.csv', sep=';')

# Cargar los datos de los vinos tinto
red = pd.read_csv('winequality-red.csv', sep=';')

## Preprocesamiento de los datos

Una vez cargados los datos, se procede a preprocesar los datos y a prepararlos para alimentar a los modelos *MLP* de regresión en la fase de entrenamiento.

En primer lugar, unificamos ambos *datasets* (el *dataset* con instancias de vino blanco y el que contiene instancias de vino tinto).

In [3]:
# Definir el atributo "type" para identificar los tipos de vinos
white['type'] = 0
red['type'] = 1

# Unificamos ambos datasets en uno único
wines = red.append(white, ignore_index=True)

Se separa el conjunto de datos de la etiqueta:

In [10]:
# Tomar los datos
X = wines.iloc[:, :12]
X = X.drop('quality', axis=1)

# Tomar la etiqueta
y = wines['quality']

**Normalizamos** las variables para evitar que el orden de los valores de las variables provoque que una variable predomine más que otras:

In [11]:
# Utilidad para ejecutar la normalización
scaler = StandardScaler()

# Normalizar el conjunto de datos
X = scaler.fit_transform(X)

## Construcción de modelos

A continuación, usamos los datos preprocesados para entrenar y evaluar diferentes modelos basados en diferentes arquitecturas.

Cada modelo será entrenado y evaluado mediante *k-fold* estratificado usando un conjunto de particiones *K=5*.

Primeramente, definimos la arquitectura del modelo sobre la cual desarrollaremos los modelos.
Se trata de una arquitectura con una única capa oculta de 64 unidades:

In [18]:
def model_MLP():
    
    model = Sequential()
    
    # Primera capa oculta
    model.add(Dense(64, input_shape=(11,), activation='relu'))
    
    # Segunda capa oculta
    model.add(Dense(1))
    
    return model

Procedemos a realizar un entrenamiento con estos datos:

In [25]:
# Establecer la semilla generadora de números aleatorios
seed = 7
np.random.seed(seed)

# Realizar particionamiento k-fold
kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=seed)

# Para computar la media de los errores
mse_loss_list = []
mae_score_list = []
r2_score_list = []

for train, test in kfold.split(X, y):
    model = model_MLP() # Cargar arquitectura
    model.compile(optimizer='rmsprop', loss='mse', metrics=['mae'])
    
    # Ajustar el modelo
    model.fit(X[train], y[train], epochs=10, verbose=True, batch_size=1)
    
    # Evaluar el modelo
    mse_loss, mae_score = model.evaluate(X[test], y[test])
    
    mse_loss_list.append(mse_loss)
    mae_score_list.append(mae_score)
    
    # Evaluar la puntuación R2
    y_pred = model.predict(X[test])
    r2 = r2_score(y[test], y_pred)
    
    r2_score_list.append(r2)
    
    # Mostrar la puntuación
    print('Error MSE: ', mse_loss)
    print('Error MAE: ', mae_score)
    print('Puntuación R2: ', r2)

# Mostrar puntuación media
print('Error MSE medio: ', sum(mse_loss_list)/5)
print('Error MAE medio: ', sum(mae_score_list)/5)
print('Puntuación R2 media: ', sum(r2_score_list)/5)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.49032466164002053
Error MAE:  0.53974449634552
Puntuación R2:  0.3577735984865583
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.5338442483315101
Error MAE:  0.5722637176513672
Puntuación R2:  0.3007717113716548
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.5346658015315399
Error MAE:  0.5533801317214966
Puntuación R2:  0.2968625921009389
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.464965473926462
Error MAE:  0.5359341502189636
Puntuación R2:  0.38930870442852883
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.528329458807504
Error MAE:  0.56539714336395

Los resultados obtenidos se recogen en la siguiente tabla:

| Partición | MSE     | MAE     | R2      |
| :-------: | :-----: | :-----: | :-----: |
|  K = 1    | 0.49032 | 0.53974 | 0.35777 |
|  K = 2    | 0.53844 | 0.57266 | 0.30077 |
|  K = 3    | 0.53466 | 0.55338 | 0.29686 |
|  K = 4    | 0.46497 | 0.53593 | 0.38931 |
|  K = 5    | 0.52833 | 0.56540 | 0.30806 |
|  media    | 0.51043 | 0.55334 | 0.33056 |

Procedemos a repetir el experimento considerando 30 épocas:

In [26]:
# Establecer la semilla generadora de números aleatorios
seed = 7
np.random.seed(seed)

# Realizar particionamiento k-fold
kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=seed)

# Para computar la media de los errores
mse_loss_list = []
mae_score_list = []
r2_score_list = []

for train, test in kfold.split(X, y):
    model = model_MLP() # Cargar arquitectura
    model.compile(optimizer='rmsprop', loss='mse', metrics=['mae'])
    
    # Ajustar el modelo
    model.fit(X[train], y[train], epochs=30, verbose=True, batch_size=1)
    
    # Evaluar el modelo
    mse_loss, mae_score = model.evaluate(X[test], y[test])
    
    mse_loss_list.append(mse_loss)
    mae_score_list.append(mae_score)
    
    # Evaluar la puntuación R2
    y_pred = model.predict(X[test])
    r2 = r2_score(y[test], y_pred)
    
    r2_score_list.append(r2)
    
    # Mostrar la puntuación
    print('Error MSE: ', mse_loss)
    print('Error MAE: ', mae_score)
    print('Puntuación R2: ', r2)

# Mostrar puntuación media
print('Error MSE medio: ', sum(mse_loss_list)/5)
print('Error MAE medio: ', sum(mae_score_list)/5)
print('Puntuación R2 media: ', sum(r2_score_list)/5)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30
Error MSE:  0.49332691678634055
Error MAE:  0.5507293939590454
Puntuación R2:  0.35384124789291493
Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30
Error MSE:  0.5374394416809082
Error MAE:  0.5669806599617004
Puntuación R2:  0.29606273897991986
Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Ep

Considerando 30 épocas se obtuvieron los siguientes resultados


| Partición | MSE     | MAE     | R2      |
| :-------: | :-----: | :-----: | :-----: |
|  K = 1    | 0.49332 | 0.55073 | 0.35384 |
|  K = 2    | 0.53744 | 0.56698 | 0.29606 |
|  K = 3    | 0.53027 | 0.56850 | 0.30264 |
|  K = 4    | 0.58522 | 0.59624 | 0.23137 |
|  K = 5    | 0.52210 | 0.55641 | 0.31622 |
|  media    | 0.53367 | 0.56777 | 0.30027 |

Comparamos estos resultados con los obtenidos considerando 10 épocas:

| Épocas | MSE medio  | MAE medio | R2 medio |
| :----: | :--------: | :-------: | :------: |
|  10    | 0.51043 | 0.55334 | 0.33056 |
|  30    | 0.53367 | 0.56777 | 0.30027 |

Se observa que al incrementar el número de épocas de 10 a 30 el rendimiento del modelo empeora. La razón a este fenómeno se explicaría porque la ejecución de un mayor número de épocas permitiría al modelo iniciar y acentuar un sobreajuste a los datos de entrenamiento, con lo que disminuye su capacidad de generalización

### Incremento en el número de capas

A continuación, volvemos a repetir el primer conjunto de experimentos considerando una segunda capa oculta para la arquitectura del model

In [27]:
def model_deep_MLP():
    
    model = Sequential()
    
    # Primera capa oculta
    model.add(Dense(64, input_shape=(11,), activation='relu'))
    
    # Segunda capa oculta
    model.add(Dense(64, activation='relu'))
    
    # Tercera capa oculta
    model.add(Dense(1))
    
    return model

In [28]:
# Establecer la semilla generadora de números aleatorios
seed = 7
np.random.seed(seed)

# Realizar particionamiento k-fold
kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=seed)

# Para computar la media de los errores
mse_loss_list = []
mae_score_list = []
r2_score_list = []

for train, test in kfold.split(X, y):
    model = model_deep_MLP() # Cargar arquitectura
    model.compile(optimizer='rmsprop', loss='mse', metrics=['mae'])
    
    # Ajustar el modelo
    model.fit(X[train], y[train], epochs=10, verbose=True, batch_size=1)
    
    # Evaluar el modelo
    mse_loss, mae_score = model.evaluate(X[test], y[test])
    
    mse_loss_list.append(mse_loss)
    mae_score_list.append(mae_score)
    
    # Evaluar la puntuación R2
    y_pred = model.predict(X[test])
    r2 = r2_score(y[test], y_pred)
    
    r2_score_list.append(r2)
    
    # Mostrar la puntuación
    print('Error MSE: ', mse_loss)
    print('Error MAE: ', mae_score)
    print('Puntuación R2: ', r2)

# Mostrar puntuación media
print('Error MSE medio: ', sum(mse_loss_list)/5)
print('Error MAE medio: ', sum(mae_score_list)/5)
print('Puntuación R2 media: ', sum(r2_score_list)/5)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.4836191951770049
Error MAE:  0.5374965071678162
Puntuación R2:  0.3665563957203848
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.4998632975725027
Error MAE:  0.5456662178039551
Puntuación R2:  0.3452799095687381
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.5310557401804303
Error MAE:  0.5528169870376587
Puntuación R2:  0.30161018019227837
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.4709541430328331
Error MAE:  0.5368170738220215
Puntuación R2:  0.38144310480818033
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.4846808333136285
Error MAE:  0.5382589101

Considerando un mayor número de capas intermedias se obtienen los siguientes resultados:


| Partición | MSE     | MAE     | R2      |
| :-------: | :-----: | :-----: | :-----: |
|  K = 1    | 0.48362 | 0.53749 | 0.36656 |
|  K = 2    | 0.49986 | 0.54567 | 0.34528 |
|  K = 3    | 0.53106 | 0.55282 | 0.30161 |
|  K = 4    | 0.47095 | 0.53682 | 0.38144 |
|  K = 5    | 0.48487 | 0.53836 | 0.36522 |
|  media    | 0.49403 | 0.54221 | 0.35202 |

Comparamos estos resultados con los obtenidos considerando 10 épocas:

| Modelo    | MSE medio  | MAE medio | R2 medio |
| :-------: | :--------: | :-------: | :------: |
| Básico    | 0.51043    | 0.55334   | 0.33056  |
| Más capas | 0.49403    | 0.54221   | 0.35202  |

Se aprecia que, ante un mayor número de capas, el rendimiento del modelo mejora

### Incremento en el número de nodos

Se probará ahora, a desarrollar otro modelo basado en la primera arquitectura probando un mayor número de nodos en la capa intermedia

In [29]:
def model_larger_MLP():
    
    model = Sequential()
    
    # Primera capa oculta
    model.add(Dense(128, input_shape=(11,), activation='relu'))
    
    # Tercera capa oculta
    model.add(Dense(1))
    
    return model

In [30]:
# Establecer la semilla generadora de números aleatorios
seed = 7
np.random.seed(seed)

# Realizar particionamiento k-fold
kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=seed)

# Para computar la media de los errores
mse_loss_list = []
mae_score_list = []
r2_score_list = []

for train, test in kfold.split(X, y):
    model = model_larger_MLP() # Cargar arquitectura
    model.compile(optimizer='rmsprop', loss='mse', metrics=['mae'])
    
    # Ajustar el modelo
    model.fit(X[train], y[train], epochs=10, verbose=True, batch_size=1)
    
    # Evaluar el modelo
    mse_loss, mae_score = model.evaluate(X[test], y[test])
    
    mse_loss_list.append(mse_loss)
    mae_score_list.append(mae_score)
    
    # Evaluar la puntuación R2
    y_pred = model.predict(X[test])
    r2 = r2_score(y[test], y_pred)
    
    r2_score_list.append(r2)
    
    # Mostrar la puntuación
    print('Error MSE: ', mse_loss)
    print('Error MAE: ', mae_score)
    print('Puntuación R2: ', r2)

# Mostrar puntuación media
print('Error MSE medio: ', sum(mse_loss_list)/5)
print('Error MAE medio: ', sum(mae_score_list)/5)
print('Puntuación R2 media: ', sum(r2_score_list)/5)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.4839323749909034
Error MAE:  0.5371947288513184
Puntuación R2:  0.3661461944379417
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.5229738198793852
Error MAE:  0.5612230896949768
Puntuación R2:  0.31500978633545373
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.5227127542304846
Error MAE:  0.5497487187385559
Puntuación R2:  0.3125820084704902
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.4693372975504334
Error MAE:  0.5353826284408569
Puntuación R2:  0.3835666922989248
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.5360640251379549
Error MAE:  0.57356756925

Considerando un mayor número de nodos en la capa oculta se obtienen los siguientes resultados:


| Partición | MSE     | MAE     | R2      |
| :-------: | :-----: | :-----: | :-----: |
|  K = 1    | 0.48393 | 0.53719 | 0.36614 |
|  K = 2    | 0.52297 | 0.56122 | 0.31501 |
|  K = 3    | 0.52271 | 0.54975 | 0.31258 |
|  K = 4    | 0.46934 | 0.53538 | 0.38568 |
|  K = 5    | 0.53606 | 0.57357 | 0.29793 |
|  media    | 0.50700 | 0.55142 | 0.33505 |

Comparamos estos resultados con los obtenidos con el modelo original:

| Modelo       | MSE medio  | MAE medio | R2 medio |
| :----------: | :--------: | :-------: | :------: |
| Básico       | 0.51043    | 0.55334   | 0.33056  |
| Más unidades | 0.50700    | 0.55142   | 0.33505 |

En este caso, al incrementar el número de nodos, el rendimiento del nodo ha mejorado ligeramente.

Incrementar el número de nodos y/o el número de capas en la arquitectura resulta útil para permitir al modelo asimilar mayor cantidad de información del conjunto de datos de entrenamiento. No obstante, incrementar en exceso esta complejidad en la arquitectura puede tener 2 efectos negativos:

1. Incremento en el tiempo de cómputo necesario para entrenar el modelo y/o realizar prediciones con él.
2. Sobreajuste a los datos de entrenamiento (el modelo también aprendería el ruido contenido en el conjunto de datos), lo que perjudica a la capacidad de generalización del modelo.

### Reducción de la tasa de aprendizaje

Se prueba, a continuación, a desarrollar otra experimentación usando la arquitectura original, pero estableciendo una tasa de aprendizaje (*learning rate*) menor en el optimizador.

In [34]:
# Establecer la semilla generadora de números aleatorios
seed = 7
np.random.seed(seed)

# Cargar y configurar el optimizador
rmsprop = RMSprop(lr = 1e-4)

# Realizar particionamiento k-fold
kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=seed)

# Para computar la media de los errores
mse_loss_list = []
mae_score_list = []
r2_score_list = []

for train, test in kfold.split(X, y):
    model = model_MLP() # Cargar arquitectura
    model.compile(optimizer=rmsprop, loss='mse', metrics=['mae'])
    
    # Ajustar el modelo
    model.fit(X[train], y[train], epochs=10, verbose=True, batch_size=1)
    
    # Evaluar el modelo
    mse_loss, mae_score = model.evaluate(X[test], y[test])
    
    mse_loss_list.append(mse_loss)
    mae_score_list.append(mae_score)
    
    # Evaluar la puntuación R2
    y_pred = model.predict(X[test])
    r2 = r2_score(y[test], y_pred)
    
    r2_score_list.append(r2)
    
    # Mostrar la puntuación
    print('Error MSE: ', mse_loss)
    print('Error MAE: ', mae_score)
    print('Puntuación R2: ', r2)

# Mostrar puntuación media
print('Error MSE medio: ', sum(mse_loss_list)/5)
print('Error MAE medio: ', sum(mae_score_list)/5)
print('Puntuación R2 media: ', sum(r2_score_list)/5)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.5577689889761118
Error MAE:  0.5748510956764221
Puntuación R2:  0.26943512930575797
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.6654192352294922
Error MAE:  0.5957720279693604
Puntuación R2:  0.12843501856891215
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.602486112651869
Error MAE:  0.5830479860305786
Puntuación R2:  0.20767230615046184
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.5737642587791323
Error MAE:  0.5863515138626099
Puntuación R2:  0.24641105202662894
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.587994073403625
Error MAE:  0.5887799263

Con este descenso del *learning rate*, se han obtenido los siguientes resultados:


| Partición | MSE     | MAE     | R2      |
| :-------: | :-----: | :-----: | :-----: |
|  K = 1    | 0.55777 | 0.57485 | 0.26944 |
|  K = 2    | 0.66542 | 0.59577 | 0.12844 |
|  K = 3    | 0.60249 | 0.58305 | 0.20767 |
|  K = 4    | 0.57376 | 0.58635 | 0.24641 |
|  K = 5    | 0.58799 | 0.58877 | 0.22991 |
|  media    | 0.59749 | 0.58576 | 0.21637 |

Comparamos estos resultados con los obtenidos con el modelo original:

| Modelo       | MSE medio  | MAE medio | R2 medio |
| :----------: | :--------: | :-------: | :------: |
| Básico   | 0.51043    | 0.55334   | 0.33056  |
| Menor lr | 0.59749 | 0.58576 | 0.21637 |

Se aprecia que el rendimiento del modelo ha empeorado. Al disminuir la tasa de aprendizaje, el ajuste del modelo se desarrolla más lentamente, lo que provoca que el modelo necesite un mayor número de *epochs* para alcanzar el mismo óptimo local que el modelo original.

### Incremento de la tasa de aprendizaje

Por último, repetimos el experimento anterior incrementando el *learning rate*.

In [35]:
# Establecer la semilla generadora de números aleatorios
seed = 7
np.random.seed(seed)

# Cargar y configurar el optimizador
rmsprop = RMSprop(lr = 0.1)

# Realizar particionamiento k-fold
kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=seed)

# Para computar la media de los errores
mse_loss_list = []
mae_score_list = []
r2_score_list = []

for train, test in kfold.split(X, y):
    model = model_MLP() # Cargar arquitectura
    model.compile(optimizer=rmsprop, loss='mse', metrics=['mae'])
    
    # Ajustar el modelo
    model.fit(X[train], y[train], epochs=10, verbose=True, batch_size=1)
    
    # Evaluar el modelo
    mse_loss, mae_score = model.evaluate(X[test], y[test])
    
    mse_loss_list.append(mse_loss)
    mae_score_list.append(mae_score)
    
    # Evaluar la puntuación R2
    y_pred = model.predict(X[test])
    r2 = r2_score(y[test], y_pred)
    
    r2_score_list.append(r2)
    
    # Mostrar la puntuación
    print('Error MSE: ', mse_loss)
    print('Error MAE: ', mae_score)
    print('Puntuación R2: ', r2)

# Mostrar puntuación media
print('Error MSE medio: ', sum(mse_loss_list)/5)
print('Error MAE medio: ', sum(mae_score_list)/5)
print('Puntuación R2 media: ', sum(r2_score_list)/5)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.7717360491019029
Error MAE:  0.7002520561218262
Puntuación R2:  -0.010818599794694128
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.9207562952775221
Error MAE:  0.6823970079421997
Puntuación R2:  -0.20600501946983552
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.8406624231914817
Error MAE:  0.760441780090332
Puntuación R2:  -0.10555269586399119
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.9080526859049984
Error MAE:  0.7169714570045471
Puntuación R2:  -0.19264741485629866
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Error MSE:  0.8940473023151049
Error MAE:  0.7443

Con este descenso del *learning rate*, se han obtenido los siguientes resultados:


| Partición | MSE     | MAE     | R2      |
| :-------: | :-----: | :-----: | :-----: |
|  K = 1    | 0.77174 | 0.70025 | -0.01081 |
|  K = 2    | 0.92076 | 0.68240 | -0.20601 |
|  K = 3    | 0.84066 | 0.76044 | -0.10556 |
|  K = 4    | 0.90805 | 0.71697 | -0.19265 |
|  K = 5    | 0.89405 | 0.74436 | -0.17091 |
|  media    | 0.86705 | 0.72088 | -0.13719 |

Comparamos estos resultados con los obtenidos con el modelo original:

| Modelo       | MSE medio  | MAE medio | R2 medio |
| :----------: | :--------: | :-------: | :------: |
| Básico   | 0.51043    | 0.55334   | 0.33056  |
| Mayor lr | 0.86705 | 0.72088 | -0.13719 |

Con bastante diferencia, se aprecia que el rendimiento del modelo ha empeorado respecto del modelo original y de los modelos anteriores.
Incrementar el *learning rate* en exceso povocaría oscilaciones en el ajuste del modelo que impedirían al mismo avanzar en la dirección del gradiente hacia los parámetros más óptimos.

De todos los modelos tratados, se concluye que el modelo con mayor número de capas intermedias presenta un rendimiento superior al resto.

# Clasificación del riesgo de abandono de los clientes de un banco

Ahora trataremos el uso de la redes neuronales *MLP* sobre un segundo problema: **La clasificación del riesgo de abandono de los clientes de un banco**.

Dado un *dataset* que recoge datos personales y bancarios de 10000 clientes, se pretende predecir si existe o no riesgo de abandono de estos clientes al banco al que pertenecen.

## Carga del *dataset*

Procedemos, en primer lugar, a cargar el *dataset*:

In [3]:
# Cargar el dataset
clients = pd.read_csv('Churn_Modelling.csv')

## Análisis exploratorio de datos

Analizamos brevemente el *dataset* cargado para obtener información preliminar sobre su estructura.

Conocer el tipo de dato de cada variable:

In [5]:
clients.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
RowNumber          10000 non-null int64
CustomerId         10000 non-null int64
Surname            10000 non-null object
CreditScore        10000 non-null int64
Geography          10000 non-null object
Gender             10000 non-null object
Age                10000 non-null int64
Tenure             10000 non-null int64
Balance            10000 non-null float64
NumOfProducts      10000 non-null int64
HasCrCard          10000 non-null int64
IsActiveMember     10000 non-null int64
EstimatedSalary    10000 non-null float64
Exited             10000 non-null int64
dtypes: float64(2), int64(9), object(3)
memory usage: 1.1+ MB


Calcular estadísticos básicos sobre cada variable numérica

In [6]:
clients.describe()

Unnamed: 0,RowNumber,CustomerId,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,5000.5,15690940.0,650.5288,38.9218,5.0128,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,2886.89568,71936.19,96.653299,10.487806,2.892174,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,1.0,15565700.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,2500.75,15628530.0,584.0,32.0,3.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,5000.5,15690740.0,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,7500.25,15753230.0,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0
max,10000.0,15815690.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0


Visualizar las 5 primeras filas del *dataset*

In [7]:
clients.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


## Preprocesamiento del *dataset*

A continuación, preprocesamos el *dataset* y lo particionaremos en los subconjuntos de entrenamiento y test.

Primeramente, separamos los datos de la etiqueta que se pretende predecir (*Exited*).Por otra parte, en los datos excluiremos las variables *row_number* y *CustomerId* al no resultar útiles para la predición.

In [11]:
X = clients.iloc[:,3:13].values
y = clients['Exited'].values

# Mostrar el conjunto de datos
X

array([[619, 'France', 'Female', ..., 1, 1, 101348.88],
       [608, 'Spain', 'Female', ..., 0, 1, 112542.58],
       [502, 'France', 'Female', ..., 1, 0, 113931.57],
       ...,
       [709, 'France', 'Female', ..., 0, 1, 42085.58],
       [772, 'Germany', 'Male', ..., 1, 0, 92888.52],
       [792, 'France', 'Female', ..., 1, 0, 38190.78]], dtype=object)

Algunas de las variables del *dataset* constituyen variables categóricas que no pueden ser tratadas por las redes *MLP* de forma directa.

Se hace necesario **binarizar** estas variables categóricas (convertir cada variable categórica en tantas variables binarias como valores diferentes presente, establecer a 1 la variable binaria correspondiente al valor de la variable categórica original y establecer el resto de valores a 0). Ello se ejecutará con la utilidad *LabelEncoder*

In [12]:
# Binarizamos cada una de las variables categóricas
label_encoder_1 = LabelEncoder()
X[:, 1] = label_encoder_1.fit_transform(X[:, 1])

label_encoder_2 = LabelEncoder()
X[:, 2] = label_encoder_2.fit_transform(X[:, 2])

Dividimos el conjunto de entrenamiento en dos subconjuntos: *train* y *test*, reservando el 20% de las instancias para el conjunto de test.

In [18]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

Para terminar el preprocesamiento, **normalizamos** todas las variables del *dataset*:

In [20]:
scaler = StandardScaler()

X_train = scaler.fit_transform(X_train) # Normalizar variables del conjunto de train
X_test = scaler.transform(X_test)        # Normalizar variables del conjunto de test

## Entrenamiento de modelos

Una vez preprocesados los datos, procedemos a definir la arquitectura del modelo y a ejecutar el entrenamiento.

In [21]:
def model_clients_MLP():
    
    model = Sequential()
    
    # Primera capa oculta
    model.add(Dense(6, activation='relu', input_shape=(10,)))
    
    # Segunda capa oculta
    model.add(Dense(6, activation='relu'))
    
    # Tercera capa oculta
    model.add(Dense(1, activation='sigmoid'))
    
    return model

In [22]:
# Preparar la arquitectura
model_clients = model_clients_MLP()
model_clients.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

Ejecutar el entrenamiento:

In [41]:
model_clients.fit(X_train, y_train, epochs=100, batch_size=1, verbose=True)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 80/100
Epoch 81/100
Epoch 82/100
Epoch 83/100
Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<keras.callbacks.callbacks.History at 0x7f86135a51d0>

Evaluamos el modelo:

In [42]:
y_pred = model_clients.predict(X_test, verbose=True)
y_pred = (y_pred>=0.5).astype('int64').squeeze()

# Evaluar la puntuación
score = model_clients.evaluate(X_test, y_test, verbose=True)

print('Accuracy del modelo: ', score[1])
print('Loss del modelo: ', score[0])

# Calcular la matriz de confusión
conf = confusion_matrix(y_test, y_pred)
print('Matriz de confusión:')
print(conf)

# Precisión del modelo
print('Precisión del modelo: {}'.format(precision_score(y_test, y_pred)))

# Recall del modelo
print('Recall del modelo: {}'.format(recall_score(y_test, y_pred)))

# F1-score del modelo
print('F1-score del modelo: {}'.format(f1_score(y_test, y_pred)))

# Cohen's kappa del modelo
print('Métrica Cohen\'s kappa del modelo: {}'.format(cohen_kappa_score(y_test, y_pred)))

Accuracy del modelo:  0.19200000166893005
Loss del modelo:  51571.4255
Matriz de confusión:
[[   0 1616]
 [   0  384]]
Precisión del modelo: 0.192
Recall del modelo: 1.0
F1-score del modelo: 0.32214765100671144
Métrica Cohen's kappa del modelo: 0.0


Observamos que el rendimiento de este modelo es pésimo, se ha obtenido un clasificador trivial que clasifica todos los patrones como pertenencientes a la clase negativa. Analizando la evolución de las métricas de *accuracy* y *loss* medidas sobre el conjunto de entrenamiento, percibimos **ciertos efectos oscilatorios** durante el entrenamiento del modelo.

Repetimos el entrenamiento con la anterior arquitectura considerando un valor de *learning rate* de $10^{-5}$ para el optimizador Adam.

In [46]:
# Preparar la arquitectura
model_clients2 = model_clients_MLP()
model_clients2.compile(optimizer=Adam(lr=1e-5), loss='binary_crossentropy', metrics=['accuracy'])

# Entrenar el modelo
model_clients2.fit(X_train, y_train, epochs=100, batch_size=1, verbose=True)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 80/100
Epoch 81/100
Epoch 82/100
Epoch 83/100
Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<keras.callbacks.callbacks.History at 0x7f8611c567b8>

In [47]:
y_pred = model_clients2.predict(X_test, verbose=True)
y_pred = (y_pred>=0.5).astype('int64').squeeze()

# Evaluar la puntuación
score = model_clients2.evaluate(X_test, y_test, verbose=True)

print('Accuracy del modelo: ', score[1])
print('Loss del modelo: ', score[0])

# Calcular la matriz de confusión
conf = confusion_matrix(y_test, y_pred)
print('Matriz de confusión:')
print(conf)

# Precisión del modelo
print('Precisión del modelo: {}'.format(precision_score(y_test, y_pred)))

# Recall del modelo
print('Recall del modelo: {}'.format(recall_score(y_test, y_pred)))

# F1-score del modelo
print('F1-score del modelo: {}'.format(f1_score(y_test, y_pred)))

# Cohen's kappa del modelo
print('Métrica Cohen\'s kappa del modelo: {}'.format(cohen_kappa_score(y_test, y_pred)))

Accuracy del modelo:  0.737500011920929
Loss del modelo:  2604.3631162109373
Matriz de confusión:
[[1407  209]
 [ 316   68]]
Precisión del modelo: 0.24548736462093862
Recall del modelo: 0.17708333333333334
F1-score del modelo: 0.20574886535552195
Métrica Cohen's kappa del modelo: 0.053426416074081495


Observamos que el descenso de este *learning rate* ha permitido incrementar en gran medida el rendimiento del modelo.