
## CLASIFICACIÓN DEL RIESGO DE ABANDONO DE LOS CLIENTES DE UN BANCO

El conjunto de datos con el que vamos a trabajar ahora contiene información sobre los usuarios de un banco. Queremos predecir si los clientes van a dejar de usar los servicios de dicho banco o no. El conjunto de datos consta de 10000 observaciones y 14 variables.

La siguiente figura indica cómo cargar el conjunto de Datos:

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
dataset = pd.read_csv('C:/Users/Usuario/Downloads\Churn_Modelling.csv')

In [None]:
dataset.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


Creamos una matriz con las variables de entrada y otra matriz con la variable de salida (objetivo, columna 14). Excluiremos la columna 1 y 2 que son ‘row_number’ y ‘customerid’ ya que no nos aportan información útil para el análisis.

In [None]:
X = dataset.iloc[:,3:13].values

In [None]:
X[0:4]

array([[619, 'France', 'Female', 42, 2, 0.0, 1, 1, 1, 101348.88],
       [608, 'Spain', 'Female', 41, 1, 83807.86, 1, 0, 1, 112542.58],
       [502, 'France', 'Female', 42, 8, 159660.8, 3, 1, 0, 113931.57],
       [699, 'France', 'Female', 39, 1, 0.0, 2, 0, 0, 93826.63]],
      dtype=object)

In [None]:
y = dataset.iloc[:,13].values

Vamos a hacer el análisis más sencillo si codificamos las variables no numéricas. Country contiene los valores: ’France, Spain, Germany’ y Gender: ‘Male, Female’. La manera de codificarlo será convertir estas palabras a valores numéricos. Para esto usaremos la función LabelEncoder, de la librería ‘ScikitLearn’, que al darle una cadena de texto nos devuelve valores entre 0 y n_clases-1.

In [None]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X_1 = LabelEncoder()
X[:, 1] = labelencoder_X_1.fit_transform(X[:, 1])
labelencoder_X_2 = LabelEncoder()
X[:, 2] = labelencoder_X_2.fit_transform(X[:, 2])

In [None]:
X

array([[619, 0, 0, ..., 1, 1, 101348.88],
       [608, 2, 0, ..., 0, 1, 112542.58],
       [502, 0, 0, ..., 1, 0, 113931.57],
       ...,
       [709, 0, 0, ..., 0, 1, 42085.58],
       [772, 1, 1, ..., 1, 0, 92888.52],
       [792, 0, 0, ..., 1, 0, 38190.78]], dtype=object)

Observamos que Country ahora toma valores del 0 al 2 mientras que male y female fueron reemplazados por 0 y 1.

Usaremos la función train_test_split de la librería ScikitLearn para dividir nuestros datos.

Usaremos 80% para entrenar el modelo y 20% para validarlo.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

In [None]:
X_train, X_test, y_train, y_test

(array([[550, 0, 1, ..., 1, 1, 184221.11],
        [554, 1, 0, ..., 0, 1, 140003.0],
        [651, 0, 1, ..., 1, 0, 13898.31],
        ...,
        [745, 0, 1, ..., 1, 0, 146041.45],
        [554, 0, 0, ..., 1, 0, 32824.15],
        [850, 0, 1, ..., 1, 0, 31288.77]], dtype=object),
 array([[544, 2, 1, ..., 1, 1, 80676.83],
        [635, 1, 0, ..., 1, 1, 156791.36],
        [680, 0, 1, ..., 1, 0, 164119.35],
        ...,
        [687, 2, 0, ..., 1, 1, 154767.34],
        [691, 1, 0, ..., 1, 0, 107665.02],
        [609, 1, 1, ..., 0, 1, 171430.16]], dtype=object),
 array([0, 1, 0, ..., 0, 0, 0], dtype=int64),
 array([0, 0, 0, ..., 0, 0, 0], dtype=int64))

Si observamos los datos detenidamente podemos apreciar que hay variables cuyos valores pueden
ser muy variados, desde muy altos a muy pequeños por esta razón escalaremos los datos.

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
sc = StandardScaler()

In [None]:
X_train = sc.fit_transform(X_train)

In [None]:
X_test = sc.transform(X_test)

In [None]:
X_train, X_test, y_train, y_test

(array([[-1.03625368, -0.90067582,  0.91255717, ...,  0.64959174,
          0.970194  ,  1.46976231],
        [-0.99501955,  0.30565376, -1.09582175, ..., -1.53942844,
          0.970194  ,  0.70016316],
        [ 0.00490815, -0.90067582,  0.91255717, ...,  0.64959174,
         -1.0307217 , -1.49464035],
        ...,
        [ 0.97391025, -0.90067582,  0.91255717, ...,  0.64959174,
         -1.0307217 ,  0.80526005],
        [-0.99501955, -0.90067582, -1.09582175, ...,  0.64959174,
         -1.0307217 , -1.1652434 ],
        [ 2.05630622, -0.90067582,  0.91255717, ...,  0.64959174,
         -1.0307217 , -1.1919661 ]]),
 array([[-1.09810488,  1.51198333,  0.91255717, ...,  0.64959174,
          0.970194  , -0.33238596],
        [-0.16002838,  0.30565376, -1.09582175, ...,  0.64959174,
          0.970194  ,  0.99235809],
        [ 0.30385561, -0.90067582,  0.91255717, ...,  0.64959174,
         -1.0307217 ,  1.11989893],
        ...,
        [ 0.37601534,  1.51198333, -1.09582175, ...,  

Una vez escalados los datos, pasamos a construir la red neuronal. Importamos Keras, usamos el módulo Sequential para inicializar la red y el modelo Dense para añadir capas ocultas.

In [None]:
import tensorflow as tf

from tensorflow.keras.layers import Dense
from tensorflow.keras import Model, Sequential

Inicializamos la red con Sequential().

In [None]:
classifier = Sequential()

Añadimos las capas usando la función Dense. Indicamos el número de nodos que queremos añadir con output_dim, Init es la inicialización del descenso de gradiente estocástico. Los pesos iniciales serán una variable aleatoria uniforme. Input_dim sólo es necesaria en la primera capa para que el modelo sepa la cantidad de variables que va a recibir, en nuestro caso 11. A partir de aquí las siguientes capas heredarán esta cualidad de la primera capa. La función de activación que utilizaremos será relu en las dos primeras capas (cuanto más cerca tenga su valor a 1, la neurona estará más activada y tendrá más interacción) y en la capa final hemos utilizado la función sigmoide ya que nuestro objetivo es clasificar.

Una vez que tenemos la configuración específica de la red, la siguiente tarea es compilarla, para eso utilizamos la función Compile. El primer argumento de esta función es Optimizer que indica el método para entrenar los pesos. Adam es un algoritmo que se basa en el cálculo del descenso del Gradiente Estocástico. El segundo parámetro es loss, este usará la función ‘binary_crossentropy’ para clasificar en 2 categorías. Si tuviéramos más categorías utilizaríamos la función ‘categorical_crossentropy’. Para saber la bondad de nuestra red neuronal utilizaremos la métrica accuracy.

In [None]:
classifier.add(Dense(6, activation = 'relu', input_shape = (10,)))

In [None]:
classifier.add(Dense(6, activation = 'relu'))

In [None]:
classifier.add(Dense(1, activation = 'sigmoid'))

In [None]:
classifier.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])

Usaremos la función fit para ajustar los pesos de la red. Batch_size para especificar el número de observaciones que necesita entrenar antes de actualizar los pesos. Epoch nos indica el número de iteraciones que realizaremos en el entrenamiento. La estimación de estos parámetros se tiene que hacer por ensayo-error, probando con diferentes valores.

In [None]:
classifier.fit(X_train, y_train, epochs=100, batch_size=1, verbose=1)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.callbacks.History at 0x2505247ccd0>

##### Anotación: El modelo alcanza casi el máximo rendimiento a las 25 iteraciones más o menos

Para realizar la predicción sobre nuestro conjunto de test lo haremos mediante la siguiente expresión:

In [None]:
y_pred = classifier.predict(X_test)



In [None]:
y_pred = (y_pred > 0.5)

La predicción nos proporcionará la probabilidad de pertenecer a un grupo u otro, de tal manera que aquellos valores mayores que 0.5 serán 1 y el resto 0.

Creamos una matriz de confusión y vemos los resultados:

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
cm = confusion_matrix(y_test, y_pred)
cm

array([[1522,   86],
       [ 185,  207]], dtype=int64)

In [None]:
import sklearn.metrics as metrics
print(metrics.classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.89      0.95      0.92      1608
           1       0.71      0.53      0.60       392

    accuracy                           0.86      2000
   macro avg       0.80      0.74      0.76      2000
weighted avg       0.86      0.86      0.86      2000



### Pruebas con diferentes parámetros

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score, cohen_kappa_score

epocas = [10, 25]
neuronas = [6, 12]
df = pd.DataFrame(columns=[])
for i in range(len(epocas)):
    for j in range(len(neuronas)):
        classifier_2 = Sequential()
        classifier_2.add(Dense(neuronas[j], activation = 'relu', input_shape = (10,)))
        classifier_2.add(Dense(neuronas[j], activation = 'relu'))
        classifier_2.add(Dense(neuronas[j], activation = 'relu'))
        classifier_2.add(Dense(1, activation = 'sigmoid'))
        classifier_2.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])
        classifier_2.fit(X_train, y_train, epochs=epocas[i], batch_size=1, verbose=0)
        y_pred = classifier_2.predict(X_test)
        y_pred = (y_pred > 0.5)


        datos = {
        'Número de capas ocultas': 2,
        'Unidades ocultas por capa': neuronas[j],
        'Tipo de capas': 'Dense',
        'Iteraciones (Épocas)': epocas[i],
        'Batch size': 1,
        'Función de activación': 'ReLU',
        'Precisión': precision_score(y_test, y_pred),
        'F1': f1_score(y_test,y_pred),
        'Recall': recall_score(y_test, y_pred),
        'Coeficiente kappa': cohen_kappa_score(y_test, y_pred)
        }

        datos = pd.DataFrame([datos])
        df = pd.concat([df, datos], ignore_index=True)

print(df)

   Número de capas ocultas  Unidades ocultas por capa Tipo de capas  \
0                        2                          6         Dense   
1                        2                         12         Dense   
2                        2                          6         Dense   
3                        2                         12         Dense   

   Iteraciones (Épocas)  Batch size Función de activación  Precisión  \
0                    10           1                  ReLU   0.741803   
1                    10           1                  ReLU   0.750000   
2                    25           1                  ReLU   0.706107   
3                    25           1                  ReLU   0.789474   

         F1    Recall  Coeficiente kappa  
0  0.569182  0.461735           0.492923  
1  0.569620  0.459184           0.494349  
2  0.565749  0.471939           0.484850  
3  0.549085  0.420918           0.477914  


De lo aprendido en los guiones anteriores, se ha incrementado el número de capas ocultas (2) así como el número de neuronas (12). Como función de activación se ha mantenido la ReLU y se han utilizado 2 valores distintos para las iteraciones (Épocas) para poder ver la diferencia en el rendimiento. El resultado es que el modelo con mayor número de neuronas y cantidad de iteraciones ha obtenido el mejor rendimiento de todos, obteniendo una precisión del 80% prácticamente pese a tener la peor recuperación, esto indica que este modelo se ha sobreajustado un poco. Se deberían hacer más pruebas para encontrar un equilibrio entre recuperación y precisión y que así el modelo fuese efectivo al usar nuevos conjuntos de datos.