
## CLASIFICACIÓN DEL RIESGO DE ABANDONO DE LOS CLIENTES DE UN BANCO

El conjunto de datos con el que vamos a trabajar ahora contiene información sobre los usuarios de un banco. Queremos predecir si los clientes van a dejar de usar los servicios de dicho banco o no. El conjunto de datos consta de 10000 observaciones y 14 variables.

La siguiente figura indica cómo cargar el conjunto de Datos:

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [2]:
dataset = pd.read_csv('Churn_Modelling.csv')

In [3]:
dataset.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


Creamos una matriz con las variables de entrada y otra matriz con la variable de salida (objetivo, columna 14). Excluiremos la columna 1 y 2 que son ‘row_number’ y ‘customerid’ ya que no nos aportan información útil para el análisis.

In [4]:
X = dataset.iloc[:,3:13].values

In [5]:
X[0:4]

array([[619, 'France', 'Female', 42, 2, 0.0, 1, 1, 1, 101348.88],
       [608, 'Spain', 'Female', 41, 1, 83807.86, 1, 0, 1, 112542.58],
       [502, 'France', 'Female', 42, 8, 159660.8, 3, 1, 0, 113931.57],
       [699, 'France', 'Female', 39, 1, 0.0, 2, 0, 0, 93826.63]],
      dtype=object)

In [6]:
y = dataset.iloc[:,13].values

Vamos a hacer el análisis más sencillo si codificamos las variables no numéricas. Country contiene los valores: ’France, Spain, Germany’ y Gender: ‘Male, Female’. La manera de codificarlo será convertir estas palabras a valores numéricos. Para esto usaremos la función LabelEncoder, de la librería ‘ScikitLearn’, que al darle una cadena de texto nos devuelve valores entre 0 y n_clases-1.

In [7]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X_1 = LabelEncoder()
X[:, 1] = labelencoder_X_1.fit_transform(X[:, 1])
labelencoder_X_2 = LabelEncoder()
X[:, 2] = labelencoder_X_2.fit_transform(X[:, 2])

In [8]:
X

array([[619, 0, 0, ..., 1, 1, 101348.88],
       [608, 2, 0, ..., 0, 1, 112542.58],
       [502, 0, 0, ..., 1, 0, 113931.57],
       ...,
       [709, 0, 0, ..., 0, 1, 42085.58],
       [772, 1, 1, ..., 1, 0, 92888.52],
       [792, 0, 0, ..., 1, 0, 38190.78]], dtype=object)

Observamos que Country ahora toma valores del 0 al 2 mientras que male y female fueron reemplazados por 0 y 1.

Usaremos la función train_test_split de la librería ScikitLearn para dividir nuestros datos.

Usaremos 80% para entrenar el modelo y 20% para validarlo.

In [9]:
from sklearn.model_selection import train_test_split

In [10]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

In [11]:
X_train, X_test, y_train, y_test

(array([[709, 1, 1, ..., 1, 0, 145251.35],
        [786, 2, 0, ..., 1, 0, 117034.32],
        [648, 1, 0, ..., 1, 0, 190994.48],
        ...,
        [666, 0, 0, ..., 1, 0, 50908.48],
        [695, 0, 0, ..., 1, 1, 141756.32],
        [595, 1, 1, ..., 1, 0, 48421.4]], dtype=object),
 array([[684, 0, 1, ..., 1, 1, 71725.73],
        [447, 0, 0, ..., 1, 1, 151815.76],
        [485, 1, 1, ..., 1, 0, 51113.14],
        ...,
        [660, 0, 1, ..., 1, 0, 13218.6],
        [550, 0, 1, ..., 1, 1, 133501.94],
        [585, 0, 1, ..., 1, 1, 55346.14]], dtype=object),
 array([0, 0, 1, ..., 0, 0, 1]),
 array([0, 0, 0, ..., 0, 0, 0]))

Si observamos los datos detenidamente podemos apreciar que hay variables cuyos valores pueden
ser muy variados, desde muy altos a muy pequeños por esta razón escalaremos los datos.

In [12]:
from sklearn.preprocessing import StandardScaler

In [13]:
sc = StandardScaler()

In [14]:
X_train = sc.fit_transform(X_train)

In [15]:
X_test = sc.transform(X_test)

In [16]:
X_train, X_test, y_train, y_test

(array([[ 0.60628195,  0.29962659,  0.91094795, ...,  0.64959174,
         -1.03797037,  0.78365451],
        [ 1.41054777,  1.50234244, -1.09775756, ...,  0.64959174,
         -1.03797037,  0.29178878],
        [-0.0308637 ,  0.29962659, -1.09775756, ...,  0.64959174,
         -1.03797037,  1.58102679],
        ...,
        [ 0.15714649, -0.90308927, -1.09775756, ...,  0.64959174,
         -1.03797037, -0.86088511],
        [ 0.4600518 , -0.90308927, -1.09775756, ...,  0.64959174,
          0.96341863,  0.72273082],
        [-0.58444927,  0.29962659,  0.91094795, ...,  0.64959174,
         -1.03797037, -0.9042387 ]]),
 array([[ 0.34515668, -0.90308927,  0.91094795, ...,  0.64959174,
          0.96341863, -0.49800881],
        [-2.13031084, -0.90308927, -1.09775756, ...,  0.64959174,
          0.96341863,  0.89808215],
        [-1.73340044,  0.29962659,  0.91094795, ...,  0.64959174,
         -1.03797037, -0.85731758],
        ...,
        [ 0.09447643, -0.90308927,  0.91094795, ...,  

Una vez escalados los datos, pasamos a construir la red neuronal. Importamos Keras, usamos el módulo Sequential para inicializar la red y el modelo Dense para añadir capas ocultas.

In [19]:
import tensorflow as tf

from tensorflow.keras.layers import Dense
from tensorflow.keras import Model, Sequential

Inicializamos la red con Sequential().

In [20]:
classifier = Sequential()

Añadimos las capas usando la función Dense. Indicamos el número de nodos que queremos añadir con output_dim, Init es la inicialización del descenso de gradiente estocástico. Los pesos iniciales serán una variable aleatoria uniforme. Input_dim sólo es necesaria en la primera capa para que el modelo sepa la cantidad de variables que va a recibir, en nuestro caso 11. A partir de aquí las siguientes capas heredarán esta cualidad de la primera capa. La función de activación que utilizaremos será relu en las dos primeras capas (cuanto más cerca tenga su valor a 1, la neurona estará más activada y tendrá más interacción) y en la capa final hemos utilizado la función sigmoide ya que nuestro objetivo es clasificar.

Una vez que tenemos la configuración específica de la red, la siguiente tarea es compilarla, para eso utilizamos la función Compile. El primer argumento de esta función es Optimizer que indica el método para entrenar los pesos. Adam es un algoritmo que se basa en el cálculo del descenso del Gradiente Estocástico. El segundo parámetro es loss, este usará la función ‘binary_crossentropy’ para clasificar en 2 categorías. Si tuviéramos más categorías utilizaríamos la función ‘categorical_crossentropy’. Para saber la bondad de nuestra red neuronal utilizaremos la métrica accuracy.

In [21]:
classifier.add(Dense(6, activation = 'relu', input_shape = (10,)))

In [22]:
classifier.add(Dense(6, activation = 'relu'))

In [23]:
classifier.add(Dense(1, activation = 'sigmoid'))

In [24]:
classifier.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy']) 

Usaremos la función fit para ajustar los pesos de la red. Batch_size para especificar el número de observaciones que necesita entrenar antes de actualizar los pesos. Epoch nos indica el número de iteraciones que realizaremos en el entrenamiento. La estimación de estos parámetros se tiene que hacer por ensayo-error, probando con diferentes valores.

In [None]:
classifier.fit(X_train, y_train, epochs=100, batch_size=1, verbose=1)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100

Para realizar la predicción sobre nuestro conjunto de test lo haremos mediante la siguiente expresión:

In [24]:
y_pred = classifier.predict(X_test)

In [25]:
y_pred = (y_pred > 0.5)

La predicción nos proporcionará la probabilidad de pertenecer a un grupo u otro, de tal manera que aquellos valores mayores que 0.5 serán 1 y el resto 0.

Creamos una matriz de confusión y vemos los resultados:

In [26]:
from sklearn.metrics import confusion_matrix

In [27]:
cm = confusion_matrix(y_test, y_pred)
cm

array([[1533,   54],
       [ 206,  207]])

In [28]:
import sklearn.metrics as metrics
print(metrics.classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.88      0.97      0.92      1587
           1       0.79      0.50      0.61       413

   micro avg       0.87      0.87      0.87      2000
   macro avg       0.84      0.73      0.77      2000
weighted avg       0.86      0.87      0.86      2000

