In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [2]:
#GPU > CPU (more cores)

# Part 1 - Data Preprocessing

## Importar Dataset

In [2]:
# Import dataset
dataset = pd.read_csv("../datasets/churn/Churn_Modelling.csv")

In [3]:
dataset.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [4]:
dataset.columns.values

array(['RowNumber', 'CustomerId', 'Surname', 'CreditScore', 'Geography',
       'Gender', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'HasCrCard',
       'IsActiveMember', 'EstimatedSalary', 'Exited'], dtype=object)

In [5]:
# We'll not include the columns "RowNumber, CustomerId, Surname" (columns 0, 1, 2 starting with the number 0)
# Se incluirán los índices del 3 al 12
X = dataset.iloc[:, 3:13].values # No toma el último límite (13)
y = dataset.iloc[:, 13].values # Variable independiente (Clase binaria)

In [6]:
type(X)

numpy.ndarray

In [7]:
print(X)

[[619 'France' 'Female' ... 1 1 101348.88]
 [608 'Spain' 'Female' ... 0 1 112542.58]
 [502 'France' 'Female' ... 1 0 113931.57]
 ...
 [709 'France' 'Female' ... 0 1 42085.58]
 [772 'Germany' 'Male' ... 1 0 92888.52]
 [792 'France' 'Female' ... 1 0 38190.78]]


## Encoding Datos Categóricos

In [8]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

In [9]:
# Vamos a encodear los países para que se muestren cómo números (1,2,3...) en vez de sus nombres
labelencoder_X_1 = LabelEncoder()

In [10]:
# Tomamos la columna "Geography" con la posición "4" del dataset pero en la posición 1 de "X"
X[:,1] = labelencoder_X_1.fit_transform(X[:,1])

In [11]:
print(X) #0: France, 1: Germany, 2: Spain

[[619 0 'Female' ... 1 1 101348.88]
 [608 2 'Female' ... 0 1 112542.58]
 [502 0 'Female' ... 1 0 113931.57]
 ...
 [709 0 'Female' ... 0 1 42085.58]
 [772 1 'Male' ... 1 0 92888.52]
 [792 0 'Female' ... 1 0 38190.78]]


In [12]:
# Encodear columna de Género (posición 2 en array "X")
labelencoder_X_2 = LabelEncoder()

In [13]:
X[:,2] = labelencoder_X_2.fit_transform(X[:,2])

In [14]:
print(X[:,2]) # 0: Mujer, 1: Hombre

[0 0 0 ... 0 1 0]


### Dummy Variables

Ya que no hay un orden categórico entre los paises (Alemania no está más alto que españa, o más bajo o cualquier otro ejemplo con ellos) es que deberemos crear Dummy variables 

In [15]:
onehotencoder = OneHotEncoder(categorical_features = [1]) #Columna 1 de Geography. [1] es el index

In [16]:
X = onehotencoder.fit_transform(X).toarray() # Hará onehotencoder sobre el index indicado arriba

In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


In [17]:
# Imprimir cantidad de decimales específicos print(np.around(randomArray,3))
print([int(x) for x in X[0,:]]) # Primera fila del narray con el país de Francia

[1, 0, 0, 619, 0, 42, 2, 0, 1, 1, 1, 101348]


Observamos que onehotcodea la columna de "Geography" y agrega un array en la posición 0 del array donde se encuentra el OneHotEncode realizado.

In [18]:
print([int(x) for x in X[1,:]]) # España
print([int(x) for x in X[9998,:]]) # Alemania

[0, 0, 1, 608, 0, 41, 1, 83807, 1, 0, 1, 112542]
[0, 1, 0, 772, 1, 42, 3, 75075, 2, 1, 0, 92888]


### Dummy Variable Trap

* La solución a la **"Trampa de Variables Ficticias"** es descartar una de las variables categóricas (o, alternativamente, descartar la constante de intercepción): si hay m número de categorías, use m-1 en el modelo, el valor dejado de lado puede considerarse como "El valor de referencia" y los valores de ajuste de las categorías restantes representan el cambio de esta referencia.

* Sin embargo, al incluir la variable ficticia en un modelo de regresión, se debe tener cuidado con la trampa de la variable ficticia. La trampa de variables ficticias es un escenario en el que las variables independientes son multicolineales, un escenario en el que dos o más variables están altamente correlacionadas; En términos simples, una variable puede predecirse a partir de las otras.

* En nuestro caso eliminaremos la primera columna en la cual si había un "1" en ella significaba que el país de la fila era Francia. ¿Qué ocurre al eliminar esta columna? Todas las filas que correspondan a Francia se representarán con "0 - 0" en vez de hacerlo con "1 - 0 - 0" cuando realizabamos One Hot Encode ya que ahora tenemos una columna menos.

* Por lo tanto, para prevenir el *Dummy Variable Trap* eliminamos una columna y los paises quedarían representados de la siguiente manera:


    * France:  0 0
    * Germany: 1 0
    * Spain:   0 1

In [19]:
# Tomo todas las filas pero guardo desde la columna 1 hasta la última. No se toma en cuenta la columna 0
X = X[:, 1:] 

In [20]:
print([int(x) for x in X[0,:]])

[0, 0, 619, 0, 42, 2, 0, 1, 1, 1, 101348]


## Dividir el dataset en entrenamiento y prueba

In [21]:
from sklearn.model_selection import train_test_split

In [22]:
# 80% entrenamiento, 20% prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0) 

## Feature Scaling / Estandarización

In [23]:
from sklearn.preprocessing import StandardScaler

In [24]:
sc = StandardScaler()

In [25]:
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [26]:
print([x for x in X_train[0,:]]) # Datos estandarizados

[-0.5698443964785871, 1.7430904917395806, 0.16958176236487257, -1.0916871447067054, -0.4646079607618638, 0.006660987606337193, -1.2157174870472267, 0.8095028981551202, 0.6425949687704583, -1.032270427743097, 1.1064316603959783]


# Part 2 - Create the ANN (Adding Layers)

In [28]:
import keras

In [29]:
from keras.models import Sequential
from keras.layers import Dense

In [30]:
# Se debe iniciarlizar el modelo como una secuencia de layers o como un grafo

# Inicializando la ANN creando el modelo que será un modelo de clasificación
classifier = Sequential() # Se crea un objeto como una secuencia de capas

In [31]:
# Ahora se deben agregar las capas (layers) a la red comenzando por la layer input y la primera capa oculta

# Primer paso de como crear y ejecutar una ANN
# Tenemos una clase binaria: un cliente abandona o no el banco
# Se utilizará la función de activación Rectificadora para las capas ocultas
# Y la función sigmoide para las capas de salida

__Definition__: Dense(units, activation=None, use_bias=True, kernel_initializer='glorot_uniform', bias_initializer='zeros', kernel_regularizer=None, bias_regularizer=None, activity_regularizer=None, kernel_constraint=None, bias_constraint=None)

__Type__: Present in *keras.layers.core* module

## Crear la Layer input y la primera Hidden layer

In [32]:
# Hay distintos métodos para determinar los nodos de las capas ocultas. El usado aquí es (1+11)/2 [Con 11 el número de nodos de entrada]

# units (antes llamada output_dim): Cantidad de nodos de la capa oculta
# kernel_initializer(antes llamada init): Debemos Inicializar los pesos con valores cercanos a cero por lo que se usa una funcióndistribución uniforme.
# ... Los pesos se inicializan de manera aleatoria con pesos cercanos a cero y uniformes entre ellos.
# activation: Función de activación de rectificación (relu)
# input_dim: Número de nodos en la input layer: 11 (columnas). Como no la red no tiene información de los nodos de las capas
# ... al estar recién creándose, debemos especificar, solo en la primera ocasión la cantidad de nodos de la capa de entrada.

#classifier.add(Dense(output_dim = 6, init = 'uniform', activation = 'relu', input_dim = 11))
classifier.add(Dense(units = 6, kernel_initializer = 'uniform', activation = 'relu', input_dim = 11)) # Agregamos la input layer y la primera capa oculta.

### Crear las otras capas (Segunda capa)

In [33]:
classifier.add(Dense(units = 6, kernel_initializer = 'uniform', activation = 'relu')) 

## Agregar la capa de salida

In [34]:
# Una sola capa de salida, una sola clasificación
# Si tenemos más de una clase (categoria) usamos la activación Softmax que es la Sigmoide pero aplicada a más de una clase 
# ... y se debe especificar que la salida es 3, por ejemplo, en vez de 1.
classifier.add(Dense(units = 1, kernel_initializer = 'uniform', activation = 'sigmoid')) 

In [35]:
print("Cantidad de capas en el modelo: ", len(classifier.layers)) 

Cantidad de capas en el modelo:  3


# Part 3: Compile the neural network

Definition: compile(optimizer, loss, metrics=[], sample_weigth_mode=None)

Type: Present in keras.models.Sequential module

In [36]:
classifier.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])

Definition: fit(x, y, batch_size=32, nb_epoch=10, verbose=1, callbacks=[], validation_split=0, validation_data=None, shuffle=True, class_weigth=None, sample_weigth=None)

In [37]:
# Ahora debemos "fit" la red neuronal en el set de entrenamiento
# Batch Learning
classifier.fit(X_train, y_train, batch_size = 10, epochs = 100)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.callbacks.History at 0x272350f9b70>

# Part 4: Predictions

In [None]:
# Ahora debemos probar el set de testing para determinar como clasifica cada uno de los 2000 clientes restantes
# Obtendremos la probabilidad de que abandone el banco según los datos ya entrenados

In [38]:
y_pred = classifier.predict(X_test) # Obtener las probabilidades que se han predecidos.

In [39]:
print(len(y_pred))

2000


In [40]:
print(y_pred) # Devuelve las probabilidades de que el cliente abandone el banco

[[0.1808432 ]
 [0.3079047 ]
 [0.1778018 ]
 ...
 [0.12785552]
 [0.13103132]
 [0.0790797 ]]


In [41]:
X_test.shape

(2000, 11)

In [42]:
# Para utilizar la matriz de confusión, no necesitamos la probabilidad de cada cliente de abandono sino que un verdadero 
# ... o falso si el cliente tiene una alta probabilidad de abandonar o no el banco. Debemos elegir un límite de elegir
# ... verdadero o falso según la probabilidad. Se elige un 50% para separar ambos.

y_pred = (y_pred > 0.5) # Devuelve un V o F si se cumple o no esa condición.

In [43]:
print(y_pred)

[[False]
 [False]
 [False]
 ...
 [False]
 [False]
 [False]]


## Matriz de confusión

In [44]:
from sklearn.metrics import confusion_matrix

In [45]:
c_matrix = confusion_matrix(y_test, y_pred)

In [47]:
c_matrix

array([[1553,   42],
       [ 276,  129]], dtype=int64)

In [48]:
# Tenemos 1553 + 129 predicciones correctas y 276 + 42 predicciones incorrectas

In [49]:
# accuracy_test = (1553 + 129) / (2000)
accuracy_test = (c_matrix[0][0] + c_matrix[1][1]) / (len(X_test))

In [50]:
accuracy_test

0.841

Obtenemos una precisión de 0.8331 o 83.31% en el conjunto de entrenamiento y un 84.1% en el conjunto de testing. Por lo cual validamos el modelo de predicción.

# Tarea: Realizar una predicción de una sola observación

Homework Instruction


Use our ANN model to predict if the customer with the following informations will leave the bank: 

   * Geography: France
   * Credit Score: 600
   * Gender: Male
   * Age: 40 years old
   * Tenure: 3 years
   * Balance: $60000    
   * Number of Products: 2
    
   * Does this customer have a credit card ? Yes
   * Is this customer an Active Member: Yes
   * Estimated Salary: $50000

So should we say goodbye to that customer ?

In [51]:
# Debemos utilizar un vector horizontal (usar doble [[]]: crea un array de dos dimensiones, matriz, 
# ... pero solo almacenamos en la primera fila, parentesis de adentro)en donde almacenaremos toda la información que 
# ...queremos
# Ya que nuestro set de entrenamiento está en un escalado distinto (fit.transform) debemos usar lo mismo para este array
new_prediction = classifier.predict(sc.transform(np.array([[0.0, 0, 600, 1, 40, 3, 60000, 2, 1, 1, 50000]]))) # Ponemos el primer valor como "0.0" o float para que no nos de un warning. Solo basta con poner un solo float
new_prediction = (new_prediction > 0.5)

In [53]:
new_prediction # El cliente no tiene posibilidad de irse

array([[False]])