## 1. Descarga y prepara los datos.  Explica el procedimiento.

### Características

- RowNumber: índice de cadena de datos
- CustomerId: identificador de cliente único
- Surname: apellido
- CreditScore: valor de crédito
- Geography: país de residencia
- Gender: sexo
- Age: edad
- Tenure: período durante el cual ha madurado el depósito a plazo fijo de un cliente (años)
- Balance: saldo de la cuenta
- NumOfProducts: número de productos bancarios utilizados por el cliente
- HasCrCard: el cliente tiene una tarjeta de crédito (1 - sí; 0 - no)
- IsActiveMember: actividad del cliente (1 - sí; 0 - no)
- EstimatedSalary: salario estimado

### Objetivo

- Exited: El cliente se ha ido (1 - sí; 0 - no)

In [1]:
import pandas as pd

In [7]:
data = pd.read_csv("datasets/Churn.csv")

In [8]:
data.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


In [9]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


Comprobemos duplicados. Deberían de coincidir en todo menos en RowNumber para considerarse duplicados:

In [11]:
data.duplicated(data.columns[1:]).sum()

np.int64(0)

No tenemos duplicados, pero sí hay una columna con 909 valores ausentes, Tenure.

Para recordar, esa columna contiene el período durante el cual ha madurado el depósito a plazo fijo de un cliente (años). Veamos como se ven esas filas:

In [15]:
data[data['Tenure'].isna()].sample(10,random_state=42)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
9435,9436,15635752,Lo,685,Germany,Male,38,,111798.06,2,1,1,102184.66,0
4608,4609,15614103,Colombo,850,Germany,Male,42,,119839.69,1,0,1,51016.02,1
3594,3595,15578369,Chiedozie,652,Germany,Female,37,,145219.3,1,1,0,159132.83,0
8033,8034,15576526,Steele,850,Spain,Male,36,,0.0,2,0,1,41291.05,0
8589,8590,15637829,Sharpe,691,France,Female,34,,0.0,2,0,1,161559.12,0
9115,9116,15692977,Ikenna,612,Germany,Female,36,,130700.92,2,0,0,77592.8,0
5619,5620,15648951,Kao,785,Spain,Male,41,,0.0,2,1,1,199108.88,0
2654,2655,15759874,Chamberlain,532,France,Male,44,,148595.55,1,1,0,74838.64,1
9944,9945,15703923,Cameron,744,Germany,Male,41,,190409.34,2,1,1,138361.48,0
8030,8031,15578141,Chien,592,Spain,Male,38,,0.0,1,1,1,12905.89,1


A simple vista no comparten ninguna caracteríastica. A lo mejor fue un fallo al momento de capturar los datos que nos dejó esos valores ausentes. Es casi el 10% de nuestros datos, intentaré dejarlos, pero si nos generan problemas o la calidad del modelo no es satisfactoria, probaré de nuevo eliminandolos.

Tenemos 3 columnas que definitivamente nos estorbarían en vez de ayudarían para hacer el modelo: RowNumber, CustomerId y Surname. RowNumber y CustomerId solo son identificadores. Para Surname, es un tipo de datos categorico, por lo que podríamos hacer OHE, pero podrían haber dos personas con características completamente distintas y compartir apellido, por lo que incluir esa columna solo confundiría al modelo. Eliminémoslas:

In [16]:
data_cleaned = data.iloc[:,3:]

In [17]:
data_cleaned.head()

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


## 2. Examina el equilibrio de clases. Entrena el modelo sin tener en cuenta el desequilibrio. Describe brevemente tus hallazgos.

In [21]:
is_zero = data_cleaned[data_cleaned['Exited']==0]['Exited'].count()
print(is_zero/data_cleaned.shape[0])

0.7963


In [22]:
is_one = data_cleaned[data_cleaned['Exited']==1]['Exited'].count()
print(is_one/data_cleaned.shape[0])

0.2037


El 80% de nuestros datos son de la clase negativa (o 0) y sólo el 20% es de clase positiva (o 1). En otras palabras, la proporción es 4 a 1.

In [24]:
from sklearn.metrics import f1_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

Separemos nuestros datos en features y target, y dividamoslos en los conjuntos de entrenamiento, validación y prueba.

In [25]:
features = data_cleaned.drop(columns='Exited')
target = data_cleaned['Exited']

In [26]:
features.head()

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
0,619,France,Female,42,2.0,0.0,1,1,1,101348.88
1,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58
2,502,France,Female,42,8.0,159660.8,3,1,0,113931.57
3,699,France,Female,39,1.0,0.0,2,0,0,93826.63
4,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1


In [27]:
target.head()

0    1
1    0
2    1
3    0
4    0
Name: Exited, dtype: int64

In [28]:
features_train, features_valid_test, target_train, target_valid_test = train_test_split(features,target,test_size=0.4,random_state=42)

## 3. Mejora la calidad del modelo. Asegúrate de utilizar al menos dos enfoques para corregir el desequilibrio de clases. Utiliza conjuntos de entrenamiento y validación para encontrar el mejor modelo y el mejor conjunto de parámetros. Entrena diferentes modelos en los conjuntos de entrenamiento y validación. Encuentra el mejor. Describe brevemente tus hallazgos.

## 4. Realiza la prueba final.