## 1. Descarga y prepara los datos.  Explica el procedimiento.

### Características

- RowNumber: índice de cadena de datos
- CustomerId: identificador de cliente único
- Surname: apellido
- CreditScore: valor de crédito
- Geography: país de residencia
- Gender: sexo
- Age: edad
- Tenure: período durante el cual ha madurado el depósito a plazo fijo de un cliente (años)
- Balance: saldo de la cuenta
- NumOfProducts: número de productos bancarios utilizados por el cliente
- HasCrCard: el cliente tiene una tarjeta de crédito (1 - sí; 0 - no)
- IsActiveMember: actividad del cliente (1 - sí; 0 - no)
- EstimatedSalary: salario estimado

### Objetivo

- Exited: El cliente se ha ido (1 - sí; 0 - no)

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv("datasets/Churn.csv")

In [3]:
data.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


Comprobemos duplicados. Deberían de coincidir en todo menos en RowNumber para considerarse duplicados:

In [5]:
data.duplicated(data.columns[1:]).sum()

np.int64(0)

No tenemos duplicados, pero sí hay una columna con 909 valores ausentes, Tenure.

Para recordar, esa columna contiene el período durante el cual ha madurado el depósito a plazo fijo de un cliente (años). Veamos como se ven esas filas:

In [6]:
data[data['Tenure'].isna()].sample(10,random_state=42)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
9435,9436,15635752,Lo,685,Germany,Male,38,,111798.06,2,1,1,102184.66,0
4608,4609,15614103,Colombo,850,Germany,Male,42,,119839.69,1,0,1,51016.02,1
3594,3595,15578369,Chiedozie,652,Germany,Female,37,,145219.3,1,1,0,159132.83,0
8033,8034,15576526,Steele,850,Spain,Male,36,,0.0,2,0,1,41291.05,0
8589,8590,15637829,Sharpe,691,France,Female,34,,0.0,2,0,1,161559.12,0
9115,9116,15692977,Ikenna,612,Germany,Female,36,,130700.92,2,0,0,77592.8,0
5619,5620,15648951,Kao,785,Spain,Male,41,,0.0,2,1,1,199108.88,0
2654,2655,15759874,Chamberlain,532,France,Male,44,,148595.55,1,1,0,74838.64,1
9944,9945,15703923,Cameron,744,Germany,Male,41,,190409.34,2,1,1,138361.48,0
8030,8031,15578141,Chien,592,Spain,Male,38,,0.0,1,1,1,12905.89,1


A simple vista no comparten ninguna caracteríastica. A lo mejor fue un fallo al momento de capturar los datos que nos dejó esos valores ausentes. Vamos a eliminarlos, pero como es el 10% de los datos, a lo mejor necesitemos otra estrategia para mejorar el modelo.

In [7]:
data_cleaned = data[~data['Tenure'].isna()]

In [8]:
data_cleaned.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


In [9]:
data_cleaned['Tenure'].isna().value_counts()

Tenure
False    9091
Name: count, dtype: int64

Tenemos 3 columnas que definitivamente nos estorbarían en vez de ayudarían para hacer el modelo: RowNumber, CustomerId y Surname. RowNumber y CustomerId solo son identificadores. Para Surname, es un tipo de datos categorico, por lo que podríamos hacer OHE, pero podrían haber dos personas con características completamente distintas y compartir apellido, por lo que incluir esa columna solo confundiría al modelo. Eliminémoslas:

In [10]:
data_cleaned = data_cleaned.iloc[:,3:]

In [11]:
data_cleaned.head()

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


Nos quedan dos variables categoricas, Geography y Gender, hagamos OHE:

In [12]:
data_ohe = pd.get_dummies(data_cleaned,drop_first=True)

In [13]:
data_ohe.head()

Unnamed: 0,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited,Geography_Germany,Geography_Spain,Gender_Male
0,619,42,2.0,0.0,1,1,1,101348.88,1,False,False,False
1,608,41,1.0,83807.86,1,0,1,112542.58,0,False,True,False
2,502,42,8.0,159660.8,3,1,0,113931.57,1,False,False,False
3,699,39,1.0,0.0,2,0,0,93826.63,0,False,False,False
4,850,43,2.0,125510.82,1,1,1,79084.1,0,False,True,False


## 2. Examina el equilibrio de clases. Entrena el modelo sin tener en cuenta el desequilibrio. Describe brevemente tus hallazgos.

In [14]:
is_zero = data_ohe[data_ohe['Exited']==0]['Exited'].count()
print(is_zero/data_ohe.shape[0])

0.7960620393796062


In [15]:
is_one = data_ohe[data_ohe['Exited']==1]['Exited'].count()
print(is_one/data_ohe.shape[0])

0.2039379606203938


El 80% de nuestros datos son de la clase negativa (o 0) y sólo el 20% es de clase positiva (o 1). En otras palabras, la proporción es 4 a 1.

In [16]:
from sklearn.metrics import f1_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

Separemos nuestros datos en features y target, y dividamoslos en los conjuntos de entrenamiento, validación y prueba.

In [17]:
features = data_ohe.drop(columns='Exited')
target = data_ohe['Exited']

In [18]:
features.head()

Unnamed: 0,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Geography_Germany,Geography_Spain,Gender_Male
0,619,42,2.0,0.0,1,1,1,101348.88,False,False,False
1,608,41,1.0,83807.86,1,0,1,112542.58,False,True,False
2,502,42,8.0,159660.8,3,1,0,113931.57,False,False,False
3,699,39,1.0,0.0,2,0,0,93826.63,False,False,False
4,850,43,2.0,125510.82,1,1,1,79084.1,False,True,False


In [19]:
target.head()

0    1
1    0
2    1
3    0
4    0
Name: Exited, dtype: int64

Split en Train y Valid/Test

In [20]:
features_train, features_valid_test, target_train, target_valid_test = train_test_split(features,target,test_size=0.4,random_state=42)

Split en Valid y Test

In [21]:
features_valid, features_test, target_valid, target_test = train_test_split(features_valid_test,target_valid_test,random_state=42)

### LogisticRegression Model

In [22]:
model = LogisticRegression(solver='liblinear',random_state=42)

In [23]:
model.fit(features_train,target_train)

In [24]:
predictions_valid = model.predict(features_valid)

In [25]:
f1_score(target_valid,predictions_valid)

0.07085346215780998

Un F1 score muy bajo.

### DecisionTreeClassifier Model

In [29]:
for i in range(1,21,1):
    model = DecisionTreeClassifier(random_state=42,max_depth=i)
    model.fit(features_train,target_train)
    predictions_valid = model.predict(features_valid)
    predictions_train = model.predict(features_train)
    print(f'Max_depth: {i}\tF1 score train: {f1_score(target_train,predictions_train):.4f}\tF1 score valid: {f1_score(target_valid,predictions_valid):.4f}')

Max_depth: 1	F1 score train: 0.0000	F1 score valid: 0.0000
Max_depth: 2	F1 score train: 0.5289	F1 score valid: 0.4680
Max_depth: 3	F1 score train: 0.5503	F1 score valid: 0.4944
Max_depth: 4	F1 score train: 0.5319	F1 score valid: 0.4579
Max_depth: 5	F1 score train: 0.5591	F1 score valid: 0.4848
Max_depth: 6	F1 score train: 0.5911	F1 score valid: 0.4982
Max_depth: 7	F1 score train: 0.6548	F1 score valid: 0.5219
Max_depth: 8	F1 score train: 0.6786	F1 score valid: 0.5276
Max_depth: 9	F1 score train: 0.7107	F1 score valid: 0.5254
Max_depth: 10	F1 score train: 0.7664	F1 score valid: 0.4963
Max_depth: 11	F1 score train: 0.8072	F1 score valid: 0.4912
Max_depth: 12	F1 score train: 0.8531	F1 score valid: 0.4945
Max_depth: 13	F1 score train: 0.8921	F1 score valid: 0.4928
Max_depth: 14	F1 score train: 0.9188	F1 score valid: 0.4906
Max_depth: 15	F1 score train: 0.9504	F1 score valid: 0.4903
Max_depth: 16	F1 score train: 0.9736	F1 score valid: 0.5009
Max_depth: 17	F1 score train: 0.9836	F1 score val

Mucho mejor el F1 score, tanto la precisión como la sensibilidad mejoraron mucho. Pero el árbol de decisión tiende a sobreajustar mientras más profundo sea. Vemos eso en la profundidad 8 y 9, como en el conjunto de entrenamiento el F1_score aumenta mientras que en el conjunto de validación disminuye, lo que indica un sobreajuste al rededor de esta profundidad. Voy a determinar que el ideal es max_depth=9.\
Probemos con un bosque.

### RandomForestClassifier Model

In [34]:
for i in range(5,101,5):
    model = RandomForestClassifier(random_state=42,max_depth=9,n_estimators=i)
    model.fit(features_train,target_train)
    predictions_valid = model.predict(features_valid)
    predictions_train = model.predict(features_train)
    print(f'n_estimators: {i}\tF1 score train: {f1_score(target_train,predictions_train):.4f}\tF1 score valid: {f1_score(target_valid,predictions_valid):.4f}')

n_estimators: 5	F1 score train: 0.6480	F1 score valid: 0.5296
n_estimators: 10	F1 score train: 0.6567	F1 score valid: 0.5095
n_estimators: 15	F1 score train: 0.6659	F1 score valid: 0.5125
n_estimators: 20	F1 score train: 0.6713	F1 score valid: 0.5154
n_estimators: 25	F1 score train: 0.6720	F1 score valid: 0.5190
n_estimators: 30	F1 score train: 0.6697	F1 score valid: 0.5154
n_estimators: 35	F1 score train: 0.6690	F1 score valid: 0.5154
n_estimators: 40	F1 score train: 0.6766	F1 score valid: 0.5154
n_estimators: 45	F1 score train: 0.6788	F1 score valid: 0.5107
n_estimators: 50	F1 score train: 0.6807	F1 score valid: 0.5155
n_estimators: 55	F1 score train: 0.6788	F1 score valid: 0.5107
n_estimators: 60	F1 score train: 0.6830	F1 score valid: 0.5131
n_estimators: 65	F1 score train: 0.6830	F1 score valid: 0.5071
n_estimators: 70	F1 score train: 0.6864	F1 score valid: 0.5154
n_estimators: 75	F1 score train: 0.6856	F1 score valid: 0.5190
n_estimators: 80	F1 score train: 0.6867	F1 score valid: 

Los mejores F1 score en el conjunto de validación es cuando el n_estimators es igual a 5. Parece muy poco, por lo que tal vez es sólo para este caso en particular, por lo que tomaré el segundo mejor resultado, y es cuando el F1 score es igual a 0.5196, cuando el n_estimators es igual a 80.

### Resumen
El mejor modelo hasta ahora es el RandomTreeClassifier con una puntuación de F1_score=0.5276, con max_depth=8. Esto sigue siendo menor que el umbral requerido, por lo que no es suficiente. Tenemos que mejorar de alguna manera nuestros modelos. Una forma es corregir el desequilibrio de clases.\
Voy a hacerlo de 3 maneras:
1. Darle mayor peso a la clase 1 al momento de entrenar, con el parámetro `class_weight='balanced'`
2. Sobremuestreo de la clase 1 en el conjunto de entrenamiento
3. Submuestreo de la clase 0 en el conjunto de entrenamiento

## 3. Mejora la calidad del modelo. Asegúrate de utilizar al menos dos enfoques para corregir el desequilibrio de clases. Utiliza conjuntos de entrenamiento y validación para encontrar el mejor modelo y el mejor conjunto de parámetros. Entrena diferentes modelos en los conjuntos de entrenamiento y validación. Encuentra el mejor. Describe brevemente tus hallazgos.

### Equilibrando los pesos:
#### LogisticRegression Model

In [35]:
model = LogisticRegression(solver='liblinear',random_state=42,class_weight='balanced')
model.fit(features_train,target_train)
predictions_valid = model.predict(features_valid)
f1_score(target_valid,predictions_valid)

0.47549019607843135

Mucho mejor comparado con 0.07. Intentemos con los otros modelos:

#### DecisionTreeClassifier Model

In [36]:
for i in range(1,21,1):
    model = DecisionTreeClassifier(random_state=42,max_depth=i,class_weight='balanced')
    model.fit(features_train,target_train)
    predictions_valid = model.predict(features_valid)
    predictions_train = model.predict(features_train)
    print(f'Max_depth: {i}\tF1 score train: {f1_score(target_train,predictions_train):.4f}\tF1 score valid: {f1_score(target_valid,predictions_valid):.4f}')

Max_depth: 1	F1 score train: 0.4862	F1 score valid: 0.4874
Max_depth: 2	F1 score train: 0.5139	F1 score valid: 0.5093
Max_depth: 3	F1 score train: 0.5139	F1 score valid: 0.5093
Max_depth: 4	F1 score train: 0.5644	F1 score valid: 0.5546
Max_depth: 5	F1 score train: 0.5897	F1 score valid: 0.5648
Max_depth: 6	F1 score train: 0.6018	F1 score valid: 0.5628
Max_depth: 7	F1 score train: 0.6211	F1 score valid: 0.5542
Max_depth: 8	F1 score train: 0.6786	F1 score valid: 0.5699
Max_depth: 9	F1 score train: 0.7017	F1 score valid: 0.5446
Max_depth: 10	F1 score train: 0.7354	F1 score valid: 0.5361
Max_depth: 11	F1 score train: 0.7717	F1 score valid: 0.5198
Max_depth: 12	F1 score train: 0.8174	F1 score valid: 0.4964
Max_depth: 13	F1 score train: 0.8606	F1 score valid: 0.4935
Max_depth: 14	F1 score train: 0.9056	F1 score valid: 0.4803
Max_depth: 15	F1 score train: 0.9473	F1 score valid: 0.4768
Max_depth: 16	F1 score train: 0.9715	F1 score valid: 0.4714
Max_depth: 17	F1 score train: 0.9849	F1 score val

Ahora claramente vemos que el mejor max_depth es 8, y mejoró mucho nuestro F1_score, de 0.52 a 0.57, nos estamos acercando al objetivo. Intentemos con el bosque

#### RandomForestClassifier Model

In [37]:
for i in range(5,101,5):
    model = RandomForestClassifier(random_state=42,max_depth=8,n_estimators=i,class_weight='balanced')
    model.fit(features_train,target_train)
    predictions_valid = model.predict(features_valid)
    predictions_train = model.predict(features_train)
    print(f'n_estimators: {i}\tF1 score train: {f1_score(target_train,predictions_train):.4f}\tF1 score valid: {f1_score(target_valid,predictions_valid):.4f}')

n_estimators: 5	F1 score train: 0.6876	F1 score valid: 0.5704
n_estimators: 10	F1 score train: 0.7046	F1 score valid: 0.5789
n_estimators: 15	F1 score train: 0.7134	F1 score valid: 0.5972
n_estimators: 20	F1 score train: 0.7216	F1 score valid: 0.6094
n_estimators: 25	F1 score train: 0.7186	F1 score valid: 0.6057
n_estimators: 30	F1 score train: 0.7197	F1 score valid: 0.6002
n_estimators: 35	F1 score train: 0.7202	F1 score valid: 0.6073
n_estimators: 40	F1 score train: 0.7239	F1 score valid: 0.6047
n_estimators: 45	F1 score train: 0.7237	F1 score valid: 0.6067
n_estimators: 50	F1 score train: 0.7265	F1 score valid: 0.6062
n_estimators: 55	F1 score train: 0.7256	F1 score valid: 0.6062
n_estimators: 60	F1 score train: 0.7251	F1 score valid: 0.6073
n_estimators: 65	F1 score train: 0.7238	F1 score valid: 0.6076
n_estimators: 70	F1 score train: 0.7260	F1 score valid: 0.6089
n_estimators: 75	F1 score train: 0.7219	F1 score valid: 0.6110
n_estimators: 80	F1 score train: 0.7213	F1 score valid: 

Al rededor del mismo n_estimators llegamos al mejor F1_score. En este caso es `=75` con un score de `0.6110` lo cual supera nuestro objetivo de `0.59`.

## 4. Realiza la prueba final.