## INTRODUCCIÓN Y DESCARGA DE DATOS


In [1]:
#pip install plotly_express

In [2]:
# Importamos las librerías y clases necesarias
import pandas as pd
import numpy as np
from sklearn.utils import shuffle
from sklearn.metrics import f1_score, roc_auc_score, roc_curve
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import OrdinalEncoder, StandardScaler
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import plotly.express as px




In [3]:
data = pd.read_csv('https://practicum-content.s3.us-west-1.amazonaws.com/datasets/Churn.csv')
display(data.info())
display(data.sample(10))


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


None

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
3903,3904,15678129,Hill,643,Spain,Female,45,9.0,150840.03,2,1,0,155516.35,0
9861,9862,15798341,Victor,544,France,Male,38,8.0,0.0,1,1,1,98208.62,0
4365,4366,15716328,Miller,501,France,Female,40,2.0,0.0,2,0,0,141946.92,0
901,902,15709737,Hunter,643,France,Male,36,7.0,161064.64,2,0,1,84294.82,0
2384,2385,15758531,Y?,732,France,Female,40,10.0,0.0,2,1,0,154189.08,0
266,267,15653857,Wallis,498,France,Male,34,2.0,0.0,2,1,1,148528.24,0
5273,5274,15733904,McDonald,529,France,Male,32,9.0,147493.89,1,1,0,33656.35,0
6137,6138,15720371,McLean,652,France,Female,51,3.0,0.0,1,1,0,173989.47,1
5982,5983,15704378,Calabrese,655,Germany,Male,37,9.0,121342.24,1,1,1,180241.44,0
6065,6066,15674720,Smith,691,Germany,Female,37,7.0,123067.63,1,1,1,98162.44,1


En este primer vistazo de los datos, nos damos cuenta que existen algunos valores ausentes en la columna "Tenure", la cual identifica  el tiempo de un depósito a plazo fijo de un cliente.
Vamos a revisar más a detalle las filas con datos austentes en el siguiente apartado

## PROCESAMIENTO DE DATOS

In [4]:
#Mostramos las filas con datos ausentes
display(data[data["Tenure"].isna()].sample(20))

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
3413,3414,15627412,Ferri,605,France,Male,39,,0.0,2,1,0,199390.45,0
125,126,15627360,Fuller,432,France,Male,42,,152603.45,1,1,0,110265.24,1
9187,9188,15628863,Calabresi,601,France,Male,38,,60013.81,1,1,1,38020.05,0
7251,7252,15746995,Greco,724,Germany,Male,31,,138166.3,1,1,0,12920.43,0
4260,4261,15664555,Hughes,587,France,Male,40,,0.0,4,0,1,106174.7,1
8679,8680,15753092,He,791,Germany,Male,35,,129828.58,1,1,1,181918.26,1
2820,2821,15813916,Kudryashova,622,France,Female,31,,89688.94,1,1,1,152305.47,0
5880,5881,15718231,Gregory,537,France,Male,28,,88963.31,2,1,1,189839.93,0
4940,4941,15799652,Daigle,763,France,Female,38,,152582.2,2,0,0,31892.82,0
8148,8149,15572777,Meng,780,Spain,Male,47,,86006.21,1,1,1,37973.13,0


No vemos alguna relación entre esa columna con datos vacíos y alguna otra, podríamos concluir que los datos vacíos puden ser "0", o también que el tipo de cuenta no aplica con ese tipo de registro, como parece ser una característica con ordinalidad, y además que incluye cerca del 10% de los datos, vemos más conveniente convertir estos valores en 0 que eliminarlos, además de aumentar en 1 todos los demás datos, así podemos conservar su ordinalidad y no perder una alta cantidad de valores en el dataset.

In [5]:
# #sumamos 1 a los valores de Tenure y reemplazamos con un 0 a los valores nan
data["Tenure"] = data["Tenure"] + 1
data["Tenure"].fillna(0,inplace=True)
display(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           10000 non-null  float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


None

In [6]:
# Codificación one-hot: obtén características dummy
# drop_first = True - quitar la primera columna (evitar trampas dummy)
data_ohe = pd.get_dummies(data.drop(["Surname","RowNumber","CustomerId"], axis=1), drop_first=True)

# Estandarización
numeric_columns=["CreditScore","Age","Tenure","Balance","EstimatedSalary","NumOfProducts"]
scaler = StandardScaler()
scaler.fit(data_ohe[numeric_columns])
data_scaled = scaler.transform(data_ohe[numeric_columns])
data_ohe[numeric_columns]= data_scaled
data_ohe_scaled= data_ohe
display(data_ohe_scaled.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   CreditScore        10000 non-null  float64
 1   Age                10000 non-null  float64
 2   Tenure             10000 non-null  float64
 3   Balance            10000 non-null  float64
 4   NumOfProducts      10000 non-null  float64
 5   HasCrCard          10000 non-null  int64  
 6   IsActiveMember     10000 non-null  int64  
 7   EstimatedSalary    10000 non-null  float64
 8   Exited             10000 non-null  int64  
 9   Geography_Germany  10000 non-null  bool   
 10  Geography_Spain    10000 non-null  bool   
 11  Gender_Male        10000 non-null  bool   
dtypes: bool(3), float64(6), int64(3)
memory usage: 732.6 KB


None

In [7]:
#Entrenamiento de un modelo random forest clasificator de primera mano

features= data_ohe_scaled.drop("Exited", axis=1)
target = data_ohe_scaled["Exited"]
features_train, features_valid, target_train, target_valid = train_test_split(features,target, test_size= 0.25, random_state=99)

#Entrenamos el modelo
model = RandomForestClassifier(random_state=99, max_depth=20)
model.fit(features_train,target_train)
predictions = model.predict(features_valid)

#verfificamos las metricas del modelo
probabilities_valid = model.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
print("F1:", f1_score(target_valid, predictions))
print("Área bajo la curva ROC:", roc_auc_score(target_valid,probabilities_one_valid))

F1: 0.6074429771908764
Área bajo la curva ROC: 0.8716039368217722


## EQUILIBRIO DE CLASES


In [8]:
data_ohe_scaled["Exited"].value_counts()


Exited
0    7963
1    2037
Name: count, dtype: int64

In [9]:
def upsample(features, target, repeat):
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]

    features_upsampled = pd.concat([features_zeros] + [features_ones] * repeat)
    target_upsampled = pd.concat([target_zeros] + [target_ones] * repeat)

    features_upsampled, target_upsampled = shuffle(
        features_upsampled, target_upsampled, random_state=12345
    )
    return features_upsampled, target_upsampled

features_upsampled, target_upsampled = upsample(
    features_train, target_train, 3
)


## ENTRENAMIENTO DEL MODELO


In [10]:
model = RandomForestClassifier(random_state=12345, class_weight="balanced")
model.fit(features_upsampled, target_upsampled)
predicted_valid = model.predict(features_valid)

probabilities_valid = model.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

print("F1:", f1_score(target_valid, predicted_valid))
print("Área bajo la curva ROC:", roc_auc_score(target_valid,probabilities_one_valid))



F1: 0.6305525460455038
Área bajo la curva ROC: 0.8708661961077249


Podemos notar un pequeño aumento después de realizar un oversampling y un ajuste de peso de clase en los datos, con este score de F1= 0.63 sobrepasamos con holgura nuestro objetivo de al menos 0.59

## VALIDACION Y PRUEBAS FINALES

### Grafico de ROC para nuestro modelo final

In [11]:

#Utilizamos la funcion roc_curve que nos dará las tasas de verdaderos y falsos positivos
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)  

#Creamos un df con los datos para graficar
roc_data = {"FPR": fpr, "TPR": tpr}
df_roc = pd.DataFrame(roc_data)

# Trazar la curva ROC con Plotly Express
fig = px.line(
    df_roc,
    x="FPR",
    y="TPR",
    labels={"FPR": "Tasa de falsos positivos", "TPR": "Tasa de verdaderos positivos"},
    title="Curva ROC",
)

# Agregar una línea diagonal que representa el modelo aleatorio
fig.add_shape(type="line", line=dict(dash="dash"), x0=0, x1=1, y0=0, y1=1)
fig.update_layout(
    width=800,  
    height=450
)
# Mostrar la figura
fig.show()

## CONCLUSIÓN


En este  se abordó la tarea de predecir la posible salida de clientes utilizando datos históricos. Se realizó una cuidadosa preparación de datos, se exploró el desequilibrio de clases y se entrenaron modelos, alcanzando un valor F1 de al menos 0.59 en el conjunto de prueba. Se implementaron estrategias efectivas para corregir el desequilibrio y se evaluó el rendimiento del modelo utilizando tanto F1 como AUC-ROC. El proyecto cumple con los criterios de evaluación, destacando la capacidad para abordar desafíos de desequilibrio de clases y lograr un rendimiento sólido del modelo.