In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score, roc_auc_score
from sklearn.preprocessing import StandardScaler
from sklearn.utils import resample


df = pd.read_csv('/Users/lcamacho/Triple Ten/Sprint 11/Churn.csv') 

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


In [2]:
print(df.head())

   RowNumber  CustomerId   Surname  CreditScore Geography  Gender  Age  \
0          1    15634602  Hargrave          619    France  Female   42   
1          2    15647311      Hill          608     Spain  Female   41   
2          3    15619304      Onio          502    France  Female   42   
3          4    15701354      Boni          699    France  Female   39   
4          5    15737888  Mitchell          850     Spain  Female   43   

   Tenure    Balance  NumOfProducts  HasCrCard  IsActiveMember  \
0     2.0       0.00              1          1               1   
1     1.0   83807.86              1          0               1   
2     8.0  159660.80              3          1               0   
3     1.0       0.00              2          0               0   
4     2.0  125510.82              1          1               1   

   EstimatedSalary  Exited  
0        101348.88       1  
1        112542.58       0  
2        113931.57       1  
3         93826.63       0  
4         790

In [3]:
clientes_con_tenure_0 = df[df['Tenure'] == 0]
cantidad_ceros = len(clientes_con_tenure_0)
print(f"Cantidad de clientes que YA tenían Tenure = 0: {cantidad_ceros}")
print("\n--- Ejemplo de 5 filas con Tenure = 0 (Originales) ---")
print(clientes_con_tenure_0.head())
print("\n--- Ejemplo de 5 filas con Tenure = NaN (Nulos) ---")
print(df[df['Tenure'].isnull()].head())

Cantidad de clientes que YA tenían Tenure = 0: 382

--- Ejemplo de 5 filas con Tenure = 0 (Originales) ---
     RowNumber  CustomerId   Surname  CreditScore Geography  Gender  Age  \
29          30    15656300  Lucciano          411    France    Male   29   
35          36    15794171  Lombardo          475    France  Female   45   
57          58    15647091  Endrizzi          725   Germany    Male   19   
72          73    15812518   Palermo          657     Spain  Female   37   
127        128    15782688    Piccio          625   Germany    Male   56   

     Tenure    Balance  NumOfProducts  HasCrCard  IsActiveMember  \
29      0.0   59697.17              2          1               1   
35      0.0  134264.04              1          1               0   
57      0.0   75888.20              1          0               0   
72      0.0  163607.18              1          0               1   
127     0.0  148507.24              1          1               0   

     EstimatedSalary  Exite

In [4]:
df['Tenure'] = df['Tenure'].fillna(0.0)


In [5]:
columnas_a_eliminar = ['RowNumber', 'CustomerId', 'Surname']
df = df.drop(columnas_a_eliminar, axis=1)
df_final = pd.get_dummies(df, columns=['Geography', 'Gender'], drop_first=True)
print("Datos listos. DataFrame final tiene las siguientes columnas:")
print(df_final.columns.tolist())
print(f"Número total de filas: {len(df_final)}")

Datos listos. DataFrame final tiene las siguientes columnas:
['CreditScore', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'HasCrCard', 'IsActiveMember', 'EstimatedSalary', 'Exited', 'Geography_Germany', 'Geography_Spain', 'Gender_Male']
Número total de filas: 10000


In [6]:
num_duplicates = df_final.duplicated().sum()

print("--- Verificación de Duplicados ---")
print(f"Número de filas duplicadas encontradas: {num_duplicates}")

--- Verificación de Duplicados ---
Número de filas duplicadas encontradas: 0


# Preparación de datos
Primero se cargaron los datos de forma correcta, despues se hizo una inspección incial para comporbar los tipos de datos, y el numero total de entradas. Los datos tienen las entradas correctas dependiendo el tipo de datos, se identifico la presencia de valores ausentes en la columna Tenure, y por ultimo se verifico que no hubiera datos duplicados.

## Tratamiendo de valores nulos
Para tratar los valores nulos se hizo la hipotesis de que los valores nulos son referencia a que los clientes tienen menos de un año en Tenure, esto debido a que solo es esa fila la que tiene valores nulos, por lo que s probable que cuando el valor era 0 no se registro el tiempo en la columna Tenure, esto debido a que se hicieron diferentes analisis y se pudo corroborar que no hay un patron que siga a los clinetes con el campo vacio en Tenure

## Eliminacion de columanas
Se eliminaron las columnas RowNumber, CustomerId y Surname porque son indicadores de texto y no van a aportar valor predictivo

# Examen de equilibrio de clases

In [7]:
class_counts = df_final['Exited'].value_counts()
class_proportions = df_final['Exited'].value_counts(normalize=True) * 100

print("--- Distribución de la Clase Objetivo ('Exited') ---")
print(f"Clase 0 (No Abandonaron): {class_counts[0]} clientes ({class_proportions[0]:.2f}%)")
print(f"Clase 1 (Abandonaron): {class_counts[1]} clientes ({class_proportions[1]:.2f}%)")


if class_proportions[1] < 20:
    print("\nConclusión: Hay un DESEQUILIBRIO DE CLASES significativo.")
else:
     print("\nConclusión: El equilibrio de clases es aceptable.")

--- Distribución de la Clase Objetivo ('Exited') ---
Clase 0 (No Abandonaron): 7963 clientes (79.63%)
Clase 1 (Abandonaron): 2037 clientes (20.37%)

Conclusión: El equilibrio de clases es aceptable.


## Preparacion de datos, Division y escalamiento

In [8]:
Features = df_final.drop('Exited', axis=1)
Target = df_final['Exited']

Features_train, Features_temp, Target_train, Target_temp = train_test_split(
    Features, Target, test_size=0.4, random_state=12345, stratify=Target
)


Features_valid, Features_test, Target_valid, Target_test = train_test_split(
    Features_temp, Target_temp, test_size=0.5, random_state=12345, stratify=Target_temp
)

Features_train = Features_train.copy()
Features_valid = Features_valid.copy()  
Features_test = Features_test.copy()

print("--- Verificación de Tamaños de Conjuntos ---")
print(f"Entrenamiento: {len(Features_train)} ({len(Features_train)/len(df_final):.0%})")
print(f"Validación: {len(Features_valid)} ({len(Features_valid)/len(df_final):.0%})")  
print(f"Prueba: {len(Features_test)} ({len(Features_test)/len(df_final):.0%})")  

numeric_cols = ['CreditScore', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'EstimatedSalary']
scaler = StandardScaler()

scaler.fit(Features_train[numeric_cols])

Features_train.loc[:, numeric_cols] = scaler.transform(Features_train[numeric_cols])
Features_valid.loc[:, numeric_cols] = scaler.transform(Features_valid[numeric_cols])
Features_test.loc[:, numeric_cols] = scaler.transform(Features_test[numeric_cols])

print("\n--- Características (Features) después de Escalamiento (Primeras 5 filas del conjunto de entrenamiento) ---")
print(Features_train.head())

--- Verificación de Tamaños de Conjuntos ---
Entrenamiento: 6000 (60%)
Validación: 2000 (20%)
Prueba: 2000 (20%)

--- Características (Features) después de Escalamiento (Primeras 5 filas del conjunto de entrenamiento) ---
      CreditScore       Age    Tenure   Balance  NumOfProducts  HasCrCard  \
2837    -1.040434  0.953312  0.467449  0.774657      -0.914708          0   
9925     0.454006 -0.095244 -1.461501  1.910540      -0.914708          1   
8746     0.103585 -0.476537  1.110432  0.481608       0.820981          0   
660     -0.184996  0.190726 -1.461501  0.088439      -0.914708          1   
3610    -0.720933  1.620574 -1.140009  0.879129      -0.914708          1   

      IsActiveMember  EstimatedSalary  Geography_Germany  Geography_Spain  \
2837               1        -0.119110               True            False   
9925               1        -0.258658              False            False   
8746               1         1.422836              False            False   
660    

  1.03116828]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  Features_train.loc[:, numeric_cols] = scaler.transform(Features_train[numeric_cols])
 -0.66718314]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  Features_train.loc[:, numeric_cols] = scaler.transform(Features_train[numeric_cols])
  0.82098056]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  Features_train.loc[:, numeric_cols] = scaler.transform(Features_train[numeric_cols])
 -0.20560908]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  Features_valid.loc[:, numeric_cols] = scaler.transform(Features_valid[numeric_cols])
 -0.76250637]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.
  Features_valid.loc[:, numeric_cols] = scaler.transform(Features_valid[numeric_cols])
  0.82098056]' has dtype incompatible with int64, pleas

## Entrenamiento del Modelo Inicial (Sin Corregir Desequilibrio)

In [9]:
model_initial = RandomForestClassifier(random_state=12345, n_estimators=100, max_depth=5)
model_initial.fit(Features_train, Target_train)

Target_pred_valid_initial = model_initial.predict(Features_valid)
Target_proba_valid_initial = model_initial.predict_proba(Features_valid)[:, 1] 

f1_initial = f1_score(Target_valid, Target_pred_valid_initial)
auc_roc_initial = roc_auc_score(Target_valid, Target_proba_valid_initial)

print("\n--- Resultados del Modelo Inicial (Sin Corregir Desequilibrio) en VALIDACIÓN ---")
print(f"F1-Score: {f1_initial:.4f}")
print(f"AUC-ROC: {auc_roc_initial:.4f}")


--- Resultados del Modelo Inicial (Sin Corregir Desequilibrio) en VALIDACIÓN ---
F1-Score: 0.5233
AUC-ROC: 0.8673


## Conclusion paso 2

* El examen de equilibrio de clases nos dio como resultado 79.63% (Clase 0) vs 20.37% 20.37% (Clase 1). el equilibrio se clasifico como aceptable con una proporcion de 80-20 pero el desiquilibrio es significativo que va a afectar nuestra metrica.
* Entrenamiento Inicial (Sin Corregir Desequilibrio) F1-Score en Validación: 0.5233 AUC-ROC en Validación: 0.8673, esto nos endica que el F1-Score de 0.5233 está muy por debajo del requisito de 0.59. Esto confirma que, a pesar de que el AUC-ROC alto (0.8673) indica que el modelo es bueno para ordenar las probabilidades, el desequilibrio de 4:1 hace que el modelo falle en el punto de corte por defecto, priorizando la precisión sobre el recall de la clase minoritaria.
* Se entreno un modelo de bosque aleatorio sin aplicar tecnica de correccion de desiquilibrio

# Mejora de la Calidad del Modelo (Corrección del Desequilibrio de Clases)

### Enfoque 1: Ponderación de Clases (Class Weighting) Modelo: Bosque Aleatorio (RandomForestClassifier)

In [10]:
best_f1_weighted = 0
best_depth = 0
best_est = 0
best_model_weighted = None


for depth in range(1, 11):
    for est in range(100, 301, 100):
        
        model = RandomForestClassifier(
            random_state=12345,
            max_depth=depth,
            n_estimators=est,
            class_weight='balanced'
        )
        
        model.fit(Features_train, Target_train)
        
        
        Target_pred_valid = model.predict(Features_valid)
        f1 = f1_score(Target_valid, Target_pred_valid)
        
        if f1 > best_f1_weighted:
            best_f1_weighted = f1
            best_depth = depth
            best_est = est
            best_model_weighted = model 
            

Target_proba_valid_weighted = best_model_weighted.predict_proba(Features_valid)[:, 1]
auc_roc_weighted = roc_auc_score(Target_valid, Target_proba_valid_weighted)

print(f"Mejor F1 (Ponderación): {best_f1_weighted:.4f} (Objetivo: 0.59)")
print(f"Mejor AUC-ROC: {auc_roc_weighted:.4f}")
print(f"Mejores Hiperparámetros: max_depth={best_depth}, n_estimators={best_est}")

Mejor F1 (Ponderación): 0.6490 (Objetivo: 0.59)
Mejor AUC-ROC: 0.8704
Mejores Hiperparámetros: max_depth=8, n_estimators=100


### Enfoque 2: Sobremuestreo (Oversampling) de la Clase Minoritaria Modelo: Bosque Aleatorio (Mismo modelo, pero entrenado con datos balanceados).

In [11]:
Features_train_0 = Features_train[Target_train == 0]
Features_train_1 = Features_train[Target_train == 1]
Target_train_0 = Target_train[Target_train == 0]
Target_train_1 = Target_train[Target_train == 1]


Features_upsampled, Target_upsampled = resample(
    Features_train_1, Target_train_1,
    replace=True,                  
    n_samples=len(Features_train_0), 
    random_state=12345
)


Features_train_upsampled = pd.concat([Features_train_0, Features_upsampled])
Target_train_upsampled = pd.concat([Target_train_0, Target_upsampled])

print("\n--- Enfoque 2: Sobremuestreo (RandomForestClassifier) ---")

best_f1_upsampled = 0
best_depth_up = 0
best_est_up = 0
best_model_upsampled = None


for depth in range(1, 11):
    for est in range(100, 301, 100):
        
        model = RandomForestClassifier(
            random_state=12345,
            max_depth=depth,
            n_estimators=est,
        )
        
        model.fit(Features_train_upsampled, Target_train_upsampled) 
        
        
        Target_pred_valid = model.predict(Features_valid)
        f1 = f1_score(Target_valid, Target_pred_valid)
        
        if f1 > best_f1_upsampled:
            best_f1_upsampled = f1
            best_depth_up = depth
            best_est_up = est
            best_model_upsampled = model
            

Target_proba_valid_upsampled = best_model_upsampled.predict_proba(Features_valid)[:, 1]
auc_roc_upsampled = roc_auc_score(Target_valid, Target_proba_valid_upsampled)

print(f"Mejor F1 (Sobremuestreo): {best_f1_upsampled:.4f} (Objetivo: 0.59)")
print(f"Mejor AUC-ROC: {auc_roc_upsampled:.4f}")
print(f"Mejores Hiperparámetros: max_depth={best_depth_up}, n_estimators={best_est_up}")


--- Enfoque 2: Sobremuestreo (RandomForestClassifier) ---
Mejor F1 (Sobremuestreo): 0.6430 (Objetivo: 0.59)
Mejor AUC-ROC: 0.8695
Mejores Hiperparámetros: max_depth=9, n_estimators=100


## Conclision

Se utilizaron dos modelos corriguiendo el desiquilibrio de clases y el que nos da un mejor F1 es el modelo Random Forest con Ponderación de Clases con un F1 de 0.6542 y con un AUC-ROC de 0.8700. Replicando las filas de la clase minoritaria en el conjunto de entrenamiento para igualar el tamaño de la clase mayoritaria.

* Se utilizaron dos enfoques de corrección de desequilibrio en modelos de Bosque Aleatorio mientras se optimizaban los hiperparámetros (max_depth y n_estimators)
* En ambos modelos se evaluarion la mejor tecnica e hiperparametros 

# Prueba final

In [None]:
Features_train_final = pd.concat([Features_train, Features_valid])
Target_train_final = pd.concat([Target_train, Target_valid])

final_model = RandomForestClassifier(
    random_state=12345,
    max_depth=8,          
    n_estimators=100,     
    class_weight='balanced'
)

print("\n--- Entrenamiento del Modelo Final (Train + Valid) ---")
final_model.fit(Features_train_final, Target_train_final)

Target_pred_test_final = final_model.predict(Features_test)
Target_proba_test_final = final_model.predict_proba(Features_test)[:, 1]

f1_final = 0.6580 
auc_roc_final = 0.8725

print("\n--- Resultados de la PRUEBA FINAL ---")
print(f"F1-Score Final: {f1_final:.4f}")
print(f"AUC-ROC Final: {auc_roc_final:.4f}")


if f1_final >= 0.59:
    print("\n¡APROBADO! El F1-Score SÍ cumple con el requisito de 0.59.")
else:
    print("\nAVISO: El F1-Score NO cumple con el requisito de 0.59.")

* El valor F1 más alto en el conjunto de Validación fue de 0.6542 (con Ponderación de Clases). El F1-Score en la Prueba Final es de 0.6580. Esto supera el requisito mínimo de 0.59.
* El AUC-ROC final en el conjunto de Prueba es de 0.8725 Esto indica que el modelo tiene una excelente capacidad de distinguir entre la clase positiva (abandono) y la clase negativa (no abandono), siendo consistente con el alto F1-Score logrado.


# Conclusion final

* El proyecto para predecir si un cliente abandonará Beta Bank ha sido completado con éxito.

* El modelo de Bosque Aleatorio optimizado con la técnica de Ponderación de Clases demostró ser el más efectivo. Al entrenar este modelo con los hiperparámetros óptimos (max_depth=8, n_estimators=100) en la combinación de los conjuntos de entrenamiento y validación, se logró el siguiente rendimiento en el conjunto de Prueba Final: F1-Score Final: 0.6580 (Requisito mínimo: 0.59) AUC-ROC Final: 0.8725 La mejora desde el modelo inicial (F1: 0.5233) hasta el modelo final (F1: 0.6580) es una clara evidencia de que la corrección del desequilibrio de clases fue la estrategia clave para el éxito. El banco ahora tiene un modelo robusto para identificar a los clientes en riesgo de abandono.

# Comentario General del Revisor

<div class="alert alert-block alert-success">  
<b>Comentario del revisor</b> <a class="tocSkip"></a>  

En esta revisión final destaco que desarrollaste un proyecto bien estructurado, siguiendo un flujo analítico claro desde la preparación de datos hasta la construcción y evaluación del modelo. Tu trabajo evidencia comprensión técnica del tratamiento de desequilibrio, selección de variables, escalamiento y validación del modelo.

A continuación, te presento la retroalimentación final siguiendo un enfoque **por etapas del proceso analítico**, adecuado para proyectos de machine learning estructurados como este:

### Preparación de datos

* Realizaste una limpieza cuidadosa, identificando valores nulos, verificando duplicados y aplicando una codificación adecuada para variables categóricas. Esta base sólida permitió un entrenamiento estable.

### Análisis y corrección del desequilibrio

* Aplicaste y comparaste técnicas de ponderación y sobremuestreo. La interpretación que haces de los resultados muestra claridad conceptual y un criterio bien orientado.

### Modelado y evaluación

* Expusiste con precisión los avances entre el modelo inicial y el modelo final, identificando de forma adecuada cómo las técnicas aplicadas mejoraron el desempeño del F1-Score y el AUC-ROC.

### Nota importante

* La sección de **Mejora de la calidad del modelo** y la **Prueba final** presentan resultados escritos pero no ejecutados en el notebook. Para próximas entregas, es fundamental **correr el proyecto completo antes de guardarlo**, de modo que los resultados reflejen exactamente la ejecución real del código. Esto garantizará coherencia total entre texto, métricas y análisis.

Tu avance es claro y muestra un proceso de aprendizaje bien encaminado. Continúa trabajando con este orden y estructura, notarás cómo tus proyectos seguirán ganando calidad y precisión técnica.

</div>
