# 1️⃣. Objetivo del desafío

Responder preguntas como: 
* ¿Quiénes son los clientes con mayor riesgo de evasión? 
* ¿Qué variables influyen más en ese comportamiento? 
* ¿Y qué perfil de cliente debemos cuidar con mayor atención? 

Este conocimiento es clave para implementar acciones de retención y estrategias personalizadas.

🎯 Misión

Tu nueva misión es desarrollar modelos predictivos capaces de prever qué clientes tienen mayor probabilidad de cancelar sus servicios.

La empresa quiere anticiparse al problema de la cancelación, y te corresponde a ti construir un pipeline robusto para esta etapa inicial de modelado.

🧠 Objetivos del Desafío

Preparar los datos para el modelado (tratamiento, codificación, normalización).

Realizar análisis de correlación y selección de variables.

Entrenar dos o más modelos de clasificación.

Evaluar el rendimiento de los modelos con métricas.

Interpretar los resultados, incluyendo la importancia de las variables.

Crear una conclusión estratégica señalando los principales factores que influyen en la cancelación.

🧰 Lo que vas a practicar

✅ Preprocesamiento de datos para Machine Learning
✅ Construcción y evaluación de modelos predictivos
✅ Interpretación de resultados y entrega de insights
✅ Comunicación técnica con enfoque estratégico



# 2️⃣. Preparación de los datos

In [1]:
import pandas as pd

In [2]:
df_telecom = pd.read_csv('TelecomX_tratados.csv')
df_telecom.sample(5)

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Monthly,Total,Cuentas_diarias
6094,8347-GDTMP,False,Female,False,True,False,64,True,False,No,...,False,False,False,False,Two year,False,Credit card (automatic),19.45,1225.65,0.65
2268,3170-NMYVV,False,Female,False,True,True,50,True,False,No,...,False,False,False,False,Two year,False,Bank transfer (automatic),20.15,930.9,0.67
1533,2202-CUYXZ,True,Male,False,False,False,1,True,False,Fiber optic,...,True,False,True,False,Month-to-month,True,Electronic check,84.85,84.85,2.83
1274,1834-WULEG,False,Male,False,True,True,24,True,False,No,...,False,False,False,False,One year,False,Mailed check,20.25,439.75,0.68
3606,4986-MXSFP,False,Female,False,False,False,2,True,False,No,...,False,False,False,False,Month-to-month,True,Mailed check,20.0,40.9,0.67


## .1. Eliminación de Columnas Irrelevantes

Elimina columnas que no aportan valor al análisis o a los modelos predictivos, como identificadores únicos (por ejemplo, el ID del cliente). Estas columnas no ayudan en la predicción de la cancelación y pueden incluso perjudicar el desempeño de los modelos.

In [3]:
df_telecom.drop(['customerID', 'Cuentas_diarias'], axis=1, inplace=True)
df_telecom.sample(5)

Unnamed: 0,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Monthly,Total
6381,True,Male,True,False,False,1,False,False,DSL,No,False,True,False,False,True,Month-to-month,True,Electronic check,39.65,39.65
4539,False,Male,False,True,False,22,True,True,Fiber optic,Yes,False,False,True,True,False,Month-to-month,False,Credit card (automatic),95.9,2234.95
2251,True,Male,False,False,False,1,True,False,No,No internet service,False,False,False,False,False,Month-to-month,False,Mailed check,20.1,20.1
4166,False,Female,False,True,True,8,True,False,No,No internet service,False,False,False,False,False,Two year,True,Mailed check,19.85,146.6
4745,False,Female,False,False,False,23,True,True,No,No internet service,False,False,False,False,False,One year,False,Credit card (automatic),24.8,615.35


## .2. Encoding

Transforma las variables categóricas a formato numérico para hacerlas compatibles con los algoritmos de machine learning. Utiliza un método de codificación adecuado, como one-hot encoding.

In [4]:
df_telecom.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7256 entries, 0 to 7255
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Churn             7256 non-null   bool   
 1   gender            7256 non-null   object 
 2   SeniorCitizen     7256 non-null   bool   
 3   Partner           7256 non-null   bool   
 4   Dependents        7256 non-null   bool   
 5   tenure            7256 non-null   int64  
 6   PhoneService      7256 non-null   bool   
 7   MultipleLines     7256 non-null   bool   
 8   InternetService   7256 non-null   object 
 9   OnlineSecurity    7256 non-null   object 
 10  OnlineBackup      7256 non-null   bool   
 11  DeviceProtection  7256 non-null   bool   
 12  TechSupport       7256 non-null   bool   
 13  StreamingTV       7256 non-null   bool   
 14  StreamingMovies   7256 non-null   bool   
 15  Contract          7256 non-null   object 
 16  PaperlessBilling  7256 non-null   bool   


In [5]:
df_telecom.columns

Index(['Churn', 'gender', 'SeniorCitizen', 'Partner', 'Dependents', 'tenure',
       'PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity',
       'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV',
       'StreamingMovies', 'Contract', 'PaperlessBilling', 'PaymentMethod',
       'Monthly', 'Total'],
      dtype='object')

In [6]:
df_telecom.head(5)

Unnamed: 0,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Monthly,Total
0,False,Female,False,True,True,9,True,False,DSL,No,True,False,True,True,False,One year,True,Mailed check,65.6,593.3
1,False,Male,False,False,False,9,True,True,DSL,No,False,False,False,False,True,Month-to-month,False,Mailed check,59.9,542.4
2,True,Male,False,False,False,4,True,False,Fiber optic,No,False,True,False,False,False,Month-to-month,True,Electronic check,73.9,280.85
3,True,Male,True,True,False,13,True,False,Fiber optic,No,True,True,False,True,True,Month-to-month,True,Electronic check,98.0,1237.85
4,True,Female,True,True,False,3,True,False,Fiber optic,No,False,False,True,True,False,Month-to-month,True,Mailed check,83.9,267.4


In [7]:
from sklearn.preprocessing import OneHotEncoder

In [8]:
categoricas = ['Churn', 'gender', 'SeniorCitizen', 'Partner', 'Dependents', 'PhoneService', 
               'MultipleLines', 'InternetService', 'OnlineSecurity',
               'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV',
               'StreamingMovies', 'Contract', 'PaperlessBilling', 'PaymentMethod']

# 1. Crea una instancia del codificador
encoder = OneHotEncoder(dtype=int, sparse_output=False)

# 2. Ajusta (fit) y transforma (transform) las columnas categóricas
datos_codificados = encoder.fit_transform(df_telecom[categoricas])

# 3. Obtiene los nombres de las nuevas columnas para crear un nuevo DataFrame
column_names = encoder.get_feature_names_out(categoricas)

# 4. Crear un DataFrame con los datos codificados
df_codificado = pd.DataFrame(datos_codificados, columns=column_names)

# 5. Unir los datos codificados con las columnas no categóricas originales
# Primero, eliminamos las columnas categóricas originales del DataFrame
df_sin_categoricas = df_telecom.drop(columns=categoricas)

# Luego, concatenamos el DataFrame sin las categóricas con el DataFrame codificado
df_codificado = pd.concat([df_sin_categoricas, df_codificado], axis=1)

df_codificado

Unnamed: 0,tenure,Monthly,Total,Churn_False,Churn_True,gender_Female,gender_Male,SeniorCitizen_False,SeniorCitizen_True,Partner_False,...,StreamingMovies_True,Contract_Month-to-month,Contract_One year,Contract_Two year,PaperlessBilling_False,PaperlessBilling_True,PaymentMethod_Bank transfer (automatic),PaymentMethod_Credit card (automatic),PaymentMethod_Electronic check,PaymentMethod_Mailed check
0,9,65.60,593.30,1,0,1,0,1,0,0,...,0,0,1,0,0,1,0,0,0,1
1,9,59.90,542.40,1,0,0,1,1,0,1,...,1,1,0,0,1,0,0,0,0,1
2,4,73.90,280.85,0,1,0,1,1,0,1,...,0,1,0,0,0,1,0,0,1,0
3,13,98.00,1237.85,0,1,0,1,0,1,0,...,1,1,0,0,0,1,0,0,1,0
4,3,83.90,267.40,0,1,1,0,0,1,0,...,0,1,0,0,0,1,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7251,13,55.15,742.90,1,0,1,0,1,0,1,...,0,0,1,0,1,0,0,0,0,1
7252,22,85.10,1873.70,0,1,0,1,1,0,0,...,1,1,0,0,0,1,0,0,1,0
7253,2,50.30,92.75,1,0,0,1,1,0,1,...,0,1,0,0,0,1,0,0,0,1
7254,67,67.85,4627.65,1,0,0,1,1,0,0,...,1,0,0,1,1,0,0,0,0,1


## .3. Verificación de la Proporción de Cancelación (Churn)

Calcula la proporción de clientes que cancelaron en relación con los que permanecieron activos. Evalúa si existe un desbalance entre las clases, ya que esto puede impactar en los modelos predictivos y en el análisis de los resultados.

In [9]:
df_codificado['Churn_True'].value_counts(normalize=True)*100

Churn_True
0    71.154906
1    28.845094
Name: proportion, dtype: float64

```Churn_True``` significa abandona $$1 = \text{True}$$ $$0 = \text{False}$$

Por lo tanto si existe un desbalance en los datos

In [10]:
df_codificado.columns

Index(['tenure', 'Monthly', 'Total', 'Churn_False', 'Churn_True',
       'gender_Female', 'gender_Male', 'SeniorCitizen_False',
       'SeniorCitizen_True', 'Partner_False', 'Partner_True',
       'Dependents_False', 'Dependents_True', 'PhoneService_False',
       'PhoneService_True', 'MultipleLines_False', 'MultipleLines_True',
       'InternetService_DSL', 'InternetService_Fiber optic',
       'InternetService_No', 'OnlineSecurity_No',
       'OnlineSecurity_No internet service', 'OnlineSecurity_Yes',
       'OnlineBackup_False', 'OnlineBackup_True', 'DeviceProtection_False',
       'DeviceProtection_True', 'TechSupport_False', 'TechSupport_True',
       'StreamingTV_False', 'StreamingTV_True', 'StreamingMovies_False',
       'StreamingMovies_True', 'Contract_Month-to-month', 'Contract_One year',
       'Contract_Two year', 'PaperlessBilling_False', 'PaperlessBilling_True',
       'PaymentMethod_Bank transfer (automatic)',
       'PaymentMethod_Credit card (automatic)',
       'Payme

## .4. Eliminación columnas repetidas

In [11]:
# Variables a eliminar:
cols_a_eliminar = ['Churn_False', 
                   'gender_Male',
                   'SeniorCitizen_False',
                   'Partner_False',
                   'Dependents_False',
                   'PhoneService_False',
                   'MultipleLines_False',
                   'OnlineBackup_False',
                   'DeviceProtection_False',
                   'TechSupport_False',
                   'StreamingTV_False',
                   'StreamingMovies_False',
                   'PaperlessBilling_False'
                  ]

df_codificado.drop(columns=cols_a_eliminar, inplace=True)
df_codificado

Unnamed: 0,tenure,Monthly,Total,Churn_True,gender_Female,SeniorCitizen_True,Partner_True,Dependents_True,PhoneService_True,MultipleLines_True,...,StreamingTV_True,StreamingMovies_True,Contract_Month-to-month,Contract_One year,Contract_Two year,PaperlessBilling_True,PaymentMethod_Bank transfer (automatic),PaymentMethod_Credit card (automatic),PaymentMethod_Electronic check,PaymentMethod_Mailed check
0,9,65.60,593.30,0,1,0,1,1,1,0,...,1,0,0,1,0,1,0,0,0,1
1,9,59.90,542.40,0,0,0,0,0,1,1,...,0,1,1,0,0,0,0,0,0,1
2,4,73.90,280.85,1,0,0,0,0,1,0,...,0,0,1,0,0,1,0,0,1,0
3,13,98.00,1237.85,1,0,1,1,0,1,0,...,1,1,1,0,0,1,0,0,1,0
4,3,83.90,267.40,1,1,1,1,0,1,0,...,1,0,1,0,0,1,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7251,13,55.15,742.90,0,1,0,0,0,1,0,...,0,0,0,1,0,0,0,0,0,1
7252,22,85.10,1873.70,1,0,0,1,0,1,1,...,0,1,1,0,0,1,0,0,1,0
7253,2,50.30,92.75,0,0,0,0,0,1,0,...,0,0,1,0,0,1,0,0,0,1
7254,67,67.85,4627.65,0,0,0,1,1,1,0,...,0,1,0,0,1,0,0,0,0,1


## .5. Balanceo de Clases

Aplica técnicas de balanceo como undersampling o oversampling. En situaciones de fuerte desbalanceo, herramientas como SMOTE pueden ser útiles para generar ejemplos sintéticos de la clase minoritaria.

### Función para saber que porcentaje va en ```sampling_strategy```

"""
    Aplica SMOTE para balancear un DataFrame al porcentaje deseado de clase minoritaria.
    
    Parámetro:
    -----------
    PorcentMinori : float
        Porcentaje deseado de la clase minoritaria (ej. 0.4 para 40%).
        
    Retorna:
    --------
    sampling_ratio
    porcentaje adecuado para el balanceo según el porcentaje minoritario deseado
    """

In [12]:
from imblearn.over_sampling import SMOTE

In [15]:
def porcent_samplig(PorcentMinori):
    # Verifica que el porcentaje sea válido
    if not (0 < PorcentMinori < 0.5):
        raise ValueError("PorcentMinori debe estar entre 0 y 0.5 (ej. 0.4 para 40%).")
    
    # Calcula el ratio minoritaria/mayoritaria
    sampling_ratio = PorcentMinori / (1 - PorcentMinori)
    
    return sampling_ratio

In [16]:
porcent_samplig(0.4)

0.6666666666666667

### Balanceo

In [17]:
# columna objetivo es 'Churn_True'
X = df_codificado.drop(columns=['Churn_True'])
y = df_codificado['Churn_True']

# Crea el oversampler con proporción 60-40
# 0.4 significa que el número de minoritarios será el 40% del total final
smote = SMOTE(sampling_strategy=porcent_samplig(0.4), random_state=42)

X_res, y_res = smote.fit_resample(X, y)

# Une en un DataFrame de nuevo
df_balanceado = pd.concat([pd.DataFrame(X_res, columns=X.columns),
                           pd.Series(y_res, name='Churn_True')], axis=1)

# Verifica nuevo balance
df_balanceado['Churn_True'].value_counts(normalize=True)

Churn_True
0    0.6
1    0.4
Name: proportion, dtype: float64

In [21]:
# Obtiene tamaños
original_counts = df_codificado['Churn_True'].value_counts()
balance_counts = df_balanceado['Churn_True'].value_counts()

# Cuántos casos sintéticos se crearon para la minoritaria
synthetic_created = balance_counts[1] - original_counts[1]
print(f"Casos sintéticos creados para la clase 1: {synthetic_created}")


Casos sintéticos creados para la clase 1: 1349


## .6. Normalización o Estandarización

Evalúa la necesidad de normalizar o estandarizar los datos, según los modelos que se aplicarán. Modelos basados en distancia, como KNN, SVM, Regresión Logística y Redes Neuronales, requieren este preprocesamiento. Por otro lado, modelos basados en árboles, como Decision Tree, Random Forest y XGBoost, no son sensibles a la escala de los datos.

### Calcular sesgo de las columnas numéricas

In [22]:
import numpy as np

In [42]:
# Calcular el sesgo de todas las columnas numéricas
skewness = df_balanceado[['tenure', 'Monthly', 'Total']].skew()

print("Sesgo de cada columna:")
print(skewness)

# Interpretar los resultados
print("\nInterpretación:")
for column, skew_value in skewness.items():
    if skew_value > 0.5:
        print(f"La columna '{column}' está sesgada a la derecha (positivo), valor: {skew_value:.2f}")
    elif skew_value < -0.5:
        print(f"La columna '{column}' está sesgada a la izquierda (negativo), valor: {skew_value:.2f}")
    else:
        print(f"La columna '{column}' es aproximadamente simétrica, valor: {skew_value:.2f}")

Sesgo de cada columna:
tenure     0.357856
Monthly   -0.297937
Total      1.035659
dtype: float64

Interpretación:
La columna 'tenure' es aproximadamente simétrica, valor: 0.36
La columna 'Monthly' es aproximadamente simétrica, valor: -0.30
La columna 'Total' está sesgada a la derecha (positivo), valor: 1.04


En este caso como (al menos 1 está sesgado) el ```Total``` está sesgada a la derecha entonces indica que el dataframe está sesgado a la derecha. Por lo que, para poder aplicar un modelo KNN será necesario normalizar los datos de la columna sesgada.

### Normalizar con raíz cuadrada

In [45]:
df_normalizado = df_balanceado.copy()
# Aplicar la transformación logarítmica a la columna 'Total'
df_normalizado['Total_sqrt'] = np.sqrt(df_codificado['Total'])
df_normalizado.drop(['Total'], axis=1, inplace=True)

# Opcional: Volver a calcular el sesgo para verificar la mejora
sesgo_despues = df_normalizado['Total_sqrt'].skew()
print(f"El sesgo de 'Total_sqrt' después de la transformación es: {sesgo_despues:.2f}")

El sesgo de 'Total_sqrt' después de la transformación es: 0.31


# 3️⃣. Correlación y Selección de Variables