# 1. Preparación de los datos

En esta sección, importaremos las librerías necesarias y cargaremos el conjunto de datos. Realizaremos una limpieza inicial para asegurar que los datos sean consistentes (por ejemplo, normalizando el texto a minúsculas) y manejaremos los valores faltantes.

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Cargar el dataset desde el archivo CSV
df = pd.read_csv('./datasets/WA_Fn-UseC_-Telco-Customer-Churn.csv')

# Verificar el número total de filas (clientes)
print(len(df))

# Mostrar las primeras filas transpuestas para facilitar la visualización de todas las columnas
df.head().T

7043


Unnamed: 0,0,1,2,3,4
customerID,7590-VHVEG,5575-GNVDE,3668-QPYBK,7795-CFOCW,9237-HQITU
gender,Female,Male,Male,Male,Female
SeniorCitizen,0,0,0,0,0
Partner,Yes,No,No,No,No
Dependents,No,No,No,No,No
tenure,1,34,2,45,2
PhoneService,No,Yes,Yes,No,Yes
MultipleLines,No phone service,No,No,No phone service,No
InternetService,DSL,DSL,DSL,DSL,Fiber optic
OnlineSecurity,No,Yes,Yes,Yes,No


In [3]:
# Verificar los tipos de datos de cada columna
df.dtypes

customerID           object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
MonthlyCharges      float64
TotalCharges         object
Churn                object
dtype: object

In [4]:
# La columna TotalCharges debería ser numérica, pero se detectó como objeto (string).
# Intentamos convertirla a numérico, forzando los errores a NaN (Not a Number) con errors='coerce'
total_charges = pd.to_numeric(df.TotalCharges, errors='coerce')

# Aplicamos la conversión a la columna del dataframe
df.TotalCharges = pd.to_numeric(df.TotalCharges, errors='coerce')

# Rellenamos los valores nulos (NaN) con 0, asumiendo que son clientes nuevos sin cargos acumulados
df.TotalCharges = df.TotalCharges.fillna(0)

# Verificamos los registros que tenían problemas (ahora son 0)
df[total_charges.isnull()][['customerID', 'TotalCharges']]

Unnamed: 0,customerID,TotalCharges
488,4472-LVYGI,0.0
753,3115-CZMZD,0.0
936,5709-LVOEQ,0.0
1082,4367-NUYAO,0.0
1340,1371-DWPAZ,0.0
3331,7644-OMVMY,0.0
3826,3213-VVOLG,0.0
4380,2520-SGTTA,0.0
5218,2923-ARZLG,0.0
6670,4075-WKNIU,0.0


In [5]:
# Normalización de nombres de columnas y valores de tipo string
# Convertimos todo a minúsculas y reemplazamos espacios por guiones bajos para consistencia
replacer = lambda str: str.lower().str.replace(' ', '_')

# Aplicar a los nombres de las columnas
df.columns = replacer(df.columns.str)

# Aplicar a los valores de las columnas de tipo objeto (string)
for col in list(df.dtypes[df.dtypes == 'object'].index):
    df[col] = replacer(df[col].str)

df.head().T

Unnamed: 0,0,1,2,3,4
customerid,7590-vhveg,5575-gnvde,3668-qpybk,7795-cfocw,9237-hqitu
gender,female,male,male,male,female
seniorcitizen,0,0,0,0,0
partner,yes,no,no,no,no
dependents,no,no,no,no,no
tenure,1,34,2,45,2
phoneservice,no,yes,yes,no,yes
multiplelines,no_phone_service,no,no,no_phone_service,no
internetservice,dsl,dsl,dsl,dsl,fiber_optic
onlinesecurity,no,yes,yes,yes,no


In [6]:
# Convertir la variable objetivo 'churn' a numérica (0 y 1)
# 'yes' será 1 (cliente se fue), 'no' será 0 (cliente se quedó)
df.churn = (df.churn == 'yes').astype(int)
df.churn.head()

0    0
1    0
2    1
3    0
4    1
Name: churn, dtype: int64

In [7]:
# Definir listas de variables categóricas y numéricas para facilitar el procesamiento posterior
categorical = ['gender', 'seniorcitizen', 'partner', 'dependents',
'phoneservice', 'multiplelines', 'internetservice', 'onlinesecurity', 'onlinebackup', 'deviceprotection', 'techsupport', 'streamingtv', 'streamingmovies', 'contract', 'paperlessbilling', 'paymentmethod']
numerical = ['tenure', 'monthlycharges', 'totalcharges']

# Verificar la cardinalidad (número de valores únicos) de las variables categóricas
df[categorical].nunique()

gender              2
seniorcitizen       2
partner             2
dependents          2
phoneservice        2
multiplelines       3
internetservice     3
onlinesecurity      3
onlinebackup        3
deviceprotection    3
techsupport         3
streamingtv         3
streamingmovies     3
contract            3
paperlessbilling    2
paymentmethod       4
dtype: int64

In [8]:
# Separación de los datos
from sklearn.model_selection import train_test_split

# Dividimos el dataset completo en entrenamiento (80%) y test (20%)
df_train_full, df_test = train_test_split(df, test_size=0.2, random_state=1)

# Dividimos a su vez el conjunto de entrenamiento en entrenamiento y validación
# El 33% del 80% es aprox el 26% del total, dejando un split aprox de 60/20/20
df_train, df_val = train_test_split(df_train_full, test_size=0.33, random_state=1)

# Guardar las etiquetas (variable objetivo) en variables separadas (arrays de numpy)
y_train = df_train.churn.values
y_val = df_val.churn.values

# Eliminar la variable objetivo de los dataframes de características para evitar 'data leakage'
del df_train['churn']
del df_val['churn']

In [9]:
# Verificar los tamaños de los conjuntos resultantes
print(len(df_train))
print(len(y_train))

3774
3774


In [10]:
# Visualizar las primeras filas del conjunto de entrenamiento
df_train.head().T

Unnamed: 0,4204,7034,5146,5184,1310
customerid,4395-pzmsn,0639-tsiqw,3797-fkogq,7570-welny,6393-wryze
gender,male,female,male,female,female
seniorcitizen,1,0,0,0,0
partner,no,no,no,yes,yes
dependents,no,no,yes,no,no
tenure,5,67,11,68,34
phoneservice,yes,yes,yes,yes,yes
multiplelines,no,yes,yes,yes,yes
internetservice,fiber_optic,fiber_optic,fiber_optic,fiber_optic,fiber_optic
onlinesecurity,no,yes,no,yes,no


In [11]:
# Verificar el tamaño del conjunto de test
print(len(df_test))

1409


# 2. Análisis de importancia de propiedades

Analizaremos qué variables influyen más en la tasa de abandono (churn). Calcularemos la tasa global y la compararemos con las tasas por grupos.

In [12]:
# Calcular la tasa de churn global (media de la variable objetivo)
global_mean = df_train_full.churn.mean()
round(global_mean, 3)

np.float64(0.27)

In [13]:
# Comparar churn por género
female_mean = df_train_full[df_train_full.gender == 'female'].churn.mean()
print(round(female_mean, 3))
male_mean = df_train_full[df_train_full.gender == 'male'].churn.mean()
print(round(male_mean, 3))
# Conclusión: El género no parece influir mucho (tasas similares)

0.277
0.263


In [14]:
# Comparar churn por tener pareja (partner)
partner_yes = df_train_full[df_train_full.partner == 'yes'].churn.mean()
print(round(partner_yes, 3))
partner_no = df_train_full[df_train_full.partner == 'no'].churn.mean()
print(round(partner_no, 3))
# Conclusión: Las personas sin pareja tienen una tasa de churn mayor

0.205
0.33


In [15]:
# Calcular la Información Mutua (Mutual Information) para todas las variables categóricas
# La MI mide cuánto nos dice una variable sobre otra (dependencia)
from sklearn.metrics import mutual_info_score

calculate_mi = lambda col: mutual_info_score(col, df_train_full.churn)

df_mi = df_train_full[categorical].apply(calculate_mi)
df_mi = df_mi.sort_values(ascending=False).to_frame(name='MI')
df_mi
# Variables como 'contract', 'onlinesecurity' y 'techsupport' son las más importantes

Unnamed: 0,MI
contract,0.09832
onlinesecurity,0.063085
techsupport,0.061032
internetservice,0.055868
onlinebackup,0.046923
deviceprotection,0.043453
paymentmethod,0.04321
streamingtv,0.031853
streamingmovies,0.031581
paperlessbilling,0.017589


In [16]:
# Calcular la correlación para las variables numéricas
# Mide la relación lineal entre las variables y el churn
print(df_train_full[numerical].corrwith(df_train_full.churn))

tenure           -0.351885
monthlycharges    0.196805
totalcharges     -0.196353
dtype: float64


In [17]:
# Análisis más detallado de variables numéricas agrupando por rangos
# Clientes con poca antigüedad (tenure <= 2 meses) tienen una tasa de churn muy alta
print(round(df_train_full[df_train_full.tenure <= 2].churn.mean(), 3))
print(round(df_train_full[(df_train_full.tenure > 3) & 
                          (df_train_full.tenure <= 12)].churn.mean(), 3))
print(round(df_train_full[df_train_full.tenure > 12].churn.mean(), 3))

# Clientes con cargos mensuales altos (> 50) tienden a irse más
print(round(df_train_full[df_train_full.monthlycharges < 20].churn.mean(), 3))
print(round(df_train_full[(df_train_full.monthlycharges > 21) & 
                          (df_train_full.monthlycharges <= 50)].churn.mean(), 3))
print(round(df_train_full[df_train_full.monthlycharges > 50].churn.mean(), 3))

0.595
0.391
0.176
0.088
0.223
0.325


# 3. Ingeniería de propiedades

Prepararemos los datos para el modelo. Utilizaremos **One-Hot Encoding** para convertir las variables categóricas en numéricas.

In [18]:
# Convertimos el dataframe a una lista de diccionarios
# Esto es necesario para usar DictVectorizer de Scikit-Learn
train_dict = df_train[categorical + numerical].to_dict(orient='records')
dict(sorted(train_dict[0].items()))

{'contract': 'month-to-month',
 'dependents': 'no',
 'deviceprotection': 'no',
 'gender': 'male',
 'internetservice': 'fiber_optic',
 'monthlycharges': 85.55,
 'multiplelines': 'no',
 'onlinebackup': 'yes',
 'onlinesecurity': 'no',
 'paperlessbilling': 'yes',
 'partner': 'no',
 'paymentmethod': 'electronic_check',
 'phoneservice': 'yes',
 'seniorcitizen': 1,
 'streamingmovies': 'yes',
 'streamingtv': 'no',
 'techsupport': 'no',
 'tenure': 5,
 'totalcharges': 408.5}

In [19]:
from sklearn.feature_extraction import DictVectorizer

# Inicializamos DictVectorizer con sparse=False para obtener una matriz densa (array de numpy)
dv = DictVectorizer(sparse=False)

# Ajustamos el vectorizador a los datos de entrenamiento (aprende las categorías)
dv.fit(train_dict)

0,1,2
,dtype,<class 'numpy.float64'>
,separator,'='
,sparse,False
,sort,True


In [20]:
# Transformamos los datos de entrenamiento a una matriz numérica
X_train = dv.transform(train_dict)

In [21]:
# Verificamos la primera fila transformada
X_train[0]

array([  1.  ,   0.  ,   0.  ,   1.  ,   0.  ,   1.  ,   0.  ,   0.  ,
         0.  ,   1.  ,   0.  ,   1.  ,   0.  ,  85.55,   1.  ,   0.  ,
         0.  ,   0.  ,   0.  ,   1.  ,   1.  ,   0.  ,   0.  ,   0.  ,
         1.  ,   1.  ,   0.  ,   0.  ,   0.  ,   1.  ,   0.  ,   0.  ,
         1.  ,   1.  ,   0.  ,   0.  ,   1.  ,   1.  ,   0.  ,   0.  ,
         1.  ,   0.  ,   0.  ,   5.  , 408.5 ])

In [22]:
# Obtenemos los nombres de las características generadas
dv.get_feature_names_out()

array(['contract=month-to-month', 'contract=one_year',
       'contract=two_year', 'dependents=no', 'dependents=yes',
       'deviceprotection=no', 'deviceprotection=no_internet_service',
       'deviceprotection=yes', 'gender=female', 'gender=male',
       'internetservice=dsl', 'internetservice=fiber_optic',
       'internetservice=no', 'monthlycharges', 'multiplelines=no',
       'multiplelines=no_phone_service', 'multiplelines=yes',
       'onlinebackup=no', 'onlinebackup=no_internet_service',
       'onlinebackup=yes', 'onlinesecurity=no',
       'onlinesecurity=no_internet_service', 'onlinesecurity=yes',
       'paperlessbilling=no', 'paperlessbilling=yes', 'partner=no',
       'partner=yes', 'paymentmethod=bank_transfer_(automatic)',
       'paymentmethod=credit_card_(automatic)',
       'paymentmethod=electronic_check', 'paymentmethod=mailed_check',
       'phoneservice=no', 'phoneservice=yes', 'seniorcitizen',
       'streamingmovies=no', 'streamingmovies=no_internet_service',

# 4. Entrenamiento del modelo

Entrenaremos un modelo de **Regresión Logística**. A pesar de su nombre, es un algoritmo de clasificación lineal que estima la probabilidad de pertenencia a una clase.

In [23]:
from sklearn.linear_model import LogisticRegression

# Inicializamos el modelo
# solver='liblinear' es adecuado para datasets pequeños y problemas binarios
model = LogisticRegression(solver='liblinear')

# Entrenamos el modelo con la matriz de características (X_train) y las etiquetas (y_train)
model.fit(X_train, y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'liblinear'
,max_iter,100


In [24]:
# Preparamos el conjunto de validación de la misma manera que el de entrenamiento
# Importante: Usamos el MISMO vectorizador (dv) ajustado con train, solo transformamos
val_dict = df_val[categorical + numerical].to_dict(orient='records')
X_val = dv.transform(val_dict) 

In [25]:
# Lanzamos predicciones sobre el conjunto de validación
# predict_proba devuelve dos columnas: probabilidad de clase 0 y probabilidad de clase 1
y_pred = model.predict_proba(X_val)
y_pred

array([[0.99142715, 0.00857285],
       [0.79028815, 0.20971185],
       [0.78364575, 0.21635425],
       ...,
       [0.3566433 , 0.6433567 ],
       [0.8105598 , 0.1894402 ],
       [0.8726199 , 0.1273801 ]], shape=(1860, 2))

In [26]:
# Nos interesa solo la probabilidad de churn (clase 1, segunda columna)
y_pred = model.predict_proba(X_val)[:, 1]
y_pred

array([0.00857285, 0.20971185, 0.21635425, ..., 0.6433567 , 0.1894402 ,
       0.1273801 ], shape=(1860,))

In [27]:
# Convertimos las probabilidades a decisiones binarias usando un umbral (threshold) de 0.5
churn = y_pred >= 0.5
churn

array([False, False, False, ...,  True, False, False], shape=(1860,))

In [28]:
# Valores reales del conjunto de validación
y_val

array([0, 0, 0, ..., 1, 0, 0], shape=(1860,))

In [29]:
# Calcular la exactitud (accuracy) del modelo
# Comparamos nuestras predicciones con los valores reales
accuracy = (y_val == churn).mean()
print(f"Accuracy: {round(accuracy, 3)}")

Accuracy: 0.805


# 5. Serialización del modelo

Guardaremos el modelo entrenado para poder usarlo posteriormente sin necesidad de reentrenar.

In [30]:
import pickle

# Aquí se podría guardar el modelo usando pickle.dump
with open('models/churn-model.kpck', 'wb') as f_out:
    pickle.dump((dv, model), f_out)