CARGA Y EXPLORACIÓN INICIAL (Extracción / vista)

In [2]:
# BLOQUE 1 — CARGA Y EXPLORACIÓN INICIAL
import pandas as pd

# Ruta al archivo subido
path = "/content/datos_challenge.csv"   # si estás en Colab, asegúrate de haber subido el archivo

# Leer el CSV (archivo con comas, encabezado en la primera fila)
df = pd.read_csv(path)

# Vista rápida
print("Forma del dataset:", df.shape)
print("\nColumnas:")
print(df.columns.tolist())

print("\nPrimeras 5 filas:")
display(df.head())

print("\nTipos de datos:")
print(df.dtypes)

# Contar valores únicos por columna (útil para decidir irrelevancias)
print("\nValores únicos por columna (top 10):")
for c in df.columns:
    print(f" - {c}: {df[c].nunique()} únicos")


Forma del dataset: (7256, 22)

Columnas:
['customerID', 'Churn', 'Genero', 'Adulto_Mayor', 'Conyuge', 'Cargas', 'Meses_contrato', 'Servicio_telefonico', 'Multilineas', 'Servicio_internet', 'Seguridad_online', 'Respaldo_online', 'Proteccion_equipo', 'Soporte_tecnico', 'TVcable', 'Peliculas_online', 'Contrato', 'Factura_online', 'Metodo_pago', 'Factura_mensual', 'Total', 'Cuentas_diarias']

Primeras 5 filas:


Unnamed: 0,customerID,Churn,Genero,Adulto_Mayor,Conyuge,Cargas,Meses_contrato,Servicio_telefonico,Multilineas,Servicio_internet,...,Proteccion_equipo,Soporte_tecnico,TVcable,Peliculas_online,Contrato,Factura_online,Metodo_pago,Factura_mensual,Total,Cuentas_diarias
0,0002-ORFBO,0,Female,0,1,1,9,1,0,1,...,0,1,1,0,One year,1,Mailed check,65.6,593.3,2.2
1,0003-MKNFE,0,Male,0,0,0,9,1,1,1,...,0,0,0,1,Month-to-month,0,Mailed check,59.9,542.4,2.0
2,0004-TLHLJ,1,Male,0,0,0,4,1,0,1,...,1,0,0,0,Month-to-month,1,Electronic check,73.9,280.85,2.5
3,0011-IGKFF,1,Male,1,1,0,13,1,0,1,...,1,0,1,1,Month-to-month,1,Electronic check,98.0,1237.85,3.3
4,0013-EXCHZ,1,Female,1,1,0,3,1,0,1,...,0,1,1,0,Month-to-month,1,Mailed check,83.9,267.4,2.8



Tipos de datos:
customerID              object
Churn                    int64
Genero                  object
Adulto_Mayor             int64
Conyuge                  int64
Cargas                   int64
Meses_contrato           int64
Servicio_telefonico      int64
Multilineas              int64
Servicio_internet        int64
Seguridad_online         int64
Respaldo_online          int64
Proteccion_equipo        int64
Soporte_tecnico          int64
TVcable                  int64
Peliculas_online         int64
Contrato                object
Factura_online           int64
Metodo_pago             object
Factura_mensual        float64
Total                  float64
Cuentas_diarias        float64
dtype: object

Valores únicos por columna (top 10):
 - customerID: 7256 únicos
 - Churn: 2 únicos
 - Genero: 2 únicos
 - Adulto_Mayor: 2 únicos
 - Conyuge: 2 únicos
 - Cargas: 2 únicos
 - Meses_contrato: 72 únicos
 - Servicio_telefonico: 2 únicos
 - Multilineas: 2 únicos
 - Servicio_internet: 2 único

PREPARACIÓN DE DATOS

In [4]:

import pandas as pd
import numpy as np

path = "/content/datos_challenge.csv"
df = pd.read_csv(path)

# 1) Normalizar nombres de columnas a minúsculas y sin espacios
df.columns = [c.strip() for c in df.columns]

# 2) Eliminar columnas irrelevantes: customerID (ID único)
if "customerID" in df.columns:
    df = df.drop(columns=["customerID"])

# 3) Verificar y convertir la columna churn a numérica (0/1)
if "Churn" in df.columns:
    # Si estuviera en 0/1 ya está bien; si fuera Yes/No convertirlo:
    if df["Churn"].dtype == object:
        df["Churn"] = df["Churn"].str.strip().str.lower().map({"yes":1,"no":0})
    df["Churn"] = pd.to_numeric(df["Churn"], errors="coerce").fillna(0).astype(int)

# 4) Convertir columnas numéricas que pudieran venir como texto
# Basado en la inspección inicial, convertimos: Meses_contrato, Factura_mensual, Total, Cuentas_diarias
num_cols_guess = ["Meses_contrato", "Factura_mensual", "Total", "Cuentas_diarias"]
for col in num_cols_guess:
    if col in df.columns:
        df[col] = pd.to_numeric(df[col], errors="coerce")

# 5) Rellenar nulos simples
# - Para numéricas: rellenar con mediana (robusto)
num_cols = df.select_dtypes(include=["number"]).columns.tolist()
for c in num_cols:
    df[c] = df[c].fillna(df[c].median())

# - Para categóricas: rellenar con "Unknown"
cat_cols = df.select_dtypes(include=["object"]).columns.tolist()
for c in cat_cols:
    df[c] = df[c].fillna("Unknown").astype(str).str.strip()

print("Preparación completa. Shape final:", df.shape)
print("Columnas finales:", df.columns.tolist())
display(df.head())


Preparación completa. Shape final: (7256, 21)
Columnas finales: ['Churn', 'Genero', 'Adulto_Mayor', 'Conyuge', 'Cargas', 'Meses_contrato', 'Servicio_telefonico', 'Multilineas', 'Servicio_internet', 'Seguridad_online', 'Respaldo_online', 'Proteccion_equipo', 'Soporte_tecnico', 'TVcable', 'Peliculas_online', 'Contrato', 'Factura_online', 'Metodo_pago', 'Factura_mensual', 'Total', 'Cuentas_diarias']


Unnamed: 0,Churn,Genero,Adulto_Mayor,Conyuge,Cargas,Meses_contrato,Servicio_telefonico,Multilineas,Servicio_internet,Seguridad_online,...,Proteccion_equipo,Soporte_tecnico,TVcable,Peliculas_online,Contrato,Factura_online,Metodo_pago,Factura_mensual,Total,Cuentas_diarias
0,0,Female,0,1,1,9,1,0,1,0,...,0,1,1,0,One year,1,Mailed check,65.6,593.3,2.2
1,0,Male,0,0,0,9,1,1,1,0,...,0,0,0,1,Month-to-month,0,Mailed check,59.9,542.4,2.0
2,1,Male,0,0,0,4,1,0,1,0,...,1,0,0,0,Month-to-month,1,Electronic check,73.9,280.85,2.5
3,1,Male,1,1,0,13,1,0,1,0,...,1,0,1,1,Month-to-month,1,Electronic check,98.0,1237.85,3.3
4,1,Female,1,1,0,3,1,0,1,0,...,0,1,1,0,Month-to-month,1,Mailed check,83.9,267.4,2.8


VERIFICAR PROPORCIÓN DE CANCELACIÓN (Churn rate)

In [5]:

import pandas as pd

path = "/content/datos_challenge.csv"
df = pd.read_csv(path)

# Preprocesos mínimos para asegurar 'Churn' numérico
if df["Churn"].dtype == object:
    df["Churn"] = df["Churn"].str.strip().str.lower().map({"yes":1,"no":0})
df["Churn"] = pd.to_numeric(df["Churn"], errors="coerce").fillna(0).astype(int)

total = len(df)
churn_count = df["Churn"].sum()
churn_rate = churn_count / total * 100

print(f"Total clientes: {total}")
print(f"Clientes que cancelaron (Churn=1): {churn_count}")
print(f"Tasa de Churn: {churn_rate:.2f}%")

# Distribución por tipo de contrato (si existe)
if "Contrato" in df.columns:
    print("\nChurn (%) por Contrato:")
    tmp = df.groupby("Contrato")["Churn"].mean().sort_values(ascending=False) * 100
    print(tmp.round(2))

# Distribución por método de pago (si existe)
if "Metodo_pago" in df.columns:
    print("\nTasa de Churn (%) por Metodo_pago (top 10):")
    tmp2 = df.groupby("Metodo_pago")["Churn"].mean().sort_values(ascending=False) * 100
    print(tmp2.round(2).head(10))


Total clientes: 7256
Clientes que cancelaron (Churn=1): 1869
Tasa de Churn: 25.76%

Churn (%) por Contrato:
Contrato
Month-to-month    41.32
One year          10.94
Two year           2.77
Name: Churn, dtype: float64

Tasa de Churn (%) por Metodo_pago (top 10):
Metodo_pago
Electronic check    43.80
Mailed check        18.59
Bank transfer       16.26
Credit card         14.81
Name: Churn, dtype: float64


NORMALIZACIÓN / ESTANDARIZACIÓN

In [6]:

import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler

path = "/content/datos_challenge.csv"
df = pd.read_csv(path)

# Conversión de churn si fuera necesario
if df["Churn"].dtype == object:
    df["Churn"] = df["Churn"].str.strip().str.lower().map({"yes":1,"no":0})
df["Churn"] = pd.to_numeric(df["Churn"], errors="coerce").fillna(0).astype(int)

# Selección de columnas numéricas útiles para escalar (excluye Churn)
num_cols = df.select_dtypes(include=["number"]).columns.tolist()
num_cols = [c for c in num_cols if c != "Churn"]

print("Columnas numéricas a escalar:", num_cols)

# Crear escaladores (no transformar aún, solo mostrar ejemplo)
scaler_std = StandardScaler()
scaler_mm = MinMaxScaler()

# Ejemplo: ajuste rápido (fit) con copy para no modificar df original en este bloque
import numpy as np
if len(num_cols) > 0:
    sample = df[num_cols].fillna(0).values
    scaler_std.fit(sample)
    scaler_mm.fit(sample)
    # Transformación de ejemplo
    X_std = scaler_std.transform(sample)
    X_mm = scaler_mm.transform(sample)
    print("Estandarización y MinMax listos (ejemplo aplicado a la muestra).")
else:
    print("No hay columnas numéricas detectadas para escalar.")


Columnas numéricas a escalar: ['Adulto_Mayor', 'Conyuge', 'Cargas', 'Meses_contrato', 'Servicio_telefonico', 'Multilineas', 'Servicio_internet', 'Seguridad_online', 'Respaldo_online', 'Proteccion_equipo', 'Soporte_tecnico', 'TVcable', 'Peliculas_online', 'Factura_online', 'Factura_mensual', 'Total', 'Cuentas_diarias']
Estandarización y MinMax listos (ejemplo aplicado a la muestra).


ANÁLISIS DE CORRELACIÓN Y SELECCIÓN DE VARIABLES

In [12]:

import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest, mutual_info_classif
from sklearn.preprocessing import OneHotEncoder

# Cargar datos
path = "datos_challenge.csv"
df = pd.read_csv(path)

# Asegurar Churn numérico
if df["Churn"].dtype == object:
    df["Churn"] = df["Churn"].str.strip().str.lower().map({"yes": 1, "no": 0})
df["Churn"] = pd.to_numeric(df["Churn"], errors="coerce").fillna(0).astype(int)

# 1) Correlación entre numéricas y churn
num_cols = df.select_dtypes(include=["number"]).columns.tolist()
if "Churn" in num_cols:
    num_cols.remove("Churn")

print("Columnas numéricas:", num_cols)
if len(num_cols) > 0:
    corr = df[num_cols + ["Churn"]].corr()
    print("\nCorrelación (numéricas) con Churn (abs ordenadas):")
    corr_with_churn = corr["Churn"].abs().sort_values(ascending=False)
    print(corr_with_churn)

# 2) Preparación para SelectKBest: codificar categóricas (one-hot) y juntar con numéricas
cat_cols = df.select_dtypes(include=["object"]).columns.tolist()
print("\nColumnas categóricas:", cat_cols)

# One-hot encode (usando sparse_output=False en lugar de sparse)
OH = OneHotEncoder(handle_unknown="ignore", sparse_output=False)
if len(cat_cols) > 0:
    X_cat = OH.fit_transform(df[cat_cols].fillna("NA"))
    cat_feature_names = OH.get_feature_names_out(cat_cols)
else:
    X_cat = np.empty((len(df), 0))
    cat_feature_names = []

X_num = df[num_cols].fillna(0).values if len(num_cols) > 0 else np.empty((len(df), 0))
X = np.hstack([X_num, X_cat])
y = df["Churn"].values

# 3) SelectKBest con mutual_info_classif para captar relaciones (apto para variables mixtas)
k = min(15, X.shape[1])  # top 15 o menos
if X.shape[1] > 0:
    selector = SelectKBest(score_func=mutual_info_classif, k=k)
    selector.fit(X, y)
    scores = selector.scores_
    # Crear lista de nombres de características
    feature_names = (num_cols if len(num_cols) > 0 else []) + list(cat_feature_names)
    top_idx = np.argsort(scores)[::-1][:k]
    top_features = [(feature_names[i], scores[i]) for i in top_idx]
    print("\nTop features por mutual information (score):")
    for name, sc in top_features:
        print(f" - {name}: {sc:.4f}")
else:
    print("No hay características transformadas para SelectKBest.")


Columnas numéricas: ['Adulto_Mayor', 'Conyuge', 'Cargas', 'Meses_contrato', 'Servicio_telefonico', 'Multilineas', 'Servicio_internet', 'Seguridad_online', 'Respaldo_online', 'Proteccion_equipo', 'Soporte_tecnico', 'TVcable', 'Peliculas_online', 'Factura_online', 'Factura_mensual', 'Total', 'Cuentas_diarias']

Correlación (numéricas) con Churn (abs ordenadas):
Churn                  1.000000
Meses_contrato         0.345799
Servicio_internet      0.223755
Total                  0.194440
Factura_mensual        0.189393
Cuentas_diarias        0.188396
Factura_online         0.186309
Seguridad_online       0.166865
Soporte_tecnico        0.160476
Cargas                 0.160347
Conyuge                0.148106
Adulto_Mayor           0.146400
Respaldo_online        0.080211
Proteccion_equipo      0.063479
TVcable                0.062456
Peliculas_online       0.060092
Multilineas            0.039277
Servicio_telefonico    0.012337
Name: Churn, dtype: float64

Columnas categóricas: ['customerI

CONSTRUCCIÓN Y EVALUACIÓN DEL MODELO

In [15]:

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix, classification_report

path = "/content/datos_challenge.csv"
df = pd.read_csv(path)

# Asegurar churn numérico
if df["Churn"].dtype == object:
    df["Churn"] = df["Churn"].str.strip().str.lower().map({"yes":1,"no":0})
df["Churn"] = pd.to_numeric(df["Churn"], errors="coerce").fillna(0).astype(int)

# Definir features y target
y = df["Churn"]
X = df.drop(columns=["Churn"], errors="ignore")

# Detectar columnas numéricas y categóricas
num_cols = X.select_dtypes(include=["number"]).columns.tolist()
cat_cols = X.select_dtypes(include=["object"]).columns.tolist()

print("Numéricas:", num_cols)
print("Categóricas:", cat_cols)

# Pipeline: preprocesamiento + modelo
numeric_pipeline = Pipeline([
    ("scaler", StandardScaler())
])

categorical_pipeline = Pipeline([
    ("onehot", OneHotEncoder(handle_unknown="ignore", sparse_output=False))
])

preprocessor = ColumnTransformer([
    ("num", numeric_pipeline, num_cols),
    ("cat", categorical_pipeline, cat_cols)
], remainder="drop")

# Model pipelines
models = {
    "LogisticRegression": Pipeline([("pre", preprocessor), ("clf", LogisticRegression(max_iter=1000))]),
    "RandomForest": Pipeline([("pre", preprocessor), ("clf", RandomForestClassifier(n_estimators=100, random_state=42))])
}

# Train/test split stratificado
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

results = {}
for name, model in models.items():
    print(f"\nEntrenando y evaluando: {name}")
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    y_prob = model.predict_proba(X_test)[:,1] if hasattr(model, "predict_proba") else model.decision_function(X_test)
    acc = accuracy_score(y_test, y_pred)
    prec = precision_score(y_test, y_pred, zero_division=0)
    rec = recall_score(y_test, y_pred, zero_division=0)
    f1 = f1_score(y_test, y_pred, zero_division=0)
    roc = roc_auc_score(y_test, y_prob)
    print(f"Accuracy: {acc:.3f} | Precision: {prec:.3f} | Recall: {rec:.3f} | F1: {f1:.3f} | ROC AUC: {roc:.3f}")
    print("Matriz de confusión:")
    print(confusion_matrix(y_test, y_pred))
    print("Reporte de clasificación:")
    print(classification_report(y_test, y_pred, zero_division=0))
    results[name] = {"model": model, "metrics": {"accuracy":acc,"precision":prec,"recall":rec,"f1":f1,"roc":roc}}


Numéricas: ['Adulto_Mayor', 'Conyuge', 'Cargas', 'Meses_contrato', 'Servicio_telefonico', 'Multilineas', 'Servicio_internet', 'Seguridad_online', 'Respaldo_online', 'Proteccion_equipo', 'Soporte_tecnico', 'TVcable', 'Peliculas_online', 'Factura_online', 'Factura_mensual', 'Total', 'Cuentas_diarias']
Categóricas: ['customerID', 'Genero', 'Contrato', 'Metodo_pago']

Entrenando y evaluando: LogisticRegression
Accuracy: 0.795 | Precision: 0.618 | Recall: 0.537 | F1: 0.575 | ROC AUC: 0.838
Matriz de confusión:
[[954 124]
 [173 201]]
Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.85      0.88      0.87      1078
           1       0.62      0.54      0.58       374

    accuracy                           0.80      1452
   macro avg       0.73      0.71      0.72      1452
weighted avg       0.79      0.80      0.79      1452


Entrenando y evaluando: RandomForest
Accuracy: 0.782 | Precision: 0.614 | Recall: 0.412 | F1: 0.493 | ROC AUC: 0

VALIDACIÓN CRUZADA

In [17]:

import pandas as pd
import numpy as np
from sklearn.model_selection import StratifiedKFold, cross_val_score

path = "/content/datos_challenge.csv"
df = pd.read_csv(path)

# Preparo X,y (misma lógica que antes)
if df["Churn"].dtype == object:
    df["Churn"] = df["Churn"].str.strip().str.lower().map({"yes":1,"no":0})
df["Churn"] = pd.to_numeric(df["Churn"], errors="coerce").fillna(0).astype(int)
y = df["Churn"]
X = df.drop(columns=["Churn"], errors="ignore")

num_cols = X.select_dtypes(include=["number"]).columns.tolist()
cat_cols = X.select_dtypes(include=["object"]).columns.tolist()

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

preprocessor = ColumnTransformer([
    ("num", StandardScaler(), num_cols),
    ("cat", OneHotEncoder(handle_unknown="ignore", sparse_output=False), cat_cols)
], remainder="drop")

models = {
    "LogReg": Pipeline([("pre", preprocessor), ("clf", LogisticRegression(max_iter=1000))]),
    "RF": Pipeline([("pre", preprocessor), ("clf", RandomForestClassifier(n_estimators=100, random_state=42))])
}

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
for name, model in models.items():
    scores = cross_val_score(model, X, y, cv=cv, scoring="roc_auc")
    print(f"{name} ROC AUC CV: mean={scores.mean():.3f} std={scores.std():.3f}")


LogReg ROC AUC CV: mean=0.841 std=0.008
RF ROC AUC CV: mean=0.826 std=0.010


CONCLUSIÓN ESTRATÉGICA

In [18]:

import pandas as pd
import numpy as np
from sklearn.feature_selection import mutual_info_classif
from sklearn.preprocessing import OneHotEncoder

path = "/content/datos_challenge.csv"
df = pd.read_csv(path)

# Preparación mínima
if df["Churn"].dtype == object:
    df["Churn"] = df["Churn"].str.strip().str.lower().map({"yes":1,"no":0})
df["Churn"] = pd.to_numeric(df["Churn"], errors="coerce").fillna(0).astype(int)

# Tasa de churn
total = len(df)
churn_count = int(df["Churn"].sum())
churn_rate = churn_count/total*100
print(f"Tasa de churn global: {churn_rate:.2f}% ({churn_count}/{total})")

# Top features (simplificado: mutual info con one-hot)
num_cols = df.select_dtypes(include=["number"]).columns.tolist()
if "Churn" in num_cols: num_cols.remove("Churn")
cat_cols = df.select_dtypes(include=["object"]).columns.tolist()

OH = OneHotEncoder(handle_unknown="ignore", sparse_output=False)
if len(cat_cols) > 0:
    Xcat = OH.fit_transform(df[cat_cols].fillna("NA"))
    fcat = list(OH.get_feature_names_out(cat_cols))
else:
    Xcat = np.empty((len(df),0)); fcat=[]

Xnum = df[num_cols].fillna(0).values if len(num_cols)>0 else np.empty((len(df),0))
X = np.hstack([Xnum, Xcat])
feature_names = (num_cols if len(num_cols)>0 else []) + fcat

if X.shape[1]>0:
    mi = mutual_info_classif(X, df["Churn"])
    mi_df = pd.DataFrame({"feature":feature_names, "mi":mi}).sort_values("mi", ascending=False).head(15)
    print("\nTop features por mutual information:")
    display(mi_df)
else:
    print("No features disponibles para mutual_info.")

# Recomendaciones (generales, basadas en análisis):
print("\n=== Recomendaciones estratégicas (generales) ===")
print("1) Priorizar retención en segmentos con altas tarifas mensuales y contratos 'Month-to-month'.")
print("2) Revisar procesos de pago: si 'Electronic check' aparece con alta churn, analizar fallos y comunicación.")
print("3) Ofrecer incentivos para convertir clientes 'Month-to-month' a 'One year' o 'Two year'.")
print("4) Para modelos: usar RandomForest + calibración de threshold si el recall en la clase positiva (churn) es prioritario.")
print("5) Realizar A/B tests para promociones de retención en los segmentos de mayor riesgo detectados por las features top.")


Tasa de churn global: 25.76% (1869/7256)

Top features por mutual information:


Unnamed: 0,feature,mi
7275,Contrato_Month-to-month,0.083347
3,Meses_contrato,0.073842
7277,Contrato_Two year,0.061178
14,Factura_mensual,0.045501
16,Cuentas_diarias,0.044822
15,Total,0.039034
7280,Metodo_pago_Electronic check,0.038939
6,Servicio_internet,0.031749
13,Factura_online,0.026319
7,Seguridad_online,0.017949



=== Recomendaciones estratégicas (generales) ===
1) Priorizar retención en segmentos con altas tarifas mensuales y contratos 'Month-to-month'.
2) Revisar procesos de pago: si 'Electronic check' aparece con alta churn, analizar fallos y comunicación.
3) Ofrecer incentivos para convertir clientes 'Month-to-month' a 'One year' o 'Two year'.
4) Para modelos: usar RandomForest + calibración de threshold si el recall en la clase positiva (churn) es prioritario.
5) Realizar A/B tests para promociones de retención en los segmentos de mayor riesgo detectados por las features top.
