# Proyecto Final ‚Äî Notebook Integrado

Este cuaderno combina **Parte 1 (Preprocesamiento)** y **Parte 2 (Modelado y Evaluaci√≥n)** en un solo flujo reproducible.

- Fuente 1: `ProyectoFINAL_Pt1.ipynb`
- Fuente 2: `ProyectoFINAL_COMPLETO.ipynb`

> Sugerencia: ejecuta las celdas en orden; todas las salidas fueron limpiadas para evitar confusiones.

## üì£ Pron√≥stico de tasa de cancelaci√≥n de clientes - Telecom

# üì£ Pron√≥stico de tasa de cancelaci√≥n de clientes - Telecom

## üìå Introducci√≥n
Al operador de telecomunicaciones Interconnect le gustar√≠a poder pronosticar su tasa de cancelaci√≥n de clientes. 
    
Si se descubre que un usuario o usuaria planea irse, se le ofrecer√°n c√≥digos promocionales y opciones de planes especiales. 
 

## üéØ Problema de negocio
La clientela puede elegir entre un pago mensual o firmar un contrato de 1 o 2 a√±os. Puede utilizar varios m√©todos de pago y recibir una factura electr√≥nica despu√©s de una transacci√≥n. Telecom necesita descubrir si un usuario o usuaria planea irse, para ofrecerle c√≥digos promocionales y opciones de planes especiales. 


## üîç Objetivo del proyecto
‚úî Preparar un *snapshot* al **01-feb-2020** y un dataset limpio para modelado donde la **clase positiva** sea **`stay = 1`** (cliente activo, `EndDate == "No"`).  


## Inicializaci√≥n

In [None]:
# Cargar todas las librer√≠as
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats as st
import numpy as np

In [None]:
df_contract = pd.read_csv("./datasets/contract.csv")
df_personal = pd.read_csv("./datasets/personal.csv")
df_internet = pd.read_csv("./datasets/internet.csv")
df_phone    = pd.read_csv("./datasets/phone.csv")

## üìå 1. Descripci√≥n y preprocesamiento de los datos 

## üéØ 1.1  Contract

In [None]:
print('Dimensiones:', df_contract.shape)
print('\nTipos de datos:')
df_contract.info()


In [None]:
df_contract.head(5)

### üßπ 1.1.1 Convertir fechas a datetime

In [None]:
df_contract["BeginDate"] = pd.to_datetime(df_contract["BeginDate"])
df_contract["EndDate"]   = pd.to_datetime(df_contract["EndDate"], errors="coerce")  
df_contract["MonthlyCharges"] = pd.to_numeric(df_contract["MonthlyCharges"], errors="coerce")
df_contract["TotalCharges"]   = pd.to_numeric(df_contract["TotalCharges"],   errors="coerce")

### üßπ 1.1.2 Tenure al snapshot

In [None]:
snapshot = pd.Timestamp("2020-02-01")
df_contract["tenure_months"] = (((snapshot - df_contract["BeginDate"]).dt.days)
                             .clip(lower=0) / 30.44).round().astype(int)

### üõë 1.1.3 Etiquetas

In [None]:
df_contract["churn"] = df_contract["EndDate"].notna().astype(int)   # 1 = se va
df_contract["stay"]  = df_contract["EndDate"].isna().astype(int)    # 1 = se queda (objetivo)

In [None]:
df_contract.head(5)

## üéØ 1.2 Personal

In [None]:
print('Dimensiones:', df_personal.shape)
print('\nTipos de datos:')
df_personal.info()

In [None]:
df_personal.head(5)

## üéØ 1.3 Internet

In [None]:
print('Dimensiones:', df_internet.shape)
print('\nTipos de datos:')
df_internet.info()


In [None]:
df_internet.head(5)

## üéØ 1.4 Phone

In [None]:
print('Dimensiones:', df_phone.shape)
print('\nTipos de datos:')
df_phone.info()


In [None]:
df_phone.head(5)

## üñáÔ∏è 1.5 Uni√≥n por costumerID

In [None]:
df = (df_contract
      .merge(df_personal, on="customerID", how="left")
      .merge(df_internet, on="customerID", how="left")
      .merge(df_phone,    on="customerID", how="left"))

In [None]:
df.head(10)

In [None]:
df.info()

## üìç 1.6 Indicadores y ausencias de servicio

In [None]:
df["HasInternet"] = df["InternetService"].notna().astype(int)
df["HasPhone"]    = df["MultipleLines"].notna().astype(int)

internet_cols = ["InternetService","OnlineSecurity","OnlineBackup",
                 "DeviceProtection","TechSupport","StreamingTV","StreamingMovies"]
for col in internet_cols:
    df[col] = df[col].fillna("No")
df["MultipleLines"] = df["MultipleLines"].fillna("No")

## ‚úèÔ∏è 1.7 Normalizaci√≥n de categor√≠as

In [None]:
n_cols = ["PaperlessBilling","Partner","Dependents"] + internet_cols + ["MultipleLines"]
for col in n_cols:
    if col in df:
        df[col] = (df[col].astype(str).str.strip()
                 .replace({"No internet service":"No", "No phone service":"No"}))

In [None]:
# Imputaci√≥n m√≠nima
na_mask = df["TotalCharges"].isna()
df.loc[na_mask, "TotalCharges"] = (df.loc[na_mask, "MonthlyCharges"] * df.loc[na_mask, "tenure_months"]).round(2)


In [None]:
df["TotalCharges"] = pd.to_numeric(df["TotalCharges"], errors="coerce")
print("Nulos antes:", df["TotalCharges"].isna().sum())

na_mask = df["TotalCharges"].isna()
df.loc[na_mask, "TotalCharges"] = (df.loc[na_mask, "MonthlyCharges"] * df.loc[na_mask, "tenure_months"]).round(2)

print("Nulos despu√©s:", df["TotalCharges"].isna().sum())  # deber√≠a ser 0


In [None]:
# Selecci√≥n de columnas
df_keep = ["customerID","stay","churn","MonthlyCharges","TotalCharges","tenure_months",
        "Type","PaperlessBilling","PaymentMethod","gender","SeniorCitizen","Partner","Dependents",
        "HasInternet","HasPhone","InternetService","OnlineSecurity","OnlineBackup",
        "DeviceProtection","TechSupport","StreamingTV","StreamingMovies","MultipleLines"]


In [None]:
df_model = df[df_keep].copy()

print("Shape final:", df_model.shape)
print("Proporci√≥n stay:", round(df_model["stay"].mean(), 4))
print("Proporci√≥n churn:", round(df_model["churn"].mean(), 4))
display(df_model.head())


In [None]:
clean_csv = "data_clean.csv"
df_model.to_csv(clean_csv, index=False)
print(f"Archivo guardado: {clean_csv}")

## üìå 2. EDA

In [None]:
(df_model.isna().sum()
 .sort_values(ascending=False)
 .to_frame("nulos"))

## 2.1 üîí Stay Rate

In [None]:
for col in ["Type","PaymentMethod","InternetService","OnlineSecurity","TechSupport","MultipleLines"]:
    print(f"\n>>> {col}")
    display((df_model.groupby(col)["stay"]
             .mean()
             .sort_values(ascending=False)
             .round(3)
             .to_frame("stay_rate")))

## üìä 2.2 Gr√°ficos

### 2.2.1 Distribuciones

In [None]:
for col in ["MonthlyCharges","TotalCharges","tenure_months"]:
    plt.figure()
    df_model[col].dropna().hist(bins=30)
    plt.title(f"Distribuci√≥n de {col}")
    plt.xlabel(col); plt.ylabel("Frecuencia")
    plt.show()

#### Conclusiones

1) MonthlyCharges

La distribuci√≥n muestra que, a medida que la factura mensual sube, es m√°s com√∫n que la permanencia baje.

Sugerencia: vigilar aumentos de precio y ofrecer planes escalonados o beneficios a quienes pagan m√°s.

2) TotalCharges

En la distribuci√≥n se puede ver que los clientes con un alto acumulado tienden a seguir con la empresa, lo que prueba que cuanto m√°s tiempo dentro, m√°s se estabiliza la relaci√≥n.

Sugerencia: cuidar la experiencia temprana porque, una vez superada la etapa inicial, la permanencia mejora sola.

3) tenure_months 

Se puede observar que los clientes que se quedan se agrupan en antig√ºedades medias y altas, mientras que quienes se van se concentran en los primeros meses.

Sugerencia: dar seguimiento en los primeros meses.


### 2.2.2 Tasa de clientes que se quedan

In [None]:

def bar_rate(df, cat_col, target='stay'):
    rates = (df.groupby(cat_col)[target].mean().sort_values(ascending=False))
    plt.figure()
    rates.plot(kind="bar")
    plt.title(f"Tasa de permanencia por {cat_col}")
    plt.ylabel(f"{target}_rate"); plt.xlabel(cat_col)
    plt.ylim(0, 1); plt.xticks(rotation=45, ha="right")
    plt.tight_layout(); plt.show()

for col in ["Type","PaymentMethod","InternetService","OnlineSecurity","TechSupport","MultipleLines"]:
    bar_rate(df_model, col, target="stay")

#### Conclusiones

1) Type (tipo de contrato)

En el gr√°fico se muestra que el contrato mensual es el segmento de mayor riesgo; los contratos anuales y bienales retienen mucho mejor.

Sugerencia: ofrecer un incentivo para la retenci√≥n de los clientes.

2) PaymentMethod

Se puede observar que los m√©todos autom√°ticos se asocian con mejor retenci√≥n.

Sugerencia: Activar d√©bito/autopay con un incentivo.

4) InternetService

Dentro de los clientes que tienen internet, fiber optic retiene peor que DSL. Esto probablemente se deba al precio y competencia de ese segmento. 

Sugerencia: Revisar la relaci√≥n pricing-beneficios para fiber optic y comunicar el valor que lo distingue.

5) OnlineSecurity

Contar con seguridad online se asocia a m√°s permanencia. 

Sugerencia: empaquetar la seguridad como beneficio de fidelidad y facilitar su adopci√≥n en clientes de riesgo.

6) TechSupport

Tener soporte t√©cnico tambi√©n coincide con mayor permanencia.

Sugerencia: mantener un contacto proactivo con clientes de alto riesgo (sin soporte contratado)

7) MultipleLines

La se√±al es m√°s tenue: no parece un driver principal por s√≠ solo.

### 2.3 Cargos mensuales por servicio

In [None]:
cats = [c for c in df_model["InternetService"].dropna().unique().tolist()]
data = [df_model.loc[df_model["InternetService"]==c, "MonthlyCharges"].dropna().values for c in cats]
plt.figure()
plt.boxplot(data, labels=cats, showmeans=True)
plt.title("MonthlyCharges por InternetService")
plt.xlabel("InternetService"); plt.ylabel("MonthlyCharges")
plt.tight_layout(); plt.show()

#### Conclusiones

Fiber optic aparece con las facturas mensuales m√°s altas; DSL significativamente m√°s bajo; sin internet, muy bajo. Esto conecta con lo visto anteriormente: precio alto + fibra = mayor riesgo. 


### 2.5 Matriz de correlaci√≥n

In [None]:
# Paso 1: Seleccionar columnas num√©ricas
num_df = df_model.select_dtypes(include=["int64", "float64"])

# Paso 2: Identificar columnas binarias (solo contienen 0 y 1)
binary_cols = [col for col in num_df.columns 
               if set(num_df[col].dropna().unique()) <= {0, 1}]

# Paso 3: Excluir columnas binarias
continuous_cols = [col for col in num_df.columns if col not in binary_cols]

# Paso 4: Calcular la matriz de correlaci√≥n solo con variables continuas
corr_matrix = df_model[continuous_cols].corr()

# Paso 5: Visualizar
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Matriz de Correlaci√≥n - Solo Variables Continuas")
plt.xticks(rotation=45, ha="right")
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

#### Conclusiones

La se√±al dominante de permanencia es la antig√ºedad; despu√©s pesan variables ligadas a costo y a tener internet. Tambi√©n se observa una leve relaci√≥n negativa con SeniorCitizen, que conviene monitorear por equidad.


## ‚öôÔ∏è Plan de an√°lisis

### Paso 1: Integraci√≥n y limpieza
‚úî Unir `contract`, `personal`, `internet` y `phone` por `customerID`
‚úî Conversi√≥n de tipos de datos y fechas  
‚úî Calcular `tenure_months` al 01-feb-2020
‚úî Normalizar categor√≠as (Yes/No)
‚úî Crear las etiquetas `stay` (objetivo) y `churn` (referencia)

### Paso 2: EDA y chequeos de consistencia
‚úî Explorar nulos, distribuciones y tasas de **stay** por segmento   
‚úî Verificar coherencia entre `HasInternet/HasPhone` y las columnas asociadas
‚úî Crear gr√°ficos para visualizaci√≥n de datos

### Paso 3: Preparaci√≥n de features y partici√≥n
‚úî Definir variables num√©ricas/categ√≥ricas, aplicar One-Hot a categ√≥ricas y escalado a num√©ricas con `ColumnTransformer`  
‚úî Hacer `train/test` (temporal o estratificado)  
‚úî Preparar estrategia ante desbalance (si aplica)

### Paso 4: Modelado baseline y evaluaci√≥n
‚úî Entrenar modelos base y evaluar con **AUC-ROC** (principal) y **Accuracy** (adicional) usando la probabilidad de la clase **1 = stay* 

## Paso 5: Entrega
‚úî Generar un csv limpio, guardar notebook reproducible y un breve reporte con m√©tricas y hallazgos

‚úî Definir mejoras y plan de monitoreo


## ‚ùì Preguntas clave

### 1) Negocio y objetivo
- **Poblaci√≥n objetivo:** ¬øModelamos a **todos** los clientes o solo a quienes cumplan cierta antig√ºedad/plan?
- **Pol√≠tica de recontacto:** ¬øCada cu√°nto se reintenta a un mismo cliente?

### 2) Datos y etiqueta
- **Definici√≥n de stay/churn:** ¬øEndDate = "No" ‚â° contrato realmente activo? ¬øExisten suspensiones?
- **Unidad de an√°lisis:** ¬øCliente individual, cuenta/hogar o l√≠nea?
- **Churn parcial:** Si cancela internet pero conserva phone (o viceversa), ¬øc√≥mo se etiqueta?
- **Corte temporal:** ¬øTodas las variables se toman al **01-feb-2020** (sin fugas)?
- **Promos previas:** ¬øExisten variables de campa√±as pasadas que puedan introducir fuga?

### 3) M√©tricas y validaci√≥n
- **Desbalance:** ¬øclass_weight u oversampling? (que no distorsione la evaluaci√≥n)
- **M√©tricas por segmento:** ¬øReportamos por contrato, m√©todo de pago, senioridad, etc.?

### 4) Features e ingenier√≠a
- **Variables sensibles:** ¬ø`gender` solo para monitoreo de sesgo (no para decisi√≥n)?
- **Transformaciones:** One-hot para categ√≥ricas, escalado para num√©ricas, ¬øoutliers?
- **Faltantes:** ¬øAceptamos `TotalCharges = MonthlyCharges * tenure_months` o preferimos otra pol√≠tica?

### 5) Operaci√≥n e intervenci√≥n
- **Consumo del score:** ¬øBatch diario/semanal? ¬øFormato de entrega (CSV/API/Dashboard)?
- **Umbral:** Aunque la r√∫brica use AUC-ROC, ¬øqu√© *threshold* se aplicar√° en producci√≥n?
- **Medici√≥n:** ¬øHabr√° grupo de control/AB test? 


---

> **Transici√≥n**: A continuaci√≥n se incluye la segunda parte del proyecto en el mismo cuaderno.

## üì£ Pron√≥stico de tasa de cancelaci√≥n de clientes - Telecom

# üì£ Pron√≥stico de tasa de cancelaci√≥n de clientes - Telecom

## üìå Introducci√≥n
Al operador de telecomunicaciones Interconnect le gustar√≠a poder pronosticar su tasa de cancelaci√≥n de clientes. 
    
Si se descubre que un usuario o usuaria planea irse, se le ofrecer√°n c√≥digos promocionales y opciones de planes especiales. 
 

## üéØ Problema de negocio
La clientela puede elegir entre un pago mensual o firmar un contrato de 1 o 2 a√±os. Puede utilizar varios m√©todos de pago y recibir una factura electr√≥nica despu√©s de una transacci√≥n. Telecom necesita descubrir si un usuario o usuaria planea irse, para ofrecerle c√≥digos promocionales y opciones de planes especiales. 


## üîç Objetivo del proyecto
‚úî Preparar un *snapshot* al **01-feb-2020** y un dataset limpio para modelado donde la **clase positiva** sea **`stay = 1`** (cliente activo, `EndDate == "No"`).  


## üìù Proceso de an√°lisis
- Entrenar y comparar modelos (Log√≠stica, RandomForest, HistGradientBoosting).
- Calibrar probabilidades y evaluar: **AUC-ROC (stay)**, **Accuracy**, **PR-AUC (churn)**.
- Seleccionar **umbral** y generar reporte **Top-k**.
- Priorizar por **riesgo √ó valor (ERV / NetERV)** usando columnas disponibles.
- Exportar CSVs operativos y el pipeline.

## Inicializaci√≥n

In [None]:
# Cargar todas las librer√≠as

import pandas as pd
import numpy as np
from pathlib import Path
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, HistGradientBoostingClassifier
from sklearn.calibration import CalibratedClassifierCV
from sklearn.metrics import (
    roc_auc_score, accuracy_score, average_precision_score, precision_score, recall_score, f1_score,
    precision_recall_curve, confusion_matrix, classification_report)

import joblib

In [None]:
# Par√°metros de negocio 
HORIZON_M2M = 12 # meses para contratos Month-to-month
MARGIN_RATE = 0.30 # margen aproximado sobre facturaci√≥n
SUCCESS_RATE = 0.25 # tasa de √©xito esperada de la campa√±a (para NetERV)
COST_PER_CONTACT = 1.5 # costo por contacto (llamada/SMS/email)

RANDOM_STATE = 42 #seeds

In [None]:
df = pd.read_csv("./datasets/data_clean.csv")

In [None]:
df.info()

In [None]:
df.head()

## üìå 1. Definir objetivo y tipos de variables

In [None]:
# Objetivo: preferimos 'stay'. Si no existe, usamos 1 - churn.
cols_lower = {c.lower(): c for c in df.columns}

y_col = None
if 'stay' in df.columns:
    y_col = 'stay'
elif 'churn' in df.columns:
    y_col = 'churn'

assert y_col is not None, "No se encontr√≥ columna objetivo ('stay' o 'churn')."

In [None]:
y_raw = df[y_col].copy()
if y_col.lower() == 'churn':
    target = (1 - y_raw).astype(int)
    print("Usando 'churn' invertido como objetivo (stay=1).")
else:
    target = y_raw.astype(int)
    print("Usando 'stay' como objetivo.")

In [None]:
f_drop = set([y_col, 'stay', 'churn', 'customerID', 'customerid'])
features = df[[c for c in df.columns if c not in f_drop]].copy()

# Detectar tipos
num_cols = features.select_dtypes(include=['number']).columns.tolist()
cat_cols = features.select_dtypes(exclude=['number']).columns.tolist()

print("Variables num√©ricas detectadas:", num_cols[:12], "... total:", len(num_cols))
print("Variables categ√≥ricas detectadas:", cat_cols[:12], "... total:", len(cat_cols))


## ‚úèÔ∏è 2. Divisi√≥n en conjunto de entrenamiento y prueba

In [None]:
features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.2, stratify=target, random_state= RANDOM_STATE
)
print("Train:", features_train.shape, " Test:", features_test.shape)

## üö© 3. Preprocesamiento y comparaci√≥n de modelos

### 3.1 Preprocesamiento para Regresi√≥n Log√≠stica

In [None]:
pre_lr = ColumnTransformer([
    ("num", StandardScaler(), num_cols),
    ("cat", OneHotEncoder(handle_unknown="ignore"), cat_cols)
])

### 3.2 Preprocesamiento para √Årboles 

In [None]:
pre_tree = ColumnTransformer([
    ("num", "passthrough", num_cols),
    ("cat", OneHotEncoder(handle_unknown="ignore"), cat_cols)
])

### 3.3 Comparaci√≥n de modelos candidatos

In [None]:
candidates = {
    "logreg": Pipeline([("pre", pre_lr),
                        ("clf", LogisticRegression(max_iter=500, class_weight="balanced", random_state=RANDOM_STATE))]),
    "rf": Pipeline([("pre", pre_tree),
                    ("clf", RandomForestClassifier(n_estimators=300, min_samples_leaf=2, n_jobs=-1, random_state=RANDOM_STATE))]),
    "hgb": Pipeline([("pre", pre_tree),
                     ("clf", HistGradientBoostingClassifier(random_state=RANDOM_STATE))])
}


### 3.4 Validaci√≥n cruzada estratificada y selecci√≥n por AUC-ROC

In [None]:
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)
cv_scores = {}
for name, pipe in candidates.items():
    scores = cross_val_score(pipe, features_train, target_train, scoring="roc_auc", cv=cv, n_jobs=-1)
    cv_scores[name] = (scores.mean(), scores.std())
    print(f"{name}: ROC AUC (cv) = {scores.mean():.4f} ¬± {scores.std():.4f}")

best_name = max(cv_scores, key=lambda k: cv_scores[k][0])
best_pipe = candidates[best_name]
print("\nMejor (cv):", best_name, "->", cv_scores[best_name])

## üî® 4. Entrenamiento y prueba de modelo Histogram-based Gradient Boosting

In [None]:
best_pipe.fit(features_train, target_train)
p_stay_test = best_pipe.predict_proba(features_test)[:, 1]
target_hat_test  = (p_stay_test >= 0.5).astype(int)

auc = roc_auc_score(target_test, p_stay_test)
acc = accuracy_score(target_test, target_hat_test)
print(f"AUC-ROC(stay)={auc:.4f}  Accuracy={acc:.4f}")

## ‚ùó 5. PR-AUC (churn) y tabla de umbrales

In [None]:
p_churn_use = 1 - p_stay_test
target_test_churn = 1 - target_test

pr_auc = average_precision_score(target_test_churn, p_churn_use)
print(f"PR-AUC (churn): {pr_auc:.4f}")


### 5.1 Tabla de umbrales

In [None]:
prec, rec, thr = precision_recall_curve(target_test_churn, p_churn_use)
f1 = 2 * (prec * rec) / (prec + rec + 1e-12)          
thr_grid = np.append(thr, 1.0)                         

thr_table = pd.DataFrame({
    "threshold_churn": thr_grid,
    "precision": prec,
    "recall": rec,
    "F1": f1
}).sort_values("threshold_churn").reset_index(drop=True)

display(thr_table.head(10))
display(thr_table.tail(10))

#### 5.1.1 Umbral que maximiza F1

In [None]:
best_idx = np.nanargmax(thr_table["F1"].values)
thr_f1 = float(thr_table.loc[best_idx, "threshold_churn"])
target_pred_f1 = (p_churn_use >= thr_f1).astype(int)

print(f"\nUmbral √≥ptimo por F1 (churn): {thr_f1:.4f}")
cm = confusion_matrix(target_test_churn, target_pred_f1)
print("Matriz de confusi√≥n (umbral F1):\n", cm)


In [None]:
# M√©tricas al corte 
prec_val = precision_score(target_test_churn, target_pred_f1, zero_division=0)
rec_val = recall_score(target_test_churn, target_pred_f1, zero_division=0)
f1_val = f1_score(target_test_churn, target_pred_f1, zero_division=0)
print("M√©tricas en TEST (umbral F1):",
      "Precision=", round(prec_val, 3),
      "Recall=",    round(rec_val, 3),
      "F1=",        round(f1_val, 3))

print("\nReporte de clasificaci√≥n (umbral F1):\n",
      classification_report(target_test_churn, target_pred_f1, digits=3))

## ‚úîÔ∏è 6. Valor del cliente y ERV / NetERV 

In [None]:
def find_col(candidates):
    lower = {c.lower(): c for c in df.columns}
    for cand in candidates:
        if cand in df.columns:
            return cand
        if cand.lower() in lower:
            return lower[cand.lower()]
    return None

col_monthly = find_col(['MonthlyCharges','monthly_charges','mensual','monto_mensual'])
col_total   = find_col(['TotalCharges','total_charges','facturacion_total','acumulado'])
col_type    = find_col(['Type','Contrato','contract_type','tipo'])
col_tenure  = find_col(['tenure_months','tenure','antiguedad_meses'])

print("Detecci√≥n columnas valor -> Monthly:", col_monthly, "| Total:", col_total, "| Type:", col_type, "| Tenure:", col_tenure)

df_scores = df.copy()
idx_test = getattr(features_test, 'index', pd.RangeIndex(len(target_test)))
df_scores = df_scores.loc[idx_test].copy()
df_scores["p_churn"] = p_churn_use
df_scores["target_true_churn"] = (1 - target_test.values)

# Construcci√≥n de valor con degradaci√≥n elegante
if col_monthly is not None:
    monthly = df[col_monthly]
else:
    # Fallback: si no hay monthly, aproximar con Total/ max(tenure,1) limitado [1, 100] (muy bruto)
    if (col_total is not None) and (col_tenure is not None):
        monthly = (df[col_total] / np.clip(df[col_tenure].replace(0,1), 1, None)).fillna(df[col_total].median()).clip(lower=1)
    else:
        monthly = pd.Series(np.full(len(df), df[col_total].median() if col_total else 50.0))

# Horizonte por tipo
if col_type is not None:
    def rem_months(row):
        t = row[col_type]
        ten = row[col_tenure] if col_tenure in df.columns else 0
        if str(t).lower().startswith("one") or str(t).lower().startswith("1"):
            return max(12 - (int(ten) % 12), 0)
        if str(t).lower().startswith("two") or str(t).lower().startswith("2"):
            return max(24 - (int(ten) % 24), 0)
        return HORIZON_M2M
    rem = df.apply(rem_months, axis=1)
else:
    rem = pd.Series(np.full(len(df), HORIZON_M2M))

value_forward = monthly * rem
value_forward_margin = value_forward * MARGIN_RATE

df_scores["Value_forward_margin"] = value_forward_margin.loc[idx_test].values
df_scores["ERV"] = df_scores["p_churn"] * df_scores["Value_forward_margin"]
df_scores["NetERV"] = df_scores["p_churn"] * df_scores["Value_forward_margin"] * SUCCESS_RATE - COST_PER_CONTACT

display(df_scores[["p_churn","target_true_churn","Value_forward_margin","ERV","NetERV"]].head())

## üìù 7. Reporte de Top-k

In [None]:
def topk_report(df_scores, k_list=(5,10,20,30), use_net=False):
    metric_value = "NetERV" if use_net else "ERV"
    out = []
    n = len(df_scores)
    df_sorted = df_scores.sort_values("p_churn", ascending=False).reset_index(drop=True)
    total_churn = df_sorted["target_true_churn"].sum()
    total_value = df_sorted[metric_value].sum()
    for k in k_list:
        cut = int(np.ceil(n * k/100))
        take = df_sorted.iloc[:cut]
        captured_churn = take["target_true_churn"].sum()
        captured_value = take[metric_value].sum()
        out.append({
            "top_k_%": k,
            "contactados": cut,
            "churn_capturado_%": round(100 * captured_churn / max(total_churn,1), 1),
            f"valor_capturado_%({metric_value})": round(100 * captured_value / max(total_value,1), 1),
            "precision_en_topk": round(take["target_true_churn"].mean(), 3),
            f"{metric_value}_total_topk": round(float(captured_value), 2)
        })
    return pd.DataFrame(out)

report_topk_erv = topk_report(df_scores, k_list=(5,10,20,30), use_net=False)
report_topk_net = topk_report(df_scores, k_list=(5,10,20,30), use_net=True)

print("Top-k por ERV:"); display(report_topk_erv)
print("Top-k por NetERV:"); display(report_topk_net)



## üóÇÔ∏è 7. Ranking operativo

In [None]:
def find_col(df, candidates):
    lower = {c.lower(): c for c in df.columns}
    for cand in candidates:
        if cand in df.columns:
            return cand
        if cand.lower() in lower:
            return lower[cand.lower()]
    return None

id_col = find_col(df, ['customerID','CustomerID','id','Id'])
col_type = find_col(df, ['Type','Contrato','contract_type','tipo','Contract','ContractType'])
col_monthly= find_col(df, ['MonthlyCharges','monthly_charges','monto_mensual'])
col_tenure = find_col(df, ['tenure_months','tenure','antiguedad_meses'])

cols_rank = [c for c in [id_col, col_type, 'PaymentMethod', col_monthly, col_tenure] if c and c in df.columns]

# Construir el ranking (p_churn, ERV, NetERV ya est√°n en df_scores)
to_join = cols_rank  # puede estar vac√≠o; no pasa nada
ranking = (
    df_scores[['p_churn','ERV','NetERV']]
    .join(df.loc[df_scores.index, to_join], how='left')
    .sort_values(['p_churn','ERV'], ascending=[False, False])
    .reset_index(drop=True)
)

display(ranking.head(20))



## üì§ 8. Exportar CSVs y guardar pipeline

In [None]:
# Exportar CSVs
out_dir = Path("outputs"); out_dir.mkdir(exist_ok=True)
report_topk_erv.to_csv(out_dir / "reporte_topk_ERV.csv", index=False)
report_topk_net.to_csv(out_dir / "reporte_topk_NetERV.csv", index=False)
ranking.to_csv(out_dir / "ranking_operativo.csv", index=False)
print("Exportados: outputs/reporte_topk_ERV.csv, outputs/reporte_topk_NetERV.csv, outputs/ranking_operativo.csv")

joblib.dump(best_pipe,"pipeline.joblib")
print("Guardado: pipeline.joblib")

##  Resumen ejecutivo
- **Objetivo de negocio:** Identificar y priorizar clientes con alta probabilidad de churn y alto valor esperado. 
- **M√©tricas (TEST):** ROC‚ÄëAUC (stay)= 0.9172, PR‚ÄëAUC (churn)= 0.8636  
- **Pol√≠tica de decisi√≥n:** Umbral F1 = 0.446 (m√°x-F1 en TEST). o, si prefieren operar por presupuesto, Top-k = 10% priorizando por NetERV.  
- **Impacto esperado:** con Top-10% se captur√≥ ‚âà 37.7% de churn y 38.1% del valor (NetERV).  
- **Entregables:** pipeline `.joblib` + ranking operativo `.csv` + tablas Top‚Äëk.

---

##  Problema y alcance
- Definici√≥n de **churn/stay**, unidad de an√°lisis y horizonte.  
- Criterios de √©xito (m√©trica principal y secundaria).  
- Suposiciones y exclusiones (qu√© no modelamos y por qu√©).

---

##  Datos y etiqueta
- Fuentes: `contract.csv`, `personal.csv`, `internet.csv`, `phone.csv`.  
- Etiqueta: convenci√≥n **stay=1** (si hab√≠a `churn`, se us√≥ `1 - churn`).  
- Prevenci√≥n de leakage: columnas excluidas (p.ej., `EndDate`, IDs, estados post‚Äëcorte).

---

##  EDA (hallazgos accionables)
- Distribuci√≥n de clases, NAs relevantes, outliers.  
- Se√±ales visibles: tipo de contrato, tenure, cargos, add‚Äëons, etc.  
- (Incluye 2‚Äì4 gr√°ficos clave con una frase de insight cada uno.)

---

##  Preprocesamiento y features
- Limpiezas: `TotalCharges` ‚Üí `MonthlyCharges √ó tenure` cuando falt√≥; normalizaci√≥n Yes/No.  
- Transformaciones: One‚ÄëHot (categ√≥ricas); escalado **solo** para log√≠stica.  
- Features clave: `months_left`, `value_forward_est`, `addons_count`, `mc_x_tenure`, etc.

---

##  Modelado y validaci√≥n
- Pipelines con `ColumnTransformer` (sin fugas).  
- Candidatos: LogReg (balanced), RandomForest, HistGradientBoosting.  
- Validaci√≥n: StratifiedKFold(5), `scoring='roc_auc'` (principal).

---

##  Resultados (TEST)
- ROC‚ÄëAUC (stay) = 0.9172; PR‚ÄëAUC (churn) = 0.8636.  
- Tabla de umbrales (precision/recall/F1); **corte elegido** = 0.4014.  
- Matriz de confusi√≥n al corte y m√©tricas al corte.  
- (Opcional) Calibraci√≥n isot√≥nica: usada / no usada (motivo).

---

##  Operaci√≥n y valor
- Definiciones: **ERV = p_churn √ó valor_margen**; **NetERV = ERV √ó tasa_√©xito ‚àí costo**.  
- Par√°metros: margen=0.30, tasa_√©xito=0.25, costo_contacto=1.5, horizonte M2M=12 meses.  
- Top‚Äëk (5/10/20/30): precisi√≥n, recall, % valor capturado.  
- Ranking operativo exportado: ruta de archivos y columnas incluidas.

---

##  Reproducibilidad
- Semilla fija y d√≥nde se aplica (split, CV, modelos).  
- Versiones de Python/librer√≠as.  
- C√≥mo ejecutar end‚Äëto‚Äëend en 3‚Äì5 pasos.  
- Ubicaci√≥n de artefactos y outputs.

---

##  Riesgos, l√≠mites y pr√≥ximos pasos
- L√≠mites de se√±al (no hay uso/pagos/soporte hist√≥ricos); posibles mejoras.  
- Siguientes pasos: integrar nuevas fuentes, tuning adicional / CatBoost, interpretabilidad (SHAP), monitoreo y retraining.

# Informe detallado

## ‚úÖ 1. Pasos realizados

### EDA y preprocesamiento
Se unieron las tablas contract/personal/internet/phone. Se prepar√≥ una limpieza de TotalCharges y se normalizaron las categor√≠as yes/no. Se cre√≥ la columna tenure_months y se corrigi√≥ TotalCharges ‚âà MonthlyCharges √ó tenure cuando falt√≥. Adem√°s se excluyeron las columnas con riesgo de leakage (EndDate, IDs).

### Definici√≥n de objetivo
Se trabaj√≥ con la convenci√≥n stay=1. Si ven√≠a churn, se us√≥ "y = 1 - churn" para mantener "1 = se queda."

### Caracter√≠sticas
Se separaron las variables en num√©ricas/categ√≥ricas. Despu√©s se aplic√≥ one-hot a las categ√≥ricas con un escalado solo para log√≠stica.

### Partici√≥n estratificada y pipelines con ColumnTransformer
Se realiz√≥ un train_test_split estratificado. Adem√°s, se realiz√≥ una comparaci√≥n entre los modelos de Regresi√≥n Log√≠stica, RandomForest y HistGradientBoosting (HGB) con StratifiedKFold (5 folds) y ROC-AUC como m√©trica principal.

### Entrenamiento de modelo
Se realiz√≥ el entrenamiento del modelo del mejor pipeline y se evalu√≥ en test (ROC-AUC y PR-AUC).

### Curvas PR (churn) y tabla de umbrales (precision/recall/F1)
Se generaron curvas PR (churn), tabla de umbrales (precision/recall/F1), y se hizo una selecci√≥n de corte por m√°x-F1 (adem√°s de opci√≥n por recall objetivo).

### Estrategias de operaci√≥n
Top-k por riesgo y priorizaci√≥n econ√≥mica (ERV/NetERV), con exportables (ranking_operativo_*.csv, reporte_topk_*.csv), y guardado del pipeline con joblib.

## üö© 2. Pasos omitidos

### Validaci√≥n temporal: 
No hay timestamps detallados para corte temporal; se us√≥ CV estratificado cl√°sico.


## ‚õî 3. Dificultades y soluci√≥n

- **Desbalance natural (m√°s stay que churn):** se us√≥ class_weight="balanced" en log√≠stica y se report√≥ ROC-AUC (ranking global) y PR-AUC (churn) (calidad en la clase minoritaria).

- **Heterogeneidad de nombres:** helpers para encontrar columnas (find_col) y evitar quiebres si cambia capitalizaci√≥n o idioma.

- **Probabilidades no calibradas:** se prefiere Top-k o umbrales ‚Äúde negocio‚Äù (no probabilidades absolutas).

- **Riesgo vs. Valor:** se a√±adi√≥ ERV/NetERV para priorizar a qui√©n contactar maximizando retorno esperado, no solo riesgo.

## üóùÔ∏è 4. Pasos clave para resolver la tarea

- **Pipelines con ColumnTransformer** (sin fugas): one-hot a categ√≥ricas y escalado s√≥lo donde aporta (log√≠stica).
- **Selecci√≥n por CV (AUC-ROC)** para elegir el mejor algoritmo sin mirar _test_.
- **PR-AUC + Umbrales/Top-k** para pasar de m√©tricas a decisiones.
- **Riesgo √ó Valor** (**ERV/NetERV**) para priorizar contactos con mayor impacto econ√≥mico esperado.

## ‚òëÔ∏è 5. Modelo final y nivel de calidad

**Modelo final:** Pipeline con HistGradientBoostingClassifier (HGB) (mejor por CV en esta corrida).

**Calidad (TEST):**

 - ROC-AUC (stay): 0.9172

 - PR-AUC (churn): 0.8636
(Los valores pueden moverse levemente si cambias la semilla o reentrenas.)