# üìä Proyecto de Ciencia de Datos para Empresa de Suscripciones  
## Predicci√≥n de Fuga de Clientes (Customer Churn) y Priorizaci√≥n de Retenci√≥n

---

## 1Ô∏è‚É£ Contexto de negocio y motivaci√≥n estrat√©gica

Este proyecto representa el caso de una **empresa real de servicios por suscripci√≥n** (por ejemplo, telecom / SaaS B2C/B2B) que:

- Ofrece planes **mensuales** y **anuales**.
- Comercializa varios servicios: internet, telefon√≠a, servicios adicionales.
- Factura de forma **recurrente** por cliente, generando un **MRR (Monthly Recurring Revenue)** estable.

La direcci√≥n detect√≥ problemas claros:

- La **tasa de churn** (clientes que cancelan el servicio) ha ido en aumento.
- No existe un mecanismo **predictivo** para anticipar qu√© clientes est√°n en riesgo.
- Las campa√±as de retenci√≥n se ejecutan de forma **masiva** y poco enfocada:
  - Alto costo en descuentos y llamadas.
  - Bajo impacto real en reducci√≥n de fuga.

A nivel financiero, esto se traduce en:

- Menor **LTV (Lifetime Value)** de los clientes.
- Mayor presi√≥n en **Adquisici√≥n de Clientes (CAC)** para compensar los que se van.
- Dificultad para planear crecimiento y capacidad operativa.

---

### Pregunta de negocio

> **¬øPodemos construir un modelo de riesgo de churn que permita priorizar a qu√© clientes contactar y qu√© segmentos requieren acciones estructurales de mejora del servicio?**

---

### Objetivos de negocio

1. **Cuantificar el churn actual** y entender sus drivers principales.
2. Entrenar un **modelo de clasificaci√≥n** que estime la probabilidad de churn por cliente.
3. Generar una **lista priorizada** de clientes de alto riesgo para campa√±as de retenci√≥n.
4. Traducir los resultados a **recomendaciones accionables** para:
   - Customer Success y Retenci√≥n.
   - Marketing (ofertas, campa√±as).
   - Operaciones y Experiencia de Cliente (mejora de servicio).

---

### M√©tricas clave para evaluar la soluci√≥n

- **F1-score de la clase churn**: equilibrio entre precisi√≥n y recall.
- **Recall de la clase churn**: qu√© proporci√≥n de clientes que realmente se van logramos identificar.
- **ROC-AUC**: capacidad del modelo para separar churn vs no churn.
- **Lift en el top 10‚Äì20%** de clientes ordenados por riesgo:
  - ¬øQu√© tanto aumenta la tasa de churn en el segmento priorizado vs la tasa global?

---

> Este notebook est√° dise√±ado para ser presentado a un **director de Retenci√≥n/Customer Success** o a la **Direcci√≥n de Datos**, mostrando un flujo completo de trabajo con foco en impacto de negocio y no solo en m√©tricas t√©cnicas.


In [None]:
# 1Ô∏è‚É£ C√≥digo ‚Äì Imports y configuraci√≥n global

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.dummy import DummyClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    roc_auc_score,
    confusion_matrix
)

from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Configuraci√≥n est√©tica
pd.set_option("display.max_columns", 100)
pd.set_option("display.float_format", lambda x: f"{x:,.3f}")
sns.set(style="whitegrid")
np.random.seed(42)

print("‚úÖ Entorno preparado. Listo para cargar datos.")


## 2Ô∏è‚É£ Carga del dataset desde Excel y perfilado inicial

Trabajaremos con un dataset de producci√≥n exportado a Excel:

> `churn_clientes_sintetico_40k.xlsx`

Este dataset representa el hist√≥rico reciente de clientes de la empresa, con columnas como:

- Identificador y antig√ºedad (`customer_id`, `tenure_months`).
- Segmento y tipo de contrato (`segment`, `contract_type`).
- Servicios contratados (`has_internet`, `has_phone`, `num_services`).
- Facturaci√≥n (`monthly_charges`, `total_charges`).
- Soporte y pagos (`num_tickets_6m`, `late_payments_6m`, `has_discount`).
- M√©todo de pago (`payment_method`).
- Variable objetivo (`churn` = 1 si el cliente abandon√≥ el servicio).

En este punto:

- Verificamos tama√±o del dataset.
- Revisamos tipos de datos.
- Cuantificamos valores faltantes.
- Medimos la tasa actual de churn.

Esto ya da valor al negocio porque responde:  
**‚Äú¬øDe qu√© tama√±o es el problema y qu√© tan balanceada est√° la base?‚Äù**


In [None]:
# 2Ô∏è‚É£ C√≥digo ‚Äì Carga de datos y chequeos b√°sicos

FILE_PATH = "churn_clientes_sintetico_40k.xlsx"

try:
    df = pd.read_excel(FILE_PATH)
except FileNotFoundError:
    raise FileNotFoundError(
        f"No se encontr√≥ el archivo '{FILE_PATH}'. "
        "Aseg√∫rate de que est√© en la misma carpeta que este notebook."
    )

n_rows, n_cols = df.shape

print(f"üìÇ Dataset cargado correctamente: {n_rows:,} filas, {n_cols} columnas\n")

print("üîé Vista r√°pida de las primeras filas:")
display(df.head())

print("\n‚ÑπÔ∏è Informaci√≥n de tipos de datos:")
print(df.info())

print("\n‚ùó Porcentaje de valores faltantes por columna:")
missing_pct = df.isna().mean().sort_values(ascending=False) * 100
display(missing_pct)

# Distribuci√≥n de la variable objetivo
if 'churn' not in df.columns:
    raise ValueError("La columna 'churn' no existe en el dataset. Verifica el archivo de entrada.")

churn_dist = df['churn'].value_counts(normalize=True).rename('proportion')
print("\nüìä Distribuci√≥n de churn (0=se queda, 1=se va):")
display(churn_dist.to_frame())

churn_rate = churn_dist.get(1, 0)
print(f"‚û°Ô∏è Tasa global de churn en la muestra: {churn_rate:.3%}")


## 3Ô∏è‚É£ Calidad de datos: duplicados, faltantes y consistencia

Antes de modelar, debemos asegurar una base de calidad m√≠nima:

1. **Duplicados de cliente**  
   - En entornos reales, es com√∫n tener duplicados por errores de integraci√≥n.
   - Como regla, nos quedamos con **la primera ocurrencia** por `customer_id`.

2. **Valores faltantes**  
   - Variables num√©ricas: imputamos con **mediana** (robusto a outliers).
   - Variables categ√≥ricas: imputamos con la **moda** (valor m√°s frecuente).

3. **Consistencia b√°sica**  
   - No deber√≠a haber cargos negativos.
   - El n√∫mero de servicios debe ser mayor o igual a 1.

Adem√°s, guardaremos algunos indicadores de calidad para documentar el estado del dato.


In [None]:
# 3Ô∏è‚É£ C√≥digo ‚Äì Limpieza de duplicados y valores faltantes

# Comprobaci√≥n de duplicados por customer_id
if 'customer_id' in df.columns:
    dup_count = df['customer_id'].duplicated().sum()
    print(f"üß¨ Registros duplicados por 'customer_id': {dup_count:,}")
    if dup_count > 0:
        df = df.drop_duplicates(subset='customer_id', keep='first')
        print(f"‚úÖ Se eliminaron duplicados. Nuevas filas: {len(df):,}")
else:
    print("‚ö†Ô∏è No existe columna 'customer_id'. Se asume que cada fila es un cliente √∫nico.")

# Identificar columnas num√©ricas y categ√≥ricas (excluyendo target)
target_col = 'churn'
numeric_cols = df.select_dtypes(include=['number']).columns.drop(target_col)
categorical_cols = df.select_dtypes(include=['object', 'category']).columns

print("\nüìå Columnas num√©ricas:", list(numeric_cols))
print("üìå Columnas categ√≥ricas:", list(categorical_cols))

# Imputaci√≥n de valores faltantes
df_clean = df.copy()

# Num√©ricos ‚Üí mediana
for col in numeric_cols:
    median_val = df_clean[col].median()
    missing_before = df_clean[col].isna().sum()
    df_clean[col].fillna(median_val, inplace=True)
    if missing_before > 0:
        print(f"‚úÖ Imputados {missing_before} valores faltantes en '{col}' con mediana={median_val:.2f}")

# Categ√≥ricos ‚Üí moda
for col in categorical_cols:
    mode_val = df_clean[col].mode().iloc[0]
    missing_before = df_clean[col].isna().sum()
    df_clean[col].fillna(mode_val, inplace=True)
    if missing_before > 0:
        print(f"‚úÖ Imputados {missing_before} valores faltantes en '{col}' con moda='{mode_val}'")

print("\n‚úÖ Porcentaje de valores faltantes despu√©s de limpieza:")
display(df_clean.isna().mean().sort_values(ascending=False) * 100)

# Reglas de consistencia simples
if 'monthly_charges' in df_clean.columns:
    negativos = (df_clean['monthly_charges'] < 0).sum()
    if negativos > 0:
        print(f"‚ö†Ô∏è Se encontraron {negativos} monthly_charges negativos. Se pasar√°n a NaN y se imputar√°n con la mediana.")
        df_clean.loc[df_clean['monthly_charges'] < 0, 'monthly_charges'] = np.nan
        median_val = df_clean['monthly_charges'].median()
        df_clean['monthly_charges'].fillna(median_val, inplace=True)


## 4Ô∏è‚É£ Exploraci√≥n descriptiva: tama√±o del problema y estructura de la base

En esta secci√≥n:

- Cuantificamos el churn por segmentos clave:
  - Tipo de contrato.
  - Segmento de cliente.
  - M√©todo de pago.
- Observamos la distribuci√≥n de variables num√©ricas relevantes:
  - Antig√ºedad.
  - Cargos mensuales.
  - Tickets y pagos tard√≠os.

El objetivo es entender **d√≥nde se concentra el problema** antes de entrenar ning√∫n modelo.


In [None]:
# 4Ô∏è‚É£ C√≥digo ‚Äì EDA descriptiva

df_eda = df_clean.copy()

fig, axes = plt.subplots(2, 2, figsize=(14, 10))

if 'tenure_months' in df_eda.columns:
    axes[0, 0].hist(df_eda['tenure_months'], bins=30)
    axes[0, 0].set_title('Distribuci√≥n de antig√ºedad (tenure_months)')
    axes[0, 0].set_xlabel('Meses')
    axes[0, 0].set_ylabel('Frecuencia')

if 'monthly_charges' in df_eda.columns:
    axes[0, 1].hist(df_eda['monthly_charges'], bins=30)
    axes[0, 1].set_title('Distribuci√≥n de cargos mensuales')
    axes[0, 1].set_xlabel('Monto mensual')
    axes[0, 1].set_ylabel('Frecuencia')

if 'num_tickets_6m' in df_eda.columns:
    axes[1, 0].hist(df_eda['num_tickets_6m'], bins=11)
    axes[1, 0].set_title('Tickets de soporte √∫ltimos 6 meses')
    axes[1, 0].set_xlabel('N√∫mero de tickets')
    axes[1, 0].set_ylabel('Frecuencia')

if 'late_payments_6m' in df_eda.columns:
    axes[1, 1].hist(df_eda['late_payments_6m'], bins=7)
    axes[1, 1].set_title('Pagos tard√≠os √∫ltimos 6 meses')
    axes[1, 1].set_xlabel('N√∫mero de pagos tard√≠os')
    axes[1, 1].set_ylabel('Frecuencia')

plt.tight_layout()
plt.show()

def churn_rate_by(col):
    if col not in df_eda.columns:
        print(f"‚ö†Ô∏è La columna '{col}' no existe en el dataset.")
        return None
    grp = df_eda.groupby(col)['churn'].mean().sort_values(ascending=False)
    print(f"\nüìä Tasa de churn por '{col}':")
    display(grp.to_frame('churn_rate'))
    plt.figure(figsize=(7, 4))
    grp.plot(kind='bar')
    plt.title(f'Tasa de churn por {col}')
    plt.ylabel('Proporci√≥n de churn')
    plt.show()
    return grp

churn_by_contract = churn_rate_by('contract_type') if 'contract_type' in df_eda.columns else None
churn_by_segment = churn_rate_by('segment') if 'segment' in df_eda.columns else None
churn_by_payment = churn_rate_by('payment_method') if 'payment_method' in df_eda.columns else None


## 5Ô∏è‚É£ Feature engineering: enriquecer la visi√≥n del cliente

Para que el modelo capture mejor el comportamiento real, creamos variables derivadas:

- `tenure_years`: antig√ºedad en a√±os.
- `is_new_customer`: indicador de clientes de **alta fragilidad** (‚â§ 6 meses).
- `avg_charge_per_service`: ticket promedio por servicio contratado.
- `has_many_tickets`: indicador de clientes con **alta fricci√≥n operativa**.
- `estimated_12m_revenue`: ingreso estimado de los pr√≥ximos 12 meses *si el cliente se quedara*.

Estas variables permiten hablar de **riesgo econ√≥mico**, no solo probabilidades abstractas.


In [None]:
# 5Ô∏è‚É£ C√≥digo ‚Äì Feature engineering

df_fe = df_clean.copy()

if 'tenure_months' in df_fe.columns:
    df_fe['tenure_years'] = df_fe['tenure_months'] / 12.0
    df_fe['is_new_customer'] = (df_fe['tenure_months'] <= 6).astype(int)
else:
    df_fe['tenure_years'] = np.nan
    df_fe['is_new_customer'] = 0

if 'num_services' in df_fe.columns:
    df_fe['num_services_clean'] = df_fe['num_services'].replace(0, 1)
else:
    df_fe['num_services_clean'] = 1

if 'monthly_charges' in df_fe.columns:
    df_fe['avg_charge_per_service'] = df_fe['monthly_charges'] / df_fe['num_services_clean']
    df_fe['estimated_12m_revenue'] = df_fe['monthly_charges'] * 12
else:
    df_fe['avg_charge_per_service'] = np.nan
    df_fe['estimated_12m_revenue'] = np.nan

if 'num_tickets_6m' in df_fe.columns:
    df_fe['has_many_tickets'] = (df_fe['num_tickets_6m'] >= 3).astype(int)
else:
    df_fe['has_many_tickets'] = 0

new_cols = ['tenure_years', 'is_new_customer', 'avg_charge_per_service',
            'estimated_12m_revenue', 'has_many_tickets']

print("‚úÖ Columnas generadas:")
display(df_fe[new_cols].head())


## 6Ô∏è‚É£ Preparaci√≥n para modelado: separaci√≥n Train/Test y pipeline

En un entorno de producci√≥n es fundamental:

- Separar un conjunto de **entrenamiento** y otro de **prueba**.
- Evitar fugas de informaci√≥n (data leakage).
- Dejar el flujo listo para ser **empaquetado y versionado**.

En esta secci√≥n:

1. Definimos:
   - `X`: variables explicativas.
   - `y`: variable objetivo (`churn`).
2. Separamos Train/Test con estratificaci√≥n en churn.
3. Definimos un **pipeline de sklearn** con:
   - `ColumnTransformer` para:
     - Dejar num√©ricos como est√°n.
     - One-hot encoding de categ√≥ricos.
   - Modelo `RandomForestClassifier` como estimador principal.


In [None]:
# 6Ô∏è‚É£ C√≥digo ‚Äì Train/Test split y construcci√≥n de pipeline

TARGET_COL = 'churn'
ID_COL = 'customer_id' if 'customer_id' in df_fe.columns else None

if TARGET_COL not in df_fe.columns:
    raise ValueError("No se encuentra la columna 'churn' en el dataset.")

y = df_fe[TARGET_COL]

feature_cols = df_fe.columns.drop([TARGET_COL] + ([ID_COL] if ID_COL else []))
X = df_fe[feature_cols]

print(f"üìê X shape: {X.shape}, y length: {len(y)}")

numeric_features = X.select_dtypes(include=['number']).columns.tolist()
categorical_features = X.select_dtypes(include=['object', 'category']).columns.tolist()

print("\nüìå Features num√©ricos:", numeric_features)
print("üìå Features categ√≥ricos:", categorical_features)

X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.25,
    random_state=42,
    stratify=y
)

print(f"\nüîÄ Train: {X_train.shape[0]:,} filas  |  Test: {X_test.shape[0]:,} filas")

numeric_transformer = 'passthrough'
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

preprocessor = ColumnTransformer(
    transformers=[
        ('numeric', numeric_transformer, numeric_features),
        ('categorical', categorical_transformer, categorical_features)
    ]
)

rf_model = RandomForestClassifier(
    n_estimators=300,
    max_depth=8,
    random_state=42,
    class_weight='balanced_subsample',
    n_jobs=-1
)

model_pipeline = Pipeline(
    steps=[
        ('preprocessor', preprocessor),
        ('model', rf_model)
    ]
)

print("\n‚úÖ Pipeline preparado (preprocesamiento + modelo).")


## 7Ô∏è‚É£ L√≠nea base (baseline): modelo Dummy

Antes de dar por bueno cualquier modelo, medimos una **l√≠nea base**:

- Usamos un `DummyClassifier` con estrategia **estratificada**.
- Este modelo ‚Äúpredice al azar‚Äù respetando la proporci√≥n de churn/no churn.

La regla es simple:

> **Si tu modelo no supera al Dummy, no tienes modelo.**

Evaluaremos:

- Accuracy
- Precision (churn=1)
- Recall (churn=1)
- F1
- ROC-AUC


In [None]:
# 7Ô∏è‚É£ C√≥digo ‚Äì Baseline Dummy

dummy_clf = DummyClassifier(strategy='stratified', random_state=42)
dummy_clf.fit(X_train, y_train)

y_pred_dummy = dummy_clf.predict(X_test)
y_proba_dummy = dummy_clf.predict_proba(X_test)[:, 1]

def evaluate_model(y_true, y_pred, y_proba, name='modelo'):
    metrics = {
        'accuracy': accuracy_score(y_true, y_pred),
        'precision': precision_score(y_true, y_pred, zero_division=0),
        'recall': recall_score(y_true, y_pred, zero_division=0),
        'f1': f1_score(y_true, y_pred, zero_division=0),
        'roc_auc': roc_auc_score(y_true, y_proba)
    }
    print(f"\nüìä M√©tricas para {name}:")
    for k, v in metrics.items():
        print(f"  {k:10s}: {v:.3f}")
    return metrics

metrics_dummy = evaluate_model(y_test, y_pred_dummy, y_proba_dummy, name='Dummy (baseline)')


## 8Ô∏è‚É£ Entrenamiento del modelo de churn (Random Forest)

Ahora entrenamos el modelo real:

- `RandomForestClassifier` encapsulado en el **pipeline** (preprocesa + entrena).
- Se entrena √∫nicamente con el set de entrenamiento.
- Se eval√∫a sobre el set de prueba y se comparan las m√©tricas contra el Dummy.

Buscamos:

- Mejor F1 y ROC-AUC que la baseline.
- Un Recall razonable para churn, para no dejar escapar demasiados clientes que realmente se van.


In [None]:
# 8Ô∏è‚É£ C√≥digo ‚Äì Entrenamiento y evaluaci√≥n del modelo principal

model_pipeline.fit(X_train, y_train)

y_pred_rf = model_pipeline.predict(X_test)
y_proba_rf = model_pipeline.predict_proba(X_test)[:, 1]

metrics_rf = evaluate_model(y_test, y_pred_rf, y_proba_rf, name='Random Forest (pipeline)')

comparison = pd.DataFrame({
    'metric': ['accuracy', 'precision', 'recall', 'f1', 'roc_auc'],
    'dummy': [
        metrics_dummy['accuracy'],
        metrics_dummy['precision'],
        metrics_dummy['recall'],
        metrics_dummy['f1'],
        metrics_dummy['roc_auc'],
    ],
    'random_forest': [
        metrics_rf['accuracy'],
        metrics_rf['precision'],
        metrics_rf['recall'],
        metrics_rf['f1'],
        metrics_rf['roc_auc'],
    ],
})

print("\nüìä Comparativa Dummy vs Random Forest:")
display(comparison)


## 9Ô∏è‚É£ Matriz de confusi√≥n y diagn√≥stico de errores

Adem√°s de las m√©tricas agregadas, es clave entender **c√≥mo se equivoca el modelo**:

- ¬øCu√°ntos clientes que se iban no se detectan? (falsos negativos).
- ¬øCu√°ntos clientes se marcan err√≥neamente como en riesgo? (falsos positivos).

Mostraremos la **matriz de confusi√≥n** en valores absolutos y normalizados.


In [None]:
# 9Ô∏è‚É£ C√≥digo ‚Äì Matriz de confusi√≥n

def plot_confusion_matrix_custom(y_true, y_pred, labels=(0, 1)):
    cm = confusion_matrix(y_true, y_pred, labels=labels)
    cm_norm = cm / cm.sum(axis=1, keepdims=True)

    fig, axes = plt.subplots(1, 2, figsize=(10, 4))

    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=axes[0])
    axes[0].set_title('Matriz de confusi√≥n (absoluta)')
    axes[0].set_xlabel('Predicci√≥n')
    axes[0].set_ylabel('Real')

    sns.heatmap(cm_norm, annot=True, fmt='.2f', cmap='Blues', ax=axes[1])
    axes[1].set_title('Matriz de confusi√≥n (normalizada)')
    axes[1].set_xlabel('Predicci√≥n')
    axes[1].set_ylabel('Real')

    plt.tight_layout()
    plt.show()

plot_confusion_matrix_custom(y_test, y_pred_rf)


## üîü Interpretabilidad: variables clave que explican el churn

Un modelo es √∫til en negocio cuando adem√°s de predecir, **explica el fen√≥meno**.

En esta secci√≥n:

- Extraemos la **importancia de caracter√≠sticas** del Random Forest.
- Identificamos las Top N variables que m√°s peso tienen en la decisi√≥n.
- Relacionamos estas variables con acciones de negocio:
  - Tipo de contrato.
  - Tickets de soporte.
  - Pagos tard√≠os.
  - Antig√ºedad y descuentos.

Esto permite contestar preguntas como:

> ‚Äú¬øQu√© palancas debemos mover para reducir el churn estructuralmente?‚Äù


In [None]:
# üîü C√≥digo ‚Äì Importancia de variables

rf_fitted = model_pipeline.named_steps['model']
preprocessor_fitted = model_pipeline.named_steps['preprocessor']

numeric_feature_names = numeric_features
cat_ohe = preprocessor_fitted.named_transformers_['categorical']
cat_feature_names = cat_ohe.get_feature_names_out(categorical_features)

all_feature_names = list(numeric_feature_names) + list(cat_feature_names)

feature_importances = pd.DataFrame({
    'feature': all_feature_names,
    'importance': rf_fitted.feature_importances_
}).sort_values(by='importance', ascending=False)

top_n = 20
print(f"üèÜ Top {top_n} variables m√°s importantes:")
display(feature_importances.head(top_n))

plt.figure(figsize=(8, 8))
sns.barplot(
    x='importance',
    y='feature',
    data=feature_importances.head(top_n)
)
plt.title(f'Top {top_n} caracter√≠sticas m√°s importantes')
plt.xlabel('Importancia')
plt.ylabel('Feature')
plt.tight_layout()
plt.show()


## 1Ô∏è‚É£1Ô∏è‚É£ Ranking de clientes por riesgo y simulaci√≥n de campa√±a de retenci√≥n

Con el modelo entrenado podemos construir un **score de riesgo de churn por cliente**:

1. Calculamos la probabilidad de churn para cada cliente en el conjunto de test.
2. Ordenamos de mayor a menor riesgo.
3. Definimos un segmento prioritario, por ejemplo:
   - Top 10% de clientes por probabilidad de churn.
4. Medimos:
   - Tasa de churn real dentro de ese top.
   - `Lift` respecto a la tasa global.
   - Ingreso estimado en riesgo (usando `estimated_12m_revenue`).

Esto permite estimar el **impacto econ√≥mico** de una campa√±a focalizada.


In [None]:
# 1Ô∏è‚É£1Ô∏è‚É£ C√≥digo ‚Äì Ranking y simulaci√≥n de campa√±a

proba_test = model_pipeline.predict_proba(X_test)[:, 1]

df_test_business = df_fe.loc[X_test.index].copy()
df_test_business['churn_real'] = y_test
df_test_business['prob_churn_model'] = proba_test

df_ranked = df_test_business.sort_values(by='prob_churn_model', ascending=False)

top_pct = 0.10
top_n_clients = int(len(df_ranked) * top_pct)
df_top = df_ranked.head(top_n_clients)

global_churn_rate = df_ranked['churn_real'].mean()
top_churn_rate = df_top['churn_real'].mean()
lift_top = top_churn_rate / global_churn_rate if global_churn_rate > 0 else np.nan

revenue_col = 'estimated_12m_revenue'
if revenue_col in df_top.columns:
    total_revenue_risk = df_top.loc[df_top['churn_real'] == 1, revenue_col].sum()
else:
    total_revenue_risk = np.nan

print(f"üéØ Tama√±o conjunto Test: {len(df_ranked):,} clientes")
print(f"üéØ Top {top_pct:.0%} de riesgo: {top_n_clients:,} clientes\n")

print(f"üìà Tasa de churn global en Test:      {global_churn_rate:.2%}")
print(f"üî• Tasa de churn en Top {top_pct:.0%}: {top_churn_rate:.2%}")
print(f"üí° Lift (Top vs Global):              {lift_top:.2f}x")

if not np.isnan(total_revenue_risk):
    print(f"\nüí∞ Ingreso anual estimado en riesgo dentro del Top (clientes que efectivamente se fueron):")
    print(f"   ‚âà {total_revenue_risk:,.0f} unidades monetarias")

print("\nüëÄ Muestra de clientes priorizados (Top 10):")
cols_show = [c for c in ['customer_id', 'segment', 'contract_type', 'monthly_charges',
                         'tenure_months', 'num_tickets_6m', 'late_payments_6m',
                         'has_discount', 'churn_real', 'prob_churn_model'] if c in df_top.columns]

display(df_top[cols_show].head(10))


## 1Ô∏è‚É£2Ô∏è‚É£ Conclusiones ejecutivas y siguientes pasos

En esta secci√≥n sintetizamos los hallazgos en lenguaje de negocio.  
El objetivo es que un director pueda tomar decisiones sin ver el c√≥digo.

El notebook imprime un **resumen ejecutivo din√°mico** basado en los resultados obtenidos:

- Calidad del modelo comparado contra el baseline.
- Variables que explican el churn.
- Efectividad de priorizar el Top 10% de riesgo.
- Impacto econ√≥mico potencial de actuar sobre ese segmento.

Adem√°s, se listan **siguientes pasos recomendados** para evolucionar la soluci√≥n hacia producci√≥n:
- Industrializaci√≥n del pipeline.
- Integraci√≥n con CRM / sistema de campa√±as.
- Monitoreo de deriva del modelo (drift).


In [None]:
# 1Ô∏è‚É£2Ô∏è‚É£ C√≥digo ‚Äì Resumen ejecutivo din√°mico

print("üìå RESUMEN EJECUTIVO DEL MODELO DE CHURN\n")

print("1) Desempe√±o del modelo vs baseline\n------------------------------------")
for metric in ['accuracy', 'precision', 'recall', 'f1', 'roc_auc']:
    base_val = metrics_dummy[metric]
    rf_val = metrics_rf[metric]
    delta = rf_val - base_val
    print(f"- {metric.upper():9s} | Dummy: {base_val:.3f} | RF: {rf_val:.3f} | Œî: {delta:+.3f}")

print("\n2) Drivers principales de churn\n--------------------------------")
for i, row in feature_importances.head(10).iterrows():
    print(f"- {row['feature']}: importancia {row['importance']:.3f}")

print("\n3) Efectividad de la priorizaci√≥n\n----------------------------------")
print(f"- Tasa de churn global en Test:      {global_churn_rate:.2%}")
print(f"- Tasa de churn en Top 10% riesgo:   {top_churn_rate:.2%}")
print(f"- Lift (Top vs global):              {lift_top:.2f}x")

if not np.isnan(total_revenue_risk):
    print(f"- Ingreso anual estimado en riesgo dentro del Top (clientes que efectivamente se fueron):")
    print(f"  ‚âà {total_revenue_risk:,.0f} unidades monetarias")

print("\n4) Recomendaciones accionables\n--------------------------------")
print("- Implementar una campa√±a de retenci√≥n espec√≠ficamente dirigida al Top 10‚Äì20% de clientes por riesgo,")
print("  combinando beneficios econ√≥micos (descuentos, upgrades) con acciones de servicio (llamadas proactivas).")
print("- Dise√±ar iniciativas estructurales para reducir la fricci√≥n en los clientes con muchos tickets de soporte.")
print("- Incentivar, mediante oferta comercial, el paso de contratos 'Month-to-month' a contratos de mayor plazo.")
print("- Revisar pol√≠ticas de cobro y recordatorio a clientes con alta incidencia de pagos tard√≠os.")
print("- Integrar este modelo al CRM para que el equipo de Customer Success trabaje con una vista priorizada de cartera.")
print("\n‚úÖ Este notebook demuestra una soluci√≥n de ciencia de datos lista para ser discutida con negocio y escalada a producci√≥n.")
