<span style="color:red; font-family:Helvetica Neue, Helvetica, Arial, sans-serif; font-size:2em;">An Exception was encountered at '<a href="#papermill-error-cell">In [5]</a>'.</span>

# DS-506: Evaluaci√≥n Exhaustiva del Modelo Campe√≥n en TEST

**Objetivo**: Evaluar el modelo campe√≥n (Logistic Regression) en el conjunto de TEST para validar que est√° listo para producci√≥n

**Input**: 
- `data/processed/retain-data.csv`
- `models/champion/logistic_regression.pkl`
- `models/champion/scaler.pkl`
- `models/champion/label_encoder.pkl`

**Output**: 
- M√©tricas finales en TEST
- Matriz de confusi√≥n detallada
- An√°lisis de errores (falsos positivos/negativos)
- An√°lisis de threshold √≥ptimo
- Coeficientes del modelo (feature importance)
- Reporte final ejecutivo

---

## üìã ¬øPor qu√© TEST es cr√≠tico?

En DS-505 entrenamos y optimizamos hiperpar√°metros usando **Train** y **Validation**. El conjunto de **TEST** NUNCA fue visto durante el entrenamiento.

**TEST nos dice la verdad:**
- ¬øEl modelo realmente generaliza?
- ¬øLas m√©tricas de validaci√≥n eran realistas o hubo overfitting?
- ¬øEst√° listo para producci√≥n?

Si TEST tiene m√©tricas similares a Validation (diferencia <5%), el modelo es **robusto** y podemos desplegarlo con confianza.

In [1]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import json
import joblib
from datetime import datetime

# Scikit-learn
from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    roc_auc_score, roc_curve, confusion_matrix,
    classification_report, ConfusionMatrixDisplay,
    precision_recall_curve
)

# Configuraci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

# Semilla (DEBE ser la misma que DS-505 para obtener el MISMO split)
RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

print("‚úì Librer√≠as importadas")

‚úì Librer√≠as importadas


## 1. Carga de Datos y Recreaci√≥n del Split

### üéØ ¬øPor qu√© recrear el split?

Necesitamos el **MISMO conjunto de TEST** que usamos en DS-505. Al usar `random_state=42`, scikit-learn garantiza que el split es id√©ntico.

### üìä Divisi√≥n:
- Train: 70% (4,929 clientes)
- Validation: 15% (1,057 clientes)
- **TEST: 15% (1,057 clientes)** ‚Üê Este es el que evaluaremos

In [2]:
# Cargar dataset
df = pd.read_csv('../data/processed/retain-data.csv')

# Cargar metadata de features
with open('../data/processed/04_features_metadata.json', 'r') as f:
    features_meta = json.load(f)

ml_features = features_meta['ml_features']

print(f"üìä Dataset cargado: {df.shape[0]:,} clientes √ó {df.shape[1]} columnas")
print(f"üìã Features para ML: {len(ml_features)} variables")

# Separar X y y
X = df[ml_features].copy()
y = df['Cancelacion'].copy()

print(f"\n‚úì X: {X.shape}")
print(f"‚úì y: {y.shape}")

üìä Dataset cargado: 9,701 clientes √ó 77 columnas
üìã Features para ML: 62 variables

‚úì X: (9701, 62)
‚úì y: (9701,)


In [3]:
# Encoding de categ√≥ricas (igual que en DS-505)
categorical_cols = X.select_dtypes(include=['object', 'category']).columns.tolist()
X_encoded = pd.get_dummies(X, columns=categorical_cols, drop_first=True, dtype=int)

print(f"‚úì One-Hot Encoding completado: {X.shape[1]} ‚Üí {X_encoded.shape[1]} features")

‚úì One-Hot Encoding completado: 62 ‚Üí 162 features


In [4]:
# Recrear el MISMO split de DS-505
# Primera divisi√≥n: Train+Val (85%) vs Test (15%)
X_temp, X_test, y_temp, y_test = train_test_split(
    X_encoded, y, 
    test_size=0.15, 
    stratify=y, 
    random_state=RANDOM_STATE
)

# Segunda divisi√≥n: Train (70%) vs Validation (15%)
X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, 
    test_size=0.1765,  # 15% del total
    stratify=y_temp, 
    random_state=RANDOM_STATE
)

print("üìä Divisi√≥n de datos recreada:\n")
print(f"   Train:      {X_train.shape[0]:,} clientes (70%)")
print(f"   Validation: {X_val.shape[0]:,} clientes (15%)")
print(f"   TEST:       {X_test.shape[0]:,} clientes (15%) ‚Üê EVALUAREMOS AQU√ç")

print(f"\n‚úì Distribuci√≥n de churn en TEST: {(y_test == 'Si').sum() / len(y_test) * 100:.2f}%")

üìä Divisi√≥n de datos recreada:

   Train:      6,789 clientes (70%)
   Validation: 1,456 clientes (15%)
   TEST:       1,456 clientes (15%) ‚Üê EVALUAREMOS AQU√ç

‚úì Distribuci√≥n de churn en TEST: 16.00%


## 2. Carga del Modelo Campe√≥n

### üéØ ¬øQu√© cargamos?

El modelo **Logistic Regression** que fue seleccionado como campe√≥n en DS-505 por su mejor AUC (0.9088) y menor overfitting (0.3%).

### üì¶ Artifacts necesarios:
1. **logistic_regression.pkl**: El modelo entrenado
2. **scaler.pkl**: StandardScaler para normalizar features
3. **label_encoder.pkl**: Para codificar el target (Yes/No ‚Üí 1/0)
4. **metadata.json**: Informaci√≥n del modelo (hiperpar√°metros, m√©tricas)

<span id="papermill-error-cell" style="color:red; font-family:Helvetica Neue, Helvetica, Arial, sans-serif; font-size:2em;">Execution using papermill encountered an exception here and stopped:</span>

In [5]:
# Cargar modelo campe√≥n y artifacts
model_champion = joblib.load('../models/champion/logistic_regression.pkl')
scaler = joblib.load('../models/champion/scaler.pkl')
label_encoder = joblib.load('../models/champion/label_encoder.pkl')

# Cargar metadata
with open('../models/champion/metadata.json', 'r') as f:
    metadata = json.load(f)

print("‚úÖ Modelo Campe√≥n Cargado:\n")
print(f"   ‚Ä¢ Tipo: {metadata.get('model_name', 'Unknown')}")
print(f"   ‚Ä¢ Fecha entrenamiento: {metadata['training_date']}")
print(f"   ‚Ä¢ Hiperpar√°metros: C={metadata['hyperparameters']['C']}, solver={metadata['hyperparameters']['solver']}")
print(f"\nüìä M√©tricas en Validation (DS-505):")
print(f"   ‚Ä¢ AUC: {metadata['performance_metrics']['auc_val']:.4f}")
print(f"   ‚Ä¢ Precision: {metadata['performance_metrics']['precision_val']:.4f}")
print(f"   ‚Ä¢ Recall: {metadata['performance_metrics']['recall_val']:.4f}")
print(f"   ‚Ä¢ F1-Score: {metadata['performance_metrics']['f1_val']:.4f}")
print(f"\nüí° Objetivo: Validar que m√©tricas en TEST sean similares (diferencia <5%)")

FileNotFoundError: [Errno 2] No such file or directory: '../models/champion/logistic_regression.pkl'

## 3. Preparaci√≥n del Conjunto de TEST

### üéØ ¬øQu√© hacemos?

Aplicamos las **mismas transformaciones** que se usaron en Train/Validation:
1. Escalar features num√©ricas con el **mismo scaler** (ajustado solo con Train)
2. Codificar el target con el **mismo label_encoder**

### ‚ö†Ô∏è Importante:
**NO ajustamos** (fit) nada con TEST. Solo **transformamos** (transform) usando los par√°metros aprendidos de Train.

In [None]:
# Codificar target de TEST
y_test_encoded = label_encoder.transform(y_test)  # Yes ‚Üí 1, No ‚Üí 0

# Identificar features num√©ricas
numeric_features = X_test.select_dtypes(include=['int64', 'float64']).columns.tolist()

# Escalar TEST con el scaler ajustado en Train
X_test_scaled = X_test.copy()
X_test_scaled[numeric_features] = scaler.transform(X_test[numeric_features])

print("‚úì TEST preparado:")
print(f"   ‚Ä¢ Features escaladas: {len(numeric_features)}")
print(f"   ‚Ä¢ Target codificado: Yes={label_encoder.transform(['Si'])[0]}, No={label_encoder.transform(['No'])[0]}")
print(f"   ‚Ä¢ Clientes en TEST: {len(X_test_scaled):,}")
print(f"   ‚Ä¢ Churners en TEST: {y_test_encoded.sum():,} ({y_test_encoded.sum() / len(y_test_encoded) * 100:.1f}%)")

## 4. Predicciones en TEST

### üéØ ¬øQu√© obtenemos?

El modelo genera **dos tipos** de predicciones:

1. **Clase predicha** (0 o 1): Decisi√≥n binaria usando threshold 0.5
   - Si probabilidad ‚â• 0.5 ‚Üí Predice churn (1)
   - Si probabilidad < 0.5 ‚Üí Predice no churn (0)

2. **Probabilidad** (0.0 - 1.0): Confianza del modelo
   - 0.95 = 95% seguro que va a cancelar
   - 0.20 = 20% probabilidad de cancelar

### üí° ¬øPor qu√© necesitamos ambas?
- **Clase**: Para calcular m√©tricas (Precision, Recall, F1)
- **Probabilidad**: Para AUC y para ajustar threshold de negocio

In [None]:
# Predicciones en TEST
y_test_pred = model_champion.predict(X_test_scaled)
y_test_proba = model_champion.predict_proba(X_test_scaled)[:, 1]  # Probabilidad de clase 1 (churn)

print("‚úÖ Predicciones en TEST generadas:\n")
print(f"   ‚Ä¢ Total predicciones: {len(y_test_pred):,}")
print(f"   ‚Ä¢ Predichos como churn: {y_test_pred.sum():,} ({y_test_pred.sum() / len(y_test_pred) * 100:.1f}%)")
print(f"   ‚Ä¢ Predichos como no churn: {(1 - y_test_pred).sum():,} ({(1 - y_test_pred).sum() / len(y_test_pred) * 100:.1f}%)")
print(f"\nüìä Distribuci√≥n de probabilidades:")
print(f"   ‚Ä¢ M√≠nima: {y_test_proba.min():.4f}")
print(f"   ‚Ä¢ M√°xima: {y_test_proba.max():.4f}")
print(f"   ‚Ä¢ Media: {y_test_proba.mean():.4f}")
print(f"   ‚Ä¢ Mediana: {np.median(y_test_proba):.4f}")

## 5. M√©tricas Finales en TEST

### üéØ ¬øQu√© vemos aqu√≠?

Las **m√©tricas definitivas** del modelo en datos nunca vistos.

### üìä C√≥mo interpretar cada m√©trica:

**AUC-ROC (0.5 - 1.0)**:
- Capacidad global del modelo para discriminar entre churn/no-churn
- >0.90 = Excelente, >0.80 = Muy bueno, >0.70 = Bueno

**Accuracy**:
- % de predicciones correctas (churn + no churn)
- ‚ö†Ô∏è M√©trica enga√±osa si hay desbalanceo (tenemos 73.5% no churn)

**Precision**:
- De los que **predecimos** como churn, ¬øcu√°ntos **realmente** lo son?
- Alta precision = Evitamos molestar clientes que no van a cancelar

**Recall (Sensibilidad)**:
- De los que **realmente** cancelan, ¬øcu√°ntos **detectamos**?
- Alto recall = No perdemos churners reales
- **M√©trica m√°s cr√≠tica** para retenci√≥n de clientes

**F1-Score**:
- Media arm√≥nica de Precision y Recall
- Balance entre ambas m√©tricas

### üí° Comparaci√≥n con Validation:
Si TEST ‚âà Validation (diferencia <5%), el modelo **generaliza bien** y est√° listo para producci√≥n.

In [None]:
# Calcular m√©tricas en TEST
auc_test = roc_auc_score(y_test_encoded, y_test_proba)
accuracy_test = accuracy_score(y_test_encoded, y_test_pred)
precision_test = precision_score(y_test_encoded, y_test_pred)
recall_test = recall_score(y_test_encoded, y_test_pred)
f1_test = f1_score(y_test_encoded, y_test_pred)

# Cargar m√©tricas de Validation (de metadata)
auc_val = metadata['performance_metrics']['auc_val']
precision_val = metadata['performance_metrics']['precision_val']
recall_val = metadata['performance_metrics']['recall_val']
f1_val = metadata['performance_metrics']['f1_val']

print("="*80)
print("üìä M√âTRICAS FINALES - CONJUNTO DE TEST")
print("="*80)

print(f"\nüéØ VALIDATION (DS-505):")
print(f"   ‚Ä¢ AUC:       {auc_val:.4f}")
print(f"   ‚Ä¢ Accuracy:  {metadata['performance_metrics'].get('accuracy_val', 'N/A')}")
print(f"   ‚Ä¢ Precision: {precision_val:.4f}")
print(f"   ‚Ä¢ Recall:    {recall_val:.4f}")
print(f"   ‚Ä¢ F1-Score:  {f1_val:.4f}")

print(f"\nüéØ TEST (EVALUACI√ìN FINAL):")
print(f"   ‚Ä¢ AUC:       {auc_test:.4f}")
print(f"   ‚Ä¢ Accuracy:  {accuracy_test:.4f}")
print(f"   ‚Ä¢ Precision: {precision_test:.4f}")
print(f"   ‚Ä¢ Recall:    {recall_test:.4f}")
print(f"   ‚Ä¢ F1-Score:  {f1_test:.4f}")

# Calcular diferencias
diff_auc = abs(auc_test - auc_val) / auc_val * 100
diff_precision = abs(precision_test - precision_val) / precision_val * 100
diff_recall = abs(recall_test - recall_val) / recall_val * 100
diff_f1 = abs(f1_test - f1_val) / f1_val * 100

print(f"\nüìà DIFERENCIA TEST vs VALIDATION:")
print(f"   ‚Ä¢ AUC:       {diff_auc:+.2f}%")
print(f"   ‚Ä¢ Precision: {diff_precision:+.2f}%")
print(f"   ‚Ä¢ Recall:    {diff_recall:+.2f}%")
print(f"   ‚Ä¢ F1-Score:  {diff_f1:+.2f}%")

# Diagn√≥stico
if diff_auc < 5 and diff_f1 < 5:
    print(f"\n‚úÖ DIAGN√ìSTICO: Modelo GENERALIZA EXCELENTE (diferencia <5%)")
    print(f"   El modelo est√° LISTO para producci√≥n.")
elif diff_auc < 10 and diff_f1 < 10:
    print(f"\n‚ö†Ô∏è DIAGN√ìSTICO: Modelo generaliza bien (diferencia <10%)")
    print(f"   El modelo es aceptable para producci√≥n, pero monitorear de cerca.")
else:
    print(f"\n‚ùå DIAGN√ìSTICO: Posible overfitting (diferencia >10%)")
    print(f"   Considerar reentrenar con m√°s regularizaci√≥n.")

print("="*80)

## 6. Matriz de Confusi√≥n

### üéØ ¬øQu√© es la matriz de confusi√≥n?

Tabla que muestra los **4 posibles resultados** de la predicci√≥n:

```
                    Predicci√≥n
                No Churn  |  Churn
Real  No Churn     TN     |   FP     (Falso Positivo: Predecimos churn pero NO cancela)
      Churn        FN     |   TP     (Falso Negativo: Predecimos no churn pero S√ç cancela)
```

### üìä Interpretaci√≥n:

**True Negatives (TN)**: ‚úÖ Correctos
- Predecimos que NO van a cancelar ‚Üí Y efectivamente NO cancelan

**True Positives (TP)**: ‚úÖ Correctos
- Predecimos que S√ç van a cancelar ‚Üí Y efectivamente cancelan

**False Positives (FP)**: ‚ùå Error Tipo I
- Predecimos churn pero NO cancelan
- **Costo**: Malgastamos recursos de retenci√≥n en clientes que no se iban a ir

**False Negatives (FN)**: ‚ùå Error Tipo II
- Predecimos que NO van a cancelar pero S√ç cancelan
- **Costo**: Perdemos el cliente (NO M√ÅS CR√çTICO)

### üí° ¬øQu√© buscamos?
- **TP alto**: Detectar la mayor√≠a de churners
- **FN bajo**: No perder churners reales
- Balance entre FP y FN seg√∫n el costo de negocio

In [None]:
# Calcular matriz de confusi√≥n
cm = confusion_matrix(y_test_encoded, y_test_pred)

# Extraer valores
tn, fp, fn, tp = cm.ravel()

print("üìä MATRIZ DE CONFUSI√ìN - TEST\n")
print(f"                 Predicci√≥n")
print(f"              No Churn  |  Churn")
print(f"Real  No      {tn:>6}    |  {fp:>6}    (Falso Positivo)")
print(f"      Churn   {fn:>6}    |  {tp:>6}    (Falso Negativo)\n")

# Interpretaci√≥n
total = tn + fp + fn + tp
print(f"‚úÖ True Negatives (TN): {tn:,} ({tn/total*100:.1f}%)")
print(f"   ‚Üí Predecimos NO churn y efectivamente NO cancelan\n")

print(f"‚úÖ True Positives (TP): {tp:,} ({tp/total*100:.1f}%)")
print(f"   ‚Üí Predecimos churn y efectivamente cancelan\n")

print(f"‚ùå False Positives (FP): {fp:,} ({fp/total*100:.1f}%)")
print(f"   ‚Üí Predecimos churn pero NO cancelan")
print(f"   ‚Üí Costo: Malgastamos recursos de retenci√≥n\n")

print(f"‚ùå False Negatives (FN): {fn:,} ({fn/total*100:.1f}%)")
print(f"   ‚Üí Predecimos NO churn pero S√ç cancelan")
print(f"   ‚Üí Costo: PERDEMOS EL CLIENTE (m√°s grave)\n")

# C√°lculo de tasas
print(f"üìà TASAS DERIVADAS:\n")
print(f"   ‚Ä¢ Tasa de Falsos Positivos (FPR): {fp/(fp+tn)*100:.2f}%")
print(f"     De los que NO cancelan, cu√°ntos predecimos mal como churn\n")

print(f"   ‚Ä¢ Tasa de Falsos Negativos (FNR): {fn/(fn+tp)*100:.2f}%")
print(f"     De los que S√ç cancelan, cu√°ntos perdemos por no detectar\n")

print(f"   ‚Ä¢ Recall (TPR): {tp/(tp+fn)*100:.2f}%")
print(f"     De los que S√ç cancelan, cu√°ntos detectamos correctamente")

In [None]:
# Visualizar matriz de confusi√≥n
fig, ax = plt.subplots(figsize=(8, 6))

disp = ConfusionMatrixDisplay(
    confusion_matrix=cm,
    display_labels=['No Churn', 'Cancelacion']
)
disp.plot(cmap='Blues', ax=ax, values_format='d')

plt.title('Matriz de Confusi√≥n - TEST', fontsize=14, fontweight='bold', pad=20)
plt.xlabel('Predicci√≥n', fontsize=12)
plt.ylabel('Realidad', fontsize=12)

plt.tight_layout()
plt.savefig('../reports/figures/06_confusion_matrix.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úì Visualizaci√≥n guardada: reports/figures/06_confusion_matrix.png")

# Guardar matriz en CSV
cm_df = pd.DataFrame(
    cm,
    index=['Real: No Churn', 'Real: Churn'],
    columns=['Pred: No Churn', 'Pred: Churn']
)
cm_df.to_csv('../reports/06_confusion_matrix.csv')
print("‚úì Matriz guardada: reports/06_confusion_matrix.csv")

## 7. Curva ROC en TEST

### üéØ ¬øQu√© es la curva ROC?

Gr√°fico que muestra el **trade-off** entre:
- **TPR (True Positive Rate = Recall)**: De los churners reales, cu√°ntos detectamos
- **FPR (False Positive Rate)**: De los no churners, cu√°ntos predecimos mal como churn

### üìä Interpretaci√≥n:

- **L√≠nea diagonal (AUC=0.5)**: Modelo aleatorio (lanzar moneda)
- **Curva cerca de esquina superior izquierda**: Modelo excelente
  - Alto TPR (detectamos muchos churners)
  - Bajo FPR (pocos falsos positivos)
- **AUC (√Årea bajo la curva)**: Resumen num√©rico
  - 1.0 = Perfecto
  - 0.9 = Excelente
  - 0.8 = Muy bueno
  - 0.7 = Bueno
  - 0.5 = Aleatorio

### üí° ¬øQu√© buscamos?
Que el AUC en TEST sea **similar al de Validation** (diferencia <5%). Esto confirma que el modelo generaliza y no hay overfitting.

In [None]:
# Calcular curva ROC en TEST
fpr_test, tpr_test, thresholds = roc_curve(y_test_encoded, y_test_proba)

# Visualizar
plt.figure(figsize=(10, 8))
plt.plot(fpr_test, tpr_test, label=f'Logistic Regression - TEST (AUC={auc_test:.3f})', 
         linewidth=3, color='#e74c3c')
plt.plot([0, 1], [0, 1], 'k--', label='Modelo Aleatorio (AUC=0.5)', linewidth=1.5)

# A√±adir l√≠nea de Validation para comparar
plt.axhline(y=recall_val, color='#3498db', linestyle=':', linewidth=2, 
            label=f'Recall Validation ({recall_val:.3f})')

plt.xlabel('Tasa de Falsos Positivos (FPR)', fontsize=12)
plt.ylabel('Tasa de Verdaderos Positivos (Recall)', fontsize=12)
plt.title('Curva ROC - Evaluaci√≥n en TEST', fontsize=14, fontweight='bold')
plt.legend(loc='lower right', fontsize=11)
plt.grid(alpha=0.3)

# A√±adir anotaci√≥n
plt.text(0.6, 0.3, f'Diferencia AUC:\nVal: {auc_val:.4f}\nTest: {auc_test:.4f}\nDiff: {diff_auc:.2f}%',
         bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5),
         fontsize=10)

plt.tight_layout()
plt.savefig('../reports/figures/06_roc_curve_test.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úì Curva ROC guardada: reports/figures/06_roc_curve_test.png")

## 8. An√°lisis de Threshold √ìptimo

### üéØ ¬øQu√© es el threshold?

Por defecto, los modelos usan **threshold=0.5**:
- Si probabilidad ‚â• 0.5 ‚Üí Predecir churn
- Si probabilidad < 0.5 ‚Üí Predecir no churn

Pero **podemos ajustar este threshold** seg√∫n el negocio:

### üìä Trade-off Precision vs Recall:

**Threshold BAJO (ej: 0.3)**:
- ‚úÖ Mayor Recall: Detectamos M√ÅS churners reales
- ‚ùå Menor Precision: M√°s falsos positivos (molestamos clientes que no se van a ir)
- üí∞ Costo: Gastamos m√°s en campa√±as de retenci√≥n innecesarias

**Threshold ALTO (ej: 0.7)**:
- ‚úÖ Mayor Precision: Solo contactamos churners muy probables
- ‚ùå Menor Recall: Perdemos churners con probabilidad media
- üí∞ Costo: Perdemos m√°s clientes reales

### üí° ¬øC√≥mo elegir?

Depende del **costo de negocio**:
- **Costo de retenci√≥n bajo** (ej: enviar email) ‚Üí Threshold bajo (detectar m√°s)
- **Costo de perder cliente muy alto** ‚Üí Threshold bajo (no perder ninguno)
- **Costo de retenci√≥n alto** (ej: descuento 50%) ‚Üí Threshold alto (solo muy seguros)

Vamos a analizar diferentes thresholds para encontrar el √≥ptimo.

In [None]:
# Calcular m√©tricas para diferentes thresholds
thresholds_to_test = np.arange(0.1, 0.9, 0.05)
results = []

for threshold in thresholds_to_test:
    y_pred_custom = (y_test_proba >= threshold).astype(int)
    
    prec = precision_score(y_test_encoded, y_pred_custom, zero_division=0)
    rec = recall_score(y_test_encoded, y_pred_custom, zero_division=0)
    f1 = f1_score(y_test_encoded, y_pred_custom, zero_division=0)
    
    results.append({
        'Threshold': threshold,
        'Precision': prec,
        'Recall': rec,
        'F1-Score': f1
    })

threshold_df = pd.DataFrame(results)

# Encontrar threshold con mejor F1-Score
best_threshold_idx = threshold_df['F1-Score'].idxmax()
best_threshold = threshold_df.loc[best_threshold_idx, 'Threshold']
best_f1 = threshold_df.loc[best_threshold_idx, 'F1-Score']

print("üìä AN√ÅLISIS DE THRESHOLD √ìPTIMO\n")
print(f"üéØ Threshold DEFAULT (0.5):")
print(f"   ‚Ä¢ Precision: {precision_test:.4f}")
print(f"   ‚Ä¢ Recall:    {recall_test:.4f}")
print(f"   ‚Ä¢ F1-Score:  {f1_test:.4f}")

print(f"\nüèÜ Threshold √ìPTIMO ({best_threshold:.2f}):")
print(f"   ‚Ä¢ Precision: {threshold_df.loc[best_threshold_idx, 'Precision']:.4f}")
print(f"   ‚Ä¢ Recall:    {threshold_df.loc[best_threshold_idx, 'Recall']:.4f}")
print(f"   ‚Ä¢ F1-Score:  {best_f1:.4f}")

# Mejora
f1_improvement = (best_f1 - f1_test) / f1_test * 100
print(f"\nüìà Mejora al ajustar threshold: {f1_improvement:+.2f}% en F1-Score")

# Mostrar top 5 thresholds
print(f"\nüìã TOP 5 THRESHOLDS:\n")
print(threshold_df.sort_values('F1-Score', ascending=False).head().to_string(index=False))

In [None]:
# Visualizar Precision-Recall vs Threshold
fig, ax = plt.subplots(figsize=(12, 6))

ax.plot(threshold_df['Threshold'], threshold_df['Precision'], 
        label='Precision', linewidth=2.5, marker='o', color='#3498db')
ax.plot(threshold_df['Threshold'], threshold_df['Recall'], 
        label='Recall', linewidth=2.5, marker='s', color='#e74c3c')
ax.plot(threshold_df['Threshold'], threshold_df['F1-Score'], 
        label='F1-Score', linewidth=2.5, marker='^', color='#2ecc71')

# Marcar threshold √≥ptimo
ax.axvline(x=best_threshold, color='black', linestyle='--', linewidth=2, 
           label=f'Threshold √ìptimo ({best_threshold:.2f})')
ax.axvline(x=0.5, color='gray', linestyle=':', linewidth=1.5, 
           label='Threshold Default (0.5)')

ax.set_xlabel('Threshold', fontsize=12)
ax.set_ylabel('Valor de M√©trica', fontsize=12)
ax.set_title('An√°lisis de Threshold: Precision vs Recall vs F1-Score', 
             fontsize=14, fontweight='bold')
ax.legend(loc='best', fontsize=11)
ax.grid(alpha=0.3)
ax.set_ylim([0, 1.0])

plt.tight_layout()
plt.savefig('../reports/figures/06_threshold_analysis.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úì An√°lisis de threshold guardado: reports/figures/06_threshold_analysis.png")

## 9. Feature Importance: Coeficientes del Modelo

### üéØ ¬øQu√© son los coeficientes?

En **Logistic Regression**, cada feature tiene un **coeficiente** que indica su impacto en la predicci√≥n:

- **Coeficiente POSITIVO (+)**: Aumenta probabilidad de churn
  - Ej: `Contract_Month-to-Month` = +0.85 ‚Üí Contratos mensuales aumentan churn
  
- **Coeficiente NEGATIVO (-)**: Disminuye probabilidad de churn
  - Ej: `Tenure` = -0.60 ‚Üí Mayor antig√ºedad reduce churn

### üìä Interpretaci√≥n:

**Magnitud del coeficiente** = Importancia relativa
- |Coef| > 0.5 = Feature muy importante
- |Coef| < 0.1 = Feature poco relevante

### üí° ¬øPara qu√© sirve?

**Insights de negocio**:
- Si `InternetService_Fiber` tiene coef alto ‚Üí Clientes de fibra √≥ptica cancelan m√°s
- Si `TotalCharges` tiene coef positivo ‚Üí Cuanto m√°s paguen, m√°s probabilidad de irse
- Si `Contract_Two-Year` tiene coef negativo ‚Üí Contratos largos retienen mejor

**Accionable**: Podemos dise√±ar estrategias de retenci√≥n basadas en los drivers principales.

In [None]:
# Extraer coeficientes del modelo
feature_names = X_train.columns
coefficients = model_champion.coef_[0]

# Crear DataFrame
coef_df = pd.DataFrame({
    'Feature': feature_names,
    'Coefficient': coefficients,
    'Abs_Coefficient': np.abs(coefficients)
}).sort_values('Abs_Coefficient', ascending=False)

# Top 15 features m√°s importantes
top_15_coef = coef_df.head(15)

print("üìä TOP 15 FEATURES M√ÅS IMPORTANTES (por coeficiente)\n")
print(top_15_coef[['Feature', 'Coefficient']].to_string(index=False))

# Interpretaci√≥n
print(f"\nüí° INTERPRETACI√ìN:\n")
print(f"üî¥ AUMENTAN CHURN (coeficientes positivos):")
positive_top_3 = coef_df[coef_df['Coefficient'] > 0].head(3)
for idx, row in positive_top_3.iterrows():
    print(f"   ‚Ä¢ {row['Feature']}: +{row['Coefficient']:.4f}")

print(f"\nüü¢ REDUCEN CHURN (coeficientes negativos):")
negative_top_3 = coef_df[coef_df['Coefficient'] < 0].head(3)
for idx, row in negative_top_3.iterrows():
    print(f"   ‚Ä¢ {row['Feature']}: {row['Coefficient']:.4f}")

In [None]:
# Visualizar coeficientes
plt.figure(figsize=(10, 8))

colors = ['red' if x > 0 else 'green' for x in top_15_coef['Coefficient']]

plt.barh(range(len(top_15_coef)), top_15_coef['Coefficient'], color=colors, alpha=0.7)
plt.yticks(range(len(top_15_coef)), top_15_coef['Feature'])
plt.xlabel('Coeficiente (impacto en churn)', fontsize=12)
plt.title('Top 15 Features por Coeficiente - Logistic Regression', fontsize=14, fontweight='bold')
plt.axvline(x=0, color='black', linestyle='-', linewidth=1)
plt.gca().invert_yaxis()
plt.grid(axis='x', alpha=0.3)

# Leyenda
from matplotlib.patches import Patch
legend_elements = [
    Patch(facecolor='red', alpha=0.7, label='Aumenta churn'),
    Patch(facecolor='green', alpha=0.7, label='Reduce churn')
]
plt.legend(handles=legend_elements, loc='lower right')

plt.tight_layout()
plt.savefig('../reports/figures/06_feature_coefficients.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úì Coeficientes guardados: reports/figures/06_feature_coefficients.png")

# Guardar CSV
coef_df.to_csv('../reports/06_feature_coefficients.csv', index=False)
print("‚úì CSV guardado: reports/06_feature_coefficients.csv")

## 10. An√°lisis de Errores

### üéØ ¬øQu√© analizamos?

Vamos a inspeccionar los **Falsos Negativos** (FN) y **Falsos Positivos** (FP) para entender d√≥nde falla el modelo.

### üìä Preguntas clave:

**Falsos Negativos (predecimos no churn pero S√ç cancelan)**:
- ¬øQu√© caracter√≠sticas tienen estos clientes?
- ¬øHay patrones que el modelo no captura?
- ¬øPodemos crear nuevas features para detectarlos?

**Falsos Positivos (predecimos churn pero NO cancelan)**:
- ¬øSon clientes satisfechos que parecen en riesgo?
- ¬øQu√© los hace diferentes de los churners reales?

### üí° Objetivo:
Identificar **oportunidades de mejora** para el modelo y **insights de negocio**.

In [None]:
# Identificar errores
errors_df = pd.DataFrame({
    'y_true': y_test_encoded,
    'y_pred': y_test_pred,
    'y_proba': y_test_proba
})

# Clasificar errores
errors_df['Error_Type'] = 'Correct'
errors_df.loc[(errors_df['y_true'] == 0) & (errors_df['y_pred'] == 1), 'Error_Type'] = 'False Positive'
errors_df.loc[(errors_df['y_true'] == 1) & (errors_df['y_pred'] == 0), 'Error_Type'] = 'False Negative'

# Contar
error_counts = errors_df['Error_Type'].value_counts()

print("üìä DISTRIBUCI√ìN DE ERRORES\n")
print(f"‚úÖ Predicciones Correctas: {error_counts.get('Correct', 0):,} ({error_counts.get('Correct', 0)/len(errors_df)*100:.1f}%)")
print(f"‚ùå Falsos Positivos (FP):  {error_counts.get('False Positive', 0):,} ({error_counts.get('False Positive', 0)/len(errors_df)*100:.1f}%)")
print(f"‚ùå Falsos Negativos (FN):  {error_counts.get('False Negative', 0):,} ({error_counts.get('False Negative', 0)/len(errors_df)*100:.1f}%)")

# An√°lisis de probabilidades de errores
fp_probas = errors_df[errors_df['Error_Type'] == 'False Positive']['y_proba']
fn_probas = errors_df[errors_df['Error_Type'] == 'False Negative']['y_proba']

print(f"\nüìà AN√ÅLISIS DE PROBABILIDADES:\n")

if len(fp_probas) > 0:
    print(f"Falsos Positivos:")
    print(f"   ‚Ä¢ Probabilidad media: {fp_probas.mean():.4f}")
    print(f"   ‚Ä¢ Rango: [{fp_probas.min():.4f}, {fp_probas.max():.4f}]")
    print(f"   ‚Ä¢ Interpretaci√≥n: El modelo tiene confianza media-alta en estos errores\n")

if len(fn_probas) > 0:
    print(f"Falsos Negativos:")
    print(f"   ‚Ä¢ Probabilidad media: {fn_probas.mean():.4f}")
    print(f"   ‚Ä¢ Rango: [{fn_probas.min():.4f}, {fn_probas.max():.4f}]")
    print(f"   ‚Ä¢ Interpretaci√≥n: El modelo tiene BAJA confianza (cercano a 0.5)")
    print(f"   ‚Ä¢ Acci√≥n: Son clientes 'borderline' dif√≠ciles de predecir")

In [None]:
# Visualizar distribuci√≥n de probabilidades por tipo de error
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Falsos Positivos
if len(fp_probas) > 0:
    axes[0].hist(fp_probas, bins=20, color='orange', alpha=0.7, edgecolor='black')
    axes[0].axvline(x=0.5, color='red', linestyle='--', linewidth=2, label='Threshold=0.5')
    axes[0].set_title('Falsos Positivos: Distribuci√≥n de Probabilidades', fontweight='bold')
    axes[0].set_xlabel('Probabilidad de Churn')
    axes[0].set_ylabel('Frecuencia')
    axes[0].legend()
    axes[0].grid(alpha=0.3)

# Falsos Negativos
if len(fn_probas) > 0:
    axes[1].hist(fn_probas, bins=20, color='steelblue', alpha=0.7, edgecolor='black')
    axes[1].axvline(x=0.5, color='red', linestyle='--', linewidth=2, label='Threshold=0.5')
    axes[1].set_title('Falsos Negativos: Distribuci√≥n de Probabilidades', fontweight='bold')
    axes[1].set_xlabel('Probabilidad de Churn')
    axes[1].set_ylabel('Frecuencia')
    axes[1].legend()
    axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.savefig('../reports/figures/06_error_analysis.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úì An√°lisis de errores guardado: reports/figures/06_error_analysis.png")

## 11. Reporte de Clasificaci√≥n Completo

### üéØ ¬øQu√© es?

Resumen ejecutivo con **todas las m√©tricas** desglosadas por clase (No Churn vs Churn).

### üìä M√©tricas incluidas:

**Por clase**:
- **Precision**: De las predicciones de esa clase, cu√°ntas son correctas
- **Recall**: De los reales de esa clase, cu√°ntos detectamos
- **F1-Score**: Balance entre Precision y Recall
- **Support**: Cantidad de muestras reales de esa clase

**Globales**:
- **Accuracy**: % de aciertos totales
- **Macro avg**: Promedio simple de m√©tricas (trata ambas clases igual)
- **Weighted avg**: Promedio ponderado por cantidad de muestras

In [None]:
# Generar reporte de clasificaci√≥n
class_report = classification_report(
    y_test_encoded, 
    y_test_pred,
    target_names=['No Churn', 'Cancelacion'],
    output_dict=True
)

print("="*80)
print("üìä REPORTE DE CLASIFICACI√ìN - TEST SET")
print("="*80)
print()
print(classification_report(
    y_test_encoded, 
    y_test_pred,
    target_names=['No Churn', 'Cancelacion']
))

# Interpretaci√≥n
print("\nüí° INTERPRETACI√ìN:\n")
print(f"Clase 'No Churn' (Mayor√≠a):")
print(f"   ‚Ä¢ Precision: {class_report['No Churn']['precision']:.3f} ‚Üí De los que predecimos como no churn, {class_report['No Churn']['precision']*100:.1f}% son correctos")
print(f"   ‚Ä¢ Recall:    {class_report['No Churn']['recall']:.3f} ‚Üí Detectamos {class_report['No Churn']['recall']*100:.1f}% de los que realmente no cancelan")

print(f"\nClase 'Cancelacion' (Objetivo principal):")
print(f"   ‚Ä¢ Precision: {class_report['Cancelacion']['precision']:.3f} ‚Üí De los que predecimos como churn, {class_report['Cancelacion']['precision']*100:.1f}% son correctos")
print(f"   ‚Ä¢ Recall:    {class_report['Cancelacion']['recall']:.3f} ‚Üí Detectamos {class_report['Cancelacion']['recall']*100:.1f}% de los churners reales")
print(f"   ‚Ä¢ F1-Score:  {class_report['Cancelacion']['f1-score']:.3f} ‚Üí Balance entre Precision y Recall")

print(f"\nOverall:")
print(f"   ‚Ä¢ Accuracy: {class_report['accuracy']:.3f} ‚Üí {class_report['accuracy']*100:.1f}% de predicciones correctas")

## 12. Guardar M√©tricas Finales

### üéØ ¬øQu√© guardamos?

Todas las m√©tricas de TEST en formato CSV y JSON para:
- Documentaci√≥n del modelo
- Comparaci√≥n con versiones futuras
- Reportes ejecutivos

In [None]:
# Crear reporte de m√©tricas
test_metrics = {
    'evaluation_date': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'model_name': 'Logistic Regression',
    'model_path': 'models/champion/model_champion.pkl',
    'test_set_size': len(X_test),
    'test_churn_rate': float(y_test_encoded.sum() / len(y_test_encoded)),
    'metrics': {
        'auc': float(auc_test),
        'accuracy': float(accuracy_test),
        'precision': float(precision_test),
        'recall': float(recall_test),
        'f1_score': float(f1_test)
    },
    'confusion_matrix': {
        'true_negatives': int(tn),
        'false_positives': int(fp),
        'false_negatives': int(fn),
        'true_positives': int(tp)
    },
    'validation_comparison': {
        'auc_val': float(auc_val),
        'auc_test': float(auc_test),
        'auc_diff_pct': float(diff_auc),
        'f1_val': float(f1_val),
        'f1_test': float(f1_test),
        'f1_diff_pct': float(diff_f1)
    },
    'threshold_analysis': {
        'default_threshold': 0.5,
        'optimal_threshold': float(best_threshold),
        'optimal_f1': float(best_f1),
        'f1_improvement_pct': float(f1_improvement)
    },
    'production_ready': diff_auc < 5 and diff_f1 < 5
}

# Guardar JSON
with open('../reports/06_test_metrics.json', 'w') as f:
    json.dump(test_metrics, f, indent=2)

print("‚úì M√©tricas guardadas: reports/06_test_metrics.json")

# Guardar CSV resumido
metrics_summary = pd.DataFrame([
    {'M√©trica': 'AUC', 'Validation': auc_val, 'Test': auc_test, 'Diferencia %': diff_auc},
    {'M√©trica': 'Accuracy', 'Validation': 'N/A', 'Test': accuracy_test, 'Diferencia %': 'N/A'},
    {'M√©trica': 'Precision', 'Validation': precision_val, 'Test': precision_test, 'Diferencia %': diff_precision},
    {'M√©trica': 'Recall', 'Validation': recall_val, 'Test': recall_test, 'Diferencia %': diff_recall},
    {'M√©trica': 'F1-Score', 'Validation': f1_val, 'Test': f1_test, 'Diferencia %': diff_f1}
])

metrics_summary.to_csv('../reports/06_test_metrics.csv', index=False)
print("‚úì CSV guardado: reports/06_test_metrics.csv")

## 13. Resumen Final y Conclusiones

### ‚úÖ DS-506 COMPLETADO

In [None]:
print("\n" + "="*80)
print("‚úÖ DS-506 COMPLETADO - EVALUACI√ìN EXHAUSTIVA EN TEST")
print("="*80)

print("\nüéØ MODELO EVALUADO: Logistic Regression (Campe√≥n)")

print("\nüìä M√âTRICAS FINALES EN TEST:")
print(f"   ‚Ä¢ AUC:       {auc_test:.4f}")
print(f"   ‚Ä¢ Accuracy:  {accuracy_test:.4f}")
print(f"   ‚Ä¢ Precision: {precision_test:.4f}")
print(f"   ‚Ä¢ Recall:    {recall_test:.4f}")
print(f"   ‚Ä¢ F1-Score:  {f1_test:.4f}")

print("\nüìà COMPARACI√ìN CON VALIDATION:")
print(f"   ‚Ä¢ Diferencia AUC:      {diff_auc:+.2f}%")
print(f"   ‚Ä¢ Diferencia F1-Score: {diff_f1:+.2f}%")

print("\nüéØ THRESHOLD √ìPTIMO:")
print(f"   ‚Ä¢ Default (0.5): F1={f1_test:.4f}")
print(f"   ‚Ä¢ √ìptimo ({best_threshold:.2f}): F1={best_f1:.4f} ({f1_improvement:+.2f}%)")

print("\n‚ùå AN√ÅLISIS DE ERRORES:")
print(f"   ‚Ä¢ Falsos Positivos: {fp:,} ({fp/len(y_test_encoded)*100:.1f}%) - Malgasto de recursos de retenci√≥n")
print(f"   ‚Ä¢ Falsos Negativos: {fn:,} ({fn/len(y_test_encoded)*100:.1f}%) - Clientes perdidos")

print("\nüèÜ DECISI√ìN FINAL:")
if test_metrics['production_ready']:
    print("   ‚úÖ MODELO APROBADO PARA PRODUCCI√ìN")
    print("   ‚Ä¢ Generaliza excelente (diferencia <5% con Validation)")
    print("   ‚Ä¢ AUC > 0.90 (Excelente capacidad discriminativa)")
    print("   ‚Ä¢ Listo para integrar con backend Java (FastAPI)")
else:
    print("   ‚ö†Ô∏è MODELO REQUIERE AJUSTES")
    print("   ‚Ä¢ Diferencia significativa con Validation")
    print("   ‚Ä¢ Considerar reentrenar con m√°s regularizaci√≥n")

print("\nüìÅ ARCHIVOS GENERADOS:")
print("\n   Reportes:")
print("   1. reports/06_test_metrics.json")
print("   2. reports/06_test_metrics.csv")
print("   3. reports/06_confusion_matrix.csv")
print("   4. reports/06_feature_coefficients.csv")

print("\n   Visualizaciones:")
print("   5. reports/figures/06_confusion_matrix.png")
print("   6. reports/figures/06_roc_curve_test.png")
print("   7. reports/figures/06_threshold_analysis.png")
print("   8. reports/figures/06_feature_coefficients.png")
print("   9. reports/figures/06_error_analysis.png")

print("\nüé´ PR√ìXIMO TICKET:")
print("   DS-507: Crear Pipeline de Producci√≥n Completo")
print("   ‚Ä¢ Integraci√≥n con FastAPI")
print("   ‚Ä¢ Endpoint /predict funcional")
print("   ‚Ä¢ Testing con datos reales")

print("\n" + "="*80)
print("‚úÖ Modelo Logistic Regression VALIDADO y LISTO PARA PRODUCCI√ìN")
print("="*80)