# 🤖 TelecomX - Modelos Predictivos (Parte 2)
---
## 🎯 Objetivo: Predicción de Churn y Análisis Avanzado
Este notebook continúa el proyecto ETL implementando modelos de Machine Learning para predecir el abandono de clientes (churn) y generar insights accionables.

# 📊 Carga de Datos Procesados

In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Machine Learning
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Configuración de visualización
plt.style.use('default')
sns.set_palette('viridis')
plt.rcParams['figure.figsize'] = (12, 8)

print("🚀 Librerías cargadas exitosamente")
print("📈 Iniciando Parte 2: Modelos Predictivos")

In [None]:
# Función para cargar datos procesados
def load_processed_data():
    try:
        # Intentar cargar datos del CSV de la Parte 1
        df = pd.read_csv('telecom_data_processed.csv')
        print(f"✅ Datos cargados desde CSV: {len(df)} registros")
        return df
    except FileNotFoundError:
        print("⚠️ Archivo CSV no encontrado. Generando datos simulados...")
        # Si no existe el CSV, generar datos similares a la Parte 1
        return generate_sample_data()

def generate_sample_data():
    """Generar datos simulados similares a la Parte 1 para continuidad"""
    np.random.seed(42)
    n_records = 1000
    
    data = {
        'customer_id': range(1, n_records + 1),
        'plan_type': np.random.choice(['Básico', 'Premium', 'Enterprise'], n_records, p=[0.5, 0.3, 0.2]),
        'monthly_charges': np.random.normal(45, 15, n_records),
        'total_charges': np.random.normal(500, 200, n_records),
        'tenure_months': np.random.randint(1, 72, n_records),
        'data_usage_gb': np.random.exponential(10, n_records),
        'voice_minutes': np.random.poisson(300, n_records),
        'sms_count': np.random.poisson(50, n_records),
        'region': np.random.choice(['Norte', 'Sur', 'Centro', 'Este', 'Oeste'], n_records),
        'churn': np.random.choice([0, 1], n_records, p=[0.8, 0.2]),
        'signup_date': pd.date_range(start='2020-01-01', end='2024-12-31', periods=n_records)
    }
    
    df = pd.DataFrame(data)
    
    # Aplicar transformaciones básicas (simulando ETL de Parte 1)
    df['monthly_charges'] = df['monthly_charges'].round(2)
    df['total_charges'] = df['total_charges'].round(2)
    df['data_usage_gb'] = df['data_usage_gb'].round(2)
    df['revenue_per_month'] = df['total_charges'] / df['tenure_months']
    df['signup_year'] = df['signup_date'].dt.year
    df['customer_segment'] = pd.cut(df['monthly_charges'], bins=3, labels=['Bajo', 'Medio', 'Alto'])
    
    # Filtrar valores positivos
    df = df[df['monthly_charges'] > 0]
    df = df[df['total_charges'] > 0]
    
    print(f"📊 Datos simulados generados: {len(df)} registros")
    return df

# Cargar datos
df = load_processed_data()

# Mostrar información básica
print(f"\n📋 Información del dataset:")
print(f"Forma: {df.shape}")
print(f"Columnas: {list(df.columns)}")
print(f"\n🎯 Variable objetivo (churn): {df['churn'].value_counts().to_dict()}")

df.head()

# 🔍 Análisis Exploratorio para ML

In [None]:
# Análisis exploratorio específico para Machine Learning
def exploratory_analysis_ml(df):
    print("🔍 ANÁLISIS EXPLORATORIO PARA MACHINE LEARNING")
    print("=" * 50)
    
    # 1. Distribución de la variable objetivo
    churn_dist = df['churn'].value_counts(normalize=True)
    print(f"\n📊 Distribución de Churn:")
    print(f"No Churn (0): {churn_dist[0]:.2%}")
    print(f"Churn (1): {churn_dist[1]:.2%}")
    
    # 2. Correlaciones importantes
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    correlations = df[numeric_cols].corr()['churn'].sort_values(ascending=False)
    print(f"\n🔗 Top 5 correlaciones con Churn:")
    for i, (col, corr) in enumerate(correlations.head().items()):
        if col != 'churn':
            print(f"{i+1}. {col}: {corr:.3f}")
    
    # 3. Crear visualizaciones
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # Distribución de churn
    df['churn'].value_counts().plot(kind='bar', ax=axes[0,0], color=['green', 'red'])
    axes[0,0].set_title('Distribución de Churn')
    axes[0,0].set_xlabel('Churn (0=No, 1=Sí)')
    axes[0,0].set_ylabel('Cantidad')
    
    # Churn por tipo de plan
    churn_by_plan = df.groupby('plan_type')['churn'].mean()
    churn_by_plan.plot(kind='bar', ax=axes[0,1], color='orange')
    axes[0,1].set_title('Tasa de Churn por Tipo de Plan')
    axes[0,1].set_xlabel('Tipo de Plan')
    axes[0,1].set_ylabel('Tasa de Churn')
    
    # Distribución de tenure por churn
    df[df['churn']==0]['tenure_months'].hist(alpha=0.7, label='No Churn', ax=axes[1,0], color='green')
    df[df['churn']==1]['tenure_months'].hist(alpha=0.7, label='Churn', ax=axes[1,0], color='red')
    axes[1,0].set_title('Distribución de Antigüedad por Churn')
    axes[1,0].set_xlabel('Meses de Antigüedad')
    axes[1,0].set_ylabel('Frecuencia')
    axes[1,0].legend()
    
    # Heatmap de correlaciones
    top_corr_cols = correlations.abs().head(8).index
    corr_matrix = df[top_corr_cols].corr()
    sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0, ax=axes[1,1])
    axes[1,1].set_title('Matriz de Correlaciones (Top Variables)')
    
    plt.tight_layout()
    plt.show()
    
    return correlations

# Ejecutar análisis
correlations = exploratory_analysis_ml(df)

# 🛠️ Preparación de Datos para ML

In [None]:
# Preparación de datos para Machine Learning
def prepare_data_for_ml(df):
    print("🛠️ PREPARANDO DATOS PARA MACHINE LEARNING")
    print("=" * 45)
    
    # Crear una copia para no modificar el original
    df_ml = df.copy()
    
    # 1. Manejo de variables categóricas
    categorical_cols = ['plan_type', 'region', 'customer_segment']
    
    # Encoding de variables categóricas usando pd.get_dummies
    df_encoded = pd.get_dummies(df_ml, columns=categorical_cols, prefix=categorical_cols, drop_first=True)
    
    # 2. Selección de features relevantes (excluyendo IDs y fechas)
    exclude_cols = ['customer_id', 'signup_date']
    feature_cols = [col for col in df_encoded.columns if col not in exclude_cols + ['churn']]
    
    # 3. Preparar X e y
    X = df_encoded[feature_cols]
    y = df_encoded['churn']
    
    # 4. Verificar y manejar valores faltantes
    if X.isnull().sum().sum() > 0:
        print(f"⚠️ Valores faltantes encontrados: {X.isnull().sum().sum()}")
        X = X.fillna(X.median())
    
    print(f"✅ Features preparadas: {X.shape[1]} variables")
    print(f"📊 Muestras totales: {X.shape[0]}")
    print(f"🎯 Distribución objetivo: {y.value_counts().to_dict()}")
    
    return X, y, feature_cols

# Preparar datos
X, y, feature_names = prepare_data_for_ml(df)

# Mostrar información de las features
print(f"\n📋 Features utilizadas:")
for i, feature in enumerate(feature_names, 1):
    print(f"{i:2d}. {feature}")

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"\n🔄 División de datos:")
print(f"Entrenamiento: {X_train.shape[0]} muestras")
print(f"Prueba: {X_test.shape[0]} muestras")

# Normalización de features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"✅ Normalización aplicada")

# 🤖 Entrenamiento de Modelos

In [None]:
# Función para entrenar y evaluar múltiples modelos
def train_multiple_models(X_train, X_test, y_train, y_test, X_train_scaled, X_test_scaled):
    print("🤖 ENTRENANDO MÚLTIPLES MODELOS")
    print("=" * 35)
    
    # Definir modelos
    models = {
        'Logistic Regression': LogisticRegression(random_state=42, max_iter=1000),
        'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42),
        'Gradient Boosting': GradientBoostingClassifier(random_state=42),
        'SVM': SVC(random_state=42, probability=True)
    }
    
    results = {}
    
    for name, model in models.items():
        print(f"\n🔄 Entrenando {name}...")
        
        # Usar datos escalados para modelos que lo requieren
        if name in ['Logistic Regression', 'SVM']:
            model.fit(X_train_scaled, y_train)
            y_pred = model.predict(X_test_scaled)
            y_pred_proba = model.predict_proba(X_test_scaled)[:, 1]
        else:
            model.fit(X_train, y_train)
            y_pred = model.predict(X_test)
            y_pred_proba = model.predict_proba(X_test)[:, 1]
        
        # Calcular métricas
        accuracy = accuracy_score(y_test, y_pred)
        precision = precision_score(y_test, y_pred)
        recall = recall_score(y_test, y_pred)
        f1 = f1_score(y_test, y_pred)
        auc = roc_auc_score(y_test, y_pred_proba)
        
        results[name] = {
            'model': model,
            'accuracy': accuracy,
            'precision': precision,
            'recall': recall,
            'f1': f1,
            'auc': auc,
            'y_pred': y_pred,
            'y_pred_proba': y_pred_proba
        }
        
        print(f"✅ {name} completado")
        print(f"   Accuracy: {accuracy:.3f}")
        print(f"   F1-Score: {f1:.3f}")
        print(f"   AUC: {auc:.3f}")
    
    return results

# Entrenar modelos
model_results = train_multiple_models(X_train, X_test, y_train, y_test, X_train_scaled, X_test_scaled)

# 📊 Evaluación y Comparación de Modelos

In [None]:
# Función para comparar modelos y crear visualizaciones
def evaluate_and_compare_models(results, y_test):
    print("📊 EVALUACIÓN Y COMPARACIÓN DE MODELOS")
    print("=" * 40)
    
    # Crear DataFrame con métricas
    metrics_df = pd.DataFrame({
        'Model': list(results.keys()),
        'Accuracy': [results[model]['accuracy'] for model in results.keys()],
        'Precision': [results[model]['precision'] for model in results.keys()],
        'Recall': [results[model]['recall'] for model in results.keys()],
        'F1-Score': [results[model]['f1'] for model in results.keys()],
        'AUC': [results[model]['auc'] for model in results.keys()]
    })
    
    # Ordenar por F1-Score
    metrics_df = metrics_df.sort_values('F1-Score', ascending=False)
    
    print("\n🏆 RANKING DE MODELOS (por F1-Score):")
    print(metrics_df.round(3).to_string(index=False))
    
    # Mejor modelo
    best_model_name = metrics_df.iloc[0]['Model']
    print(f"\n🥇 Mejor modelo: {best_model_name}")
    
    # Crear visualizaciones
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # 1. Comparación de métricas
    metrics_to_plot = ['Accuracy', 'Precision', 'Recall', 'F1-Score', 'AUC']
    x_pos = np.arange(len(results))
    
    ax = axes[0,0]
    width = 0.15
    for i, metric in enumerate(metrics_to_plot):
        values = [results[model][metric.lower().replace('-', '_')] for model in results.keys()]
        ax.bar(x_pos + i*width, values, width, label=metric)
    
    ax.set_xlabel('Modelos')
    ax.set_ylabel('Score')
    ax.set_title('Comparación de Métricas por Modelo')
    ax.set_xticks(x_pos + width * 2)
    ax.set_xticklabels(list(results.keys()), rotation=45)
    ax.legend()
    ax.grid(True, alpha=0.3)
    
    # 2. Matriz de confusión del mejor modelo
    best_y_pred = results[best_model_name]['y_pred']
    cm = confusion_matrix(y_test, best_y_pred)
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=axes[0,1])
    axes[0,1].set_title(f'Matriz de Confusión - {best_model_name}')
    axes[0,1].set_xlabel('Predicción')
    axes[0,1].set_ylabel('Real')
    
    # 3. Curvas ROC
    ax = axes[1,0]
    for name in results.keys():
        fpr, tpr, _ = roc_curve(y_test, results[name]['y_pred_proba'])
        auc_score = results[name]['auc']
        ax.plot(fpr, tpr, label=f'{name} (AUC = {auc_score:.3f})')
    
    ax.plot([0, 1], [0, 1], 'k--', label='Random')
    ax.set_xlabel('Tasa de Falsos Positivos')
    ax.set_ylabel('Tasa de Verdaderos Positivos')
    ax.set_title('Curvas ROC - Comparación de Modelos')
    ax.legend()
    ax.grid(True, alpha=0.3)
    
    # 4. F1-Score por modelo
    f1_scores = [results[model]['f1'] for model in results.keys()]
    colors = ['gold' if model == best_model_name else 'skyblue' for model in results.keys()]
    axes[1,1].bar(list(results.keys()), f1_scores, color=colors)
    axes[1,1].set_title('F1-Score por Modelo')
    axes[1,1].set_ylabel('F1-Score')
    axes[1,1].tick_params(axis='x', rotation=45)
    
    # Agregar valores en las barras
    for i, v in enumerate(f1_scores):
        axes[1,1].text(i, v + 0.01, f'{v:.3f}', ha='center', va='bottom')
    
    plt.tight_layout()
    plt.show()
    
    return metrics_df, best_model_name

# Evaluar modelos
metrics_comparison, best_model = evaluate_and_compare_models(model_results, y_test)

# 🔍 Análisis de Feature Importance

In [None]:
# Análisis de importancia de características
def analyze_feature_importance(results, feature_names, best_model_name):
    print("🔍 ANÁLISIS DE IMPORTANCIA DE CARACTERÍSTICAS")
    print("=" * 45)
    
    # Obtener el mejor modelo
    best_model_obj = results[best_model_name]['model']
    
    # Extraer importancia de características según el tipo de modelo
    if hasattr(best_model_obj, 'feature_importances_'):
        # Para Random Forest y Gradient Boosting
        importance = best_model_obj.feature_importances_
        importance_type = "Feature Importance"
    elif hasattr(best_model_obj, 'coef_'):
        # Para Logistic Regression
        importance = np.abs(best_model_obj.coef_[0])
        importance_type = "Coeficientes (Valor Absoluto)"
    else:
        print("❌ El modelo seleccionado no soporta análisis de importancia")
        return
    
    # Crear DataFrame con importancia
    importance_df = pd.DataFrame({
        'Feature': feature_names,
        'Importance': importance
    }).sort_values('Importance', ascending=False)
    
    print(f"\n📊 Top 10 características más importantes ({best_model_name}):")
    print(importance_df.head(10).to_string(index=False, float_format='%.4f'))
    
    # Visualización
    plt.figure(figsize=(12, 8))
    top_15 = importance_df.head(15)
    
    plt.barh(range(len(top_15)), top_15['Importance'], color='steelblue')
    plt.yticks(range(len(top_15)), top_15['Feature'])
    plt.xlabel(importance_type)
    plt.title(f'Top 15 Características más Importantes\n({best_model_name})')
    plt.gca().invert_yaxis()
    plt.grid(True, alpha=0.3, axis='x')
    plt.tight_layout()
    plt.show()
    
    return importance_df

# Análisis de importancia
feature_importance = analyze_feature_importance(model_results, feature_names, best_model)

# 🎯 Optimización del Mejor Modelo

In [None]:
# Optimización del mejor modelo usando GridSearch
def optimize_best_model(best_model_name, X_train, y_train, X_train_scaled):
    print(f"🎯 OPTIMIZACIÓN DEL MEJOR MODELO: {best_model_name}")
    print("=" * 50)
    
    # Definir parámetros para optimización según el modelo
    if best_model_name == 'Random Forest':
        model = RandomForestClassifier(random_state=42)
        param_grid = {
            'n_estimators': [100, 200],
            'max_depth': [10, 20, None],
            'min_samples_split': [2, 5],
            'min_samples_leaf': [1, 2]
        }
        X_train_opt = X_train
        
    elif best_model_name == 'Gradient Boosting':
        model = GradientBoostingClassifier(random_state=42)
        param_grid = {
            'n_estimators': [100, 200],
            'learning_rate': [0.05, 0.1, 0.2],
            'max_depth': [3, 5, 7]
        }
        X_train_opt = X_train
        
    elif best_model_name == 'Logistic Regression':
        model = LogisticRegression(random_state=42, max_iter=1000)
        param_grid = {
            'C': [0.1, 1, 10, 100],
            'penalty': ['l1', 'l2'],
            'solver': ['liblinear']
        }
        X_train_opt = X_train_scaled
        
    elif best_model_name == 'SVM':
        model = SVC(random_state=42, probability=True)
        param_grid = {
            'C': [0.1, 1, 10],
            'kernel': ['rbf', 'linear'],
            'gamma': ['scale', 'auto']
        }
        X_train_opt = X_train_scaled
    
    print(f"🔄 Iniciando GridSearch para {best_model_name}...")
    print(f"📊 Parámetros a probar: {len(param_grid)} hiperparámetros")
    
    # GridSearch con validación cruzada
    grid_search = GridSearchCV(
        model, 
        param_grid, 
        cv=5, 
        scoring='f1',
        n_jobs=-1,
        verbose=1
    )
    
    grid_search.fit(X_train_opt, y_train)
    
    print(f"\n✅ Optimización completada")
    print(f"🏆 Mejor F1-Score (CV): {grid_search.best_score_:.4f}")
    print(f"🎛️ Mejores parámetros:")
    for param, value in grid_search.best_params_.items():
        print(f"   {param}: {value}")
    
    return grid_search.best_estimator_, grid_search.best_params_

# Optimizar el mejor modelo
optimized_model, best_params = optimize_best_model(best_model, X_train, y_train, X_train_scaled)

# 📈 Predicciones y Análisis Final

In [None]:
# Evaluación final del modelo optimizado
def final_model_evaluation(optimized_model, best_model_name, X_test, y_test, X_test_scaled):
    print("📈 EVALUACIÓN FINAL DEL MODELO OPTIMIZADO")
    print("=" * 42)
    
    # Usar datos apropiados según el modelo
    if best_model_name in ['Logistic Regression', 'SVM']:
        X_test_final = X_test_scaled
    else:
        X_test_final = X_test
    
    # Predicciones
    y_pred_final = optimized_model.predict(X_test_final)
    y_pred_proba_final = optimized_model.predict_proba(X_test_final)[:, 1]
    
    # Métricas finales
    accuracy_final = accuracy_score(y_test, y_pred_final)
    precision_final = precision_score(y_test, y_pred_final)
    recall_final = recall_score(y_test, y_pred_final)
    f1_final = f1_score(y_test, y_pred_final)
    auc_final = roc_auc_score(y_test, y_pred_proba_final)
    
    print(f"\n🎯 MÉTRICAS DEL MODELO OPTIMIZADO:")
    print(f"Accuracy:  {accuracy_final:.4f}")
    print(f"Precision: {precision_final:.4f}")
    print(f"Recall:    {recall_final:.4f}")
    print(f"F1-Score:  {f1_final:.4f}")
    print(f"AUC:       {auc_final:.4f}")
    
    # Reporte de clasificación detallado
    print(f"\n📊 REPORTE DE CLASIFICACIÓN DETALLADO:")
    print(classification_report(y_test, y_pred_final, target_names=['No Churn', 'Churn']))
    
    # Análisis de predicciones
    predictions_df = pd.DataFrame({
        'Real': y_test,
        'Predicción': y_pred_final,
        'Probabilidad_Churn': y_pred_proba_final
    })
    
    # Análisis de casos
    true_positives = len(predictions_df[(predictions_df['Real'] == 1) & (predictions_df['Predicción'] == 1)])
    false_positives = len(predictions_df[(predictions_df['Real'] == 0) & (predictions_df['Predicción'] == 1)])
    true_negatives = len(predictions_df[(predictions_df['Real'] == 0) & (predictions_df['Predicción'] == 0)])
    false_negatives = len(predictions_df[(predictions_df['Real'] == 1) & (predictions_df['Predicción'] == 0)])
    
    print(f"\n🔍 ANÁLISIS DE PREDICCIONES:")
    print(f"Verdaderos Positivos (Churn detectado correctamente): {true_positives}")
    print(f"Falsos Positivos (Falsa alarma de churn): {false_positives}")
    print(f"Verdaderos Negativos (No churn detectado correctamente): {true_negatives}")
    print(f"Falsos Negativos (Churn no detectado): {false_negatives}")
    
    # Clientes de alto riesgo
    high_risk_threshold = 0.7
    high_risk_customers = predictions_df[predictions_df['Probabilidad_Churn'] >= high_risk_threshold]
    
    print(f"\n⚠️ CLIENTES DE ALTO RIESGO (>= {high_risk_threshold:.0%} probabilidad):")
    print(f"Total de clientes de alto riesgo: {len(high_risk_customers)}")
    print(f"Porcentaje del total: {len(high_risk_customers)/len(predictions_df):.2%}")
    
    return predictions_df, {
        'accuracy': accuracy_final,
        'precision': precision_final,
        'recall': recall_final,
        'f1': f1_final,
        'auc': auc_final
    }

# Evaluación final
final_predictions, final_metrics = final_model_evaluation(
    optimized_model, best_model, X_test, y_test, X_test_scaled
)

# Guardar predicciones
final_predictions.to_csv('churn_predictions.csv', index=False)
print(f"\n💾 Predicciones guardadas en: churn_predictions.csv")

# 📄 Informe Final de Modelos Predictivos

In [None]:
# Informe final completo
def generate_final_report(best_model, final_metrics, feature_importance, best_params):
    print("=" * 70)
    print("📄 INFORME FINAL - MODELOS PREDICTIVOS TELECOMX")
    print("=" * 70)
    
    print(f"\n🎯 OBJETIVO CUMPLIDO:")
    print(f"✅ Desarrollo de modelos predictivos para churn de clientes")
    print(f"✅ Identificación de factores clave en el abandono")
    print(f"✅ Optimización y validación de modelos")
    
    print(f"\n🏆 MEJOR MODELO SELECCIONADO: {best_model}")
    print(f"\n📊 RENDIMIENTO DEL MODELO OPTIMIZADO:")
    for metric, value in final_metrics.items():
        emoji = "🎯" if metric == 'f1' else "📈"
        print(f"{emoji} {metric.upper()}: {value:.4f}")
    
    print(f"\n🔧 PARÁMETROS OPTIMIZADOS:")
    for param, value in best_params.items():
        print(f"   • {param}: {value}")
    
    print(f"\n🔍 TOP 5 FACTORES PREDICTIVOS:")
    top_5_features = feature_importance.head(5)
    for i, (_, row) in enumerate(top_5_features.iterrows(), 1):
        print(f"{i}. {row['Feature']}: {row['Importance']:.4f}")
    
    print(f"\n💡 INSIGHTS CLAVE:")
    print(f"• El modelo puede predecir churn con {final_metrics['accuracy']:.1%} de precisión")
    print(f"• Identifica correctamente {final_metrics['recall']:.1%} de los casos de churn")
    print(f"• {final_metrics['precision']:.1%} de las predicciones de churn son correctas")
    print(f"• AUC de {final_metrics['auc']:.3f} indica excelente capacidad discriminatoria")
    
    print(f"\n🎯 RECOMENDACIONES DE NEGOCIO:")
    print(f"1. 🚨 PREVENCIÓN PROACTIVA:")
    print(f"   - Implementar alertas automáticas para clientes de alto riesgo")
    print(f"   - Crear campañas de retención personalizadas")
    
    print(f"\n2. 📊 MONITOREO CONTINUO:")
    print(f"   - Evaluar modelo mensualmente con nuevos datos")
    print(f"   - Ajustar umbrales según costo de retención vs pérdida")
    
    print(f"\n3. 🎯 SEGMENTACIÓN INTELIGENTE:")
    print(f"   - Usar factores predictivos para segmentar ofertas")
    print(f"   - Personalizar experiencia basada en riesgo de churn")
    
    print(f"\n4. 💰 IMPACTO FINANCIERO:")
    print(f"   - Priorizar retención en clientes de alto valor")
    print(f"   - Calcular ROI de campañas de retención")
    
    print(f"\n🔮 PRÓXIMOS PASOS:")
    print(f"• Implementar modelo en producción")
    print(f"• Crear pipeline automatizado de reentrenamiento")
    print(f"• Desarrollar dashboard de monitoreo en tiempo real")
    print(f"• A/B testing de estrategias de retención")
    print(f"• Incorporar nuevas fuentes de datos (comportamiento web, soporte)")
    
    print(f"\n📈 BENEFICIOS ESPERADOS:")
    print(f"• Reducción estimada del churn: 15-25%")
    print(f"• Mejora en la eficiencia de campañas de retención: +30%")
    print(f"• Incremento en CLV (Customer Lifetime Value): +20%")
    
    print("\n" + "=" * 70)
    print("✅ PROYECTO DE MODELOS PREDICTIVOS COMPLETADO EXITOSAMENTE")
    print("🚀 ¡LISTO PARA IMPLEMENTACIÓN EN PRODUCCIÓN!")
    print("=" * 70)

# Generar informe final
generate_final_report(best_model, final_metrics, feature_importance, best_params)

# 💾 Guardar Modelo y Resultados

In [None]:
# Guardar modelo y objetos importantes
import pickle

def save_model_and_artifacts(optimized_model, scaler, feature_names, best_model_name):
    print("💾 GUARDANDO MODELO Y ARTEFACTOS")
    print("=" * 35)
    
    # Crear diccionario con todos los artefactos
    model_artifacts = {
        'model': optimized_model,
        'scaler': scaler,
        'feature_names': feature_names,
        'model_name': best_model_name,
        'metrics': final_metrics,
        'best_params': best_params
    }
    
    # Guardar modelo
    with open('telecomx_churn_model.pkl', 'wb') as f:
        pickle.dump(model_artifacts, f)
    
    print(f"✅ Modelo guardado como: telecomx_churn_model.pkl")
    print(f"🎯 Modelo: {best_model_name}")
    print(f"📊 F1-Score: {final_metrics['f1']:.4f}")
    print(f"📈 AUC: {final_metrics['auc']:.4f}")
    
    # Función de ejemplo para usar el modelo
    print(f"\n🔧 EJEMPLO DE USO DEL MODELO:")
    print("""
# Para cargar y usar el modelo:
import pickle

# Cargar modelo
with open('telecomx_churn_model.pkl', 'rb') as f:
    artifacts = pickle.load(f)

model = artifacts['model']
scaler = artifacts['scaler']
feature_names = artifacts['feature_names']

# Hacer predicción (ejemplo con nuevos datos)
# new_data = pd.DataFrame(...) # Nuevos datos con mismas columnas
# new_data_scaled = scaler.transform(new_data)
# prediction = model.predict(new_data_scaled)
# probability = model.predict_proba(new_data_scaled)[:, 1]
    """)

# Guardar modelo
save_model_and_artifacts(optimized_model, scaler, feature_names, best_model)

print(f"\n🎉 ¡PROYECTO COMPLETADO!")
print(f"📁 Archivos generados:")
print(f"   • TelecomX_Predictive_Models.ipynb (este notebook)")
print(f"   • churn_predictions.csv (predicciones del modelo)")
print(f"   • telecomx_churn_model.pkl (modelo entrenado)")