# Proyecto de Machine Learning: Gu√≠a Completa desde la Recepci√≥n de Datos

## 1. Introducci√≥n al Proyecto y Definici√≥n del Problema de Negocio

### Objetivo de esta secci√≥n
Presentar el proyecto y vincular el problema de negocio con un problema de Machine Learning. Es crucial entender el problema antes de proponer una soluci√≥n.

### 1.1 Definici√≥n del Problema Empresarial

En este notebook, trabajaremos con un ejemplo pr√°ctico: **Predicci√≥n de abandono de clientes (Churn)** en una empresa de telecomunicaciones. 

El problema de negocio es el siguiente:
- La empresa est√° perdiendo aproximadamente 26% de sus clientes anualmente
- Adquirir un nuevo cliente cuesta 5x m√°s que retener uno existente
- Necesitamos identificar clientes en riesgo de abandono para tomar acciones preventivas

In [None]:
# Importaci√≥n de librer√≠as necesarias para todo el proyecto
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('ggplot')
%matplotlib inline

In [None]:
# Definici√≥n del problema en t√©rminos de ML
problema_ml = {
    'tipo': 'Clasificaci√≥n Binaria',
    'variable_objetivo': 'Churn',
    'clases': ['No abandona (0)', 'Abandona (1)'],
    'enfoque': 'Aprendizaje Supervisado',
    'metricas_clave': ['Precision', 'Recall', 'F1-Score', 'AUC-ROC']
}

print("=== DEFINICI√ìN DEL PROBLEMA DE ML ===")
for key, value in problema_ml.items():
    print(f"{key}: {value}")

# Definici√≥n de criterios de √©xito
criterios_exito = {
    'ml_metrics': {
        'precision_minima': 0.85,
        'f1_score_minimo': 0.82
    },
    'business_metrics': {
        'reduccion_churn_esperada': '15%',
        'tiempo_implementacion': '3 meses'
    }
}

print("\n=== CRITERIOS DE √âXITO ===")
print("\nM√©tricas de Machine Learning:")
for metric, value in criterios_exito['ml_metrics'].items():
    print(f"  - {metric}: {value}")
print("\nM√©tricas de Negocio:")
for metric, value in criterios_exito['business_metrics'].items():
    print(f"  - {metric}: {value}")

## 2. Adquisici√≥n y An√°lisis Exploratorio de Datos (EDA)

### Objetivo de esta secci√≥n
Entender la naturaleza de los datos recibidos, identificar patrones, anomal√≠as y preparar el terreno para el preprocesamiento.

### 2.1 Recopilaci√≥n de Datos

In [None]:
# Simulaci√≥n de carga de datos (en un caso real, cargar√≠as desde tu fuente)
# Para este ejemplo, crearemos un dataset sint√©tico representativo

np.random.seed(42)
n_samples = 5000

# Generaci√≥n de datos sint√©ticos de clientes de telecomunicaciones
data = {
    'CustomerID': range(1, n_samples + 1),
    'Tenure': np.random.randint(0, 72, n_samples),  # Meses como cliente
    'MonthlyCharges': np.random.uniform(20, 120, n_samples),
    'TotalCharges': np.random.uniform(100, 8000, n_samples),
    'Contract': np.random.choice(['Month-to-month', 'One year', 'Two year'], n_samples, p=[0.5, 0.25, 0.25]),
    'PaymentMethod': np.random.choice(['Electronic check', 'Mailed check', 'Bank transfer', 'Credit card'], n_samples),
    'PaperlessBilling': np.random.choice(['Yes', 'No'], n_samples),
    'OnlineSecurity': np.random.choice(['Yes', 'No', 'No internet'], n_samples),
    'TechSupport': np.random.choice(['Yes', 'No', 'No internet'], n_samples),
    'InternetService': np.random.choice(['DSL', 'Fiber optic', 'No'], n_samples, p=[0.4, 0.4, 0.2]),
    'PhoneService': np.random.choice(['Yes', 'No'], n_samples, p=[0.9, 0.1]),
    'Gender': np.random.choice(['Male', 'Female'], n_samples),
    'SeniorCitizen': np.random.choice([0, 1], n_samples, p=[0.8, 0.2]),
    'Partner': np.random.choice(['Yes', 'No'], n_samples),
    'Dependents': np.random.choice(['Yes', 'No'], n_samples, p=[0.3, 0.7])
}

# Variable objetivo con correlaci√≥n realista
churn_probability = []
for i in range(n_samples):
    prob = 0.15  # Probabilidad base
    if data['Contract'][i] == 'Month-to-month':
        prob += 0.3
    if data['Tenure'][i] < 12:
        prob += 0.2
    if data['MonthlyCharges'][i] > 80:
        prob += 0.1
    if data['TechSupport'][i] == 'No':
        prob += 0.1
    churn_probability.append(min(prob, 0.9))

data['Churn'] = np.random.binomial(1, churn_probability)

# Crear DataFrame
df = pd.DataFrame(data)

print("=== INFORMACI√ìN DEL DATASET ===")
print(f"Dimensiones del dataset: {df.shape}")
print(f"N√∫mero de clientes: {df.shape[0]}")
print(f"N√∫mero de caracter√≠sticas: {df.shape[1] - 1}")  # -1 por la variable objetivo
print(f"\nPrimeras 5 filas del dataset:")
df.head()

In [None]:
# An√°lisis de tipos de datos
print("=== TIPOS DE DATOS ===")
print(df.dtypes)

# Informaci√≥n general del dataset
print("\n=== INFORMACI√ìN GENERAL DEL DATASET ===")
df.info()

# Identificaci√≥n de caracter√≠sticas num√©ricas y categ√≥ricas
numerical_features = df.select_dtypes(include=[np.number]).columns.tolist()
categorical_features = df.select_dtypes(include=['object']).columns.tolist()

print(f"\nCaracter√≠sticas num√©ricas ({len(numerical_features)}): {numerical_features}")
print(f"Caracter√≠sticas categ√≥ricas ({len(categorical_features)}): {categorical_features}")

# Estad√≠sticas descriptivas para variables num√©ricas
print("\n=== ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES NUM√âRICAS ===")
df[numerical_features].describe()

In [None]:
# An√°lisis de la variable objetivo
print("=== DISTRIBUCI√ìN DE LA VARIABLE OBJETIVO (CHURN) ===")
churn_dist = df['Churn'].value_counts()
churn_pct = df['Churn'].value_counts(normalize=True) * 100

print("Conteo absoluto:")
print(churn_dist)
print("\nPorcentaje:")
print(churn_pct)

# Visualizaci√≥n
plt.figure(figsize=(8, 6))
df['Churn'].value_counts().plot(kind='bar')
plt.title('Distribuci√≥n de Churn')
plt.xlabel('Churn (0 = No, 1 = S√≠)')
plt.ylabel('Cantidad de clientes')
plt.xticks(rotation=0)
plt.show()

# Verificar si hay desbalance de clases
if churn_pct.min() < 20:
    print("\n‚ö†Ô∏è ADVERTENCIA: Dataset desbalanceado detectado. Considerar t√©cnicas de balanceo.")

In [None]:
# Matriz de correlaci√≥n para variables num√©ricas
plt.figure(figsize=(10, 8))
correlation_matrix = df[numerical_features].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('Matriz de Correlaci√≥n - Variables Num√©ricas')
plt.tight_layout()
plt.show()

# An√°lisis de distribuciones por variable objetivo
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Tenure vs Churn
axes[0, 0].hist([df[df['Churn']==0]['Tenure'], df[df['Churn']==1]['Tenure']], 
                label=['No Churn', 'Churn'], bins=20, alpha=0.7)
axes[0, 0].set_xlabel('Tenure (meses)')
axes[0, 0].set_ylabel('Frecuencia')
axes[0, 0].set_title('Distribuci√≥n de Tenure por Churn')
axes[0, 0].legend()

# MonthlyCharges vs Churn
axes[0, 1].hist([df[df['Churn']==0]['MonthlyCharges'], df[df['Churn']==1]['MonthlyCharges']], 
                label=['No Churn', 'Churn'], bins=20, alpha=0.7)
axes[0, 1].set_xlabel('Cargos Mensuales')
axes[0, 1].set_ylabel('Frecuencia')
axes[0, 1].set_title('Distribuci√≥n de Cargos Mensuales por Churn')
axes[0, 1].legend()

# Contract type vs Churn
contract_churn = pd.crosstab(df['Contract'], df['Churn'], normalize='index') * 100
contract_churn.plot(kind='bar', ax=axes[1, 0])
axes[1, 0].set_title('Tasa de Churn por Tipo de Contrato')
axes[1, 0].set_ylabel('Porcentaje (%)')
axes[1, 0].set_xlabel('Tipo de Contrato')
axes[1, 0].legend(['No Churn', 'Churn'])

# PaymentMethod vs Churn
payment_churn = pd.crosstab(df['PaymentMethod'], df['Churn'], normalize='index') * 100
payment_churn.plot(kind='bar', ax=axes[1, 1])
axes[1, 1].set_title('Tasa de Churn por M√©todo de Pago')
axes[1, 1].set_ylabel('Porcentaje (%)')
axes[1, 1].set_xlabel('M√©todo de Pago')
axes[1, 1].legend(['No Churn', 'Churn'])

plt.tight_layout()
plt.show()

In [None]:
# Verificaci√≥n de valores faltantes
print("=== AN√ÅLISIS DE VALORES FALTANTES ===")
missing_values = df.isnull().sum()
missing_percentage = (missing_values / len(df)) * 100

missing_df = pd.DataFrame({
    'Columna': missing_values.index,
    'Valores_Faltantes': missing_values.values,
    'Porcentaje': missing_percentage.values
})

print(missing_df[missing_df['Valores_Faltantes'] > 0])

if missing_values.sum() == 0:
    print("‚úÖ No se encontraron valores faltantes en el dataset")

# Verificaci√≥n de duplicados
print("\n=== AN√ÅLISIS DE DUPLICADOS ===")
duplicates = df.duplicated().sum()
print(f"N√∫mero de filas duplicadas: {duplicates}")

if duplicates > 0:
    print(f"Porcentaje de duplicados: {(duplicates/len(df))*100:.2f}%")
else:
    print("‚úÖ No se encontraron registros duplicados")

# Detecci√≥n de outliers usando el m√©todo IQR
print("\n=== DETECCI√ìN DE OUTLIERS ===")

def detect_outliers_iqr(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    return outliers, lower_bound, upper_bound

# An√°lisis de outliers para variables num√©ricas clave
for col in ['Tenure', 'MonthlyCharges', 'TotalCharges']:
    outliers, lower, upper = detect_outliers_iqr(df, col)
    print(f"\n{col}:")
    print(f"  - L√≠mite inferior: {lower:.2f}")
    print(f"  - L√≠mite superior: {upper:.2f}")
    print(f"  - N√∫mero de outliers: {len(outliers)} ({len(outliers)/len(df)*100:.2f}%)")

In [None]:
# Visualizaci√≥n de outliers
fig, axes = plt.subplots(1, 3, figsize=(15, 5))
for idx, col in enumerate(['Tenure', 'MonthlyCharges', 'TotalCharges']):
    df.boxplot(column=col, ax=axes[idx])
    axes[idx].set_title(f'Boxplot de {col}')
plt.tight_layout()
plt.show()

## 3. Ingenier√≠a de Caracter√≠sticas (Feature Engineering) y Preprocesamiento

### Objetivo de esta secci√≥n
Transformar los datos crudos en un formato que sea m√°s adecuado para el modelado de Machine Learning, mejorando el rendimiento y la robustez del modelo.

In [None]:
# Crear una copia del dataset para preprocesamiento
df_preprocessed = df.copy()

print("‚úÖ Limpieza de datos completada")

# Feature Engineering: Crear nuevas caracter√≠sticas basadas en conocimiento del dominio

# 1. Ratio de cargos totales sobre tenure (gasto promedio mensual real)
df_preprocessed['AvgChargesPerMonth'] = np.where(
    df_preprocessed['Tenure'] > 0,
    df_preprocessed['TotalCharges'] / df_preprocessed['Tenure'],
    df_preprocessed['MonthlyCharges']
)

# 2. Categorizaci√≥n de tenure
df_preprocessed['TenureCategory'] = pd.cut(
    df_preprocessed['Tenure'],
    bins=[0, 12, 24, 48, 72],
    labels=['Nuevo', 'Regular', 'Establecido', 'Leal']
)

# 3. Indicador de servicio premium
df_preprocessed['PremiumServices'] = (
    (df_preprocessed['OnlineSecurity'] == 'Yes').astype(int) +
    (df_preprocessed['TechSupport'] == 'Yes').astype(int)
)

# 4. Indicador de cliente de alto valor
high_value_threshold = df_preprocessed['MonthlyCharges'].quantile(0.75)
df_preprocessed['HighValueCustomer'] = (
    df_preprocessed['MonthlyCharges'] > high_value_threshold
).astype(int)

# 5. Indicador de compromiso (contrato largo + sin factura en papel)
df_preprocessed['EngagementScore'] = 0
df_preprocessed.loc[df_preprocessed['Contract'] == 'Two year', 'EngagementScore'] += 2
df_preprocessed.loc[df_preprocessed['Contract'] == 'One year', 'EngagementScore'] += 1
df_preprocessed.loc[df_preprocessed['PaperlessBilling'] == 'Yes', 'EngagementScore'] += 1

print("=== NUEVAS CARACTER√çSTICAS CREADAS ===")
new_features = ['AvgChargesPerMonth', 'TenureCategory', 'PremiumServices', 
                'HighValueCustomer', 'EngagementScore']
print(f"Caracter√≠sticas nuevas: {new_features}")
print(f"\nTotal de caracter√≠sticas ahora: {df_preprocessed.shape[1]}")

# Mostrar estad√≠sticas de las nuevas caracter√≠sticas
df_preprocessed[new_features].describe()

In [None]:
# Preparar datos para modelado
# Separar CustomerID ya que no es una caracter√≠stica predictiva
customer_ids = df_preprocessed['CustomerID']
df_model = df_preprocessed.drop('CustomerID', axis=1)

# Separar variable objetivo
X = df_model.drop('Churn', axis=1)
y = df_model['Churn']

# Identificar columnas categ√≥ricas para codificar
categorical_columns = X.select_dtypes(include=['object', 'category']).columns.tolist()
print(f"Columnas categ√≥ricas a codificar: {categorical_columns}")

# One-Hot Encoding para variables categ√≥ricas
X_encoded = pd.get_dummies(X, columns=categorical_columns, drop_first=True)

print(f"\nDimensiones despu√©s de One-Hot Encoding:")
print(f"Antes: {X.shape}")
print(f"Despu√©s: {X_encoded.shape}")

# Mostrar algunas de las nuevas columnas creadas
print("\nEjemplo de nuevas columnas creadas:")
new_columns = [col for col in X_encoded.columns if col not in X.columns]
print(new_columns[:10])  # Mostrar primeras 10

# Identificar columnas num√©ricas para normalizar
numerical_cols_to_scale = ['Tenure', 'MonthlyCharges', 'TotalCharges', 
                           'AvgChargesPerMonth', 'EngagementScore']

# Crear una copia para preservar los datos originales
X_scaled = X_encoded.copy()

# Aplicar StandardScaler a las columnas num√©ricas
scaler = StandardScaler()
X_scaled[numerical_cols_to_scale] = scaler.fit_transform(X_scaled[numerical_cols_to_scale])

print("\n=== NORMALIZACI√ìN COMPLETADA ===")
print("\nEstad√≠sticas despu√©s de la normalizaci√≥n:")
print(X_scaled[numerical_cols_to_scale].describe())

In [None]:
# Visualizar el efecto de la normalizaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# Antes de normalizar
X_encoded['MonthlyCharges'].hist(bins=30, ax=axes[0], alpha=0.7)
axes[0].set_title('Distribuci√≥n de MonthlyCharges - Original')
axes[0].set_xlabel('Valor')

# Despu√©s de normalizar
X_scaled['MonthlyCharges'].hist(bins=30, ax=axes[1], alpha=0.7)
axes[1].set_title('Distribuci√≥n de MonthlyCharges - Normalizado')
axes[1].set_xlabel('Valor normalizado')

plt.tight_layout()
plt.show()

# An√°lisis del desbalance
from sklearn.utils import class_weight

print("=== AN√ÅLISIS DE BALANCE DE CLASES ===")
class_counts = y.value_counts()
class_ratio = class_counts[0] / class_counts[1]

print(f"Distribuci√≥n de clases:")
print(class_counts)
print(f"\nRatio de clases (No Churn : Churn): {class_ratio:.2f}:1")

# Calcular pesos de clases para usar en el modelo
class_weights = class_weight.compute_class_weight(
    'balanced',
    classes=np.unique(y),
    y=y
)
class_weight_dict = dict(enumerate(class_weights))

print(f"\nPesos de clase calculados: {class_weight_dict}")
print("\nEstos pesos se usar√°n durante el entrenamiento para compensar el desbalance")

## 4. Construcci√≥n y Evaluaci√≥n del Modelo

### Objetivo de esta secci√≥n
Seleccionar, entrenar y evaluar el modelo de Machine Learning que mejor se adapte al problema y a los datos preparados.

In [None]:
# Divisi√≥n estratificada para mantener la proporci√≥n de clases
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42, stratify=y
)

# Crear conjunto de validaci√≥n del conjunto de entrenamiento
X_train_final, X_val, y_train_final, y_val = train_test_split(
    X_train, y_train, test_size=0.2, random_state=42, stratify=y_train
)

print("=== DIVISI√ìN DE DATOS ===")
print(f"Conjunto completo: {X_scaled.shape[0]} muestras")
print(f"Entrenamiento: {X_train_final.shape[0]} muestras ({X_train_final.shape[0]/X_scaled.shape[0]*100:.1f}%)")
print(f"Validaci√≥n: {X_val.shape[0]} muestras ({X_val.shape[0]/X_scaled.shape[0]*100:.1f}%)")
print(f"Prueba: {X_test.shape[0]} muestras ({X_test.shape[0]/X_scaled.shape[0]*100:.1f}%)")

# Verificar que la estratificaci√≥n funcion√≥
print("\nDistribuci√≥n de clases en cada conjunto:")
print(f"Train: {y_train_final.value_counts(normalize=True).round(3).to_dict()}")
print(f"Val: {y_val.value_counts(normalize=True).round(3).to_dict()}")
print(f"Test: {y_test.value_counts(normalize=True).round(3).to_dict()}")

In [None]:
# Funci√≥n helper para evaluar modelos
def evaluate_model(model, X_train, y_train, X_val, y_val, model_name):
    # Entrenar modelo
    model.fit(X_train, y_train)
    
    # Predicciones
    y_pred = model.predict(X_val)
    
    # M√©tricas
    metrics = {
        'accuracy': accuracy_score(y_val, y_pred),
        'precision': precision_score(y_val, y_pred),
        'recall': recall_score(y_val, y_pred),
        'f1_score': f1_score(y_val, y_pred)
    }
    
    print(f"\n=== {model_name} ===")
    for metric, value in metrics.items():
        print(f"{metric}: {value:.4f}")
    
    return model, metrics

# Entrenar diferentes modelos
models = {
    'Logistic Regression': LogisticRegression(
        class_weight='balanced', random_state=42, max_iter=1000
    ),
    'Random Forest': RandomForestClassifier(
        n_estimators=100, class_weight='balanced', random_state=42
    ),
    'SVM': SVC(
        class_weight='balanced', random_state=42, probability=True
    )
}

trained_models = {}
model_metrics = {}

print("=== ENTRENAMIENTO Y EVALUACI√ìN DE MODELOS ===")

for name, model in models.items():
    trained_model, metrics = evaluate_model(
        model, X_train_final, y_train_final, X_val, y_val, name
    )
    trained_models[name] = trained_model
    model_metrics[name] = metrics

In [None]:
# Optimizaci√≥n del mejor modelo (Random Forest en este caso)
print("=== OPTIMIZACI√ìN DE HIPERPAR√ÅMETROS - RANDOM FOREST ===")

# Definir grid de par√°metros
param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2]
}

# Crear modelo base
rf_model = RandomForestClassifier(class_weight='balanced', random_state=42)

# Grid Search con Cross Validation
grid_search = GridSearchCV(
    estimator=rf_model,
    param_grid=param_grid,
    cv=5,
    scoring='f1',
    n_jobs=-1,
    verbose=1
)

# Entrenar
print("Iniciando Grid Search...")
grid_search.fit(X_train_final, y_train_final)

# Mejores par√°metros
print(f"\nMejores par√°metros: {grid_search.best_params_}")
print(f"Mejor score F1 (CV): {grid_search.best_score_:.4f}")

# Evaluar el mejor modelo
best_model = grid_search.best_estimator_
y_pred_val_best = best_model.predict(X_val)

print("\nRendimiento del modelo optimizado en validaci√≥n:")
print(f"Accuracy: {accuracy_score(y_val, y_pred_val_best):.4f}")
print(f"Precision: {precision_score(y_val, y_pred_val_best):.4f}")
print(f"Recall: {recall_score(y_val, y_pred_val_best):.4f}")
print(f"F1-Score: {f1_score(y_val, y_pred_val_best):.4f}")

In [None]:
# Evaluaci√≥n final con el mejor modelo
print("=== EVALUACI√ìN FINAL EN CONJUNTO DE PRUEBA ===")

# Predicciones en test
y_pred_test = best_model.predict(X_test)
y_pred_proba_test = best_model.predict_proba(X_test)[:, 1]

# M√©tricas finales
final_metrics = {
    'accuracy': accuracy_score(y_test, y_pred_test),
    'precision': precision_score(y_test, y_pred_test),
    'recall': recall_score(y_test, y_pred_test),
    'f1_score': f1_score(y_test, y_pred_test)
}

print("M√©tricas en conjunto de prueba:")
for metric, value in final_metrics.items():
    print(f"{metric}: {value:.4f}")

# Verificar si cumplimos los criterios de √©xito
print("\n=== VERIFICACI√ìN DE CRITERIOS DE √âXITO ===")
for metric, threshold in criterios_exito['ml_metrics'].items():
    metric_name = metric.replace('_minima', '').replace('_minimo', '')
    if metric_name in final_metrics:
        actual_value = final_metrics[metric_name]
        status = "‚úÖ CUMPLIDO" if actual_value >= threshold else "‚ùå NO CUMPLIDO"
        print(f"{metric}: {actual_value:.4f} (objetivo: {threshold}) {status}")

# Matriz de confusi√≥n
from sklearn.metrics import classification_report

plt.figure(figsize=(8, 6))
cm = confusion_matrix(y_test, y_pred_test)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.title('Matriz de Confusi√≥n - Conjunto de Prueba')
plt.xlabel('Predicci√≥n')
plt.ylabel('Real')
plt.show()

# Reporte de clasificaci√≥n detallado
print("\n=== REPORTE DE CLASIFICACI√ìN DETALLADO ===")
print(classification_report(y_test, y_pred_test, 
                          target_names=['No Churn', 'Churn']))

In [None]:
# Importancia de caracter√≠sticas del modelo Random Forest
feature_importance = pd.DataFrame({
    'feature': X_scaled.columns,
    'importance': best_model.feature_importances_
}).sort_values('importance', ascending=False)

# Top 20 caracter√≠sticas m√°s importantes
plt.figure(figsize=(10, 8))
top_features = feature_importance.head(20)
plt.barh(top_features['feature'], top_features['importance'])
plt.xlabel('Importancia')
plt.title('Top 20 Caracter√≠sticas m√°s Importantes')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

print("=== TOP 10 CARACTER√çSTICAS M√ÅS IMPORTANTES ===")
print(feature_importance.head(10))

# Curva ROC y AUC
from sklearn.metrics import roc_curve, auc

# Calcular curva ROC
fpr, tpr, thresholds = roc_curve(y_test, y_pred_proba_test)
roc_auc = auc(fpr, tpr)

# Visualizar curva ROC
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='darkorange', lw=2, 
         label=f'ROC curve (AUC = {roc_auc:.3f})')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc="lower right")
plt.grid(True, alpha=0.3)
plt.show()

print(f"AUC-ROC Score: {roc_auc:.4f}")

## 5. Obtenci√≥n de Insights y Orientaci√≥n al Negocio (Post-Modelado)

### Objetivo de esta secci√≥n
Traducir los resultados del modelo en valor de negocio tangible y planificar su implementaci√≥n y monitoreo continuo.

In [None]:
# Simulaci√≥n de an√°lisis de impacto de negocio
print("=== IMPACTO DE NEGOCIO ESTIMADO ===")

# Par√°metros de negocio
avg_customer_lifetime_value = 3500  # USD
cost_retention_campaign = 50  # USD por cliente
churn_rate_without_intervention = 0.26  # 26%

# C√°lculos de impacto
total_customers = 10000  # Ejemplo de base de clientes
predicted_churners = int(total_customers * final_metrics['recall'] * churn_rate_without_intervention)
retention_rate_with_intervention = 0.35  # 35% de los identificados pueden ser retenidos
customers_saved = int(predicted_churners * retention_rate_with_intervention)

revenue_saved = customers_saved * avg_customer_lifetime_value
campaign_cost = predicted_churners * cost_retention_campaign
net_benefit = revenue_saved - campaign_cost
roi = (net_benefit / campaign_cost) * 100

print(f"\nPara una base de {total_customers:,} clientes:")
print(f"- Clientes en riesgo identificados correctamente: {predicted_churners:,}")
print(f"- Clientes potencialmente salvados: {customers_saved:,}")
print(f"- Ingresos salvados: ${revenue_saved:,}")
print(f"- Costo de campa√±as de retenci√≥n: ${campaign_cost:,}")
print(f"- Beneficio neto: ${net_benefit:,}")
print(f"- ROI: {roi:.1f}%")

# Generar recomendaciones basadas en el an√°lisis
print("\n=== RECOMENDACIONES ACCIONABLES ===")

# Basadas en la importancia de caracter√≠sticas
top_3_features = feature_importance.head(3)['feature'].tolist()

recommendations = {
    'Inmediatas': [
        f"Enfocar programas de retenci√≥n en clientes con {top_3_features[0]} alto",
        "Implementar alertas autom√°ticas para clientes de riesgo alto",
        "Crear ofertas personalizadas basadas en el perfil de churn"
    ],
    'Mediano_plazo': [
        "Desarrollar programa de fidelizaci√≥n para contratos mensuales",
        "Mejorar servicios t√©cnicos y soporte al cliente",
        "Implementar sistema de monitoreo continuo del modelo"
    ],
    'Largo_plazo': [
        "Redise√±ar estrategia de precios basada en insights del modelo",
        "Integrar predicciones en CRM y sistemas de marketing",
        "Desarrollar modelos espec√≠ficos por segmento de cliente"
    ]
}

for plazo, acciones in recommendations.items():
    print(f"\n{plazo.replace('_', ' ').title()}:")
    for i, accion in enumerate(acciones, 1):
        print(f"  {i}. {accion}")

## 6. Conclusi√≥n y Pr√≥ximos Pasos (Implementaci√≥n y MLOps)

### Objetivo de esta secci√≥n
Resumir el proceso y destacar la importancia de la implementaci√≥n continua y las pr√°cticas de MLOps para el √©xito a largo plazo.

In [None]:
print("=== RESUMEN EJECUTIVO DEL PROYECTO ===")

project_summary = {
    'Problema': 'Alta tasa de abandono de clientes (26%) en telecomunicaciones',
    'Soluci√≥n': 'Modelo de clasificaci√≥n Random Forest con 85%+ precision',
    'Impacto_Estimado': f'ROI de {roi:.0f}% con ${net_benefit:,} de beneficio neto anual',
    'M√©tricas_Clave': f"F1-Score: {final_metrics['f1_score']:.3f}, AUC-ROC: {roc_auc:.3f}",
    'Estado': 'Modelo cumple criterios de √©xito - Listo para implementaci√≥n',
    'Riesgos': 'Degradaci√≥n del modelo, resistencia al cambio, calidad de datos'
}

for key, value in project_summary.items():
    print(f"{key}: {value}")

# Definici√≥n del sistema de monitoreo
monitoring_metrics = {
    'M√©tricas de Modelo': {
        'Precisi√≥n semanal': '>= 0.85',
        'Recall semanal': '>= 0.80',
        'AUC-ROC mensual': '>= 0.85'
    },
    'M√©tricas de Negocio': {
        'ROI campa√±a retenci√≥n': '>= 250%',
        'Reducci√≥n tasa churn': '>= 15%',
        'Satisfacci√≥n cliente': '>= 8.0/10'
    },
    'M√©tricas T√©cnicas': {
        'Tiempo respuesta API': '< 100ms',
        'Disponibilidad sistema': '>= 99.9%',
        'Data drift score': '< 0.1'
    }
}

print("\n=== SISTEMA DE MONITOREO Y ALERTAS ===")
for categoria, metricas in monitoring_metrics.items():
    print(f"\n{categoria}:")
    for metrica, umbral in metricas.items():
        print(f"  - {metrica}: {umbral}")

# Plan de acci√≥n para las pr√≥ximas semanas
action_plan = {
    'Semana 1-2': {
        'Objetivo': 'Preparaci√≥n para producci√≥n',
        'Entregables': ['API del modelo', 'Tests unitarios', 'Documentaci√≥n t√©cnica']
    },
    'Semana 3-4': {
        'Objetivo': 'Implementaci√≥n piloto',
        'Entregables': ['Deploy en staging', 'Tests de integraci√≥n', 'Dashboard monitoreo']
    },
    'Semana 5-6': {
        'Objetivo': 'Producci√≥n limitada',
        'Entregables': ['Deploy producci√≥n', 'Monitoreo activo', 'Feedback inicial']
    },
    'Semana 7-8': {
        'Objetivo': 'Escalamiento completo',
        'Entregables': ['Rollout completo', 'Optimizaciones', 'Reporte impacto']
    }
}

print("\n=== PLAN DE ACCI√ìN - PR√ìXIMAS 8 SEMANAS ===")
for periodo, detalles in action_plan.items():
    print(f"\n{periodo}: {detalles['Objetivo']}")
    print(f"  Entregables: {', '.join(detalles['Entregables'])}")

In [None]:
# Resumen de mejores pr√°cticas aprendidas
best_practices = {
    'Datos': [
        'Generar caracter√≠sticas derivadas basadas en conocimiento del dominio',
        'Validar calidad de datos antes del modelado',
        'Mantener balance entre precisi√≥n y interpretabilidad'
    ],
    'Modelado': [
        'Probar m√∫ltiples algoritmos antes de seleccionar',
        'Usar validaci√≥n cruzada para selecci√≥n de hiperpar√°metros',
        'Considerar m√©tricas de negocio adem√°s de m√©tricas t√©cnicas'
    ],
    'Implementaci√≥n': [
        'Establecer sistema de monitoreo desde el d√≠a 1',
        'Planificar para degradaci√≥n del modelo con el tiempo',
        'Mantener pipeline de reentrenamiento automatizado'
    ],
    'Negocio': [
        'Traducir m√©tricas t√©cnicas a impacto econ√≥mico',
        'Involucrar stakeholders en definici√≥n de criterios de √©xito',
        'Documentar decisiones y suposiciones para auditor√≠a'
    ]
}

print("=== LECCIONES CLAVE Y MEJORES PR√ÅCTICAS ===")
for categoria, practicas in best_practices.items():
    print(f"\n{categoria}:")
    for i, practica in enumerate(practicas, 1):
        print(f"  {i}. {practica}")

# Mensaje final
print("\n" + "="*60)
print("üéØ CONCLUSI√ìN FINAL")
print("="*60)
print("""
Este proyecto demuestra el ciclo completo de un proyecto de Machine Learning,
desde la comprensi√≥n del problema de negocio hasta la implementaci√≥n en producci√≥n.

El √©xito no termina con un modelo preciso - requiere:
- Integraci√≥n continua con sistemas empresariales
- Monitoreo y mantenimiento constantes
- Evoluci√≥n basada en feedback y cambios del negocio
- Compromiso organizacional con la cultura data-driven

El verdadero valor del ML se materializa cuando los modelos se convierten en
sistemas productivos que mejoran continuamente las decisiones empresariales.
""")

print("\n¬°√âxito en tu proyecto de Machine Learning! üöÄ")