# Evaluaci√≥n del Modelo
## Predicci√≥n de Clientes Fidelizables en E-commerce

### Objetivos de la Evaluaci√≥n

Este notebook se enfoca en la evaluaci√≥n comprehensiva del modelo de fidelizaci√≥n, con especial atenci√≥n a la prevenci√≥n del overfitting. Los objetivos espec√≠ficos incluyen:

1. **Evaluaci√≥n robusta del rendimiento**
   - M√©tricas de clasificaci√≥n en m√∫ltiples conjuntos
   - Validaci√≥n cruzada estratificada
   - An√°lisis de curvas de aprendizaje
   - Detecci√≥n de overfitting/underfitting

2. **An√°lisis de generalizaci√≥n**
   - Comparaci√≥n train vs validation vs test
   - Estabilidad de m√©tricas across folds
   - An√°lisis de varianza del modelo

3. **Interpretabilidad del modelo**
   - Importancia de caracter√≠sticas
   - An√°lisis de casos l√≠mite
   - Explicabilidad de predicciones

### Marco de Evaluaci√≥n

La evaluaci√≥n sigue principios rigurosos de validaci√≥n:
- **Separaci√≥n estricta** de conjuntos train/validation/test
- **Validaci√≥n cruzada estratificada** para robustez
- **M√∫ltiples m√©tricas** para evaluaci√≥n integral
- **An√°lisis de estabilidad** temporal y estad√≠stica

In [19]:
# Configuraci√≥n inicial
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Librer√≠as de evaluaci√≥n
from sklearn.metrics import (
    classification_report, confusion_matrix, roc_auc_score, roc_curve,
    precision_recall_curve, average_precision_score, accuracy_score,
    f1_score, precision_score, recall_score
)
from sklearn.model_selection import (
    learning_curve, validation_curve, cross_val_score, 
    StratifiedKFold, cross_validate
)
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest

import joblib
import json
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

print("Librer√≠as de evaluaci√≥n cargadas")
print(f"Fecha de evaluaci√≥n: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

Librer√≠as de evaluaci√≥n cargadas
Fecha de evaluaci√≥n: 2025-09-01 13:42:38


In [20]:
# Cargar modelo y componentes entrenados
try:
    best_model = joblib.load('../results/models/best_loyalty_model.pkl')
    scaler = joblib.load('../results/models/feature_scaler.pkl')
    selector = joblib.load('../results/models/feature_selector.pkl')
    
    with open('../results/models/model_info.json', 'r') as f:
        model_info = json.load(f)
    
    print(f"Modelo cargado: {model_info['model_name']}")
    print(f"Caracter√≠sticas seleccionadas: {len(model_info['selected_features'])}")
    
except FileNotFoundError:
    print("Modelos no encontrados. Creando modelo sint√©tico para evaluaci√≥n...")
    
    # Crear modelo sint√©tico para demostraci√≥n
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.preprocessing import StandardScaler
    from sklearn.feature_selection import SelectKBest, f_classif
    
    best_model = RandomForestClassifier(n_estimators=100, random_state=42)
    scaler = StandardScaler()
    selector = SelectKBest(score_func=f_classif, k=10)
    
    model_info = {
        'model_name': 'Random Forest',
        'selected_features': ['Recency', 'Frequency', 'Monetary', 'AvgRevenue'],
        'feature_columns': ['Recency', 'Frequency', 'Monetary', 'AvgRevenue']
    }
    
    print("Modelo sint√©tico creado para demostraci√≥n")

Modelo cargado: Random Forest
Caracter√≠sticas seleccionadas: 15


## 1. Preparaci√≥n de Datos para Evaluaci√≥n

### Estrategia de Validaci√≥n

Para prevenir overfitting, implementamos una estrategia de validaci√≥n robusta:
- **Divisi√≥n estratificada** manteniendo proporci√≥n de clases
- **Validaci√≥n cruzada** con m√∫ltiples folds
- **Conjunto de test independiente** nunca visto durante entrenamiento
- **M√©tricas de estabilidad** para detectar sobreajuste

In [21]:
# Recrear preparaci√≥n de datos consistente con entrenamiento
try:
    df = pd.read_csv('../data/processed/customer_features_with_trends.csv')
    print(f"Dataset cargado: {df.shape[0]:,} clientes")
except FileNotFoundError:
    # Crear dataset sint√©tico consistente
    np.random.seed(42)
    n_customers = 1000
    
    df = pd.DataFrame({
        'CustomerID': range(12346, 12346 + n_customers),
        'Recency': np.random.exponential(30, n_customers),
        'Frequency': np.random.poisson(5, n_customers) + 1,
        'Monetary': np.random.gamma(2, 100, n_customers),
        'AvgRevenue': np.random.gamma(2, 50, n_customers),
        'UniqueProducts': np.random.poisson(8, n_customers) + 2,
        'Country': np.random.choice(['UK', 'FR', 'DE'], n_customers, p=[0.7, 0.15, 0.15])
    })
    
    # Variable objetivo con criterios realistas
    df['IsLoyal'] = (
        (df['Frequency'] >= df['Frequency'].quantile(0.6)) & 
        (df['Monetary'] >= df['Monetary'].quantile(0.4)) & 
        (df['Recency'] <= df['Recency'].quantile(0.6))
    ).astype(int)
    
    print(f"Dataset sint√©tico creado: {df.shape[0]:,} clientes")

# Preparar caracter√≠sticas
feature_columns = model_info.get('feature_columns', ['Recency', 'Frequency', 'Monetary', 'AvgRevenue'])
available_features = [col for col in feature_columns if col in df.columns]

X = df[available_features].fillna(0)
y = df['IsLoyal']

print(f"Caracter√≠sticas disponibles: {len(available_features)}")
print(f"Distribuci√≥n de clases: {y.value_counts().to_dict()}")
print(f"Balance de clases: {y.mean():.1%} fidelizables")

Dataset cargado: 4,338 clientes
Caracter√≠sticas disponibles: 18
Distribuci√≥n de clases: {0: 2494, 1: 1844}
Balance de clases: 42.5% fidelizables


In [22]:
# Divisi√≥n estratificada de datos con validaci√≥n robusta
from sklearn.model_selection import train_test_split

# Divisi√≥n inicial train/test (80/20)
X_train_full, X_test, y_train_full, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Divisi√≥n train/validation (64/16 del total)
X_train, X_val, y_train, y_val = train_test_split(
    X_train_full, y_train_full, test_size=0.2, random_state=42, stratify=y_train_full
)

print("DIVISI√ìN DE DATOS PARA EVALUACI√ìN ROBUSTA")
print("=" * 45)
print(f"Entrenamiento: {X_train.shape[0]:,} muestras ({X_train.shape[0]/len(X)*100:.1f}%)")
print(f"Validaci√≥n: {X_val.shape[0]:,} muestras ({X_val.shape[0]/len(X)*100:.1f}%)")
print(f"Test: {X_test.shape[0]:,} muestras ({X_test.shape[0]/len(X)*100:.1f}%)")

# Verificar balance en cada conjunto
print(f"\nBalance de clases por conjunto:")
print(f"Train: {y_train.mean():.1%} fidelizables")
print(f"Validation: {y_val.mean():.1%} fidelizables")
print(f"Test: {y_test.mean():.1%} fidelizables")

# Aplicar transformaciones
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)
X_test_scaled = scaler.transform(X_test)

# Selecci√≥n de caracter√≠sticas
X_train_selected = selector.fit_transform(X_train_scaled, y_train)
X_val_selected = selector.transform(X_val_scaled)
X_test_selected = selector.transform(X_test_scaled)

print(f"\nCaracter√≠sticas despu√©s de selecci√≥n: {X_train_selected.shape[1]}")

DIVISI√ìN DE DATOS PARA EVALUACI√ìN ROBUSTA
Entrenamiento: 2,776 muestras (64.0%)
Validaci√≥n: 694 muestras (16.0%)
Test: 868 muestras (20.0%)

Balance de clases por conjunto:
Train: 42.5% fidelizables
Validation: 42.5% fidelizables
Test: 42.5% fidelizables

Caracter√≠sticas despu√©s de selecci√≥n: 15


## 2. An√°lisis de Curvas de Aprendizaje

### Detecci√≥n de Overfitting

Las curvas de aprendizaje son fundamentales para detectar:
- **Overfitting**: Gran diferencia entre train y validation
- **Underfitting**: Ambas curvas convergen a un valor bajo
- **Punto √≥ptimo**: Mejor balance bias-variance

In [23]:
# Entrenar modelo si no est√° entrenado
if not hasattr(best_model, 'feature_importances_') and hasattr(best_model, 'fit'):
    print("Entrenando modelo para evaluaci√≥n...")
    best_model.fit(X_train_selected, y_train)

# Generar curvas de aprendizaje para detectar overfitting
def plot_learning_curves(model, X, y, cv=5):
    """
    Genera curvas de aprendizaje para detectar overfitting
    """
    train_sizes = np.linspace(0.1, 1.0, 10)
    
    train_sizes_abs, train_scores, val_scores = learning_curve(
        model, X, y, 
        train_sizes=train_sizes,
        cv=StratifiedKFold(n_splits=cv, shuffle=True, random_state=42),
        scoring='roc_auc',
        n_jobs=-1,
        random_state=42
    )
    
    # Calcular estad√≠sticas
    train_mean = np.mean(train_scores, axis=1)
    train_std = np.std(train_scores, axis=1)
    val_mean = np.mean(val_scores, axis=1)
    val_std = np.std(val_scores, axis=1)
    
    return train_sizes_abs, train_mean, train_std, val_mean, val_std

print("AN√ÅLISIS DE CURVAS DE APRENDIZAJE")
print("=" * 40)

# Generar curvas de aprendizaje
train_sizes, train_mean, train_std, val_mean, val_std = plot_learning_curves(
    best_model, X_train_selected, y_train, cv=5
)

# Visualizaci√≥n con Plotly
fig = go.Figure()

# Curva de entrenamiento
fig.add_trace(go.Scatter(
    x=train_sizes,
    y=train_mean,
    mode='lines+markers',
    name='Training Score',
    line=dict(color='blue'),
    error_y=dict(type='data', array=train_std, visible=True)
))

# Curva de validaci√≥n
fig.add_trace(go.Scatter(
    x=train_sizes,
    y=val_mean,
    mode='lines+markers',
    name='Validation Score',
    line=dict(color='red'),
    error_y=dict(type='data', array=val_std, visible=True)
))

fig.update_layout(
    title='Curvas de Aprendizaje - Detecci√≥n de Overfitting',
    xaxis_title='Tama√±o del Conjunto de Entrenamiento',
    yaxis_title='ROC-AUC Score',
    height=500
)

fig.show()

# An√°lisis de overfitting
final_gap = train_mean[-1] - val_mean[-1]
print(f"\nAn√°lisis de Overfitting:")
print(f"Score final de entrenamiento: {train_mean[-1]:.4f} ¬± {train_std[-1]:.4f}")
print(f"Score final de validaci√≥n: {val_mean[-1]:.4f} ¬± {val_std[-1]:.4f}")
print(f"Gap train-validation: {final_gap:.4f}")

if final_gap > 0.05:
    print("‚ö†Ô∏è  ALERTA: Posible overfitting detectado (gap > 0.05)")
elif final_gap < 0.02:
    print("‚úÖ Modelo bien generalizado (gap < 0.02)")
else:
    print("‚ö° Overfitting moderado - monitorear")

AN√ÅLISIS DE CURVAS DE APRENDIZAJE



An√°lisis de Overfitting:
Score final de entrenamiento: 1.0000 ¬± 0.0000
Score final de validaci√≥n: 1.0000 ¬± 0.0000
Gap train-validation: 0.0000
‚úÖ Modelo bien generalizado (gap < 0.02)


## 3. Validaci√≥n Cruzada Robusta

### Evaluaci√≥n de Estabilidad

La validaci√≥n cruzada estratificada proporciona una evaluaci√≥n m√°s robusta del rendimiento del modelo y ayuda a detectar inestabilidad que podr√≠a indicar overfitting.

In [24]:
# Validaci√≥n cruzada comprehensiva
def comprehensive_cross_validation(model, X, y, cv_folds=5):
    """
    Realiza validaci√≥n cruzada con m√∫ltiples m√©tricas
    """
    cv = StratifiedKFold(n_splits=cv_folds, shuffle=True, random_state=42)
    
    scoring_metrics = {
        'accuracy': 'accuracy',
        'precision': 'precision',
        'recall': 'recall',
        'f1': 'f1',
        'roc_auc': 'roc_auc'
    }
    
    cv_results = cross_validate(
        model, X, y, 
        cv=cv, 
        scoring=scoring_metrics,
        return_train_score=True,
        n_jobs=-1
    )
    
    return cv_results

print("VALIDACI√ìN CRUZADA ROBUSTA")
print("=" * 35)

# Ejecutar validaci√≥n cruzada
cv_results = comprehensive_cross_validation(best_model, X_train_selected, y_train, cv_folds=5)

# Analizar resultados
metrics_analysis = []

for metric in ['accuracy', 'precision', 'recall', 'f1', 'roc_auc']:
    train_scores = cv_results[f'train_{metric}']
    val_scores = cv_results[f'test_{metric}']
    
    analysis = {
        'M√©trica': metric.upper(),
        'Train_Mean': train_scores.mean(),
        'Train_Std': train_scores.std(),
        'Val_Mean': val_scores.mean(),
        'Val_Std': val_scores.std(),
        'Gap': train_scores.mean() - val_scores.mean(),
        'Stability': val_scores.std()  # Menor es mejor
    }
    
    metrics_analysis.append(analysis)

# Crear DataFrame para an√°lisis
cv_df = pd.DataFrame(metrics_analysis)

print("Resultados de Validaci√≥n Cruzada:")
print(cv_df.round(4))

# Visualizaci√≥n de estabilidad
fig = make_subplots(
    rows=1, cols=2,
    subplot_titles=('Gap Train-Validation', 'Estabilidad de M√©tricas')
)

# Gap train-validation
fig.add_trace(
    go.Bar(x=cv_df['M√©trica'], y=cv_df['Gap'], name='Gap Train-Val'),
    row=1, col=1
)

# Estabilidad (desviaci√≥n est√°ndar)
fig.add_trace(
    go.Bar(x=cv_df['M√©trica'], y=cv_df['Stability'], name='Desviaci√≥n Est√°ndar'),
    row=1, col=2
)

fig.update_layout(height=400, title_text="An√°lisis de Estabilidad del Modelo")
fig.show()

# Diagn√≥stico de overfitting
avg_gap = cv_df['Gap'].mean()
max_gap = cv_df['Gap'].max()
avg_stability = cv_df['Stability'].mean()

print(f"\nDiagn√≥stico de Overfitting:")
print(f"Gap promedio train-validation: {avg_gap:.4f}")
print(f"Gap m√°ximo: {max_gap:.4f}")
print(f"Estabilidad promedio: {avg_stability:.4f}")

# Criterios de diagn√≥stico
overfitting_indicators = 0
if avg_gap > 0.05:
    overfitting_indicators += 1
    print("‚ö†Ô∏è  Gap promedio alto - posible overfitting")
if max_gap > 0.1:
    overfitting_indicators += 1
    print("‚ö†Ô∏è  Gap m√°ximo muy alto - overfitting severo")
if avg_stability > 0.05:
    overfitting_indicators += 1
    print("‚ö†Ô∏è  Alta variabilidad - modelo inestable")

if overfitting_indicators == 0:
    print("‚úÖ Modelo estable sin indicios de overfitting")
elif overfitting_indicators <= 1:
    print("‚ö° Overfitting leve - aceptable")
else:
    print("üö® Overfitting significativo - requiere regularizaci√≥n")

VALIDACI√ìN CRUZADA ROBUSTA
Resultados de Validaci√≥n Cruzada:
     M√©trica  Train_Mean  Train_Std  Val_Mean  Val_Std     Gap  Stability
0   ACCURACY         1.0        0.0    0.9989   0.0014  0.0011     0.0014
1  PRECISION         1.0        0.0    0.9975   0.0034  0.0025     0.0034
2     RECALL         1.0        0.0    1.0000   0.0000  0.0000     0.0000
3         F1         1.0        0.0    0.9987   0.0017  0.0013     0.0017
4    ROC_AUC         1.0        0.0    1.0000   0.0000  0.0000     0.0000



Diagn√≥stico de Overfitting:
Gap promedio train-validation: 0.0010
Gap m√°ximo: 0.0025
Estabilidad promedio: 0.0013
‚úÖ Modelo estable sin indicios de overfitting
