# Evaluaci√≥n Temporal del Modelo NYC Taxi Tips

Este notebook demuestra el comportamiento del modelo de clasificaci√≥n de propinas a lo largo del tiempo, evaluando su rendimiento en m√∫ltiples meses para identificar patrones de degradaci√≥n y factores que afectan su estabilidad.

## Objetivos:
1. **Carga y evaluaci√≥n** del modelo en m√∫ltiples meses
2. **Automatizaci√≥n** de la evaluaci√≥n mensual
3. **Visualizaci√≥n** de patrones temporales
4. **An√°lisis cr√≠tico** del rendimiento y recomendaciones

## 1. Configuraci√≥n Inicial

In [None]:
# Importaciones necesarias
import sys
from pathlib import Path
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

# A√±adir src al path para importar nuestro paquete
current_dir = Path.cwd()
if 'notebook' in str(current_dir):
    src_dir = current_dir.parent / "src"
else:
    src_dir = current_dir / "src"

if src_dir.exists():
    sys.path.insert(0, str(src_dir))
    print(f"‚úÖ Agregado al path: {src_dir}")
else:
    print(f"‚ö†Ô∏è  Directorio src no encontrado: {src_dir}")

print(f"üìÅ Directorio de trabajo: {current_dir}")

In [None]:
# Importar nuestro paquete de evaluaci√≥n temporal
from taxi_tips_classifier.temporal_evaluation import TemporalModelEvaluator
from taxi_tips_classifier.model import TaxiTipClassifier

print("‚úÖ M√≥dulos importados correctamente")

## 2. Configuraci√≥n del Experimento

In [None]:
# Configuraci√≥n del experimento
MODEL_PATH = "../random_forest.joblib"  # Ruta al modelo entrenado
SAMPLE_SIZE = 25000  # Muestras por mes para evaluaci√≥n r√°pida (None = todos los datos)

# Meses a evaluar (modelo entrenado en enero 2020)
MONTHS_TO_EVALUATE = [
    "2020-01",  # Mes de entrenamiento (baseline)
    "2020-02",  # Febrero
    "2020-03",  # Marzo (inicio COVID-19)
    "2020-04",  # Abril (confinamiento)
    "2020-05",  # Mayo (reapertura gradual)
    "2020-06"   # Junio (nueva normalidad)
]

print(f"üéØ Configuraci√≥n del experimento:")
print(f"   üìÅ Modelo: {MODEL_PATH}")
print(f"   üìä Muestras por mes: {SAMPLE_SIZE or 'Todos los datos'}")
print(f"   üìÖ Meses a evaluar: {len(MONTHS_TO_EVALUATE)}")
print(f"   üóìÔ∏è  Per√≠odo: {MONTHS_TO_EVALUATE[0]} - {MONTHS_TO_EVALUATE[-1]}")

## 3. Inicializaci√≥n del Evaluador Temporal

In [None]:
# Verificar que el modelo existe
import os
if not os.path.exists(MODEL_PATH):
    print(f"‚ùå Modelo no encontrado en: {MODEL_PATH}")
    print("üí° Ejecuta primero el script de entrenamiento:")
    print("   python scripts/train_simple.py")
else:
    print(f"‚úÖ Modelo encontrado: {MODEL_PATH}")
    
    # Inicializar el evaluador temporal
    evaluator = TemporalModelEvaluator(model_path=MODEL_PATH)
    print("‚úÖ Evaluador temporal inicializado")

## 4. Evaluaci√≥n Mensual Automatizada

Aqu√≠ ejecutamos la evaluaci√≥n del modelo en cada mes seleccionado, calculando m√©tricas de rendimiento y recopilando estad√≠sticas.

In [None]:
# Ejecutar evaluaci√≥n mensual
print("üöÄ Iniciando evaluaci√≥n temporal...")
print("=" * 50)

# Esta funci√≥n automatiza la evaluaci√≥n para m√∫ltiples meses
monthly_results = evaluator.evaluate_multiple_months(
    months=MONTHS_TO_EVALUATE,
    sample_size=SAMPLE_SIZE
)

print(f"\n‚úÖ Evaluaci√≥n completada para {len(monthly_results)} meses")

## 5. Tabla de Resultados Mensuales

Organizamos los resultados en una tabla clara con las m√©tricas principales por mes.

In [None]:
# Crear tabla de resultados
results_table = evaluator.create_results_table(monthly_results)

print("üìä TABLA DE RESULTADOS MENSUALES")
print("=" * 50)
display(results_table)

# Estad√≠sticas resumidas
f1_scores = [float(score) for score in results_table['F1-Score']]
print(f"\nüìà ESTAD√çSTICAS RESUMIDAS:")
print(f"   F1-Score promedio: {np.mean(f1_scores):.4f}")
print(f"   F1-Score m√≠nimo: {np.min(f1_scores):.4f}")
print(f"   F1-Score m√°ximo: {np.max(f1_scores):.4f}")
print(f"   Desviaci√≥n est√°ndar: {np.std(f1_scores):.4f}")
print(f"   Coeficiente de variaci√≥n: {(np.std(f1_scores)/np.mean(f1_scores))*100:.2f}%")

## 6. Visualizaci√≥n del Rendimiento Temporal

Creamos gr√°ficos para visualizar patrones, tendencias y anomal√≠as en el rendimiento del modelo.

In [None]:
# Generar visualizaciones completas
fig = evaluator.plot_temporal_performance(
    results=monthly_results,
    figsize=(16, 12)
)

plt.show()

print("üìä Gr√°ficos generados:")
print("   1. M√©tricas de rendimiento por mes")
print("   2. N√∫mero de muestras por mes")
print("   3. Distribuci√≥n de propinas altas")
print("   4. F1-Score con intervalos de confianza")

## 7. An√°lisis de Degradaci√≥n del Modelo

Analizamos espec√≠ficamente c√≥mo el rendimiento del modelo cambia respecto al mes de entrenamiento (baseline).

In [None]:
# An√°lisis detallado de degradaci√≥n
degradation_analysis = evaluator.analyze_performance_degradation(monthly_results)

print("üîç AN√ÅLISIS DE DEGRADACI√ìN DEL MODELO")
print("=" * 50)

baseline = degradation_analysis['baseline_month']
baseline_f1 = degradation_analysis['baseline_f1_score']
max_degradation = degradation_analysis['max_degradation']
most_degraded = degradation_analysis['most_degraded_month']

print(f"üìÖ Mes baseline (entrenamiento): {baseline}")
print(f"üéØ F1-Score baseline: {baseline_f1:.4f}")
print(f"üìâ Degradaci√≥n m√°xima: {max_degradation:.4f} ({(max_degradation/baseline_f1)*100:.1f}%)")
print(f"‚ö†Ô∏è  Mes m√°s degradado: {most_degraded}")

print(f"\nüìä Cambios mensuales respecto al baseline:")
for month, change_info in degradation_analysis['monthly_changes'].items():
    change = change_info['change_from_baseline']
    percentage = change_info['percentage_change']
    status = "üìà" if change >= 0 else "üìâ"
    print(f"   {status} {month}: {change:+.4f} ({percentage:+.1f}%)")

## 8. An√°lisis de Tendencias y Correlaciones

In [None]:
# An√°lisis de tendencias
trends = degradation_analysis['trends']

print("üìà AN√ÅLISIS DE TENDENCIAS")
print("=" * 40)

print(f"üéØ Tendencia F1-Score: {trends['f1_trend']}")
print(f"üìä Tendencia tama√±o muestras: {trends['sample_size_trend']}")
print(f"üí∞ Tendencia tasa propinas altas: {trends['high_tip_rate_trend']}")
print(f"üìê Varianza F1-Score: {trends['f1_variance']:.6f}")

print(f"\nüîó CORRELACIONES:")
corr_sample = trends['correlation_f1_sample_size']
corr_tip_rate = trends['correlation_f1_tip_rate']

print(f"   F1 vs Tama√±o muestra: {corr_sample:.3f}")
print(f"   F1 vs Tasa propinas altas: {corr_tip_rate:.3f}")

# Interpretaci√≥n de correlaciones
if abs(corr_tip_rate) > 0.5:
    direction = "positiva" if corr_tip_rate > 0 else "negativa"
    print(f"   üí° Correlaci√≥n {direction} fuerte con comportamiento de propinas")

if abs(corr_sample) > 0.5:
    direction = "positiva" if corr_sample > 0 else "negativa"
    print(f"   üí° Correlaci√≥n {direction} fuerte con tama√±o de muestra")

## 9. Visualizaci√≥n Adicional: Evoluci√≥n Temporal Detallada

In [None]:
# Crear un gr√°fico personalizado para mostrar la evoluci√≥n temporal
fig, axes = plt.subplots(2, 2, figsize=(15, 10))
fig.suptitle('An√°lisis Temporal Detallado - NYC Taxi Tips Model', fontsize=16, fontweight='bold')

months = sorted(monthly_results.keys())
month_labels = [month.replace('2020-', '') for month in months]

# 1. Evoluci√≥n de m√©tricas principales
ax1 = axes[0, 0]
metrics = ['f1_score', 'accuracy', 'precision', 'recall']
colors = ['red', 'blue', 'green', 'orange']
for metric, color in zip(metrics, colors):
    values = [monthly_results[month][metric] for month in months]
    ax1.plot(month_labels, values, marker='o', linewidth=2, color=color, label=metric.replace('_', ' ').title())

ax1.set_title('Evoluci√≥n de M√©tricas de Rendimiento')
ax1.set_xlabel('Mes (2020)')
ax1.set_ylabel('Score')
ax1.legend()
ax1.grid(True, alpha=0.3)
ax1.set_ylim(0.6, 1.0)

# 2. Cambios relativos al baseline
ax2 = axes[0, 1]
baseline_f1 = monthly_results[months[0]]['f1_score']
relative_changes = [(monthly_results[month]['f1_score'] - baseline_f1) * 100 for month in months]
bars = ax2.bar(month_labels, relative_changes, color=['green' if x >= 0 else 'red' for x in relative_changes])
ax2.set_title(f'Cambio Relativo vs Baseline ({months[0]})')
ax2.set_xlabel('Mes (2020)')
ax2.set_ylabel('Cambio en F1-Score (%)')
ax2.axhline(y=0, color='black', linestyle='-', alpha=0.5)
ax2.grid(True, alpha=0.3)

# 3. Distribuci√≥n de clases por mes
ax3 = axes[1, 0]
high_tip_counts = [monthly_results[month]['support']['positive_samples'] for month in months]
low_tip_counts = [monthly_results[month]['support']['negative_samples'] for month in months]

x = np.arange(len(month_labels))
width = 0.35
ax3.bar(x - width/2, high_tip_counts, width, label='Propinas Altas', color='gold', alpha=0.8)
ax3.bar(x + width/2, low_tip_counts, width, label='Propinas Bajas', color='lightblue', alpha=0.8)

ax3.set_title('Distribuci√≥n de Clases por Mes')
ax3.set_xlabel('Mes (2020)')
ax3.set_ylabel('N√∫mero de Muestras')
ax3.set_xticks(x)
ax3.set_xticklabels(month_labels)
ax3.legend()
ax3.grid(True, alpha=0.3)

# 4. An√°lisis de estabilidad (rolling variance)
ax4 = axes[1, 1]
f1_values = [monthly_results[month]['f1_score'] for month in months]
if len(f1_values) >= 3:
    rolling_std = pd.Series(f1_values).rolling(window=3, center=True).std()
    ax4.plot(month_labels, rolling_std, marker='s', linewidth=2, color='purple')
    ax4.fill_between(month_labels, rolling_std, alpha=0.3, color='purple')
    ax4.set_title('Estabilidad del Modelo (Desv. Est√°ndar Rolling)')
else:
    ax4.bar(month_labels, [np.std(f1_values)] * len(month_labels), color='purple', alpha=0.6)
    ax4.set_title('Variabilidad General del F1-Score')

ax4.set_xlabel('Mes (2020)')
ax4.set_ylabel('Desviaci√≥n Est√°ndar')
ax4.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("üìä An√°lisis visual completado")

## 10. An√°lisis Cr√≠tico y Explicaci√≥n de Resultados

### üéØ Respuestas a las Preguntas Clave:

#### ¬øEl modelo mantiene un rendimiento consistente?

In [None]:
# An√°lisis de consistencia
f1_scores = [monthly_results[month]['f1_score'] for month in months]
cv_coefficient = (np.std(f1_scores) / np.mean(f1_scores)) * 100
max_drop = max([degradation_analysis['monthly_changes'][month]['degradation'] 
                for month in degradation_analysis['monthly_changes']])

print("üéØ CONSISTENCIA DEL RENDIMIENTO")
print("=" * 40)

if cv_coefficient < 5:
    consistency_level = "MUY CONSISTENTE"
    emoji = "‚úÖ"
elif cv_coefficient < 10:
    consistency_level = "MODERADAMENTE CONSISTENTE"
    emoji = "‚ö†Ô∏è"
else:
    consistency_level = "INCONSISTENTE"
    emoji = "‚ùå"

print(f"{emoji} El modelo es {consistency_level}")
print(f"   Coeficiente de variaci√≥n: {cv_coefficient:.2f}%")
print(f"   Ca√≠da m√°xima: {max_drop:.4f} ({(max_drop/baseline_f1)*100:.1f}%)")

if max_drop > 0.05:
    print(f"   ‚ö†Ô∏è  ALERTA: Degradaci√≥n significativa detectada")
elif max_drop > 0.02:
    print(f"   ‚ö†Ô∏è  Degradaci√≥n moderada observada")
else:
    print(f"   ‚úÖ Degradaci√≥n dentro de l√≠mites aceptables")

#### ¬øQu√© factores podr√≠an explicar la variaci√≥n en el desempe√±o?

In [None]:
print("üîç FACTORES QUE EXPLICAN LA VARIACI√ìN")
print("=" * 45)

# Factor 1: Cambios en el comportamiento de propinas
tip_rates = []
for month in months:
    total = monthly_results[month]['total_samples']
    high_tips = monthly_results[month]['support']['positive_samples']
    tip_rates.append((high_tips / total) * 100)

tip_rate_variance = np.var(tip_rates)
tip_rate_change = abs(tip_rates[-1] - tip_rates[0])

print(f"1. üí∞ COMPORTAMIENTO DE PROPINAS:")
print(f"   Tasa propinas altas inicial: {tip_rates[0]:.1f}%")
print(f"   Tasa propinas altas final: {tip_rates[-1]:.1f}%")
print(f"   Cambio total: {tip_rates[-1] - tip_rates[0]:+.1f} puntos porcentuales")
print(f"   Varianza en tasas: {tip_rate_variance:.2f}")

if tip_rate_change > 2:
    print(f"   üìä Factor SIGNIFICATIVO: Gran cambio en comportamiento de propinas")

# Factor 2: Efectos estacionales/temporales (COVID-19)
print(f"\n2. üìÖ EFECTOS TEMPORALES (COVID-19):")
covid_months = ['2020-03', '2020-04', '2020-05']
covid_performance = [monthly_results[month]['f1_score'] for month in covid_months if month in monthly_results]
pre_covid = [monthly_results[month]['f1_score'] for month in ['2020-01', '2020-02'] if month in monthly_results]

if covid_performance and pre_covid:
    covid_avg = np.mean(covid_performance)
    pre_covid_avg = np.mean(pre_covid)
    covid_impact = covid_avg - pre_covid_avg
    
    print(f"   F1-Score pre-COVID: {pre_covid_avg:.4f}")
    print(f"   F1-Score durante COVID: {covid_avg:.4f}")
    print(f"   Impacto COVID: {covid_impact:+.4f}")
    
    if abs(covid_impact) > 0.02:
        direction = "negativo" if covid_impact < 0 else "positivo"
        print(f"   üìä Factor SIGNIFICATIVO: Impacto {direction} del COVID-19")

# Factor 3: Tama√±o de muestra
sample_sizes = [monthly_results[month]['total_samples'] for month in months]
sample_variance = np.var(sample_sizes)
corr_sample = trends['correlation_f1_sample_size']

print(f"\n3. üìä TAMA√ëO DE MUESTRA:")
print(f"   Correlaci√≥n F1 vs Tama√±o: {corr_sample:.3f}")
print(f"   Varianza en tama√±os: {sample_variance:,.0f}")

if abs(corr_sample) > 0.5:
    direction = "positiva" if corr_sample > 0 else "negativa"
    print(f"   üìä Factor RELEVANTE: Correlaci√≥n {direction} con tama√±o de muestra")

# Factor 4: Drift en caracter√≠sticas
print(f"\n4. üîÑ CONCEPT DRIFT:")
if trends['f1_variance'] > 0.001:
    print(f"   Alta variabilidad (œÉ¬≤={trends['f1_variance']:.6f}) sugiere drift temporal")
    print(f"   üìä Factor PROBABLE: Cambio en distribuci√≥n de caracter√≠sticas")
else:
    print(f"   Baja variabilidad sugiere estabilidad en caracter√≠sticas")

#### ¬øQu√© acciones recomendar√≠as para mejorar la robustez del modelo?

In [None]:
# Generar recomendaciones personalizadas basadas en el an√°lisis
print("üí° RECOMENDACIONES PARA MEJORAR LA ROBUSTEZ")
print("=" * 50)

recommendations = []

# Recomendaciones basadas en degradaci√≥n
if max_drop > 0.05:
    recommendations.append(
        "üîÑ CR√çTICO: Implementar reentrenamiento autom√°tico mensual debido a degradaci√≥n significativa"
    )
    recommendations.append(
        "üìä Establecer alertas cuando F1-score caiga m√°s del 5% respecto al baseline"
    )

# Recomendaciones basadas en variabilidad
if cv_coefficient > 5:
    recommendations.append(
        "üìà Implementar t√©cnicas de regularizaci√≥n temporal para reducir variabilidad"
    )
    recommendations.append(
        "üéØ Considerar ensemble models con diferentes ventanas temporales"
    )

# Recomendaciones basadas en correlaciones
if abs(trends['correlation_f1_tip_rate']) > 0.5:
    recommendations.append(
        "üí∞ Incorporar caracter√≠sticas din√°micas del comportamiento de propinas"
    )
    recommendations.append(
        "üìä Monitorear la distribuci√≥n de propinas como indicador de drift"
    )

# Recomendaciones generales
recommendations.extend([
    "üîç Implementar monitoreo continuo de data drift usando tests estad√≠sticos",
    "‚è∞ Establecer ventanas de reentrenamiento adaptativas basadas en degradaci√≥n",
    "üéõÔ∏è Implementar A/B testing para comparar modelos en producci√≥n",
    "üìã Crear dashboard de monitoreo con m√©tricas temporales en tiempo real",
    "üß™ Experimentar con domain adaptation techniques para cambios temporales",
    "üìÖ Incorporar caracter√≠sticas estacionales (d√≠a de semana, mes, festividades)",
    "üèóÔ∏è Desarrollar pipeline de feature engineering adaptativo",
    "üìà Implementar early warning system basado en degradaci√≥n de m√©tricas"
])

# Imprimir recomendaciones numeradas
for i, rec in enumerate(recommendations, 1):
    print(f"{i:2d}. {rec}")

print(f"\nüéØ PRIORIDADES INMEDIATAS:")
if max_drop > 0.05:
    print(f"   1. Reentrenamiento urgente del modelo")
    print(f"   2. Implementaci√≥n de sistema de alertas")
elif cv_coefficient > 10:
    print(f"   1. An√°lisis detallado de causas de variabilidad")
    print(f"   2. Implementaci√≥n de monitoreo continuo")
else:
    print(f"   1. Monitoreo preventivo mensual")
    print(f"   2. Mejoras incrementales en pipeline")

## 11. Resumen Ejecutivo y Conclusiones

In [None]:
# Generar resumen ejecutivo
print("üìã RESUMEN EJECUTIVO - EVALUACI√ìN TEMPORAL")
print("=" * 55)

# M√©tricas clave
baseline_month = degradation_analysis['baseline_month']
baseline_score = degradation_analysis['baseline_f1_score']
final_month = months[-1]
final_score = monthly_results[final_month]['f1_score']
total_change = final_score - baseline_score

print(f"üìä M√âTRICAS CLAVE:")
print(f"   Per√≠odo evaluado: {months[0]} - {months[-1]} ({len(months)} meses)")
print(f"   F1-Score inicial: {baseline_score:.4f}")
print(f"   F1-Score final: {final_score:.4f}")
print(f"   Cambio total: {total_change:+.4f} ({(total_change/baseline_score)*100:+.1f}%)")
print(f"   Coeficiente de variaci√≥n: {cv_coefficient:.2f}%")

# Estado del modelo
print(f"\nüéØ ESTADO DEL MODELO:")
if max_drop < 0.02 and cv_coefficient < 5:
    status = "‚úÖ SALUDABLE"
    action = "Continuar monitoreo regular"
elif max_drop < 0.05 and cv_coefficient < 10:
    status = "‚ö†Ô∏è REQUIERE ATENCI√ìN"
    action = "Implementar monitoreo mejorado"
else:
    status = "‚ùå CR√çTICO"
    action = "Reentrenamiento inmediato requerido"

print(f"   Estado: {status}")
print(f"   Acci√≥n recomendada: {action}")

# Factores identificados
print(f"\nüîç FACTORES PRINCIPALES IDENTIFICADOS:")
key_factors = []

if abs(trends['correlation_f1_tip_rate']) > 0.5:
    key_factors.append("Cambios en comportamiento de propinas")

if tip_rate_change > 2:
    key_factors.append("Variaci√≥n significativa en distribuci√≥n de clases")

if trends['f1_variance'] > 0.001:
    key_factors.append("Concept drift temporal")

if 'covid_impact' in locals() and abs(covid_impact) > 0.02:
    key_factors.append("Impacto de eventos externos (COVID-19)")

if not key_factors:
    key_factors.append("Rendimiento estable sin factores cr√≠ticos identificados")

for i, factor in enumerate(key_factors, 1):
    print(f"   {i}. {factor}")

# Pr√≥ximos pasos
print(f"\nüöÄ PR√ìXIMOS PASOS:")
next_steps = [
    "Guardar este an√°lisis como baseline para futuras evaluaciones",
    "Establecer pipeline de monitoreo automatizado",
    "Definir umbrales de alerta basados en estos resultados",
    "Programar reevaluaciones mensuales autom√°ticas"
]

for i, step in enumerate(next_steps, 1):
    print(f"   {i}. {step}")

print(f"\nüìÖ Evaluaci√≥n completada: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("=" * 55)

## 12. Exportar Resultados

In [None]:
# Guardar resultados para uso futuro
import os
from datetime import datetime

# Crear directorio de resultados
results_dir = "temporal_evaluation_results"
os.makedirs(results_dir, exist_ok=True)

# Guardar tabla de resultados
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
table_path = os.path.join(results_dir, f"resultados_temporales_{timestamp}.csv")
results_table.to_csv(table_path, index=False)

# Guardar an√°lisis completo
import joblib
analysis_path = os.path.join(results_dir, f"analisis_completo_{timestamp}.joblib")
complete_analysis = {
    'monthly_results': monthly_results,
    'degradation_analysis': degradation_analysis,
    'results_table': results_table,
    'metadata': {
        'model_path': MODEL_PATH,
        'sample_size': SAMPLE_SIZE,
        'months_evaluated': MONTHS_TO_EVALUATE,
        'evaluation_date': datetime.now().isoformat(),
        'consistency_level': consistency_level,
        'cv_coefficient': cv_coefficient,
        'max_degradation': max_drop
    }
}

joblib.dump(complete_analysis, analysis_path)

print(f"üíæ RESULTADOS GUARDADOS:")
print(f"   üìÑ Tabla CSV: {table_path}")
print(f"   üìä An√°lisis completo: {analysis_path}")
print(f"   üìÅ Directorio: {results_dir}")

print(f"\n‚úÖ Evaluaci√≥n temporal completada exitosamente")
print(f"üìã Este notebook demostr√≥ el comportamiento del modelo a lo largo del tiempo")
print(f"üéØ Los resultados proporcionan insights valiosos para la mejora continua del modelo")