# 03 - Modelos de Forecasting

**Proyecto:** Forecast Promtur - Tr√°fico Org√°nico  
**Objetivo:** Generar predicciones de m√©tricas para 2026 usando Prophet

---

## Contenido:
1. Carga del dataset procesado
2. Preparaci√≥n de datos para Prophet
3. An√°lisis de series temporales
4. Modelos de forecasting por canal
5. Evaluaci√≥n de resultados
6. Visualizaci√≥n de predicciones 2026
7. Exportaci√≥n de resultados

## 1. Configuraci√≥n inicial y librer√≠as

In [None]:
# Importar librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
from prophet import Prophet
from datetime import datetime, timedelta
import json

# Ignorar warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
plt.rcParams['figure.figsize'] = (14, 6)
plt.rcParams['font.size'] = 10

# Configuraci√≥n de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

print("‚úÖ Librer√≠as importadas correctamente")

## 2. Carga del dataset procesado

In [None]:
# Definir rutas del proyecto
DATA_PROCESSED = Path('../data/processed')
DATA_FORECASTS = Path('../data/forecasts')
MODELS_DIR = Path('../models')
RESULTS_FIGURES = Path('../results/figures/forecasts')
RESULTS_REPORTS = Path('../results/reports')

# Crear carpetas si no existen
DATA_FORECASTS.mkdir(parents=True, exist_ok=True)
MODELS_DIR.mkdir(parents=True, exist_ok=True)
RESULTS_FIGURES.mkdir(parents=True, exist_ok=True)
RESULTS_REPORTS.mkdir(parents=True, exist_ok=True)

# Cargar dataset limpio
dataset_file = DATA_PROCESSED / 'dataset_clean.csv'

if dataset_file.exists():
    df = pd.read_csv(dataset_file)
    print(f"‚úÖ Dataset limpio cargado exitosamente")
    print(f"üìä Dimensiones: {df.shape[0]} filas x {df.shape[1]} columnas")
else:
    print(f"‚ùå Error: No se encontr√≥ el archivo {dataset_file}")
    print(f"üìÅ Ejecuta primero el Notebook 02 para generar el dataset limpio")

In [None]:
# Mostrar estructura del dataset
print("üìã Estructura del dataset:\n")
df.head(10)

In [None]:
# Informaci√≥n del dataset
print("‚ÑπÔ∏è Informaci√≥n del dataset:\n")
print(f"Canales: {sorted(df['channel'].unique())}")
print(f"Per√≠odo: {df['year'].min()}-{df['month'].min()} a {df['year'].max()}-{df['month'].max()}")
print(f"Total de meses: {df[['year', 'month']].drop_duplicates().shape[0]}")

## 3. Preparaci√≥n de datos para Prophet

Prophet requiere un DataFrame con columnas espec√≠ficas:
- `ds`: Fecha (datetime)
- `y`: Valor a predecir (num√©rico)

In [None]:
# Crear columna de fecha
df['ds'] = pd.to_datetime(
    df['year'].astype(str) + '-' + df['month'].astype(str) + '-01'
)

print("‚úÖ Columna de fecha 'ds' creada para Prophet")
print(f"\nRango de fechas: {df['ds'].min()} a {df['ds'].max()}")

In [None]:
# ===================================================================
# CONFIGURACI√ìN: M√©tricas y canales para forecasting
# ===================================================================

# M√©tricas a predecir (sin 'users' por ahora)
metricas_forecast = [
    'sessions',
    'bounce_rate',
    'views_per_session',
    'avg_session_duration'
]

# Canales a analizar (autom√°tico: todos los canales del dataset)
canales = sorted(df['channel'].unique())

# Horizonte de predicci√≥n: 12 meses (todo 2026)
periodos_forecast = 12

print(f"üìä Configuraci√≥n de forecasting:")
print(f"\nM√©tricas a predecir: {len(metricas_forecast)}")
for metrica in metricas_forecast:
    print(f"   - {metrica}")

print(f"\nCanales a analizar: {len(canales)}")
for canal in canales:
    print(f"   - {canal}")

print(f"\nHorizonte de predicci√≥n: {periodos_forecast} meses (todo 2026)")
print(f"\nTotal de modelos a entrenar: {len(metricas_forecast)} m√©tricas √ó {len(canales)} canales = {len(metricas_forecast) * len(canales)} modelos")

## 4. An√°lisis visual de series temporales

Antes de hacer forecasting, visualicemos las series temporales de cada m√©trica por canal.

In [None]:
# Funci√≥n para visualizar series temporales
def plot_series_temporales(df, metrica, titulo):
    """
    Grafica la evoluci√≥n temporal de una m√©trica para todos los canales
    """
    fig, ax = plt.subplots(figsize=(14, 6))
    
    for canal in sorted(df['channel'].unique()):
        data_canal = df[df['channel'] == canal].sort_values('ds')
        ax.plot(data_canal['ds'], data_canal[metrica], 
                marker='o', label=canal, linewidth=2, markersize=6)
    
    ax.set_xlabel('Fecha', fontsize=12)
    ax.set_ylabel(titulo, fontsize=12)
    ax.set_title(f'Evoluci√≥n de {titulo} por Canal (2025)', fontsize=14, fontweight='bold')
    ax.legend(title='Canal', bbox_to_anchor=(1.05, 1), loc='upper left')
    ax.grid(True, alpha=0.3)
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

# Visualizar cada m√©trica
metricas_titulos = {
    'sessions': 'Sesiones',
    'bounce_rate': 'Bounce Rate (%)',
    'views_per_session': 'Vistas por Sesi√≥n',
    'avg_session_duration': 'Duraci√≥n Promedio (segundos)'
}

for metrica, titulo in metricas_titulos.items():
    print(f"\nüìà Gr√°fico: {titulo}")
    plot_series_temporales(df, metrica, titulo)

## 5. Funci√≥n de forecasting con Prophet

Crearemos una funci√≥n para entrenar modelos Prophet y generar predicciones.

In [None]:
def crear_forecast_prophet(df_canal, metrica, periodos=12):
    """
    Crea un modelo Prophet y genera predicciones.
    
    Args:
        df_canal (pd.DataFrame): DataFrame con columnas 'ds' y la m√©trica
        metrica (str): Nombre de la m√©trica a predecir
        periodos (int): N√∫mero de per√≠odos (meses) a predecir
    
    Returns:
        tuple: (modelo, forecast_df, metricas_evaluacion)
    """
    # Preparar datos para Prophet
    df_prophet = df_canal[['ds', metrica]].rename(columns={metrica: 'y'})
    
    # Crear y entrenar modelo
    model = Prophet(
        yearly_seasonality=False,  # No tenemos datos de varios a√±os
        weekly_seasonality=False,  # Datos mensuales
        daily_seasonality=False,   # Datos mensuales
        interval_width=0.95        # Intervalo de confianza del 95%
    )
    
    model.fit(df_prophet)
    
    # Crear dataframe futuro
    future = model.make_future_dataframe(periods=periodos, freq='MS')  # MS = Month Start
    
    # Generar predicciones
    forecast = model.predict(future)
    
    # Calcular m√©tricas de evaluaci√≥n en datos hist√≥ricos
    # Comparar valores reales vs predichos en el per√≠odo hist√≥rico
    forecast_historico = forecast[forecast['ds'].isin(df_prophet['ds'])]
    valores_reales = df_prophet['y'].values
    valores_predichos = forecast_historico['yhat'].values
    
    mae = np.mean(np.abs(valores_reales - valores_predichos))
    rmse = np.sqrt(np.mean((valores_reales - valores_predichos)**2))
    mape = np.mean(np.abs((valores_reales - valores_predichos) / valores_reales)) * 100
    
    metricas_eval = {
        'MAE': mae,
        'RMSE': rmse,
        'MAPE': mape
    }
    
    return model, forecast, metricas_eval

print("‚úÖ Funci√≥n de forecasting con Prophet creada")

## 6. Generaci√≥n de forecasts por canal y m√©trica

Ahora entrenaremos modelos para cada combinaci√≥n de canal + m√©trica.

In [None]:
# Diccionario para almacenar todos los resultados
resultados_forecasts = {}
metricas_evaluacion = {}

print("üöÄ Iniciando generaci√≥n de forecasts...\n")
print("="*70)

total_modelos = len(canales) * len(metricas_forecast)
modelo_actual = 0

for canal in canales:
    print(f"\nüìä Canal: {canal}")
    print("-" * 70)
    
    # Filtrar datos del canal
    df_canal = df[df['channel'] == canal].sort_values('ds').reset_index(drop=True)
    
    resultados_forecasts[canal] = {}
    metricas_evaluacion[canal] = {}
    
    for metrica in metricas_forecast:
        modelo_actual += 1
        print(f"\n   [{modelo_actual}/{total_modelos}] M√©trica: {metrica}")
        
        # Generar forecast
        model, forecast, metrics = crear_forecast_prophet(
            df_canal, 
            metrica, 
            periodos=periodos_forecast
        )
        
        # Guardar resultados
        resultados_forecasts[canal][metrica] = forecast
        metricas_evaluacion[canal][metrica] = metrics
        
        # Mostrar m√©tricas de evaluaci√≥n
        print(f"      MAE:  {metrics['MAE']:.2f}")
        print(f"      RMSE: {metrics['RMSE']:.2f}")
        print(f"      MAPE: {metrics['MAPE']:.2f}%")

print("\n" + "="*70)
print("‚úÖ Todos los modelos entrenados exitosamente")
print(f"\nTotal de modelos: {total_modelos}")

## 7. Resumen de m√©tricas de evaluaci√≥n

In [None]:
# Crear DataFrame con resumen de m√©tricas de evaluaci√≥n
resumen_evaluacion = []

for canal in canales:
    for metrica in metricas_forecast:
        metrics = metricas_evaluacion[canal][metrica]
        resumen_evaluacion.append({
            'Canal': canal,
            'M√©trica': metrica,
            'MAE': metrics['MAE'],
            'RMSE': metrics['RMSE'],
            'MAPE (%)': metrics['MAPE']
        })

df_evaluacion = pd.DataFrame(resumen_evaluacion)

print("üìä Resumen de m√©tricas de evaluaci√≥n de modelos:\n")
display(df_evaluacion)

In [None]:
# Guardar resumen de evaluaci√≥n
eval_file = RESULTS_REPORTS / 'model_evaluation_metrics.csv'
df_evaluacion.to_csv(eval_file, index=False)
print(f"\nüíæ M√©tricas de evaluaci√≥n guardadas en: {eval_file}")

## 8. Visualizaci√≥n de predicciones 2026

Visualizaremos las predicciones para cada m√©trica y canal.

In [None]:
def plot_forecast(df_historico, forecast, canal, metrica, titulo):
    """
    Grafica datos hist√≥ricos y predicciones con intervalos de confianza
    """
    fig, ax = plt.subplots(figsize=(14, 6))
    
    # Datos hist√≥ricos
    ax.plot(df_historico['ds'], df_historico[metrica], 
            'o-', color='black', label='Hist√≥rico', linewidth=2, markersize=6)
    
    # Predicciones
    forecast_futuro = forecast[forecast['ds'] > df_historico['ds'].max()]
    ax.plot(forecast_futuro['ds'], forecast_futuro['yhat'], 
            'o-', color='#0072B2', label='Predicci√≥n', linewidth=2, markersize=6)
    
    # Intervalo de confianza
    ax.fill_between(forecast_futuro['ds'], 
                     forecast_futuro['yhat_lower'], 
                     forecast_futuro['yhat_upper'],
                     alpha=0.3, color='#0072B2', label='Intervalo de confianza (95%)')
    
    ax.set_xlabel('Fecha', fontsize=12)
    ax.set_ylabel(titulo, fontsize=12)
    ax.set_title(f'{titulo} - {canal}', fontsize=14, fontweight='bold')
    ax.legend(loc='best')
    ax.grid(True, alpha=0.3)
    plt.xticks(rotation=45)
    plt.tight_layout()
    
    # Guardar gr√°fico
    filename = f"forecast_{metrica}_{canal.replace(' ', '_').lower()}.png"
    plt.savefig(RESULTS_FIGURES / filename, dpi=300, bbox_inches='tight')
    plt.show()
    
    return filename

print("‚úÖ Funci√≥n de visualizaci√≥n creada")

In [None]:
# Generar gr√°ficos para todas las combinaciones
print("üìä Generando visualizaciones de predicciones...\n")

graficos_generados = []

for canal in canales:
    print(f"\nüìà Canal: {canal}")
    print("-" * 70)
    
    df_canal = df[df['channel'] == canal].sort_values('ds')
    
    for metrica in metricas_forecast:
        print(f"   Gr√°fico: {metrica}")
        
        forecast = resultados_forecasts[canal][metrica]
        titulo = metricas_titulos[metrica]
        
        filename = plot_forecast(df_canal, forecast, canal, metrica, titulo)
        graficos_generados.append(filename)

print(f"\n‚úÖ {len(graficos_generados)} gr√°ficos generados y guardados en: {RESULTS_FIGURES}")

## 9. Exportaci√≥n de predicciones 2026

Consolidaremos todas las predicciones en un √∫nico dataset.

In [None]:
# Extraer solo las predicciones de 2026
predicciones_2026 = []

for canal in canales:
    for metrica in metricas_forecast:
        forecast = resultados_forecasts[canal][metrica]
        
        # Filtrar solo fechas de 2026
        forecast_2026 = forecast[forecast['ds'].dt.year == 2026][['ds', 'yhat', 'yhat_lower', 'yhat_upper']].copy()
        
        # Agregar informaci√≥n del canal y m√©trica
        forecast_2026['channel'] = canal
        forecast_2026['metric'] = metrica
        forecast_2026['year'] = 2026
        forecast_2026['month'] = forecast_2026['ds'].dt.month
        
        # Renombrar columnas
        forecast_2026 = forecast_2026.rename(columns={
            'yhat': 'predicted_value',
            'yhat_lower': 'lower_bound',
            'yhat_upper': 'upper_bound'
        })
        
        predicciones_2026.append(forecast_2026)

# Consolidar en un DataFrame
df_predicciones = pd.concat(predicciones_2026, ignore_index=True)

# Reordenar columnas
df_predicciones = df_predicciones[[
    'year', 'month', 'channel', 'metric', 
    'predicted_value', 'lower_bound', 'upper_bound', 'ds'
]].sort_values(['channel', 'metric', 'year', 'month']).reset_index(drop=True)

print("üìä Predicciones 2026 consolidadas:\n")
print(f"Total de predicciones: {len(df_predicciones)}")
print(f"\nPrimeras filas:")
display(df_predicciones.head(15))

In [None]:
# Guardar predicciones en CSV
forecast_file = DATA_FORECASTS / 'forecasts_2026_all_channels.csv'
df_predicciones.to_csv(forecast_file, index=False)

print(f"‚úÖ Predicciones guardadas en: {forecast_file}")
print(f"üìä Dimensiones: {df_predicciones.shape[0]} filas x {df_predicciones.shape[1]} columnas")
print(f"üíæ Tama√±o: {forecast_file.stat().st_size / 1024:.2f} KB")

## 10. Resumen ejecutivo de predicciones

In [None]:
# Crear resumen por canal y m√©trica (promedio anual 2026)
resumen_2026 = df_predicciones.groupby(['channel', 'metric']).agg({
    'predicted_value': ['mean', 'sum', 'min', 'max'],
    'lower_bound': 'mean',
    'upper_bound': 'mean'
}).round(2)

print("üìä Resumen de predicciones 2026 por canal y m√©trica:\n")
display(resumen_2026)

In [None]:
# Guardar resumen ejecutivo
resumen_file = RESULTS_REPORTS / 'summary_forecasts_2026.csv'
resumen_2026.to_csv(resumen_file)
print(f"\nüíæ Resumen ejecutivo guardado en: {resumen_file}")

In [None]:
# Resumen final
print("="*70)
print("üéØ RESUMEN FINAL DEL FORECASTING")
print("="*70)

print(f"\n1. MODELOS ENTRENADOS:")
print(f"   - Total de modelos: {len(canales) * len(metricas_forecast)}")
print(f"   - Canales analizados: {len(canales)}")
print(f"   - M√©tricas predichas: {len(metricas_forecast)}")

print(f"\n2. PER√çODO DE PREDICCI√ìN:")
print(f"   - Horizonte: 12 meses (2026)")
print(f"   - Desde: Enero 2026")
print(f"   - Hasta: Diciembre 2026")

print(f"\n3. ARCHIVOS GENERADOS:")
print(f"   - Predicciones completas: {forecast_file.name}")
print(f"   - Resumen ejecutivo: {resumen_file.name}")
print(f"   - M√©tricas de evaluaci√≥n: {eval_file.name}")
print(f"   - Gr√°ficos: {len(graficos_generados)} archivos PNG")

print(f"\n4. M√âTRICAS PREDICHAS:")
for metrica in metricas_forecast:
    print(f"   - {metrica}")

print(f"\n5. PR√ìXIMO PASO:")
print(f"   ‚úì Notebook 04: Visualizaci√≥n y an√°lisis de resultados")
print(f"   ‚úì Generaci√≥n de reportes ejecutivos")
print(f"   ‚úì Exportaci√≥n de dashboards")

print("\n" + "="*70)

---

## Notas importantes:

### Sobre Prophet:
- ‚úÖ Modelo autom√°tico de Facebook optimizado para series temporales
- ‚úÖ Genera intervalos de confianza del 95%
- ‚úÖ Robusto con datos faltantes y outliers
- ‚ö†Ô∏è Con solo 11 meses de hist√≥rico, la precisi√≥n puede ser limitada

### Sobre las predicciones:
- Las predicciones deben interpretarse como **estimaciones** basadas en tendencias hist√≥ricas
- Los intervalos de confianza indican el rango probable de valores
- Eventos externos (cambios de algoritmo, estacionalidad no capturada) pueden afectar la precisi√≥n

### M√©tricas de evaluaci√≥n:
- **MAE** (Mean Absolute Error): Error promedio absoluto
- **RMSE** (Root Mean Squared Error): Error cuadr√°tico medio
- **MAPE** (Mean Absolute Percentage Error): Error porcentual promedio

## ‚úÖ Archivos generados:

- `data/forecasts/forecasts_2026_all_channels.csv` - Predicciones completas
- `results/reports/summary_forecasts_2026.csv` - Resumen ejecutivo
- `results/reports/model_evaluation_metrics.csv` - M√©tricas de evaluaci√≥n
- `results/figures/forecasts/*.png` - Gr√°ficos de predicciones

## Pr√≥ximo paso:

**Notebook 04:** Visualizaci√≥n avanzada y reportes finales