# üìä M√©tricas de Evaluaci√≥n para Modelos VARIMA/VAR

Una vez que un modelo VARIMA (o su versi√≥n m√°s com√∫n, el VAR) ha sido estimado y utilizado para generar pron√≥sticos, es crucial evaluar su rendimiento. A diferencia de la regresi√≥n lineal simple, los modelos de series de tiempo requieren m√©tricas que penalicen los errores a lo largo de un horizonte temporal.

## 1. üìù Fundamentos de la Evaluaci√≥n de Pron√≥sticos

En el contexto multivariado del VARIMA (donde se pronostican $K$ series simult√°neamente), las m√©tricas se aplican generalmente a los errores de pron√≥stico de **cada serie** individualmente.

$$
\text{Error de Pron√≥stico} (e_{i, t}) = \text{Valor Real} (y_{i, t}) - \text{Valor Pronosticado} (\hat{y}_{i, t})
$$

Donde $i$ es la serie (e.g., $Y$ o $X$) y $t$ es el punto en el tiempo.

## 2. üéØ M√©tricas Basadas en el Error Absoluto

Estas m√©tricas son las m√°s f√°ciles de interpretar, ya que est√°n en las mismas unidades que la serie original.

### A. Error Absoluto Medio (MAE - Mean Absolute Error)

El MAE es la media de la magnitud de los errores en el conjunto de prueba.

* **F√≥rmula:** Mide la desviaci√≥n promedio.
    $$
    \text{MAE} = \frac{1}{N} \sum_{t=1}^{N} |e_{t}| = \frac{1}{N} \sum_{t=1}^{N} |y_{t} - \hat{y}_{t}|
    $$
* **Ventaja:** No penaliza los errores grandes tan severamente como el RMSE.
* **Interpretaci√≥n:** Un MAE de 5 significa que, en promedio, el pron√≥stico est√° desviado en 5 unidades de la serie original.

### B. Error Cuadr√°tico Medio de la Ra√≠z (RMSE - Root Mean Squared Error)

El RMSE es la m√©trica m√°s utilizada. Mide la desviaci√≥n est√°ndar de los residuos (errores de predicci√≥n).

* **F√≥rmula:** Se calcula la ra√≠z cuadrada de la media de los errores al cuadrado.
    $$
    \text{RMSE} = \sqrt{\frac{1}{N} \sum_{t=1}^{N} e_{t}^2} = \sqrt{\frac{1}{N} \sum_{t=1}^{N} (y_{t} - \hat{y}_{t})^2}
    $$
* **Ventaja:** Penaliza fuertemente los errores grandes (outliers), lo que lo hace √∫til cuando los grandes errores son particularmente indeseables (e.g., en la gesti√≥n de riesgos).
* **Desventaja:** Al estar en las unidades de la serie, es dif√≠cil comparar modelos entre diferentes series con distintas escalas.

## 3. üéØ M√©tricas Basadas en el Error Porcentual

Estas m√©tricas son √∫tiles para comparar la precisi√≥n de los pron√≥sticos en diferentes series con diferentes escalas.

### A. Error Porcentual Absoluto Medio (MAPE - Mean Absolute Percentage Error)

El MAPE expresa la precisi√≥n como un porcentaje. Es intuitivo para los no expertos.

* **F√≥rmula:**
    $$
    \text{MAPE} = \frac{100\%}{N} \sum_{t=1}^{N} \left| \frac{y_{t} - \hat{y}_{t}}{y_{t}} \right|
    $$
* **Interpretaci√≥n:** Un MAPE de 10% significa que el error de pron√≥stico promedio es del 10%.
* **Desventaja Cr√≠tica:** Se vuelve infinito o indefinido si el valor real ($y_t$) es cero o muy cercano a cero (un problema com√∫n en series de retornos financieros o cambios de variables).

### B. Error Porcentual Absoluto Escalonado Medio (MASE - Mean Absolute Scaled Error)

El MASE es una m√©trica relativamente nueva y robusta que compara el error del modelo con el error de un pron√≥stico ingenuo (Naive Forecast) para la misma serie.

* **F√≥rmula:** (El denominador es el error del pron√≥stico ingenuo del paso anterior, $y_{t} - y_{t-1}$)
    $$
    \text{MASE} = \frac{\frac{1}{N} \sum_{t=1}^{N} |y_{t} - \hat{y}_{t}|}{\frac{1}{N-1} \sum_{t=2}^{N} |y_{t} - y_{t-1}|}
    $$
* **Ventaja Principal:** Es independiente de la escala y es robusto ante valores de cero ($y_t=0$).
* **Interpretaci√≥n Clave:**
    * **MASE < 1:** El modelo VARIMA es mejor que el pron√≥stico ingenuo (bueno).
    * **MASE = 1:** El modelo VARIMA es tan bueno como el pron√≥stico ingenuo.
    * **MASE > 1:** El modelo VARIMA es peor que el pron√≥stico ingenuo (malo).

## 4. üêç C√≥digo Python (Jupyter Notebook)

Este c√≥digo muestra c√≥mo calcular estas cuatro m√©tricas clave utilizando los pron√≥sticos generados por un modelo VAR.

In [2]:
# %%
import pandas as pd
import numpy as np
from sklearn.metrics import mean_absolute_error, mean_squared_error
from statsmodels.tsa.api import VAR
from IPython.display import display, HTML, Markdown # <--- IMPORTANTE: Nuevas importaciones para una salida limpia
import warnings
warnings.filterwarnings("ignore")

# --- 1. Definici√≥n de Funciones de M√©trica ---

def calculate_mape(y_true, y_pred):
    """Calcula el Error Porcentual Absoluto Medio (MAPE)."""
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    # Evitar divisi√≥n por cero o valores cercanos
    nonzero_mask = y_true != 0
    if not np.any(nonzero_mask):
         return np.nan
         
    return np.mean(np.abs((y_true[nonzero_mask] - y_pred[nonzero_mask]) / y_true[nonzero_mask])) * 100

def calculate_mase(y_true, y_pred, y_train):
    """Calcula el Error Porcentual Absoluto Escalonado Medio (MASE)."""
    # Denominador: Error Absoluto Medio del Pron√≥stico Naive (Naive MAE)
    naive_mae = np.mean(np.abs(y_train[1:] - y_train[:-1]))
    
    if naive_mae == 0:
        return np.inf # MASE es infinito si el pron√≥stico ingenuo es perfecto
        
    # Numerador: MAE del modelo sobre el conjunto de prueba
    model_mae = mean_absolute_error(y_true, y_pred)
    
    return model_mae / naive_mae

# --- 2. Preparaci√≥n de Data de Prueba y Pron√≥stico ---

# Generaci√≥n de series (mismos par√°metros altamente no estacionarios)
np.random.seed(42)
N = 500
X, Y = np.zeros(N), np.zeros(N)
ruido_x, ruido_y = np.random.normal(0, 1, N), np.random.normal(0, 1, N)
for t in range(1, N):
    X[t] = X[t-1] + 0.5 * X[t-1] + ruido_x[t] * 0.1 
    Y[t] = Y[t-1] + 0.5 * Y[t-1] + 0.3 * X[t-1] * 0.1 + ruido_y[t] * 0.1

# Usamos primeras diferencias
df_var = pd.DataFrame({'Y': Y, 'X': X}).diff().dropna()

# Divisi√≥n en entrenamiento (Train) y prueba (Test)
train_size = int(len(df_var) * 0.8)
data_train = df_var.iloc[:train_size]
data_test = df_var.iloc[train_size:]

# --- 3. Ajuste y Pron√≥stico del Modelo VAR ---

optimal_lag = 8 
model = VAR(data_train).fit(optimal_lag)

lag_order = model.k_ar
last_observations = data_train.values[-lag_order:]
forecast_steps = len(data_test)

forecast_values = model.forecast(last_observations, steps=forecast_steps)
forecast_df = pd.DataFrame(forecast_values, columns=['Y_pred', 'X_pred'], index=data_test.index)

print(f"‚úÖ Modelo VAR({optimal_lag}) ajustado y pron√≥stico generado para {forecast_steps} pasos.")
print("-" * 50)

# --- 4. C√°lculo y PRESENTACI√ìN MEJORADA de M√©tricas ---

results = {}

for series_name in ['Y', 'X']:
    y_true = data_test[series_name].values
    y_pred = forecast_df[f'{series_name}_pred'].values
    y_train = data_train[series_name].values

    # Calcular M√©tricas
    mae = mean_absolute_error(y_true, y_pred)
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    mape = calculate_mape(y_true, y_pred)
    mase = calculate_mase(y_true, y_pred, y_train)

    # Almacenar los resultados como FLOATS (no strings) para formatear la tabla despu√©s
    results[series_name] = {
        'MAE': mae,
        'RMSE': rmse,
        'MAPE (%)': mape,
        'MASE (<1 es mejor)': mase
    }

# Convertir el diccionario a DataFrame
metrics_df = pd.DataFrame(results).T
metrics_df.index.name = 'Serie'

# --- PRESENTACI√ìN FINAL LIMPIA USANDO DISPLAY ---

display(Markdown("## üìä Resultados de las M√©tricas de Evaluaci√≥n del Pron√≥stico (Modelo VAR)"))

# Formatear el DataFrame para que los n√∫meros grandes se vean limpios
styled_table = metrics_df.style.format({
    'MAE': "{:.4f}",
    'RMSE': "{:.4f}",
    'MAPE (%)': "{:.2f}",
    'MASE (<1 es mejor)': "{:.4f}"
}).set_caption("M√©tricas de Pron√≥stico por Serie")

# Mostrar la tabla formateada (usa HTML internamente)
display(styled_table)

display(Markdown("\n### Interpretaci√≥n del MASE (Conclusi√≥n del Modelo)"))
display(Markdown(
    f"**MASE de Y:** `{metrics_df.loc['Y', 'MASE (<1 es mejor)']:.4f}`. \n\n"
    f"**MASE de X:** `{metrics_df.loc['X', 'MASE (<1 es mejor)']:.4f}`. \n\n"
    "**Conclusi√≥n:** En nuestro ejemplo, ambos valores de MASE son extremadamente altos ($>> 1$). Esto significa que el modelo **VAR(8)** es significativamente **peor** que un simple pron√≥stico ingenuo ($Y_t = Y_{t-1}$) para estas series. Esto era esperado ya que la data sint√©tica era altamente no estacionaria y el modelo VAR(8) no logr√≥ capturar la estructura subyacente de manera efectiva."
))

# %%

‚úÖ Modelo VAR(8) ajustado y pron√≥stico generado para 100 pasos.
--------------------------------------------------


## üìä Resultados de las M√©tricas de Evaluaci√≥n del Pron√≥stico (Modelo VAR)

Unnamed: 0_level_0,MAE,RMSE,MAPE (%),MASE (<1 es mejor)
Serie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Y,1.0542088421146372e+73,4.826700767845889e+73,0.0,1111610.1506
X,1.6402254533048529e+72,7.49908214152809e+72,0.0,1496713.4933



### Interpretaci√≥n del MASE (Conclusi√≥n del Modelo)

**MASE de Y:** `1111610.1506`. 

**MASE de X:** `1496713.4933`. 

**Conclusi√≥n:** En nuestro ejemplo, ambos valores de MASE son extremadamente altos ($>> 1$). Esto significa que el modelo **VAR(8)** es significativamente **peor** que un simple pron√≥stico ingenuo ($Y_t = Y_{t-1}$) para estas series. Esto era esperado ya que la data sint√©tica era altamente no estacionaria y el modelo VAR(8) no logr√≥ capturar la estructura subyacente de manera efectiva.