# Ejercicio 2 ‚Äì Predicci√≥n de series temporales con ARIMA

## ¬øQu√© es ARIMA?

**ARIMA** (AutoRegressive Integrated Moving Average) es uno de los modelos estad√≠sticos m√°s utilizados para predecir series temporales. Funciona especialmente bien cuando se tiene una √∫nica variable a lo largo del tiempo y se busca capturar patrones como tendencias o ciclos.

Su potencia radica en tres componentes principales:

- **AR (Auto-Regresi√≥n)**: La serie se predice a partir de sus propios valores pasados.
- **I (Integraci√≥n)**: Diferenciaci√≥n para hacer la serie estacionaria.
- **MA (Media M√≥vil)**: Utiliza errores pasados para mejorar la predicci√≥n.

El modelo se representa como:  
üìå `ARIMA(p, d, q)`  
donde:
- `p`: representa el n√∫mero de observaciones rezagadas (lags). Nos indica cu√°ntos pasos atr√°s en el tiempo debemos mirar para predecir el valor actual. Se determina observando la autocorrelaci√≥n de la serie.
- `d`: es el orden de diferenciaci√≥n, es decir, cu√°ntas veces hay que restar el valor actual con respecto al anterior para hacer que la serie sea estacionaria (sin tendencia ni variaci√≥n en la varianza).
- `q`:  Representa cu√°ntos errores de predicci√≥n pasados se incorporan en el modelo. A diferencia de una media m√≥vil tradicional que suaviza datos, aqu√≠ se usa para modelar la relaci√≥n entre los errores pasados y los valores actuales.

---

## Conceptos clave

- **Estacionariedad**: Una serie estacionaria mantiene sus propiedades estad√≠sticas constantes a lo largo del tiempo. ARIMA requiere que la serie sea estacionaria para funcionar correctamente.
- **Autocorrelaci√≥n**: Se refiere a c√≥mo se relaciona una observaci√≥n con valores pasados. Se mide con ACF y PACF.
- **Diferenciaci√≥n**: T√©cnica para eliminar tendencia y hacer la serie estacionaria restando el valor anterior:  
  \[
  Y'_t = Y_t - Y_{t-1}
  \]

---

## Flujo de trabajo

```mermaid
flowchart TD
    A[Serie temporal entrenamiento] --> B[Test de estacionariedad ADF]
    B --> C[Aplicar diferenciaci√≥n si es necesario]
    C --> D[An√°lisis ACF y PACF]
    D --> E[Selecci√≥n de par√°metros p, d, q]
    E --> F[Entrenamiento del modelo ARIMA]
    F --> G[Predicci√≥n y evaluaci√≥n con set de validaci√≥n]
    G --> H[Visualizaci√≥n y an√°lisis de errores]
```

---

## Ejercicio pr√°ctico

### Paso 1: Cargar datos preparados (train / validation)

In [None]:
import pandas as pd

# Cargar datasets desde archivo CSVs
train = pd.read_csv("data/m5_consumo_energia_train.csv", index_col=0)
val = pd.read_csv("data/m5_consumo_energia_test.csv", index_col=0)

# Establecer columna temporal como √≠ndice
train.set_index(pd.to_datetime(train.index), inplace=True)
# Cargar dataset desde archivo CSV

# Establecer columna temporal como √≠ndice
val.set_index(pd.to_datetime(val.index), inplace=True)

---

### Paso 2: Verificar estacionariedad con prueba ADF

In [None]:
from statsmodels.tsa.stattools import adfuller

result = adfuller(train["Energia Consumida"].dropna())
print(f"ADF Statistic: {result[0]}")
print(f"p-value: {result[1]}")

if result[1] > 0.05:
    print("La serie NO es estacionaria. Se recomienda aplicar diferenciaci√≥n.")
else:
    print("La serie es estacionaria.")

---

### Paso 3: Aplicar diferenciaci√≥n si es necesario

In [None]:
train_diff = train["Energia Consumida"].diff().dropna()

# Visualizar la serie diferenciada
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 4))
plt.plot(train_diff)
plt.plot(train["Energia Consumida"])
plt.title("Serie diferenciada (1¬™ orden)")
plt.grid(True)
plt.tight_layout()
plt.show()

In [None]:
result_diff = adfuller(train_diff)
print(f"ADF Statistic (Differenced): {result_diff[0]:.4f}")
print(f"p-value (Differenced): {result_diff[1]:.4f}")
if result_diff[1] < 0.05:
    print("La serie es estacionaria.")
else:
    print("La serie NO es estacionaria.")

---

### Paso 4: Estimar par√°metros con ACF y PACF

In [None]:
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

fig, ax = plt.subplots(2, 1, figsize=(10, 6))
plot_acf(train_diff, ax=ax[0], lags=30)
plot_pacf(train_diff, ax=ax[1], lags=30)
plt.tight_layout()
plt.show()

> Con estos gr√°ficos se seleccionan visualmente los valores `p` y `q`.

---

### Paso 5: Ajustar el modelo ARIMA

In [None]:
from statsmodels.tsa.arima.model import ARIMA

# Definir y entrenar el modelo (por ejemplo ARIMA(p,d,q))
model = ARIMA(train["Energia Consumida"], order=(7, 0, 1))
model_fit = model.fit()

# Resumen del modelo
print(model_fit.summary())

---

### Paso 6: Hacer predicciones sobre el conjunto de validaci√≥n

In [None]:
# Predecir sobre el rango de fechas de validaci√≥n
start = val.index[0]
end = val.index[-1]
pred = model_fit.predict(start=start, end=end, typ="levels")
# Intervalo de cnofianza
forecast = model_fit.get_forecast(steps=len(val))
pred_mean = forecast.predicted_mean
conf_int = forecast.conf_int() 
# Visualizaci√≥n
plt.figure(figsize=(12, 5))
plt.plot(train.index, train["Energia Consumida"], label="Train")
plt.plot(val.index, val["Energia Consumida"], label="Validation")
plt.plot(pred.index, pred, label="Predicci√≥n ARIMA", linestyle="--")
plt.fill_between(val.index,
                 conf_int.iloc[:, 0],  # l√≠mite inferior
                 conf_int.iloc[:, 1],  # l√≠mite superior
                 color='lightgreen', alpha=0.3, label="95% IC")
plt.title("Predicci√≥n de consumo con ARIMA")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

---

### Paso 7: Evaluar el rendimiento del modelo

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

mae = mean_absolute_error(val["Energia Consumida"], pred)
rmse = np.sqrt(mean_squared_error(val["Energia Consumida"], pred))

print(f"MAE: {mae:.2f}")
print(f"RMSE: {rmse:.2f}")

### ¬øQu√© indican el MAE y el RMSE?

#### **MAE ‚Äì Mean Absolute Error (Error Absoluto Medio)**

- **Qu√© mide:**  
  El promedio de los errores absolutos entre los valores reales y los predichos.

- **F√≥rmula:**  
  \[
  \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} \left| y_i - \hat{y}_i \right|
  \]

- **Interpretaci√≥n:**  
  Nos dice, en promedio, cu√°nto se desv√≠an nuestras predicciones de los valores reales.  
  Por ejemplo, un MAE de 4 significa que, en promedio, nos estamos equivocando en ¬±4 unidades (p. ej., kWh, litros, etc.).

- **Ventaja:**  
  F√°cil de interpretar, no amplifica los errores grandes.

---

#### **RMSE ‚Äì Root Mean Squared Error (Ra√≠z del Error Cuadr√°tico Medio)**

- **Qu√© mide:**  
  El promedio del cuadrado de los errores, pero toma la **ra√≠z cuadrada** para mantener las unidades originales.

- **F√≥rmula:**  
  \[
  \text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}
  \]

- **Interpretaci√≥n:**  
  Similar al MAE, pero **penaliza m√°s los errores grandes**. Es m√°s sensible a valores at√≠picos (outliers).

---

## ‚úÖ Resultado esperado

- Verificar la estacionariedad de una serie temporal.
- Aplicar diferenciaci√≥n y an√°lisis ACF/PACF para determinar par√°metros.
- Ajustar un modelo ARIMA con `statsmodels`.
- Evaluar su rendimiento y analizar visualmente los resultados.
