# üìâ Cap√≠tulo 4 ‚Äì Detecci√≥n de Anomal√≠as con VARIMA

En este cap√≠tulo se estudia el modelo **VARIMA (Vector AutoRegressive Integrated Moving Average)**, la generalizaci√≥n multivariante de ARIMA. Dado que en nuestro caso trabajamos con **se√±ales multivariantes** donde las relaciones entre variables son esenciales (correlaciones cruzadas, desfases, efectos de acoplamiento), **ARIMA univariado no es suficiente**. VARIMA proporciona un marco estad√≠stico para **modelar conjuntamente** varias series y detectar anomal√≠as como **innovaciones inusuales** respecto al comportamiento esperado del sistema.

---

## ‚ùå ¬øPor qu√© **no** ARIMA y s√≠ VARIMA?

- **ARIMA es univariado**: modela una √∫nica serie \(y_t\). Incluso con ARIMAX/SARIMAX (variables ex√≥genas), el objetivo sigue siendo una **sola** variable dependiente. Esto impide capturar **anomal√≠as relacionales** (p. ej., patrones an√≥malos que emergen solo por la combinaci√≥n de dos o m√°s se√±ales).
- **Agregaci√≥n de ARIMAs por canal**: ajustar un ARIMA por cada variable y luego combinar residuos **ignora la covarianza** entre series. Se pierden anomal√≠as que solo son evidentes en el **espacio conjunto** (p. ej., temperatura normal + presi√≥n normal pero **combinaci√≥n** improbable).
- **VARIMA modela el vector completo** \(\mathbf{y}_t \in \mathbb{R}^k\): incorpora **dependencias cruzadas** (c√≥mo la variable \(i\) hoy depende de la variable \(j\) ayer), dando lugar a **innovaciones multivariantes** cuya magnitud (p. ej., distancia de Mahalanobis) permite una **detecci√≥n coherente** a nivel de sistema.

> En s√≠ntesis: con datos multivariantes y sin supuestos claros, **VARIMA** (o su forma pr√°ctica **VARMA/VARMAX**) es el baseline estad√≠stico adecuado.

---

## üîç Intuici√≥n

VARIMA asume que el vector de observaciones \(\mathbf{y}_t\) puede describirse mediante:
1) **Dependencias autoregresivas** entre componentes y rezagos (\(\text{VAR}\)).  
2) **Medias m√≥viles** de innovaciones pasadas (\(\text{VMA}\)).  
3) **Diferenciaci√≥n** para lograr estacionariedad (la ‚ÄúI‚Äù de VARIMA).

Bajo ese modelo, lo ‚Äúesperado‚Äù para el sistema es \(\hat{\mathbf{y}}_t\). Una **anomal√≠a** ocurre cuando la **innovaci√≥n** \(\boldsymbol{\varepsilon}_t = \mathbf{y}_t - \hat{\mathbf{y}}_t\) es **improbable** seg√∫n la covarianza aprendida en entrenamiento.

---

## üß† Fundamento te√≥rico (resumen)

Sea \(\mathbf{y}_t \in \mathbb{R}^k\). Un VARIMA\((p,d,q)\) puede escribirse, con el operador de retardo \(B\), como:

\[
\Phi(B)\,(1-B)^d\,\mathbf{y}_t \;=\; \Theta(B)\,\boldsymbol{\varepsilon}_t,\quad 
\boldsymbol{\varepsilon}_t \sim \mathcal{WN}_k(\mathbf{0},\,\Sigma),
\]

donde:
- \(\Phi(B) = I - \Phi_1 B - \cdots - \Phi_p B^p\) (parte **VAR**),
- \(\Theta(B) = I + \Theta_1 B + \cdots + \Theta_q B^q\) (parte **VMA**),
- \(d\) es el orden de **diferenciaci√≥n** (puede ser com√∫n o por componente),
- \(\boldsymbol{\varepsilon}_t\) son **innovaciones** (ruido blanco vectorial con covarianza \(\Sigma\)).

> En pr√°ctica, muchas implementaciones operativas usan **VARMA/VARMAX** (donde la ‚ÄúI‚Äù se maneja con pre-diferenciaci√≥n) por disponibilidad de software y estabilidad num√©rica.

---

## üìê Detecci√≥n de anomal√≠as con VARIMA

**Procedimiento**:

1. **Entrenamiento**  
   Ajustar VARIMA/VARMA en el conjunto de entrenamiento \(\{\mathbf{y}_t\}\).  
   Estimar la **covarianza de innovaciones** \(\Sigma\) a partir de los residuos de entrenamiento.

2. **Puntuaci√≥n (score)**  
   Para cada instante, obtener la innovaci√≥n \(\boldsymbol{\varepsilon}_t = \mathbf{y}_t - \hat{\mathbf{y}}_t\) (pron√≥stico one-step-ahead) y calcular el **score**:
   - **Mahalanobis** (recomendado):  
     \[
     D_t^2 \;=\; \boldsymbol{\varepsilon}_t^\top \,\Sigma^{-1}\, \boldsymbol{\varepsilon}_t
     \]
     Bajo supuestos cl√°sicos, \(D_t^2 \sim \chi^2_k\).
   - **L2 estandarizado** (alternativa simple):  
     \( \sum_i (\varepsilon_{t,i}/\hat{\sigma}_i)^2 \) (aprox. \(\chi^2_k\) si independencia).

3. **Umbralizaci√≥n**  
   Dos opciones ‚Äúcl√°sicas‚Äù:
   - **Te√≥rica** (sin etiquetas): \(D_t^2 > \chi^2_{k,\,1-\alpha}\) ‚áí anomal√≠a.  
   - **Por *contamination***: umbral = cuantil \(1-\alpha\) del score en **training** (controla la tasa de candidatos an√≥malos).

4. **Post-proceso opcional**  
   Persistencia (exigir \(k\) superaciones consecutivas), histeresis (activar con \(\tau_{\text{on}}\), desactivar con \(\tau_{\text{off}}\)), o suavizado de scores para reducir parpadeos.

---

## ‚öôÔ∏è Par√°metros clave y selecci√≥n

- **Ordenes \(p, q\)**: n¬∫ de rezagos VAR/VMA. Se seleccionan con **AIC/BIC** y diagn√≥stico de residuos.  
- **Diferenciaci√≥n \(d\)**: pre-procesado para (cuasi) estacionariedad; puede requerir **d** distinto por variable o un **d** com√∫n (m√°s simple).  
- **Tratamiento estacional**: si hay estacionalidad clara, usar SARIMA multivariante (VARIMA con t√©rminos estacionales) o diferenciar por periodo.  
- **Cointegraci√≥n**: si existen relaciones de equilibrio a largo plazo entre variables, considerar **VECM** (fuera de alcance aqu√≠, pero relevante).  
- **Covarianza \(\Sigma\)**: estimada en training; una regularizaci√≥n leve (p. ej., \(\lambda I\)) mejora estabilidad num√©rica.

> En producci√≥n, es habitual usar **VARMAX** (statespace) y operar con **pron√≥stico one-step-ahead** actualizando el filtro con cada observaci√≥n.

---

## ‚úÖ Ventajas

- **Captura dependencias cruzadas** entre variables y rezagos (anomal√≠as relacionales).  
- Umbralizaci√≥n **probabil√≠stica** (p. ej., \(\chi^2_k\)) o por **contamination** (operativa).  
- Marco cl√°sico, **interpretable**: residuos, innovaciones, covarianza.

## üö´ Limitaciones

- Requiere **m√°s datos** y es m√°s sensible a especificaci√≥n que ARIMA univariado.  
- Supone **linealidad** y ruido aproximadamente gaussiano (o al menos sim√©trico).  
- Selecci√≥n de √≥rdenes y diferenciaci√≥n puede ser **costosa** y dependiente del dominio.  
- Si las din√°micas son fuertemente no lineales, DL puede superar a VARIMA.

---

## üß™ Ejemplo ilustrativo (multivariante)

Sup√≥n dos se√±ales de un subsistema: **RPM** y **temperatura** del refrigerante.  
Por separado, sus valores pueden parecer ‚Äúnormales‚Äù. Sin embargo, un **VARIMA** que captura la **relaci√≥n normal** entre ambas (p. ej., a RPM bajas suele corresponder una temperatura moderada) detectar√° como **an√≥mala** una combinaci√≥n improbable (RPM bajas + temperatura anormalmente alta) porque la **innovaci√≥n conjunta** \(\boldsymbol{\varepsilon}_t\) tendr√° **alta energ√≠a** \(D_t^2\) respecto a \(\Sigma\).

---

## üß≠ Flujo pr√°ctico (alineado con la validaci√≥n temporal)

1. **Entrenar** VARIMA/VARMA/VARMAX en *training*.  
2. **Fijar umbral**:  
   - Sin etiquetas ‚áí \(\chi^2_{k,1-\alpha}\).  
   - Con validaci√≥n ‚áí **contamination** (cuantil) ajustado para FA/h objetivo.  
3. **Evaluar** en *validation* (ajustar hiperpar√°metros/umbral si procede).  
4. **Reportar** en *test* (sin tocar el umbral).  

---

## üìö Referencias cl√°sicas

- **L√ºtkepohl, H.** *New Introduction to Multiple Time Series Analysis*. Springer.  
- **Box, G. E. P., Jenkins, G. M., Reinsel, G. C., Ljung, G. M.** *Time Series Analysis: Forecasting and Control*. Wiley.  
- **Shumway, R. H., Stoffer, D. S.** *Time Series Analysis and Its Applications*. Springer.

