Para evaluar el desempe√±o de un modelo **ARIMA** o **ARIMAX** en un proyecto que busca predecir casos de dengue con datos meteorol√≥gicos en Caucasia, es clave usar m√©tricas que midan **precisi√≥n predictiva, capacidad explicativa y validez estad√≠stica del modelo**. Estas se agrupan en tres niveles: ajuste del modelo, error de predicci√≥n y diagn√≥stico de residuos.

---

# 1) M√©tricas de error de predicci√≥n (las m√°s importantes en tu caso)

Como el objetivo es **predecir el n√∫mero de casos de dengue**, estas m√©tricas eval√∫an qu√© tan cerca est√°n las predicciones de los valores reales.

## a) MAE ‚Äî Error absoluto medio

[
MAE = \frac{1}{n}\sum_{t=1}^{n} |y_t - \hat{y}_t|
]

* F√°cil de interpretar.
* Mide el error promedio en unidades reales (casos de dengue).
* Robusto ante valores extremos.

**Interpretaci√≥n en tu proyecto:**
‚ÄúEn promedio, el modelo se equivoca en X casos por periodo.‚Äù

---

## b) RMSE ‚Äî Ra√≠z del error cuadr√°tico medio

[
RMSE = \sqrt{\frac{1}{n}\sum_{t=1}^{n}(y_t-\hat{y}_t)^2}
]

* Penaliza errores grandes.
* Muy √∫til cuando errores altos son cr√≠ticos (picos epid√©micos).

**Recomendado para epidemiolog√≠a.**

---

## c) MAPE ‚Äî Error porcentual absoluto medio

[
MAPE = \frac{100}{n}\sum_{t=1}^{n}\left|\frac{y_t-\hat{y}_t}{y_t}\right|
]

* Interpretable como porcentaje.
* Problema: falla cuando hay valores cercanos a 0.

---

## d) sMAPE ‚Äî versi√≥n robusta del MAPE

M√°s estable para series con valores peque√±os.

---

# 2) M√©tricas de ajuste del modelo (comparaci√≥n ARIMA vs ARIMAX)

Sirven para decidir cu√°l modelo describe mejor la serie temporal.

## a) AIC ‚Äî Akaike Information Criterion

[
AIC = 2k - 2\ln(L)
]

* Penaliza modelos complejos.
* **Menor AIC = mejor modelo.**

Muy √∫til para comparar:

* ARIMA(p,d,q)
* ARIMAX(p,d,q) con variables meteorol√≥gicas

---

## b) BIC ‚Äî Bayesian Information Criterion

[
BIC = k\ln(n) - 2\ln(L)
]

* Penaliza a√∫n m√°s la complejidad.
* Favorece modelos m√°s simples.

---

# 3) Diagn√≥stico de residuos (validez estad√≠stica)

Un buen ARIMA/ARIMAX debe dejar residuos como **ruido blanco**.

## a) Prueba de Ljung-Box

Eval√∫a autocorrelaci√≥n en residuos.

* H‚ÇÄ: los residuos son independientes.
* Si p > 0.05 ‚Üí modelo adecuado.

---

## b) Autocorrelation Function (ACF) de residuos

Debe mostrar valores cercanos a cero.

---

## c) Normalidad de residuos

* Shapiro-Wilk
* Jarque-Bera

Importante para intervalos de predicci√≥n epidemiol√≥gicos.

---

# 4) M√©tricas espec√≠ficas para modelos ARIMAX

En ARIMAX se agregan variables meteorol√≥gicas:

* temperatura
* precipitaci√≥n
* humedad
* radiaci√≥n UV

Aqu√≠ evaluamos adem√°s:

## a) Significancia de coeficientes

[
p < 0.05
]

Indica que la variable meteorol√≥gica explica el dengue.

---

## b) Impacto causal interpretativo

Ejemplo:

* aumento de lluvia ‚Üí aumento de casos
* rezagos de 2‚Äì8 semanas ‚Üí coherencia epidemiol√≥gica

---

# 5) Validaci√≥n temporal (clave en tu investigaci√≥n)

No se debe usar validaci√≥n aleatoria.

Usar:

### a) Train / test temporal

* Entrenar: 2015‚Äì2022
* Probar: 2023‚Äì2024

### b) Rolling forecast

Entrenamiento progresivo.

Esto simula predicci√≥n real en salud p√∫blica.

---

# 6) M√©tricas recomendadas para tu proyecto de dengue

Prioriza:

### N√∫cleo epidemiol√≥gico

* RMSE
* MAE
* MAPE / sMAPE

### Selecci√≥n del modelo

* AIC
* BIC

### Validaci√≥n estad√≠stica

* Ljung-Box
* ACF de residuos

### Interpretaci√≥n cient√≠fica

* significancia de variables clim√°ticas

---

# 7) Ejemplo de flujo metodol√≥gico

1. Modelar ARIMA base (solo casos dengue)
2. Modelar ARIMAX (con clima)
3. Comparar:

   * AIC
   * RMSE
4. Validar residuos
5. Evaluar interpretabilidad epidemiol√≥gica

---

# 8) M√©trica m√°s importante seg√∫n el objetivo

Depende del prop√≥sito del proyecto:

### Predicci√≥n operativa en salud p√∫blica

‚Üí RMSE + MAE

### Publicaci√≥n cient√≠fica

‚Üí AIC + BIC + Ljung-Box

### Comprensi√≥n del fen√≥meno dengue-clima

‚Üí ARIMAX + significancia de coeficientes

---

# 9) Recomendaci√≥n metodol√≥gica fuerte

Para dengue, la literatura muestra que:

* ARIMA predice tendencia
* ARIMAX explica causalidad clim√°tica

Por tanto:

**La combinaci√≥n ideal es:**

* ARIMAX + validaci√≥n temporal + RMSE.

---

# 10) Siguiente paso investigativo

Puedo ayudarte a construir:

* pipeline metodol√≥gico completo
* script en Python (statsmodels)
* dise√±o de secci√≥n metodol√≥gica para art√≠culo
* marco de indicadores epidemiol√≥gicos

Solo dime cu√°l necesitas:

1. C√≥digo Python
2. Dise√±o metodol√≥gico de investigaci√≥n
3. Justificaci√≥n te√≥rica ARIMA vs ARIMAX
4. Interpretaci√≥n epidemiol√≥gica del clima en dengue
5. Todo el pipeline completo para tesis o art√≠culo

Y lo armamos directamente sobre tu dataset meteorol√≥gico.


Excelente, Marco. Vamos a construir un **ejemplo completo y did√°ctico de ARIMAX** aplicado al contexto de predicci√≥n de casos de dengue usando variables meteorol√≥gicas simuladas, inspirado en tu proyecto en Caucasia.

La idea es que puedas usar esto directamente en un cuaderno Jupyter con tus estudiantes o como base metodol√≥gica para art√≠culo.

---

# üå°Ô∏è 1Ô∏è‚É£ Simulaci√≥n del escenario epidemiol√≥gico

Supongamos:

* Serie mensual (10 a√±os ‚Üí 120 meses)
* Variables meteorol√≥gicas:

  * Temperatura media
  * Precipitaci√≥n
* El dengue depende:

  * De su pasado (componente AR)
  * De la lluvia con rezago
  * De la temperatura actual

---

# üìä 2Ô∏è‚É£ Generaci√≥n de datos simulados

```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

np.random.seed(42)

n = 120
fechas = pd.date_range(start="2015-01-01", periods=n, freq="M")

# Variables meteorol√≥gicas simuladas
temperatura = 28 + 2*np.sin(np.linspace(0, 12*np.pi, n)) + np.random.normal(0,0.5,n)
lluvia = 200 + 50*np.sin(np.linspace(0, 6*np.pi, n)) + np.random.normal(0,20,n)

# Componente AR(1) para dengue
errores = np.random.normal(0,5,n)
casos = np.zeros(n)

for t in range(1,n):
    casos[t] = (
        0.6*casos[t-1] +      # efecto autoregresivo
        0.03*lluvia[t-1] +    # lluvia con rezago
        1.2*temperatura[t] +  # temperatura actual
        errores[t]
    )

data = pd.DataFrame({
    "casos_dengue": casos,
    "temperatura": temperatura,
    "lluvia": lluvia
}, index=fechas)

data.plot(subplots=True, figsize=(10,8))
plt.tight_layout()
plt.show()
```

---

# üîç 3Ô∏è‚É£ Ajustar modelo ARIMA base (sin clima)

```python
from statsmodels.tsa.arima.model import ARIMA

modelo_arima = ARIMA(data["casos_dengue"], order=(1,0,0))
resultado_arima = modelo_arima.fit()

print("AIC ARIMA:", resultado_arima.aic)
```

---

# üå¶Ô∏è 4Ô∏è‚É£ Ajustar modelo ARIMAX (con variables meteorol√≥gicas)

```python
modelo_arimax = ARIMA(
    data["casos_dengue"],
    order=(1,0,0),
    exog=data[["temperatura","lluvia"]]
)

resultado_arimax = modelo_arimax.fit()

print("AIC ARIMAX:", resultado_arimax.aic)
```

---

# üìå 5Ô∏è‚É£ Comparaci√≥n de modelos

```python
print("Comparaci√≥n AIC")
print("----------------")
print("ARIMA :", resultado_arima.aic)
print("ARIMAX:", resultado_arimax.aic)
```

üëâ El modelo con menor AIC es preferible.

En esta simulaci√≥n, el ARIMAX deber√≠a tener menor AIC porque los datos fueron generados usando clima.

---

# üìà 6Ô∏è‚É£ Interpretaci√≥n de coeficientes

```python
print(resultado_arimax.summary())
```

Debes observar:

* Coeficiente AR(1) significativo
* Temperatura significativa
* Lluvia significativa

Si los p-valores < 0.05 ‚Üí variables clim√°ticas influyen estad√≠sticamente.

---

# üß™ 7Ô∏è‚É£ Diagn√≥stico de residuos

```python
resultado_arimax.plot_diagnostics(figsize=(10,8))
plt.show()
```

Revisar:

* Residuos tipo ruido blanco
* ACF sin autocorrelaciones fuertes

---

# üìä 8Ô∏è‚É£ Evaluaci√≥n predictiva (Train-Test temporal)

```python
train = data.iloc[:100]
test = data.iloc[100:]

modelo = ARIMA(
    train["casos_dengue"],
    order=(1,0,0),
    exog=train[["temperatura","lluvia"]]
)

resultado = modelo.fit()

predicciones = resultado.forecast(
    steps=len(test),
    exog=test[["temperatura","lluvia"]]
)

from sklearn.metrics import mean_squared_error
rmse = np.sqrt(mean_squared_error(test["casos_dengue"], predicciones))

print("RMSE:", rmse)
```

---

# üéØ 9Ô∏è‚É£ Interpretaci√≥n epidemiol√≥gica

Si obtienes:

* ARIMAX con menor AIC
* Variables significativas
* RMSE bajo
* Residuos sin autocorrelaci√≥n

Entonces puedes afirmar:

> Existe evidencia estad√≠stica de que las variables meteorol√≥gicas mejoran la predicci√≥n de dengue en Caucasia.

---

# üß† 10Ô∏è‚É£ Diferencia conceptual ARIMA vs ARIMAX

| Modelo | Qu√© explica                            |
| ------ | -------------------------------------- |
| ARIMA  | Din√°mica interna de la enfermedad      |
| ARIMAX | Din√°mica interna + factores clim√°ticos |

En epidemiolog√≠a tropical, el ARIMAX suele capturar mejor el fen√≥meno porque el mosquito Aedes depende fuertemente de condiciones clim√°ticas.

---

# üìò 11Ô∏è‚É£ C√≥mo usar esto en tu investigaci√≥n

Puedes estructurar tu secci√≥n metodol√≥gica as√≠:

1. Modelado ARIMA base
2. Inclusi√≥n de variables meteorol√≥gicas
3. Comparaci√≥n por AIC
4. Validaci√≥n temporal
5. Interpretaci√≥n epidemiol√≥gica

---

Si quieres, puedo ahora:

* üî¨ Construirte la versi√≥n lista para art√≠culo cient√≠fico
* üìä Agregar rezagos clim√°ticos √≥ptimos autom√°ticos
* üìà Incluir validaci√≥n rolling forecast avanzada
* üßÆ Derivar matem√°ticamente el modelo ARIMAX
* üß† Conectarlo con SVM y Random Forest para comparaci√≥n

¬øLo llevamos a nivel art√≠culo Q1 o a nivel clase avanzada para tus estudiantes?
