# Acta No. 17 ‚Äì Reuni√≥n de asesor√≠a


**Proyecto:** Consolidaci√≥n del modelo SARIMAX para la predicci√≥n de epidemias de dengue en el municipio de Caucasia



**Estudiante:** Janis Z√∫√±iga Ortega


**Asesor:** Marco Julio Ca√±as Campillo


**Fecha:** Martes 3 de febrero de 2026


**Lugar:** Virtual por meet 



# 1. Contexto y antecedentes



Esta asesor√≠a da continuidad a los acuerdos establecidos en el **Acta No. 16 (26 de enero de 2026)**, en la cual se avanz√≥ en:

* Teneamos el dataset con todos los atributos meteorol√≥gicos con los "retrazos" hasta de 12 semanas epidemiol√≥gicas y los dejaremos a 10. 


* Realiz√≥ las visualizaciones de las correlaciones en cada semana de cada atributu meteorol√≥gico. 
  


## Terea 

Lo que hay por hacer: 

* El an√°lisis de correlaci√≥n (Pearson, Kendall y Spearman) entre dichas variables y el n√∫mero de casos de dengue (`num_casos`).
* Hay que establecer, ya formalmente, los parametros p, d, q y P, D, Q, s



# Referente para establecer lo que sigue en este trabajo  



S√≠, **es no solo bueno sino pr√°cticamente obligatorio** hacer **preprocesamiento de datos** antes de consolidar un modelo **SARIMAX**.
Un SARIMAX *sin* buen preprocesamiento suele dar **par√°metros inestables, residuos autocorrelados y mala capacidad predictiva**, aunque el c√≥digo ‚Äúcorra‚Äù.

Te lo organizo **conceptual ‚Üí pr√°ctico ‚Üí recomendado para tu contexto (dengue + clima)**.

---

## 1Ô∏è‚É£ ¬øPor qu√© el SARIMAX necesita preprocesamiento?

Un SARIMAX asume (expl√≠cita o impl√≠citamente):

* **Estacionariedad** (en media y varianza)
* **Estructura temporal limpia**
* **Relaciones lineales** entre la serie objetivo y los ex√≥genos
* **Rezagos bien definidos**

Los datos reales (epidemiol√≥gicos y meteorol√≥gicos) **violan todo eso** por defecto üòÖ.

---

## 2Ô∏è‚É£ Preprocesamiento esencial (s√≠ o s√≠)

### üîπ 1. Limpieza y alineaci√≥n temporal

Antes de cualquier modelo:

```python
df = df.sort_index()
df = df.asfreq('W')   # o 'D', 'M' seg√∫n tu caso
```

‚úîÔ∏è √çndice temporal regular
‚úîÔ∏è Sin fechas duplicadas

---

### üîπ 2. Tratamiento de datos faltantes

SARIMAX **no tolera NaN**.

Recomendado:

```python
df = df.interpolate(method='time')
```

O, si es semanal:

```python
df = df.fillna(method='ffill')
```

üìå Nunca entrenar SARIMAX con NaN.

---

### üîπ 3. Transformaciones de escala (varianza)

Muy com√∫n en dengue:

```python
import numpy as np

df['casos_log'] = np.log1p(df['casos_dengue'])
```

‚úîÔ∏è Reduce heterocedasticidad
‚úîÔ∏è Mejora estabilidad num√©rica

---

## 3Ô∏è‚É£ Estacionariedad (el coraz√≥n del SARIMAX)

### üîπ 4. Diferenciaci√≥n regular (d)

```python
df['casos_diff'] = df['casos_log'].diff()
```

### üîπ 5. Diferenciaci√≥n estacional (D)

Si hay estacionalidad anual (datos semanales):

```python
df['casos_diff_seasonal'] = df['casos_diff'].diff(52)
```

üìå En SARIMAX, esto se declara como:

```python
order=(p, d, q)
seasonal_order=(P, D, Q, s)
```

---

## 4Ô∏è‚É£ Preprocesamiento de variables ex√≥genas (X)

Esto es **cr√≠tico** y a menudo se hace mal.

### üîπ 6. Selecci√≥n por correlaci√≥n cruzada (ccf)

```python
from statsmodels.tsa.stattools import ccf

ccf_vals = ccf(df['lluvia'].diff().dropna(),
               df['casos_dengue'].diff().dropna())
```

‚úîÔ∏è Identifica rezagos informativos

---

### üîπ 7. Crear rezagos expl√≠citos

```python
for lag in [1, 2, 4, 8]:
    df[f'lluvia_lag_{lag}'] = df['lluvia'].shift(lag)
```

üìå SARIMAX **NO descubre rezagos autom√°ticamente**.

---

### üîπ 8. Escalado de ex√≥genos (recomendado)

```python
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df[exog_cols] = scaler.fit_transform(df[exog_cols])
```

‚úîÔ∏è Evita dominancia num√©rica
‚úîÔ∏è Mejora convergencia

---

## 5Ô∏è‚É£ Control de colinealidad

Variables clim√°ticas suelen estar correlacionadas:

```python
df[exog_cols].corr()
```

üìå Alta colinealidad ‚áí coeficientes inestables.

‚úîÔ∏è Elimina variables redundantes.

---

## 6Ô∏è‚É£ Diagn√≥stico previo al modelado

Antes de ajustar SARIMAX:

* ACF / PACF
* Prueba ADF
* Inspecci√≥n visual

```python
from statsmodels.tsa.stattools import adfuller
adfuller(df['casos_diff'].dropna())
```

---



# 7Ô∏è‚É£ Pipeline recomendado (resumen)

Para **consolidar un SARIMAX s√≥lido**:

1. Limpieza y frecuencia temporal
2. Imputaci√≥n de faltantes
3. Transformaci√≥n log / Box-Cox
4. Diferenciaci√≥n regular y estacional
5. Selecci√≥n de ex√≥genos con `ccf`
6. Construcci√≥n expl√≠cita de rezagos
7. Escalado de ex√≥genos
8. Diagn√≥stico de residuos

---



## 8Ô∏è‚É£ En una frase (para art√≠culo)

> *‚ÄúSe realiz√≥ un preprocesamiento exhaustivo que incluy√≥ imputaci√≥n temporal, transformaci√≥n de escala, diferenciaci√≥n regular y estacional, selecci√≥n de rezagos mediante correlaci√≥n cruzada y estandarizaci√≥n de variables ex√≥genas, con el fin de garantizar estacionariedad, estabilidad num√©rica y capacidad predictiva del modelo SARIMAX.‚Äù*

---

Si quieres, en el siguiente mensaje puedo:

* construir **un pipeline SARIMAX completo en Python**,
* ayudarte a **justificar metodol√≥gicamente** cada paso para un art√≠culo,
* o comparar **SARIMAX vs ML** usando exactamente el mismo preprocesamiento.
