<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/algebra_y_trigonometria/blob/main/classes/0_formatos_clase/algebra_and_trigonometry.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/marco-canas/algebra_y_trigonometria/blob/main/classes/0_formatos_clase/algebra_and_trigonometry.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table>

# Datos exógenos y rezago de las variables exógenes asociadas a esta investigación  


## Definición de datos exógenos  

En el contexto de esta investigación para diseñar un **Sistema de Alerta Temprana (SAT) para dengue en Caucasia**, los **datos exógenos** son todas aquellas **variables externas a la serie temporal de casos de dengue**, que pueden influir en su comportamiento y cuya inclusión en el modelado (ARIMAX, SARIMAX) puede mejorar la capacidad predictiva del sistema.



En términos más sencillos:  Son factores explicativos que no son los casos de dengue mismos, pero que ayudan a anticipar cambios en ellos.



## Características clave de los datos exógenos



1. **No forman parte de la serie endógena** (en este caso, la serie de casos semanales de dengue).
2. **Tienen relación causal o correlacional** con la incidencia de la enfermedad.
3. **Se registran con la misma periodicidad** (o se pueden transformar para que coincidan) que la serie de dengue.
4. **Pueden estar adelantados en el tiempo (rezagos)**, lo que es útil para anticipar brotes.

---



## Ejemplos de datos exógenos para el SAT en Caucasia



Dada tu línea de investigación y los datos disponibles, los principales exógenos serían **variables climáticas y ambientales**:



| Variable                                     | Fuente                         | Relevancia para dengue                                   | Posibles rezagos |
| -------------------------------------------- | ------------------------------ | -------------------------------------------------------- | ---------------- |
| Temperatura media, máxima y mínima           | IDEAM, Antioquia Mira su Cielo | Afecta el ciclo de vida del mosquito y replicación viral | 2–6 semanas      |
| Humedad relativa (%)                         | IDEAM                          | Favorece supervivencia del *Aedes aegypti*               | 2–4 semanas      |
| Precipitación acumulada (mm)                 | IDEAM, Fedearroz               | Crea criaderos temporales de larvas                      | 2–6 semanas      |
| **Días de lluvia por semana epidemiológica** | IDEAM, NASA POWER              | Indicador simple y robusto de humedad ambiental          | 2–6 semanas      |
| Velocidad del viento (media, máx., mín.)     | IDEAM                          | Puede dispersar o limitar el vuelo de mosquitos          | 0–2 semanas      |
| Fenómenos ENSO (El Niño/La Niña)             | NOAA, IDEAM                    | Cambios climáticos que alteran patrones de transmisión   | Meses            |
| Índices entomológicos (Breteau, vivienda)    | Secretaría de Salud            | Mide la densidad de mosquitos en domicilios              | 0–2 semanas      |

---



## 3️. Uso de datos exógenos en modelos ARIMAX/SARIMAX



En el **ARIMAX** (o **SARIMAX** cuando hay estacionalidad), estos datos entran como **variables independientes $X_t$** que ayudan a explicar y predecir la variable dependiente (casos de dengue $Y_t$).



**Ejemplo de formulación SARIMAX:**

$$
Y_t = c + \phi_1 Y_{t-1} + \dots + \beta_1 X_{1, t-k_1} + \beta_2 X_{2, t-k_2} + \varepsilon_t
$$

$$ Y_t = c + \Phi \cdot Y_{t - i} + \beta \cdot X_{t - k} + \varepsilon_t $$

Donde:

* $Y_t$ = casos de dengue en la semana $t$
* $X_{1, t-k_1}$ = temperatura media con rezago $k_1$ semanas
* $X_{2, t-k_2}$ = días de lluvia con rezago $k_2$ semanas
* $\beta_1, \beta_2$ = coeficientes que miden el efecto de cada exógeno
* $\varepsilon_t$ = error aleatorio

---



## Importancia para un SAT de dengue

* **Anticipación**: Los exógenos pueden dar señales antes de que aumenten los casos.
* **Interpretabilidad**: Explican por qué se producen los picos, útil para decisiones de salud pública.
* **Acción preventiva**: Permiten activar campañas de control vectorial antes del brote.
* **Personalización local**: Ajustan el modelo a las condiciones climáticas y socioambientales de Caucasia.

---

Si quieres, puedo prepararte un **esquema gráfico** donde se muestre cómo los datos exógenos fluyen hacia el modelo SARIMAX y alimentan la alerta temprana de dengue.
¿Quieres que lo haga ahora?


# Automatización del proceso de toma de datos endógenos y exógenes de esta investigación. 

Empecemos recordando las variables endógenas y exógenes que tomaremos en esta investigación.  




## Prompt para ChatGPT para obtener sugerencia de variables exógenas y endógenas 

Dame una lista completa de variables exógenas(Variables climáticas de Caucasia - Antioquia) y endógenas (como el número de casos de dengue en el municipio y por barrio del municipio de Caucasia - Antioquia/ Colombia) que me permitan construir un buen modelo predictivo de Dengue de acuerdo al modelo $Y_t = c + \phi_1 Y_{t-1} + \dots + \beta_1 X_{1, t-k_1} + \beta_2 X_{2, t-k_2} + \varepsilon_t$ para implementar con SARIMAX  



Este es un **inventario claro y accionable** de variables para tu SAT de dengue con **SARIMAX**, separadas en **endógenas** (lo que vas a predecir) y **exógenas climáticas** (lo que ayuda a anticipar los casos). Incluyo **unidades, frecuencia**, y **rezagos/transformaciones** recomendados para que puedas llevarlas directo al modelado.

---



# Endógenas (Y)

> Serie objetivo(s) por **semana epidemiológica** (ISO-week).



## Nivel municipal

* **Casos de dengue (Y\_t)**: conteo semanal total (casos/semana).

  * Derivadas útiles:

    * **Tasa** = casos / población × 100.000
    * **Indicadora de epidemia** (0/1) según umbral operativo
    * **Gravedad**: hospitalizaciones, UCI (si disponible)
  * Transformaciones: `log1p(Y_t)`, diferencia no estacional (d) y, si aplica, diferencia estacional (D).



## Nivel barrio (modelos multinivel o panel)

* **Casos por barrio (Y\_{b,t})**: conteo semanal por barrio *b*.

  * Derivadas por barrio: tasas por 100.000, indicadores de brote barrial (0/1).
  * Útil para: SARIMAX con **efectos fijos/barrio** o modelos jerárquicos; alternativamente, un modelo SARIMAX por barrio.

> **Sugerencia de rezagos endógenos**: incluir $Y_{t-1}, Y_{t-2}, \dots$ (AR) y, si hay estacionalidad, $Y_{t- s}$ (p.ej., $s=52$ anual o $s=26$ bimodal si la climatología lo sugiere).

---



# Exógenas climáticas (X)

> Medidas en **Caucasia – Antioquia**, con **agregación semanal** (misma semana epidemiológica que Y). Para cada variable lista una **ventana móvil** (1–8 semanas) y prueba **rezagos** $k$ típicos de **2–6 semanas** (ciclo vectorial+incubación).

## 1) Temperatura

* **Temperatura media (°C)** — `temp_mean`
* **Máxima (°C)** — `temp_max`
* **Mínima (°C)** — `temp_min`
* **Rango diurno** = max − min — `dtr`
* **Grados-día** sobre umbral (p.ej., >18–20 °C) — `dday_20`

  * Derivadas: medias móviles (MA 2–6 sem), anomalías vs climatología 2010-2024, z-scores.
  * Rezagos típicos: **3–6 semanas**.

## 2) Humedad y punto de rocío

* **Humedad relativa media (%)** — `rh_mean`
* **Punto de rocío (°C)** — `dewpoint`
* **Horas/semana con RH>80%** — `rh80_hours` (si disponible)

  * Rezagos: **2–4 semanas**.

## 3) Precipitación y lluvia

* **Precipitación total semanal (mm)** — `prcp_sum`
* **Intensidad máxima 24 h (mm)** — `prcp_max24h`
* **Días de lluvia/semana (≥1 mm)** — `rain_days`
* **Rachas de días húmedos/secos** — `cwd`/`csd` (consecutive wet/dry)
* **Precipitación acumulada móvil** (sumas 2–8 sem) — `prcp_roll`

  * Rezagos: **2–6 semanas**; muchas veces **4–6** funciona mejor.

## 4) Radiación y nubosidad

* **Radiación solar global (MJ m⁻² día⁻¹, luego semanal)** — `rad_global`
* **Horas de brillo solar** — `sunshine_hours` (si existe)
* **Cobertura nubosa (%)** — `cloud_cover`

  * Importa para desarrollo larval (temperatura del microhábitat). Rezagos **2–4**.

## 5) Viento

* **Velocidad media (m/s)** — `wind_mean`
* **Ráfaga máxima (m/s)** — `wind_gust`
* **Dirección predominante (°)** — `wind_dir` (opcional, como componentes u/v)

  * Puede modular dispersión vectorial; rezagos **0–2 semanas**.

## 6) Presión y condiciones sinópticas

* **Presión media al nivel estación (hPa)** — `mslp`
* **Anomalías semanales de presión**

  * Útiles como sustitutos de sistemas de tiempo; rezagos **0–2**.

## 7) Hidro-climáticos locales (opcionales, si hay datos)

* **Nivel/caudal de ríos cercanos (Cauca/Nechí)** — `river_level`
* **Humedad del suelo (%)** — `soil_moisture`

  * Relacionados con criaderos peri-fluviales; rezagos **2–6**.

## 8) Señales climáticas de gran escala (opcionales)

* **ONI / Niño 3.4 (mensual → semanal por réplica)** — `oni`
* **Fases MJO (categorías)** — `mjo_phase`

  * Se incorporan sin rezago o con **4–8 semanas** (efectos modulados).

---

# Variables derivadas recomendadas (features ingenierizadas)

> Suelen mejorar SARIMAX sin sobrecargar el modelo.

* **Anomalías** vs climatología (2010–2024) de temp, RH, precip.
* **Ventanas móviles**: medias/sumas (2, 4, 6, 8 semanas).
* **Indicadores binarios**: semana con lluvia intensa (`prcp_max24h > p90`), ola de calor (`temp_max > p90` ≥2 días), RH alta (`rh_mean > p80`).
* **Interacciones**: `rain_days × rh_mean`, `temp_mean × rh_mean`.
* **Estacionalidad explícita**: dummies por mes/estación si SARIMAX no capta toda la estacionalidad.
* **Desfase optimizado** por **correlación cruzada (CCF)** de cada X con Y (elige 1–2 rezagos por variable para evitar colinealidad).

---



# Esquema mínimo sugerido para tu SARIMAX

* **Y (municipal)**: `log1p(casos_semana)`
* **X base** (probar primero):

  1. `temp_mean_{t-4}`
  2. `rh_mean_{t-3}`
  3. `prcp_sum_{t-5}`
  4. `rain_days_{t-4}`
  5. `dtr_{t-4}` (opcional)
* **Estacionalidad**: $s = 52$ (o la que detectes).
* **Parámetros**: empezar con auto\_arima/auto\_sarimax para (p,d,q)(P,D,Q)$_s$, y luego **podar** X por significancia, AIC/BIC y diagnóstico de residuos.

---



# Buenas prácticas (muy útiles)

* **Alineación temporal**: todas las X en **semana epidemiológica**, con rezagos aplicados **antes** del split train/test.
* **Imputación**: preferir **interpolaciones físicas/plausibles** (p.ej., precip no negativa).
* **Colinealidad**: evitar incluir a la vez `temp_mean`, `temp_max`, `temp_min` sin control (usa VIF o PCA climático si hace falta).
* **Regularización suave**: Lasso/Ridge en una fase previa de selección de X puede ayudar.
* **Evaluación**: RMSE/MAE/MAPE y verificación de **alerta** (AUC/PR) si harán clasificación de semanas epidémicas.

---



Si quieres, te genero **una plantilla CSV** con todos estos nombres de variables (columnas) para que solo tengas que llenarla con tus datos semanales, o un **snippet en Python** que calcule las derivadas (anomalías, ventanas y rezagos) a partir de tus series climáticas. ¿Cuál prefieres?


**Ejemplo de formulación SARIMAX:**

$$
Y_t = c + \phi_1 Y_{t-1} + \dots + \beta_1 X_{1, t-k_1} + \beta_2 X_{2, t-k_2} + \varepsilon_t
$$

Donde:

* $Y_t$ = casos de dengue en la semana $t$
* $X_{1, t-k_1}$ = temperatura media con rezago $k_1$ semanas
* $X_{2, t-k_2}$ = días de lluvia con rezago $k_2$ semanas
* $\beta_1, \beta_2$ = coeficientes que miden el efecto de cada exógeno
* $\varepsilon_t$ = error aleatorio

# Metodología para tratamiento de los datos en esta investigación 

1. Obtener los datos climáticos y entomológicos: 
2. determinar los rezagos
3. Transformar los datos en datos que tienen en cuenta tales rezagos. Es decir, que las variables ya queden de la forma $X_{i, t-k_{i}}$. 