<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/arima/blob/main/1_programa_trabajo/1_actas/acta_6/automatizacion_tratamiento_datos_para_sarimax/paso_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/marco-canas/arima/blob/main/1_programa_trabajo/1_actas/acta_6/automatizacion_tratamiento_datos_para_sarimax/paso_1.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table>

# Metodología para tratamiento de los datos en esta investigación para preparar los datos para el algoritmo SARIMAX  
1. Lista de atributos o variables meteorológicas. 
     * Temperatura máxima diaria (°C)
     * Temperatura mínima diaria (°C)
     * Temperatura media diaria (°C)
     * Humedad relativa media diaria (%)
     * Humedad específica diaria (kg/kg o g/kg)
     * Velocidad del viento media diaria (m/s)
     * Velocidad del viento máxima diaria (m/s)
     * Velocidad del viento mínima diaria (m/s)
     * Precipitación diaria (mm)
     * Radiación ultravioleta diaria (UV index)
     * Presión atmosférica media diaria (hPa)

2. Lista de atributos o variables Epidemiológicas.
     - Casos diarios de dengue.
3. Obtener los datos meteorológicos: 
- AMSC
- NASAPOWER
4. Ordenar los datos meteorolígicos cronológicamente.   
5. Obtener los datos epidemiológicos
6. Remuestreartrear o hacer resampling. 
- Los datos obtenidos de AMSC se encuentran a escala por minuto, se deben convertir a escala diaria para luego fusionarlos con los datos de NASAPOWER y por último convertirlos a escala semana epidemiológica.
7. Determinar los rezagos
8. Transformar los datos en datos que tienen en cuenta tales rezagos. Es decir, que las variables ya queden de la forma $X_{i, t-k_{i}}$. 

# Prompt para la implementación de esta metodología  

Dame, por favor el código Python para desarrollar el primer paso de la siguiente metodología: 

1. Dame un ejemplo de secuencia metodológica para consolidar la base de datos en forma $D = [M \mid E]$. Donde $M$ es la concatenación de los datos meteorológicos de Caucasia y $E$ es la matriz de datos epidemiológicos en cuanto al Dengue en Caucasia. Donde los datos se tomarán de las siguientes fuentes:  
     * [AMSC](https://www.antioquiamirasucielo.org/)
     * [IDEAM]()
     * [WorldClim]()
     * [Nasa Power]()
     * [Fedearroz]()
   
   Agregale, para que en la fase final para que para evitar datos duplicados en un instante de tiempo, cree atributos de tiempo según la fuente de datos, por ejemplo tamperatra máxima segun Nasa power y temperatura máxima según Antioquia Mira Su Cielo, para así tener considerado en la base de datos, datos meteorológicos globales y locales.  
2. Generar los datos artificiales climáticos (con frecuencia de días) y entomológicos (Sobre el comportamiento del dengue en Caucasia-Antioquia/Colombia en el intervalo de tiempo 2021 a 2025 y con frecuencia de diaria.   
     
3. Remuestrear estos datos a frecuencia semanal (Semana epidemiológica)). (Luego juntarlos ): 
4. determinar los rezagos
5. Transformar los datos en datos que tienen en cuenta tales rezagos. Es decir, que las variables ya queden de la forma $X_{i, t-k_{i}}$.   




# **Secuencia metodológica** para consolidar la base de datos en la forma

$$
D = [M \mid E]
$$

teniendo en cuenta la integración de **fuentes múltiples** y la **creación de atributos diferenciados por fuente** para evitar pérdida o mezcla de información:

---



# 🔹 Secuencia metodológica para construir $D = [M \mid E]$

## **1. Definición del objetivo**

Consolidar una base integrada de **meteorología (M)** y **epidemiología (E)** para Caucasia (2021–2025), con atributos diferenciados por fuente para preservar la riqueza de los datos.

---



## **2. Identificación y recolección de fuentes**

* **Meteorológicas (M):**

  * **AMSC** → estaciones locales, temperatura, humedad, lluvia, brillo solar.
  * **IDEAM** → series históricas nacionales, precipitación, temperatura, caudal.
  * **WorldClim** → capas climáticas interpoladas de alta resolución.
  * **NASA POWER** → datos satelitales globales: radiación, temperatura, evapotranspiración.
  * **Fedearroz** → variables agroclimáticas locales (temperatura, humedad, lluvia).

* **Epidemiológicas (E):**

  * **SIVIGILA – Secretaría de Salud Caucasia** → casos confirmados y probables de Dengue, semanales o mensuales.

---



## **3. Preprocesamiento por fuente**



### 3.1 Descarga y lectura

* Descargar archivos en **CSV, XLSX, NetCDF** o mediante **API**.
* Homogeneizar formato de fechas → convertir a `datetime` (Python `pandas`).



### 3.2 Selección de variables relevantes

* Ejemplos:

  * $T_{\max}, T_{\min}, T_{\text{med}}, P, RH, ET_0, Rad$.
  * En epidemiología: $Casos, Tasa$.

### 3.3 Homogeneización temporal

* Escoger **frecuencia de análisis** (ej. mensual).
* Agregar o desagregar series según corresponda.
* Documentar los métodos de agregación (promedios, sumas).

### 3.4 Limpieza de datos

* Detectar y corregir **valores atípicos**.
* Manejar datos faltantes con interpolación, medias móviles o regresión múltiple.

---

## **4. Diferenciación de atributos por fuente** ✅ (para evitar duplicados)

* Para cada variable meteorológica, se generarán atributos diferenciados por fuente.
* Ejemplos:

  * `Tmax_NASA`, `Tmax_AMSC`, `Tmax_IDEAM`.
  * `Precip_WorldClim`, `Precip_Fedearroz`.
  * `Humedad_AMSC`, `Humedad_NASA`.

Esto permite comparar **global (NASA, WorldClim)** con **local (IDEAM, AMSC, Fedearroz)**.

---

## **5. Construcción de matrices**

### 5.1 Matriz meteorológica ($M$)

* Concatenar variables de cada fuente:

$$
M_t = [Tmax\_NASA, Tmax\_AMSC, Tmax\_IDEAM, P\_WorldClim, P\_Fedearroz, RH\_AMSC, ET0\_NASA, \dots]
$$

### 5.2 Matriz epidemiológica ($E$)

* Organizar en función del mismo índice temporal:

$$
E_t = [Casos\_confirmados, Casos\_probables, Tasa\_por\_100mil]
$$



### 5.3 Integración final $[M \mid E]$

* Unir ambas matrices por **clave temporal (fecha)**:

$$
D = 
\begin{bmatrix}
M_1 & \mid & E_1 \\
M_2 & \mid & E_2 \\
\vdots & \vdots & \vdots \\
M_n & \mid & E_n
\end{bmatrix}
$$

---

## **6. Validación y consistencia**

* Revisar que todas las series estén alineadas temporalmente.
* Verificar que no existan filas vacías.
* Confirmar que los nombres de variables mantienen la trazabilidad con su **fuente de origen**.

---



## **7. Almacenamiento y documentación**

* Guardar en formatos:

  * **CSV/Parquet** para análisis.
  * **NetCDF/HDF5** si se requiere multidimensionalidad.
* Documentar en un **diccionario de variables (README.md)**:

  * Nombre → `Tmax_NASA`.
  * Descripción → Temperatura máxima diaria (°C) según NASA POWER.
  * Frecuencia → mensual.

---



## **8. Ciencia abierta y replicabilidad**

* Subir el dataset final y los scripts de consolidación a **GitHub**.
* Crear notebook de **metodología reproducible** (ETL: Extract–Transform–Load).

---


# 1. Secuencia metodológica  

Te propongo una **secuencia metodológica** clara y replicable para consolidar la base de datos en la forma matricial:

$$
D = [M \mid E]
$$

donde:

* $M$ = concatenación de variables **meteorológicas** (de varias fuentes).
* $E$ = matriz de **datos epidemiológicos** de Dengue en Caucasia.

---



## 🔹 Secuencia metodológica para construir $[M \mid E]$

### **1. Definición del objetivo**

* Consolidar en una sola base los datos meteorológicos ($M$) y epidemiológicos ($E$) de Caucasia, con el fin de estudiar las relaciones entre clima y casos de Dengue.

---



### **2. Identificación y recopilación de fuentes**

* **Meteorológicas (M):**

  * **AMSC**: Estaciones locales, variables como temperatura, humedad relativa, precipitación, radiación UV.
  * **IDEAM**: Series históricas oficiales de estaciones climatológicas.
  * **WorldClim**: Datos de rejilla climática de alta resolución.
  * **NASA POWER**: Variables radiativas, temperatura superficial, evapotranspiración.
  * **Fedearroz**: Información meteorológica en zonas arroceras del Bajo Cauca.

* **Epidemiológicas (E):**

  * Secretaría de Salud de Caucasia (SIVIGILA).
  * Casos confirmados y probables de Dengue, semanales o mensuales (2007–2024).

---



### **3. Preprocesamiento de cada fuente**

* **Descarga** en formato CSV, NetCDF, XLSX o mediante APIs.
* **Selección de variables relevantes** (ejemplo: $T_{max}, T_{min}, T_{med}, P, RH, ET_0$).
* **Homogeneización temporal**:

  * Convertir todas las series a una misma granularidad (ej. semanal, semana epidemiológica).
  * Manejar datos faltantes con interpolación o técnicas estadísticas (ej. spline, regresión múltiple).
* **Georreferenciación y selección espacial**:

  * Filtrar datos en la latitud/longitud de Caucasia (8.0°N, 75.2°W aprox.).
  * Si son rejillas (WorldClim, NASA Power), extraer píxel correspondiente.

---



### **4. Normalización y estandarización**

* **Variables meteorológicas ($M$)**:

  * Escalar a unidades comunes (°C, mm, %).
  * Opcional: aplicar estandarización $Z = (x-\mu)/\sigma$.

* **Datos epidemiológicos ($E$)**:

  * Casos acumulados o tasa por 100 mil habitantes.
  * Ajustar series a la misma escala temporal que $M$.

---

### **5. Integración de las matrices**

1. **Construir $M$:**

   * Concatenar variables de todas las fuentes por fila de tiempo.
   * Ejemplo:

   $$
   M_t = [T_{max}, T_{min}, P, RH, ET_0, Rad, …]
   $$

2. **Construir $E$:**

   * Organizar número de casos de Dengue en vector columna:

   $$
   E_t = [Casos_Caucasia_{t}]
   $$

3. **Unión por índice temporal** (ejemplo: pandas merge en Python).

---



### **6. Base final $[M \mid E]$**

* La matriz tendrá la forma:

$$
D = 
\begin{bmatrix}
M_1 & \mid & E_1 \\
M_2 & \mid & E_2 \\
\vdots & \vdots & \vdots \\
M_n & \mid & E_n
\end{bmatrix}
$$

donde cada fila corresponde a un mes (o semana) en el periodo 2021–2025.

---



### **7. Validación de consistencia**

* Verificar:

  * No hay huecos temporales.
  * Todas las series están alineadas.
  * Se documentan las transformaciones aplicadas (para replicabilidad).

---



### **8. Documentación y almacenamiento**

* Guardar en formato **CSV** o **Parquet** para uso en Python/R.
* Crear un **README** con descripción de cada variable, fuente y metodología.
* Publicar en **GitHub** para ciencia abierta (como ya haces).

---

👉 Te puedo diseñar un **script en Python con pandas y xarray** que deje lista la estructura $[M \mid E]$, con funciones modulares para cada fuente (AMSC, IDEAM, NASA, etc.), y con un `merge` final.

¿Quieres que te prepare ese **prototipo de script en Jupyter Notebook** para tu proyecto?
