# Análisis exploratorio de datos.
*Con datos climaticos del INTA*

In [58]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# opciones
pd.set_option("display.max_columns", 100)

In [2]:
df, df_estaciones = pd.read_parquet('../data/datos-todas-estaciones.parquet'), pd.read_csv('../data/estaciones-meteorologicas-inta.csv')

df.shape, df_estaciones.shape

((923867, 38), (169, 12))

## Análisis para el dataframe de los datos climaticos.

Para hacer más facil el tratamiento de las columnas, voy a normalizar los nombres a minusculas.

In [4]:
df.columns = [col.lower().strip() for col in df.columns]
df.columns

Index(['fecha', 'temperatura_abrigo_150cm', 'temperatura_abrigo_150cm_maxima',
       'temperatura_abrigo_150cm_minima', 'temperatura_intemperie_5cm_minima',
       'temperatura_intemperie_50cm_minima', 'temperatura_suelo_5cm_media',
       'temperatura_suelo_10cm_media', 'temperatura_inte_5cm',
       'temperatura_intemperie_150cm_minima', 'humedad_suelo',
       'precipitacion_pluviometrica', 'precipitacion_cronologica',
       'precipitacion_maxima_30minutos', 'heliofania_efectiva',
       'heliofania_relativa', 'tesion_vapor_media', 'humedad_media',
       'humedad_media_8_14_20', 'rocio_medio', 'duracion_follaje_mojado',
       'velocidad_viento_200cm_media', 'direccion_viento_200cm',
       'velocidad_viento_1000cm_media', 'direccion_viento_1000cm',
       'velocidad_viento_maxima', 'presion_media', 'radiacion_global',
       'horas_frio', 'unidades_frio', 'id_estacion', 'granizo', 'nieve',
       'radiacion_neta', 'evaporacion_tanque', 'evapotranspiracion_potencial',
       'pro

### 1. Entender la estructura del dataset
- Revisar dimensiones: `shape` (número de filas y columnas).  
- Ver primeras y últimas filas: `head()`, `tail()`.  
- Tipos de datos: `dtypes`, `info()`.  
- Identificar variables: **categóricas, numéricas, de fecha, texto**.  

In [10]:
df.shape

(923867, 38)

In [11]:
df.head()

Unnamed: 0,fecha,temperatura_abrigo_150cm,temperatura_abrigo_150cm_maxima,temperatura_abrigo_150cm_minima,temperatura_intemperie_5cm_minima,temperatura_intemperie_50cm_minima,temperatura_suelo_5cm_media,temperatura_suelo_10cm_media,temperatura_inte_5cm,temperatura_intemperie_150cm_minima,humedad_suelo,precipitacion_pluviometrica,precipitacion_cronologica,precipitacion_maxima_30minutos,heliofania_efectiva,heliofania_relativa,tesion_vapor_media,humedad_media,humedad_media_8_14_20,rocio_medio,duracion_follaje_mojado,velocidad_viento_200cm_media,direccion_viento_200cm,velocidad_viento_1000cm_media,direccion_viento_1000cm,velocidad_viento_maxima,presion_media,radiacion_global,horas_frio,unidades_frio,id_estacion,granizo,nieve,radiacion_neta,evaporacion_tanque,evapotranspiracion_potencial,profundidad_napa,unidad_frio
0,2009-08-06 00:00:00.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,A872801,,,,,,,
1,2009-08-07 00:00:00.0,9.572915,12.3,7.3,,,,9.702779,,,,0.0,0.0,0.0,,,9.712307,83.0,81.0,6.544751,,,,,,,,,1.494,,A872801,,,,,,,
2,2009-08-08 00:00:00.0,8.314584,17.4,1.7,,,,9.373611,,,,0.0,0.0,0.0,,,8.052779,81.0,77.0,3.762041,,,,,,,,,13.61201,13.36301,A872801,,,,,,,
3,2009-08-09 00:00:00.0,7.433333,17.1,0.8,,,,8.793056,,,,0.0,0.0,0.0,,,7.681013,77.0,73.0,3.135792,,,,,,,,,13.94401,13.94401,A872801,,,,,,,
4,2009-08-10 00:00:00.0,11.29514,22.2,3.9,,,,8.979861,,,,0.0,0.0,0.0,,,7.810816,58.0,52.0,3.396338,,,,,,,,,7.801996,3.236999,A872801,,,,,,,


In [12]:
df.tail()

Unnamed: 0,fecha,temperatura_abrigo_150cm,temperatura_abrigo_150cm_maxima,temperatura_abrigo_150cm_minima,temperatura_intemperie_5cm_minima,temperatura_intemperie_50cm_minima,temperatura_suelo_5cm_media,temperatura_suelo_10cm_media,temperatura_inte_5cm,temperatura_intemperie_150cm_minima,humedad_suelo,precipitacion_pluviometrica,precipitacion_cronologica,precipitacion_maxima_30minutos,heliofania_efectiva,heliofania_relativa,tesion_vapor_media,humedad_media,humedad_media_8_14_20,rocio_medio,duracion_follaje_mojado,velocidad_viento_200cm_media,direccion_viento_200cm,velocidad_viento_1000cm_media,direccion_viento_1000cm,velocidad_viento_maxima,presion_media,radiacion_global,horas_frio,unidades_frio,id_estacion,granizo,nieve,radiacion_neta,evaporacion_tanque,evapotranspiracion_potencial,profundidad_napa,unidad_frio
923862,2025-09-07 00:00:00.0,12.7,23.9,1.5,0.5,,,,,,,0.0,,,5.2,44.52,,,,,,,,,,,,12.883305,,,NH0550,0.0,0.0,,,,,
923863,2025-09-08 00:00:00.0,17.75,29.2,6.3,5.8,,,,,,,0.0,,,10.0,85.4,,,,,,1.984584,,2.480729,,,,19.839062,,,NH0550,0.0,0.0,,,,,
923864,2025-09-09 00:00:00.0,17.0,29.5,4.5,3.0,,22.199999,21.699999,,,,0.0,,,10.0,85.25,10.844036,,43.0,8.069238,,6.966665,,8.708331,N,,,19.952995,,,NH0550,0.0,0.0,6.939761,,3.399957,,
923865,2025-09-10 00:00:00.0,22.95,35.5,10.4,6.2,,,,,,,0.0,,,9.5,80.78,,,,,,4.965418,,6.206773,,,,19.330389,,,NH0550,0.0,0.0,,,,,
923866,2025-09-11 00:00:00.0,21.05,29.4,12.7,7.6,,,,,,,0.0,,,9.1,77.18,,,,,,2.246251,,2.807814,,,,18.84668,,,NH0550,0.0,0.0,,,,,


In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 923867 entries, 0 to 923866
Data columns (total 38 columns):
 #   Column                               Non-Null Count   Dtype  
---  ------                               --------------   -----  
 0   fecha                                923867 non-null  object 
 1   temperatura_abrigo_150cm             863320 non-null  float64
 2   temperatura_abrigo_150cm_maxima      865103 non-null  float64
 3   temperatura_abrigo_150cm_minima      867820 non-null  float64
 4   temperatura_intemperie_5cm_minima    327834 non-null  float64
 5   temperatura_intemperie_50cm_minima   81142 non-null   float64
 6   temperatura_suelo_5cm_media          34164 non-null   float64
 7   temperatura_suelo_10cm_media         383084 non-null  float64
 8   temperatura_inte_5cm                 0 non-null       float64
 9   temperatura_intemperie_150cm_minima  43650 non-null   float64
 10  humedad_suelo                        0 non-null       float64
 11  precipitacion

### 2. Revisar valores faltantes
- Conteo de nulos por columna: `isnull().sum()`.  
- Porcentaje de nulos respecto al total.  
- Estrategias para tratarlos:
  - ❌ Eliminar columna (si hay demasiados nulos).  
  - 🔄 Imputar (media, mediana, moda, forward-fill, etc.).  
  - 🏷️ Dejar explícito el `"missing"` como categoría (en variables categóricas).  

Porcentaje de valores nulos en cada columna.

In [16]:
df.isnull().sum() * 100 / len(df)

fecha                                    0.000000
temperatura_abrigo_150cm                 6.553649
temperatura_abrigo_150cm_maxima          6.360656
temperatura_abrigo_150cm_minima          6.066566
temperatura_intemperie_5cm_minima       64.515022
temperatura_intemperie_50cm_minima      91.217134
temperatura_suelo_5cm_media             96.302065
temperatura_suelo_10cm_media            58.534724
temperatura_inte_5cm                   100.000000
temperatura_intemperie_150cm_minima     95.275294
humedad_suelo                          100.000000
precipitacion_pluviometrica              7.020599
precipitacion_cronologica               61.084117
precipitacion_maxima_30minutos          61.506905
heliofania_efectiva                     45.491396
heliofania_relativa                     46.319330
tesion_vapor_media                      10.929604
humedad_media                           58.389790
humedad_media_8_14_20                    9.662863
rocio_medio                             12.666109


In [32]:
umbral = 100
porcentajes = (df.isnull().sum() * 100 / len(df))
porcentajes[porcentajes <= umbral].sort_values()

fecha                                    0.000000
id_estacion                              0.000000
temperatura_abrigo_150cm_minima          6.066566
temperatura_abrigo_150cm_maxima          6.360656
temperatura_abrigo_150cm                 6.553649
precipitacion_pluviometrica              7.020599
humedad_media_8_14_20                    9.662863
tesion_vapor_media                      10.929604
rocio_medio                             12.666109
horas_frio                              14.436710
velocidad_viento_200cm_media            37.908162
velocidad_viento_1000cm_media           37.966504
radiacion_global                        45.444745
heliofania_efectiva                     45.491396
heliofania_relativa                     46.319330
direccion_viento_1000cm                 48.130954
direccion_viento_200cm                  54.232265
evapotranspiracion_potencial            56.006330
humedad_media                           58.389790
temperatura_suelo_10cm_media            58.534724


In [36]:
df.columns

Index(['fecha', 'temperatura_abrigo_150cm', 'temperatura_abrigo_150cm_maxima',
       'temperatura_abrigo_150cm_minima', 'temperatura_intemperie_5cm_minima',
       'temperatura_intemperie_50cm_minima', 'temperatura_suelo_5cm_media',
       'temperatura_suelo_10cm_media', 'temperatura_inte_5cm',
       'temperatura_intemperie_150cm_minima', 'humedad_suelo',
       'precipitacion_pluviometrica', 'precipitacion_cronologica',
       'precipitacion_maxima_30minutos', 'heliofania_efectiva',
       'heliofania_relativa', 'tesion_vapor_media', 'humedad_media',
       'humedad_media_8_14_20', 'rocio_medio', 'duracion_follaje_mojado',
       'velocidad_viento_200cm_media', 'direccion_viento_200cm',
       'velocidad_viento_1000cm_media', 'direccion_viento_1000cm',
       'velocidad_viento_maxima', 'presion_media', 'radiacion_global',
       'horas_frio', 'unidades_frio', 'id_estacion', 'granizo', 'nieve',
       'radiacion_neta', 'evaporacion_tanque', 'evapotranspiracion_potencial',
       'pro

In [40]:
variables_dengue = [
    "fecha",
    "id_estacion",

    # 🌧️ Precipitaciones (impacto directo en criaderos)
    "precipitacion_pluviometrica",
    "precipitacion_cronologica",
    "precipitacion_maxima_30minutos",
    
    # 🌡️ Temperaturas (condicionan supervivencia y ciclo del virus)
    "temperatura_abrigo_150cm",
    "temperatura_abrigo_150cm_maxima",
    "temperatura_abrigo_150cm_minima",
    "temperatura_intemperie_150cm_minima",
    "temperatura_intemperie_50cm_minima",
    "temperatura_intemperie_5cm_minima",
    "temperatura_suelo_5cm_media",
    "temperatura_suelo_10cm_media",
    
    # 💧 Humedad (afecta la longevidad del mosquito y los huevos)
    "humedad_media",
    "humedad_media_8_14_20",
    "humedad_suelo",
    "rocio_medio",
    "duracion_follaje_mojado",
    
    # 🌞 Radiación y horas de sol (influye en evaporación y temperatura)
    "heliofania_efectiva",
    "heliofania_relativa",
    "radiacion_global",
    "radiacion_neta",
    
    # 🌬️ Viento (dispersión de mosquitos, menos influyente)
    "velocidad_viento_200cm_media",
    "velocidad_viento_1000cm_media",
    "velocidad_viento_maxima",
    
    # 🌍 Factores complementarios
    "presion_media",
    "evaporacion_tanque",
    "evapotranspiracion_potencial"
]


## 🔹 Justificación del orden

- **Precipitaciones** → mayor peso porque generan los criaderos de *Aedes*.  
- **Temperaturas** → determinan el ciclo del mosquito y la incubación viral.  
- **Humedad** → alarga la supervivencia del mosquito.  
- **Radiación/sol** → regula evaporación y temperatura de microambientes.  
- **Viento (velocidad)** → influye, pero menos que los anteriores.  
- **Otros (presión, evaporación)** → variables de contexto climático.  


In [49]:
(df[variables_dengue].isna().sum()  * 100 / len(df)).sort_values()

fecha                                    0.000000
id_estacion                              0.000000
temperatura_abrigo_150cm_minima          6.066566
temperatura_abrigo_150cm_maxima          6.360656
temperatura_abrigo_150cm                 6.553649
precipitacion_pluviometrica              7.020599
humedad_media_8_14_20                    9.662863
rocio_medio                             12.666109
velocidad_viento_200cm_media            37.908162
velocidad_viento_1000cm_media           37.966504
radiacion_global                        45.444745
heliofania_efectiva                     45.491396
heliofania_relativa                     46.319330
evapotranspiracion_potencial            56.006330
humedad_media                           58.389790
temperatura_suelo_10cm_media            58.534724
precipitacion_cronologica               61.084117
precipitacion_maxima_30minutos          61.506905
temperatura_intemperie_5cm_minima       64.515022
velocidad_viento_maxima                 83.998238


In [55]:
cond = (
    (df["humedad_media"].isnull() & df["humedad_media_8_14_20"].notnull()) |
    (df["humedad_media"].notnull() & df["humedad_media_8_14_20"].isnull())
)

filtrado_humedad = df.loc[cond, ["humedad_media", "humedad_media_8_14_20"]]

abs(filtrado_humedad.humedad_media_8_14_20 - filtrado_humedad.humedad_media)

44       NaN
63       NaN
68       NaN
69       NaN
70       NaN
          ..
923848   NaN
923851   NaN
923852   NaN
923858   NaN
923864   NaN
Length: 472524, dtype: float64

In [None]:
humedad_notna = df[["humedad_media", "humedad_media_8_14_20"]].dropna()

np.abs(humedad_notna.humedad_media / humedad_notna.humedad_media_8_14_20).mean()

# lo hago con una division para asi obtener la razon relativa, que da una proporción: cuánto vale una respecto a la otra.
# me sirve más que hacerlo con una resta, que obtendria la diferencia absoluta entre una variable y otra.


np.float64(1.0756318358333181)

Aparentemente, las columnas difieren en promedio alrededor de un 1%, lo cual es un valor aceptable y no representa una gran diferencia. Con esta información, cuando alguna de las dos columnas tenga un valor nulo pero la otra no, se puede imputar el valor faltante utilizando la columna disponible, ya que ambas muestran una alta consistencia entre sí.

In [72]:
40/1.0756318358333181

37.187445246087414

In [None]:
filtrado_humedad

Unnamed: 0,humedad_media,humedad_media_8_14_20
44,,73.0
63,,0.0
68,,40.0
69,,60.0
70,,49.0
...,...,...
923848,,45.0
923851,,32.0
923852,,44.0
923858,,60.0


In [None]:
import numpy as np
import pandas as pd

def imputar_por_relacion(df, col1, col2):
    """
    Imputa valores nulos entre dos columnas altamente correlacionadas
    usando la razón relativa promedio.

    Parámetros
    ----------
    df : pd.DataFrame
        DataFrame con las columnas.
    col1, col2 : str
        Nombres de las columnas a comparar.

    Retorna
    -------
    pd.DataFrame
        DataFrame con las imputaciones realizadas.
    """
    
    # Filtrar casos donde ambas columnas NO son nulas
    notna = df[[col1, col2]].dropna()
    
    # Calcular la razón relativa promedio
    ratio = np.abs(notna[col1] / notna[col2]).mean()
    
    # Crear copia del df para no modificar el original
    df_copy = df.copy()
    
    # Imputar valores faltantes en col1 con col2 ajustado
    df_copy.loc[df_copy[col1].isna() & df_copy[col2].notna(), col1] = \
        df_copy.loc[df_copy[col1].isna() & df_copy[col2].notna(), col2] * ratio
    
    # Imputar valores faltantes en col2 con col1 ajustado
    df_copy.loc[df_copy[col2].isna() & df_copy[col1].notna(), col2] = \
        df_copy.loc[df_copy[col2].isna() & df_copy[col1].notna(), col1] / ratio
    
    return df_copy
