In [30]:
#Imports e configuração de caminho
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import os

# Cria pasta de saída
os.makedirs("data/processed", exist_ok=True)

In [31]:
#Carrega os dados brutos
df_dengue = pd.read_csv("data/raw/dengue.csv")
df_clima  = pd.read_csv("data/raw/clima_inmet.csv")
df_pop    = pd.read_csv("data/raw/pop_density.csv")

print("Dengue:", df_dengue.shape)
print("Clima:", df_clima.shape)
print("População:", df_pop.shape)

Dengue: (812, 30)
Clima: (313, 6)
População: (1, 2)


In [32]:
#Prepara base de dengue
# Extrai ano e semana epidemiológica
df_dengue["data_iniSE"] = pd.to_datetime(df_dengue["data_iniSE"])
df_dengue["year"] = df_dengue["data_iniSE"].dt.isocalendar().year
df_dengue["week"] = df_dengue["data_iniSE"].dt.isocalendar().week

# Agrupa por semana e município
df_dengue = df_dengue.groupby(["Localidade_id", "year", "week"], as_index=False).agg({
    "casos": "sum",
    "Rt": "mean",
    "pop": "mean",
    "tempmed": "mean",
    "umidmed": "mean"
})

In [33]:
#junta com clima e população
df = df_dengue.merge(df_clima, on=["year", "week"], how="left")
df = df.merge(df_pop, left_on="Localidade_id", right_on="municipio_id", how="left")

In [34]:
# Converte colunas de tipo 'object' para tipos mais específicos
df = df.infer_objects(copy=False)

# Aplica interpolação apenas nas colunas numéricas
num_cols = df.select_dtypes(include=["number"]).columns
df[num_cols] = df[num_cols].interpolate(method="linear")
df[num_cols] = df[num_cols].ffill()
df[num_cols] = df[num_cols].bfill()