In [1]:
#Imports e configuração de caminho
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import os

# Cria pasta de saída
os.makedirs("data/processed", exist_ok=True)

In [2]:
#Carrega os dados brutos
df_dengue = pd.read_csv("data/raw/dengue.csv")
df_clima  = pd.read_csv("data/raw/clima_inmet.csv")
df_pop    = pd.read_csv("data/raw/pop_density.csv")

print("Dengue:", df_dengue.shape)
print("Clima:", df_clima.shape)
print("População:", df_pop.shape)

Dengue: (812, 30)
Clima: (313, 6)
População: (1, 2)


In [3]:
#Prepara base de dengue
# Extrai ano e semana epidemiológica
df_dengue["data_iniSE"] = pd.to_datetime(df_dengue["data_iniSE"])
df_dengue["year"] = df_dengue["data_iniSE"].dt.isocalendar().year
df_dengue["week"] = df_dengue["data_iniSE"].dt.isocalendar().week

# Agrupa por semana e município
df_dengue = df_dengue.groupby(["Localidade_id", "year", "week"], as_index=False).agg({
    "casos": "sum",
    "Rt": "mean",
    "pop": "mean",
    "tempmed": "mean",
    "umidmed": "mean"
})

In [4]:
#junta com clima e população
df = df_dengue.merge(df_clima, on=["year", "week"], how="left")
df = df.merge(df_pop, left_on="Localidade_id", right_on="municipio_id", how="left")

In [5]:
# Converte colunas de tipo 'object' para tipos mais específicos
df = df.infer_objects(copy=False)

# Aplica interpolação apenas nas colunas numéricas
num_cols = df.select_dtypes(include=["number"]).columns
df[num_cols] = df[num_cols].interpolate(method="linear")
df[num_cols] = df[num_cols].ffill()
df[num_cols] = df[num_cols].bfill()

In [6]:
#Remoção de outliers via z-score
for col in ["casos", "Rt", "pop", "tempmed", "umidmed", "t_mean", "precip_sum", "pop_density"]:
    if col in df.columns:
        z = (df[col] - df[col].mean()) / df[col].std()
        df = df[z.abs() <= 3]


In [7]:
#Criação de variáveis de defasagem (lags) e médias móveis
df.sort_values(["Localidade_id", "year", "week"], inplace=True)

for lag in range(1, 5):
    df[f"casos_lag{lag}"] = df.groupby("Localidade_id")["casos"].shift(lag)

df["casos_roll4"] = df.groupby("Localidade_id")["casos"].rolling(4).mean().reset_index(0, drop=True)


In [8]:
#Normalização das variáveis numéricas
num_cols = ["casos", "Rt", "pop", "tempmed", "umidmed", "t_mean", "precip_sum", "pop_density"] + \
           [f"casos_lag{l}" for l in range(1, 5)] + ["casos_roll4"]

scaler = MinMaxScaler()
df[num_cols] = scaler.fit_transform(df[num_cols])


In [9]:
#Salva dataset limpo
df_clean = df.dropna()
df_clean.to_csv("data/processed/dataset_clean.csv", index=False)
print("Dataset limpo salvo:", df_clean.shape)

Dataset limpo salvo: (280, 19)


In [10]:
#Arquivo Gerado
#data/processed/dataset_clean.csv: base final para modelagem
