In [1]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# Troque pelo nome do seu arquivo CSV
df = pd.read_csv('../data/DENGBR25.csv')

# Verifique se carregou
print(df.head())

In [None]:
df.describe()

In [None]:
#Drop das colunas 100% NaN
cols_100_nan = [
    "DOENCA_TRA","MANI_HEMOR","EPISTAXE","GENGIVO","METRO","PETEQUIAS",
    "HEMATURA","SANGRAM","LACO_N","PLASMATICO","EVIDENCIA","PLAQ_MENOR",
    "CON_FHD","COMPLICA","MIGRADO_W"
]
df = df.drop(columns=cols_100_nan, errors="ignore")

df.describe()

In [None]:
#Drop das colunas com apenas um valor e de dados anonimos dos usuários
colunas_sem_valor_analise = [
    # Identificação / Notificação
    "TP_NOT", "ID_AGRAVO", "DT_NOTIFIC", "SEM_NOT", "NU_ANO",
    "SG_UF_NOT", "ID_MUNICIP", "ID_REGIONA", "ID_UNIDADE",
    "DT_SIN_PRI", "SEM_PRI","ANO_NASC", "NU_IDADE_N", "CS_GESTANT", "CS_RACA", "CS_ESCOL_N",
    "SG_UF", "ID_MN_RESI", "ID_RG_RESI", "ID_PAIS","DT_INVEST", "ID_OCUPA_N","DOENCA_TRA", "MANI_HEMOR", 
    "EPISTAXE", "GENGIVO", "METRO", "PETEQUIAS", "HEMATURA", "SANGRAM", "LACO_N", "PLASMATICO",
    "EVIDENCIA", "PLAQ_MENOR", "CON_FHD", "COMPLICA", "MIGRADO_W",
]

df = df.drop(columns=colunas_sem_valor_analise, errors="ignore")

df.describe()

In [None]:
nan_pct = (df.isna().mean() * 100).sort_values(ascending=False)

top = nan_pct.head(60)

plt.figure(figsize=(12, 6))
plt.bar(top.index.astype(str), top.values)
plt.xticks(rotation=90)
plt.ylabel('% NaN')
plt.title('Top 30 colunas com maior % de NaN (após drop)')
plt.tight_layout()
plt.show()

In [None]:
# O data_frame_subs será o data frame com valores substituidos, criando uma nova categoria
data_frame_subs = df.copy()

# O data_frame_convert será o data frame com valores convertidos, convertendo os nan em valores que ja existam
data_frame_convert = df.copy()

In [None]:
# Trantando os Nan como o valor 2(não), afim de ajustar os dados para o modelo
colunas_nan_nao = [
    "RENAL", "HEPATOPAT", "HIPERTENSA", "FEBRE", "MIALGIA", "CEFALEIA",
    "EXANTEMA", "VOMITO", "NAUSEA", "DOR_COSTAS", "CONJUNTVIT",
    "ARTRITE", "ARTRALGIA", "PETEQUIA_N", "LEUCOPENIA", "LACO",
    "DOR_RETRO", "DIABETES", "HEMATOLOG", "ACIDO_PEPT", "AUTO_IMUNE",
    "ALRM_HIPOT", "ALRM_PLAQ", "ALRM_VOM", "ALRM_SANG", "ALRM_HEMAT",
    "ALRM_ABDOM", "ALRM_LETAR", "ALRM_HEPAT", "ALRM_LIQ",
    "GRAV_PULSO", "GRAV_CONV", "GRAV_ENCH", "GRAV_INSUF", "GRAV_TAQUI",
    "GRAV_EXTRE", "GRAV_HIPOT", "GRAV_HEMAT", "GRAV_MELEN",
    "GRAV_METRO", "GRAV_SANG", "GRAV_AST", "GRAV_MIOC",
    "GRAV_CONSC", "GRAV_ORGAO",
]


In [None]:
# Converter os valores Nan, tratando eles como se fossem 3(não informado)
data_frame_subs[colunas_nan_nao] = (
    data_frame_subs[colunas_nan_nao].fillna(3)
)

In [None]:
# Converter os valores Nan, tratando eles como se fossem 2(não)
data_frame_convert[colunas_nan_nao] = (
    data_frame_convert[colunas_nan_nao].fillna(2)
)

In [None]:
# Colunas com quatro opções possiveis de valor
colunas_quatro_valores_possiveis = [
    "RES_CHIKS1", "RES_CHIKS2", "RESUL_PRNT", "RESUL_SORO", "RESUL_NS1", 
    "RESUL_VI_N", "RESUL_PCR_", "HISTOPA_N", "IMUNOH_N"
]

In [None]:
# Converter os valores Nan, tratando eles como se fossem 4(não realizado)
data_frame_subs[colunas_quatro_valores_possiveis] = (
    data_frame_subs[colunas_quatro_valores_possiveis].fillna(4)
)

# Converter os valores Nan, tratando eles como se fossem 5(não informado)
data_frame_convert[colunas_quatro_valores_possiveis] = (
    data_frame_convert[colunas_quatro_valores_possiveis].fillna(4)
)

In [None]:
# Converter os valores Nan, em "SOROTIPO", tratando eles como se fossem 5(não informado)
data_frame_subs["SOROTIPO"] = (
    data_frame_subs["SOROTIPO"].fillna(5)
)

data_frame_convert["SOROTIPO"] = (
    data_frame_convert["SOROTIPO"].fillna(5)
)

In [None]:
# Converter os valores Nan, em "HOSPITALIZ", tratando eles como se 
# fossem 3(Não informado)
data_frame_subs["HOSPITALIZ"] = (
    data_frame_subs["HOSPITALIZ"].fillna(3)
)

# Converter os valores Nan, em "HOSPITALIZ", tratando eles como se 
# fossem 9(IGNORADO)
data_frame_convert["HOSPITALIZ"] = (
    data_frame_convert["HOSPITALIZ"].fillna(9)
)

In [None]:
# Converter os valores Nan, em "TPAUTOCTO", tratando eles como se 
# fossem 4(Não informado)
data_frame_subs["TPAUTOCTO"] = (
    data_frame_subs["TPAUTOCTO"].fillna(4)
)

# Converter os valores Nan, em "TPAUTOCTO", tratando eles como se 
# fossem 3(Indeterminado)
data_frame_convert["TPAUTOCTO"] = (
    data_frame_convert["TPAUTOCTO"].fillna(3)
)

In [None]:
# Converter os valores Nan, em "CRITERIO", tratando eles como se 
# fossem 4(Não informado)
data_frame_subs["CRITERIO"] = (
    data_frame_subs["CRITERIO"].fillna(4)
)

# Converter os valores Nan, em "CRITERIO", tratando eles como se 
# fossem 0(Ignorado)
data_frame_convert["CRITERIO"] = (
    data_frame_convert["CRITERIO"].fillna(0)
)

In [None]:
# Converter os valores Nan, em "CLINC_CHIK", tratando eles como se 
# fossem 3(Não informado)
data_frame_subs["CLINC_CHIK"] = (
    data_frame_subs["CLINC_CHIK"].fillna(3)
)

data_frame_convert["CLINC_CHIK"] = (
    data_frame_convert["CLINC_CHIK"].fillna(3)
)

In [None]:
# Converter os valores Nan, em "EVOLUCAO", tratando eles como se 
# fossem 5(Não informado)
data_frame_subs["EVOLUCAO"] = (
    data_frame_subs["EVOLUCAO"].fillna(5)
)

# Converter os valores Nan, em "EVOLUCAO", tratando eles como se 
# fossem 9(Ignorado)
data_frame_convert["EVOLUCAO"] = (
    data_frame_convert["EVOLUCAO"].fillna(9)
)

In [None]:
# Converter os valores Nan, em "TP_SISTEMA", tratando eles como se 
# fossem 3(Não informado)
data_frame_subs["TP_SISTEMA"] = (
    data_frame_subs["TP_SISTEMA"].fillna(3)
)

data_frame_convert["TP_SISTEMA"] = (
    data_frame_convert["TP_SISTEMA"].fillna(3)
)

In [None]:
# Colunas que ainda falta analisar
#colunas_ = [
#    "", "", "UF", "MUNICIPIO", "", "COUFINF", 
#    "COPAISINF", "CLASSI_FIN", "", "", "", "", 
 #   "NDUPLIC_N", "FLXRECEBI"
#]

In [None]:
regioes_unicas = data_frame_convert['RENAL'].unique()

print(regioes_unicas)

In [None]:
regioes_unicas = data_frame_subs['RENAL'].unique()

print(regioes_unicas)

In [None]:
# Colunas de datas
colunas_data = [
    "DT_CHIK_S1", "DT_CHIK_S2", "DT_PRNT", "DT_SORO", "DT_NS1", "DT_VIRAL", 
    "DT_PCR", "DT_INTERNA", "DT_OBITO", "DT_ENCERRA", "DT_ALRM", "DT_GRAV", 
    "DT_DIGITA"
]

In [None]:
colunas_com_nan = data_frame_convert.columns[
    data_frame_convert.isna().any()
].tolist()

colunas_com_nan

In [None]:
nan_pct = (data_frame_convert.isna().mean() * 100).sort_values(ascending=False)

top = nan_pct.head(60)

plt.figure(figsize=(12, 6))
plt.bar(top.index.astype(str), top.values)
plt.xticks(rotation=90)
plt.ylabel('% NaN')
plt.title('Top 30 colunas com maior % de NaN (após drop)')
plt.tight_layout()
plt.show()