# Imports

In [None]:
import pandas as pd

In [None]:
pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", None)
# pd.reset_option('display.max_columns')
# pd.reset_option('display.max_rows')

# Dataset

In [None]:
caminho_do_arquivo = "../data/01_raw/INFLUD25-11-08-2025.csv"

In [None]:
df = pd.read_csv(caminho_do_arquivo, sep=";")

## Dicionario

In [None]:
caminho_do_arquivo = "../data/02-intermediate/dicionario.csv"

In [None]:
dicionario = pd.read_csv(caminho_do_arquivo, sep=",")

In [None]:
dicionario

# Explore Dataset

In [None]:
df.info()

In [None]:
df.index

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.dtypes

In [None]:
# df.describe()

In [None]:
# Analisando as colunas e a quantidade (porcentagem) de valores nulos
porcentagens = (df.isnull().sum() / len(df)) * 100
porcentagens

# Filter Dataset

In [None]:
def colunas_com_nulos_acima_da_porcentagem(df, porcentagem_limite):
    """
    Retorna uma lista das colunas que têm mais valores nulos
    do que o limite de porcentagem especificado.

    Args:
        df (pd.DataFrame): O DataFrame a ser analisado.
        porcentagem_limite (float): A porcentagem limite (ex: 20 para 20%).

    Returns:
        list: Uma lista com os nomes das colunas.
    """
    porcentagens = (df.isnull().sum() / len(df)) * 100
    colunas_acima_do_limite = porcentagens[
        porcentagens > porcentagem_limite
    ].index.tolist()
    return colunas_acima_do_limite


def colunas_com_nulos_abaixo_da_porcentagem(df, porcentagem_limite):
    """
    Retorna uma lista das colunas que têm menos valores nulos
    do que o limite de porcentagem especificado.

    Args:
        df (pd.DataFrame): O DataFrame a ser analisado.
        porcentagem_limite (float): A porcentagem limite (ex: 20 para 20%).

    Returns:
        list: Uma lista com os nomes das colunas.
    """
    porcentagens = (df.isnull().sum() / len(df)) * 100
    colunas_acima_do_limite = porcentagens[
        porcentagens <= porcentagem_limite
    ].index.tolist()
    return colunas_acima_do_limite

In [None]:
colunas_problema = colunas_com_nulos_acima_da_porcentagem(df, 20)

In [None]:
# Removendo todas as colunas com mais de 20% de valores nulos
## Caso perceba que alguma das colunas excluídas era importante
## para a construção das métricas/gráficos, eu pego ela depois
df_filter = df.drop(columns=colunas_problema)

In [None]:
df_filter.head()

In [None]:
df_filter.shape

In [None]:
porcentagens = (df_filter.isnull().sum() / len(df)) * 100
porcentagens

In [None]:
# Estas colunas não tem valores nulos
colunas_com_nulos_abaixo_da_porcentagem(df, 0)

In [None]:
df_filter.head()

In [None]:
df_filter.columns

In [None]:
valores_unicos = df.nunique()
print(valores_unicos)

# Análise por coluna

In [None]:
def analisar_dataframe_com_dicionario(df, dicionario):
    """
    Analisa um DataFrame e imprime informações detalhadas para cada coluna,
    incluindo dados de um dicionário de campos.

    Args:
        df (pd.DataFrame): O DataFrame a ser analisado.
        dicionario (pd.DataFrame): O DataFrame que contém o dicionário de campos.
    """
    print("Análise do DataFrame:\n")
    for column in df.columns:
        print(f"* Análise da Coluna: '{column}'")

        # Busca as informações da coluna no dicionário
        info_dicionario = dicionario[dicionario["DBF"] == column]
        if info_dicionario.empty:
            info_dicionario = dicionario[
                dicionario["DBF"].str.contains(column, case=False, na=False)
            ]
        if not info_dicionario.empty:
            DBF = info_dicionario["DBF"].iloc[0]
            nome_campo = info_dicionario["Nome do campo"].iloc[0]
            descricao = info_dicionario["Descrição"].iloc[0]
            print(f"* DBF: {DBF}")
            print(f"* Nome do Campo: {nome_campo}")
            print(f"* Descrição: {descricao}")
        else:
            print("* Informações do dicionário não encontradas para esta coluna.")

        # Tipo de dado
        print(f"* Tipo: {df[column].dtype}")

        # Valores nulos
        nulos_quantidade = df[column].isnull().sum()
        nulos_porcentagem = (nulos_quantidade / len(df)) * 100
        print(f"* Valores Nulos: {nulos_quantidade} ({nulos_porcentagem:.2f}%)")

        # Primeiros e últimos valores
        print(f"* Primeiros 2 valores: {df[column].head(2).tolist()}")
        print(f"* Últimos 2 valores: {df[column].tail(2).tolist()}")

        # Valores mais comuns
        print("* Valores mais comuns:")
        top_3_comuns = df[column].value_counts().head(3)
        for valor, contagem in top_3_comuns.items():
            print(f"\t* Valor: '{valor}', Contagem: {contagem}")

        print("\n")

In [None]:
df_filter.head()

In [None]:
analisar_dataframe_com_dicionario(df_filter, dicionario)

# Colunas para DROP e justificativas

* NU_NOTIFIC: id, um valor por amostra
* SEM_NOT: semana, não relevante
* DT_SIN_PRI: data dos primeiros sintomas
* SEM_PRI: semana, não relevante
* ID_REGIONA: regiao
* CO_REGIONA: código da região
* CO_MUN_NOT: código do município
* NU_IDADE_N: remover pq vou usar a data de nasc
* TP_IDADE: tipo idade
* COD_IDADE
* CS_GESTANT: gestante
* CS_RACA: cor/raça
* ID_PAIS: país
* CO_PAIS: país
* SG_UF: onde mora
* ID_RG_RESI: onde mora
* CO_RG_RESI: onde mora
* ID_MN_RESI: onde mora
* CO_MUN_RES: onde mora
* CS_ZONA: onde mora
* NOSOCOMIAL: não me interessa
* AVE_SUINO: não me interessa
* FEBRE: sintomas, não me interessa
* TOSSE: sintomas, não me interessa
* GARGANTA: sintomas, não me interessa
* DISPNEIA: sintomas, não me interessa
* DESC_RESP: sintomas, não me interessa
* SATURACAO: sintomas, não me interessa
* DIARREIA: sintomas, não me interessa
* VOMITO: sintomas, não me interessa
* ANTIVIRAL: não me interessa
* DT_INTERNA: data internação
* SG_UF_INTE: lugar internação
* ID_MN_INTE: lugar internação
* CO_MU_INTE: lugar internação
* NM_UN_INTE: lugar internação
* SUPORT_VEN: suporte ventilatorio
* AMOSTRA: amostra
* DT_COLETA: amostra
* TP_AMOSTRA: amostra
* PCR_RESUL: não interessa pcr
* CLASSI_FIN: todos são SRAG
* CRITERIO: não interessa
* DT_ENCERRA: data de encerramento
* DT_DIGITA: data digitação
* HISTO_VGM
* FADIGA: sintomas, não me interessa
* RES_AN: teste, não interessa
* POV_CT: indigena
* TEM_CPF: não precisa
* ESTRANG: não precisa
* FNT_IN_COV: fonte info vacina
* REINF: só um valor

In [None]:
lista_colunas_drop = [
    "NU_NOTIFIC",
    "SEM_NOT",
    "DT_SIN_PRI",
    "SEM_PRI",
    "ID_REGIONA",
    "CO_REGIONA",
    "CO_MUN_NOT",
    "NU_IDADE_N",
    "TP_IDADE",
    "COD_IDADE",
    "CS_GESTANT",
    "CS_RACA",
    "ID_PAIS",
    "CO_PAIS",
    "SG_UF",
    "ID_RG_RESI",
    "CO_RG_RESI",
    "ID_MN_RESI",
    "CO_MUN_RES",
    "CS_ZONA",
    "NOSOCOMIAL",
    "AVE_SUINO",
    "FEBRE",
    "TOSSE",
    "GARGANTA",
    "DISPNEIA",
    "DESC_RESP",
    "SATURACAO",
    "DIARREIA",
    "VOMITO",
    "ANTIVIRAL",
    "DT_INTERNA",
    "SG_UF_INTE",
    "ID_MN_INTE",
    "CO_MU_INTE",
    "NM_UN_INTE",
    "SUPORT_VEN",
    "AMOSTRA",
    "DT_COLETA",
    "TP_AMOSTRA",
    "PCR_RESUL",
    "CLASSI_FIN",
    "CRITERIO",
    "DT_ENCERRA",
    "DT_DIGITA",
    "HISTO_VGM",
    "FADIGA",
    "RES_AN",
    "POV_CT",
    "TEM_CPF",
    "ESTRANG",
    "FNT_IN_COV",
    "REINF",
]

In [None]:
df_filter_2 = df_filter.drop(columns=lista_colunas_drop)

In [None]:
df_filter_2.head(3)

# Colunas Importantes

* DT_NOTIFIC: data
* UTI
* EVOLUCAO: morte
* VACINA: vacina da gripe
* VACINA_COV: vacina covid

Para uma evolução do projeto: 

* SG_UF_NOT: estado, onde foi registrado (*)
* ID_MUNICIP: municipio, onde foi registrado (*)
* CS_SEXO: sexo (*)
* HOSPITAL: internaçao (*)
* DT_NASC: data de nascimento (*)

In [None]:
lista_colunas_importantes = ["DT_NOTIFIC", "UTI", "EVOLUCAO", "VACINA", "VACINA_COV"]

In [None]:
df_final = df_filter_2[lista_colunas_importantes]

In [None]:
df_final.head()

In [None]:
porcentagens = (df_final.isnull().sum() / len(df_final)) * 100
porcentagens

In [None]:
df_final.dtypes

# Corrigindo por Coluna de interesse

* Corrigir NaN
* Corrigir o Tipo da coluna
* Corrigir os valores de cada coluna (olhar significado da coluna no dicionário)
* O que fazer com os casos não informados? 
* Unir ou não vacinas? (voto em não, e fazer duas métricas diferentes, ou 3, com uma unida)

In [None]:
def analisar_coluna_dataframe(df, column):
    """
    Analisa um DataFrame e imprime informações detalhadas para a coluna

    Args:
        df (pd.DataFrame): O DataFrame a ser analisado.
        column (str): Coluna a ser analaisada.
    """
    print(f"* Análise da Coluna: '{column}'")

    # Tipo de dado
    print(f"* Tipo: {df[column].dtype}")

    # Valores nulos
    nulos_quantidade = df[column].isnull().sum()
    nulos_porcentagem = (nulos_quantidade / len(df)) * 100
    print(f"* Valores Nulos: {nulos_quantidade} ({nulos_porcentagem:.2f}%)")

    # Primeiros e últimos valores
    print(f"* Primeiros 2 valores: {df[column].head(2).tolist()}")
    print(f"* Últimos 2 valores: {df[column].tail(2).tolist()}")

    # Valores mais comuns
    print("* Valores mais comuns:")
    top_3_comuns = df[column].value_counts().head(10)
    for valor, contagem in top_3_comuns.items():
        print(f"\t* Valor: '{valor}', Contagem: {contagem}")

## DT_NOTIFIC

* DBF: DT_NOTIFIC
* Nome do Campo: 1-Data do preenchimento da ficha de notificação
* Caracteríticas: Campo Obrigatório

In [None]:
df_final[["DT_NOTIFIC"]].head()

In [None]:
analisar_coluna_dataframe(df_final, "DT_NOTIFIC")

In [None]:
df_final.shape

In [None]:
df_final.dropna(
    subset=["DT_NOTIFIC"], inplace=True
)  # sem valores nulos, mas se tiver, seria assim a forma de excluir

In [None]:
df_final.shape

In [None]:
## Conversão de object para datetime
df_final["DT_NOTIFIC"] = pd.to_datetime(
    df_final["DT_NOTIFIC"], format="%Y-%m-%d", errors="coerce"
)

In [None]:
df_final.dtypes

In [None]:
analisar_coluna_dataframe(df_final, "DT_NOTIFIC")

In [None]:
df_final.rename(columns={"DT_NOTIFIC": "DATA_NOTIFICACAO"}, inplace=True)

## UTI

* DBF: UTI
* Nome do campo: 53-Internado em UTI?
* Características: Campo Essencial 
* Categorias: 
    * 1-Sim
    * 2-Não
    * 9-Ignorado

In [None]:
df_final[["UTI"]].head()

In [None]:
analisar_coluna_dataframe(df_final, "UTI")

In [None]:
df_final["UTI"].fillna(9.0, inplace=True)

In [None]:
analisar_coluna_dataframe(df_final, "UTI")

In [None]:
mapeamento = {1.0: "SIM", 2.0: "NÃO", 9.0: "IGNORADO"}

In [None]:
df_final["UTI"] = df_final["UTI"].replace(mapeamento)

In [None]:
analisar_coluna_dataframe(df_final, "UTI")

## EVOLUCAO

* DBF: EVOLUCAO
* Nome do campo: 80–Evolução do caso
* Características: Campo Essencial 
* Categorias: 
    * 1-Cura
    * 2-Óbito
    * 3- Óbito por outras causas
    * 9-Ignorado

In [None]:
df_final[["EVOLUCAO"]].head()

In [None]:
analisar_coluna_dataframe(df_final, "EVOLUCAO")

In [None]:
df_final["EVOLUCAO"].fillna(9.0, inplace=True)

In [None]:
analisar_coluna_dataframe(df_final, "EVOLUCAO")

In [None]:
df_final["EVOLUCAO"] = df_final["EVOLUCAO"].replace(3, 2)

In [None]:
analisar_coluna_dataframe(df_final, "EVOLUCAO")

In [None]:
mapeamento = {1.0: "CURA", 2.0: "OBITO", 9.0: "IGNORADO"}

In [None]:
df_final["EVOLUCAO"] = df_final["EVOLUCAO"].replace(mapeamento)

## VACINA

* DBF: VACINA
* Nome do campo: 40-Recebeu vacina contra Gripe na última campanha?
* Características: Campo Essencial 
* Categorias: 
    * 1-Sim
    * 2-Não
    * 9-Ignorado

In [None]:
df_final[["VACINA"]].head()

In [None]:
analisar_coluna_dataframe(df_final, "VACINA")

In [None]:
df_final["VACINA"].fillna(9.0, inplace=True)

In [None]:
analisar_coluna_dataframe(df_final, "VACINA")

In [None]:
mapeamento = {1.0: "SIM", 2.0: "NÃO", 9.0: "IGNORADO"}

In [None]:
df_final["VACINA"] = df_final["VACINA"].replace(mapeamento)

## VACINA_COV

* DBF: VACINA_COV
* Nome do campo: 36 - Recebeu vacina COVID-19? 
* Características: Campo Obrigatório 
* Categorias: 
    * 1-Sim
    * 2-Não
    * 9-Ignorado

In [None]:
df_final[["VACINA_COV"]].head()

In [None]:
analisar_coluna_dataframe(df_final, "VACINA_COV")

In [None]:
df_final["VACINA_COV"].fillna(9.0, inplace=True)

In [None]:
analisar_coluna_dataframe(df_final, "VACINA_COV")

In [None]:
mapeamento = {1.0: "SIM", 2.0: "NÃO", 9.0: "IGNORADO"}

In [None]:
df_final["VACINA_COV"] = df_final["VACINA_COV"].replace(mapeamento)

# Dataset Final

In [None]:
df_final.head()

In [None]:
df_final.shape

In [None]:
(df_final.isnull().sum() / len(df_final)) * 100

In [None]:
df_final.dtypes