### Análise de Dados Epidemiológicos: Dengue, Chikungunya, Zika e Febre Amarela

**Curso:** Bacharelado em Sistemas de Informação  
**Disciplina:** Ciência de Dados 1  
**Equipe:** Lucas André Oliveira Pinheiro, Eduardo Nogueira, Cynthia Neiva  
**Professor:**  Roberto Yuri da Silva Campo  
**Data:** 30/01/2026  


**2 Coleta e Entendimento dos Dado**

**2.1 Identificação da Fonte de Dados**

Os dados analisados neste estudo foram obtidos a partir da plataforma DataSUS, sob responsabilidade do Ministério da Saúde, no âmbito do Sistema Nacional de Vigilância Epidemiológica. As bases utilizadas são provenientes do Sistema de Informação de Agravos de Notificação (SINAN), que tem como finalidade coletar, transmitir e disseminar dados gerados rotineiramente pela vigilância epidemiológica nas três esferas de governo.

No caso específico da Febre Amarela, os dados são monitorados pela Coordenação-Geral de Vigilância de Arboviroses (CGARB), vinculada ao Departamento de Doenças Transmissíveis (DEDT) da Secretaria de Vigilância em Saúde e Ambiente (SVSA). As notificações incluem casos suspeitos e confirmados em humanos e primatas não-humanos (PNH), captadas por meio do Sinan Net, instrumentos complementares de monitoramento e comunicações diretas aos órgãos de vigilância, incluindo o Centro de Informações Estratégicas em Vigilância em Saúde (CIEVS). Para a vigilância animal, também são utilizados dados do Sistema de Informação em Saúde Silvestre (SISS-Geo).

Neste estudo, embora a base de dados de Febre Amarela disponibilizada pelo DataSUS contemple registros de casos em humanos e primatas não-humanos (epizootias), a análise será restrita exclusivamente aos casos humanos.

A decisão de utilizar apenas os registros humanos deve-se à necessidade de manter comparabilidade metodológica com os demais agravos analisados (Dengue, Chikungunya e Zika), os quais se referem exclusivamente a casos humanos. Dessa forma, evita-se a introdução de vieses decorrentes de diferenças na natureza epidemiológica e nos sistemas de vigilância aplicados à vigilância animal.

**2.2 Descrição do Conjunto de Dados**

Os conjuntos de dados analisados apresentam variáveis numéricas, categóricas e temporais. As variáveis numéricas incluem idade, ano, mês e semana epidemiológica. As variáveis categóricas abrangem sexo, raça/cor, escolaridade, unidade federativa, município e classificação final do caso. As variáveis temporais incluem datas de início dos sintomas, notificação e óbito, permitindo análises de séries temporais e sazonalidade.

A estrutura dos dados é tabular, onde cada linha representa um caso notificado e cada coluna uma característica epidemiológica.

Foram utilizados dois formatos de dados: CSV, visando a facilidade da análise exploratória e visualizações, e JSON, para organização hierárquica e interoperabilidade dos dados.




**3️ Importação e Manipulação dos Dados**

Importação dos dados em Python e Exploração com pandas

In [None]:
import pandas as pd
from pathlib import Path

def load_csv_folder(path: str) -> pd.DataFrame:
    folder = Path(path)
    files = sorted(folder.glob("*.csv"))

    df_list = []
    for file in files:
        df = pd.read_csv(file, sep=";", encoding="latin-1", low_memory=False)
        df["ano_origem"] = file.stem[-2:]  # captura os dois últimos dígitos do ano
        df_list.append(df)

    return pd.concat(df_list, ignore_index=True)

3️⃣ Importação e Manipulação dos Dados

Seleção de colunas relevantes;

Filtragem de registros;

Ordenação e criação de subconjuntos de dados.

4️⃣ Transformação e Integração dos Dados

Aplicação de:

Funções de agregação (média, soma, contagem, etc.);

Junção de tabelas (merge / join);

Criação e transformação de variáveis derivadas.

Exemplos:

Média de indicadores por região;

Comparação entre anos ou categorias.

5️⃣ Tratamento de Dados

Identificação e tratamento de:

Valores faltantes (remoção, substituição ou imputação);

Outliers;

Normalização ou padronização de variáveis numéricas;

Codificação de variáveis categóricas (label encoding ou one-hot).

6️⃣ Visualização de Dados

Criação de gráficos adequados aos dados, tais como:

Gráficos de barras;

Histogramas;

Boxplots;

Gráficos de linhas.

Aplicação de boas práticas:

Títulos claros;

Rótulos de eixos;

Legendas;

Escolha adequada do tipo de gráfico.

7️⃣ Produto Final

Notebook (Jupyter ou RMarkdown) bem organizado, contendo:

Texto explicativo;

Código comentado;

Gráficos.

Relatório final (ou notebook estruturado) com:

Introdução;

Metodologia;

Resultados;

Conclusões.