# An√°lise de Dados Epidemiol√≥gicos: Dengue, Chikungunya, Zika e Febre Amarela

**Curso:** Bacharelado em Sistemas de Informa√ß√£o  
**Disciplina:** Ci√™ncia de Dados 1  
**Equipe:** Lucas Andr√© Oliveira Pinheiro, Eduardo Nogueira, Cynthia Neiva  
**Professor:**  Roberto Yuri da Silva Campo  
**Data:** 30/01/2026  


---
## ‚öôÔ∏è Instala√ß√£o de Depend√™ncias

Execute a c√©lula abaixo **uma √∫nica vez** para instalar as bibliotecas necess√°rias.

In [58]:
# Execute esta c√©lula uma vez e reinicie o kernel depois
import sys
!{sys.executable} -m pip install -q pandas numpy plotly scikit-learn requests openpyxl
print('Depend√™ncias instaladas! Reinicie o kernel se necess√°rio (Kernel > Restart).')

Depend√™ncias instaladas! Reinicie o kernel se necess√°rio (Kernel > Restart).


---
## 1Ô∏è‚É£ Introdu√ß√£o e Fundamenta√ß√£o Te√≥rica

1Ô∏è‚É£ **Introdu√ß√£o e Fundamenta√ß√£o Te√≥rica**

**1.1 Introdu√ß√£o √† Ci√™ncia de Dados:**

A Ci√™ncia de Dados √© uma √°rea interdisciplinar que combina conhecimentos de
estat√≠stica, matem√°tica, computa√ß√£o e conhecimento de dom√≠nio com o objetivo
de extrair informa√ß√µes relevantes e gerar valor a partir de grandes volumes
de dados estruturados e n√£o estruturados.  

**1.2 Hist√≥rico e evolu√ß√£o da √°rea:**  
A Ci√™ncia de Dados tem suas origens nas aplica√ß√µes da estat√≠stica e da
computa√ß√£o para an√°lise de dados ao longo do s√©culo XX. Inicialmente, essas
t√©cnicas eram utilizadas de forma isolada em √°reas como pesquisa cient√≠fica,
economia e engenharia. Com o surgimento dos sistemas de bancos de dados e
posteriormente a evolu√ß√£o da mineira√ß√£o de dados, tornou-se poss√≠vel armazenar e analisar
volumes crescentes de informa√ß√£o de maneira estruturada.

No final dos anos 2000, a integra√ß√£o entre estat√≠stica, ci√™ncia da computa√ß√£o
e aprendizado de m√°quina passou a ser tratada de forma unificada, dando
origem √† Ci√™ncia de Dados como um campo pr√≥prio. A partir desse per√≠odo,
especialmente ap√≥s 2008, a √°rea consolidou-se tanto no meio acad√™mico quanto
no mercado de trabalho, acompanhando a crescente digitaliza√ß√£o da sociedade
e a intensifica√ß√£o da produ√ß√£o de dados.

**1.3 Import√¢ncia da Ci√™ncia de Dados na sociedade atual:**  
Na sociedade contempor√¢nea, a Ci√™ncia de Dados desempenha um papel fundamental
na tomada de decis√µes baseada em dados. Ela √© amplamente utilizada em √°reas
como sa√∫de, finan√ßas, educa√ß√£o, ind√∫stria, marketing e pol√≠ticas p√∫blicas,
auxiliando na identifica√ß√£o de padr√µes, previs√µes de comportamentos e
otimiza√ß√£o de processos, contribuindo para solu√ß√µes mais eficientes e
inovadoras.

**1.4 Ciclo de vida da Ci√™ncia de Dados:**  
O ciclo de vida da Ci√™ncia de Dados √© composto por etapas interdependentes,
que geralmente incluem:  
1. **Defini√ß√£o do problema:** Entendimento do objetivo e das perguntas a serem
   respondidas.

2. **Coleta de dados:** Obten√ß√£o dos dados a partir de diferentes fontes.

3. **Prepara√ß√£o e limpeza dos dados:** Tratamento de inconsist√™ncias, valores
   ausentes e padroniza√ß√£o.

4. **An√°lise explorat√≥ria:** Compreens√£o dos dados por meio de estat√≠sticas e
   visualiza√ß√µes.

5. **Modelagem:** Aplica√ß√£o de t√©cnicas estat√≠sticas ou de aprendizado de m√°quina.

6. **Valida√ß√£o:** Verifica√ß√£o do desempenho e da qualidade dos resultados.

7. **Comunica√ß√£o dos resultados:** Apresenta√ß√£o dos insights obtidos de forma
   clara e compreens√≠vel e utiliza√ß√£o de gr√°ficos interativos.




## 2Ô∏è‚É£ Coleta e Entendimento dos Dados

### 2.1 Fonte de Dados
Os dados foram obtidos da plataforma **DataSUS**, do Minist√©rio da Sa√∫de, via **SINAN** (Sistema de Informa√ß√£o de Agravos de Notifica√ß√£o). Para a Febre Amarela, os dados s√£o monitorados pela **CGARB** (Coordena√ß√£o-Geral de Vigil√¢ncia de Arboviroses). A an√°lise da Febre Amarela √© restrita a **casos humanos** para manter comparabilidade metodol√≥gica.

### 2.2 Descri√ß√£o dos Conjuntos de Dados
Os conjuntos apresentam vari√°veis:
- **Num√©ricas:** idade, ano, semana epidemiol√≥gica
- **Categ√≥ricas:** sexo, ra√ßa/cor, escolaridade, UF, classifica√ß√£o do caso
- **Temporais:** datas de in√≠cio dos sintomas, notifica√ß√£o e √≥bito

### 2.3 Estrat√©gia de Coleta
Os dados s√£o baixados diretamente das URLs p√∫blicas do DataSUS em formato `.csv.zip` e `.json.zip`. Para otimizar mem√≥ria, s√£o selecionadas apenas as colunas relevantes √† an√°lise.

---
## ‚öôÔ∏è Configura√ß√£o do Ambiente

In [59]:
import pandas as pd
import numpy as np
import requests
import zipfile
import io
import json
import warnings

import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

warnings.filterwarnings('ignore')

# Paleta de cores padr√£o do projeto
CORES = {
    'Dengue':        '#E63946',
    'Chikungunya':   '#457B9D',
    'Zika':          '#2A9D8F',
    'Febre Amarela': '#E9A820'
}

print('Ambiente configurado com sucesso!')

Ambiente configurado com sucesso!


---
## 3Ô∏è‚É£ Importa√ß√£o e Manipula√ß√£o dos Dados

In [60]:

# Fun√ß√µes auxiliares de download

0
def baixar_csv_zip(url, colunas=None):
    """Baixa um .csv.zip e retorna DataFrame com colunas selecionadas."""
    try:
        resp = requests.get(url, timeout=60)
        resp.raise_for_status()
        with zipfile.ZipFile(io.BytesIO(resp.content)) as z:
            nome_csv = [n for n in z.namelist() if n.endswith('.csv')][0]
            with z.open(nome_csv) as f:
                df = pd.read_csv(f, sep=',', encoding='latin1',
                                 usecols=colunas, low_memory=True)
        return df
    except Exception as e:
        print(f'  Falha: {url.split("/")[-1]} ‚Äî {e}')
        return pd.DataFrame()


def baixar_json_zip(url):
    """Baixa um .json.zip e retorna o conte√∫do parseado."""
    resp = requests.get(url, timeout=60)
    resp.raise_for_status()
    with zipfile.ZipFile(io.BytesIO(resp.content)) as z:
        nome_json = [n for n in z.namelist() if n.endswith('.json')][0]
        with z.open(nome_json) as f:
            return json.load(f)

print('Fun√ß√µes auxiliares prontas.')

Fun√ß√µes auxiliares prontas.


In [61]:
# 3.1 Dengue ‚Äî download 2015‚Äì2024

BASE_DENGUE = 'https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SINAN/Dengue/csv/DENGBR{}.csv.zip'

COLUNAS_DENGUE = [
    'NU_ANO', 'SG_UF', 'CS_SEXO', 'NU_IDADE_N',
    'CS_RACA', 'CLASSI_FIN', 'EVOLUCAO', 'TPAUTOCTO', 'HOSPITALIZ'
]

dfs_dengue = []
for ano in range(15, 25):  # 2015‚Äì2024
    url = BASE_DENGUE.format(str(ano).zfill(2))
    print(f'  Dengue 20{ano:02d}...', end=' ')
    df = baixar_csv_zip(url, COLUNAS_DENGUE)
    if not df.empty:
        dfs_dengue.append(df)
        print(f'{len(df):,} registros')

dengue = pd.concat(dfs_dengue, ignore_index=True)
print(f'\n Dengue: {len(dengue):,} registros carregados')

  Dengue 2015... 2,398,060 registros
  Dengue 2016... 2,298,020 registros
  Dengue 2017... 518,483 registros
  Dengue 2018... 478,880 registros
  Dengue 2019... 2,261,956 registros
  Dengue 2020... 1,495,117 registros
  Dengue 2021... 1,010,359 registros
  Dengue 2022... 1,393,877 registros
  Dengue 2023... 1,645,350 registros
  Dengue 2024... 6,575,107 registros

 Dengue: 20,075,209 registros carregados


In [62]:
# 3.2 Chikungunya ‚Äî download 2015‚Äì2024


BASE_CHIK = 'https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SINAN/Chikungunya/csv/CHIKBR{}.csv.zip'

COLUNAS_CHIK = [
    'NU_ANO', 'SG_UF', 'CS_SEXO', 'NU_IDADE_N',
    'CS_RACA', 'CLASSI_FIN', 'EVOLUCAO', 'HOSPITALIZ'
]

dfs_chik = []
for ano in range(15, 25):
    url = BASE_CHIK.format(str(ano).zfill(2))
    print(f'  üì• Chikungunya 20{ano:02d}...', end=' ')
    df = baixar_csv_zip(url, COLUNAS_CHIK)
    if not df.empty:
        dfs_chik.append(df)
        print(f'{len(df):,} registros')

chikungunya = pd.concat(dfs_chik, ignore_index=True)
print(f'\n Chikungunya: {len(chikungunya):,} registros carregados')

  üì• Chikungunya 2015...   Falha: CHIKBR15.csv.zip ‚Äî Usecols do not match columns, columns expected but not found: ['HOSPITALIZ']
  üì• Chikungunya 2016...   Falha: CHIKBR16.csv.zip ‚Äî Usecols do not match columns, columns expected but not found: ['HOSPITALIZ']
  üì• Chikungunya 2017... 247,662 registros
  üì• Chikungunya 2018... 118,779 registros
  üì• Chikungunya 2019... 178,147 registros
  üì• Chikungunya 2020... 102,496 registros
  üì• Chikungunya 2021... 128,991 registros
  üì• Chikungunya 2022... 273,874 registros
  üì• Chikungunya 2023... 266,589 registros
  üì• Chikungunya 2024... 426,938 registros

 Chikungunya: 1,743,476 registros carregados


In [63]:

# 3.3 Zika ‚Äî download 2016‚Äì2024


BASE_ZIKA = 'https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SINAN/Zikavirus/csv/ZIKABR{}.csv.zip'

COLUNAS_ZIKA = [
    'NU_ANO', 'SG_UF', 'CS_SEXO', 'NU_IDADE_N',
    'CS_RACA', 'CLASSI_FIN', 'EVOLUCAO'
]

dfs_zika = []
for ano in range(16, 25):
    url = BASE_ZIKA.format(str(ano).zfill(2))
    print(f'   Zika 20{ano:02d}...', end=' ')
    df = baixar_csv_zip(url, COLUNAS_ZIKA)
    if not df.empty:
        dfs_zika.append(df)
        print(f'{len(df):,} registros')

zika = pd.concat(dfs_zika, ignore_index=True)
print(f'\n Zika: {len(zika):,} registros carregados')

   Zika 2016... 281,464 registros
   Zika 2017... 32,684 registros
   Zika 2018... 20,584 registros
   Zika 2019... 30,500 registros
   Zika 2020... 20,867 registros
   Zika 2021... 19,090 registros
   Zika 2022... 35,121 registros
   Zika 2023... 36,003 registros
   Zika 2024... 43,676 registros

 Zika: 519,989 registros carregados


In [64]:
# 3.4 Febre Amarela ‚Äî download JSON (casos humanos)

URL_FA = 'https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/Febre+Amarela/json/fa_casoshumanos_1994-2025.json.zip'

print(' Febre Amarela (JSON)...')
dados_fa = baixar_json_zip(URL_FA)

if isinstance(dados_fa, list):
    febre_amarela = pd.json_normalize(dados_fa)
elif isinstance(dados_fa, dict):
    chave = list(dados_fa.keys())[0]
    febre_amarela = pd.json_normalize(dados_fa[chave])

# Filtrar somente casos humanos
if 'tipo_caso' in febre_amarela.columns:
    febre_amarela = febre_amarela[
        febre_amarela['tipo_caso'].str.upper().str.contains('HUMANO', na=False)
    ]

print(f' Febre Amarela: {len(febre_amarela):,} registros | Colunas: {list(febre_amarela.columns)}')
febre_amarela.head(3)

 Febre Amarela (JSON)...
 Febre Amarela: 2,886 registros | Colunas: ['COD_MUN_LPI', 'MACRORREG_LPI', 'IDADE', 'UF_LPI', 'SE_IS', 'OBITO', 'MONITORAMENTO_IS', 'MUN_LPI', 'SEXO', 'DT_OBITO', 'MES_IS', 'COD_UF_LPI', 'ID', 'DT_IS', 'ANO_IS']


Unnamed: 0,COD_MUN_LPI,MACRORREG_LPI,IDADE,UF_LPI,SE_IS,OBITO,MONITORAMENTO_IS,MUN_LPI,SEXO,DT_OBITO,MES_IS,COD_UF_LPI,ID,DT_IS,ANO_IS
0,140005.0,N,,RR,48.0,SIM,1994/1995,ALTO ALEGRE,M,01/12/1994,11.0,14,1,29/11/1994,1994
1,140045.0,N,19.0,RR,8.0,N√ÉO,1994/1995,PACARAIMA,M,,2.0,14,2,19/02/1995,1995
2,210060.0,NE,32.0,MA,13.0,IGN,1994/1995,AMARANTE DO MARANH√ÉO,M,,4.0,21,3,01/04/1995,1995


In [65]:
# 3.5 Explora√ß√£o inicial


for nome, df in [('Dengue', dengue), ('Chikungunya', chikungunya),
                 ('Zika', zika), ('Febre Amarela', febre_amarela)]:
    print(f'\n {nome}: {df.shape[0]:,} linhas √ó {df.shape[1]} colunas')
    display(df.head(2))


 Dengue: 20,075,209 linhas √ó 9 colunas


Unnamed: 0,NU_ANO,NU_IDADE_N,CS_SEXO,CS_RACA,SG_UF,HOSPITALIZ,TPAUTOCTO,CLASSI_FIN,EVOLUCAO
0,2015,4038.0,M,4.0,11.0,2.0,,5.0,
1,2015,4026.0,F,4.0,14.0,,,8.0,



 Chikungunya: 1,743,476 linhas √ó 8 colunas


Unnamed: 0,NU_ANO,NU_IDADE_N,CS_SEXO,CS_RACA,SG_UF,HOSPITALIZ,CLASSI_FIN,EVOLUCAO
0,2017,4019.0,F,1.0,12,,5.0,
1,2017,4030.0,M,2.0,12,2.0,5.0,1.0



 Zika: 519,989 linhas √ó 7 colunas


Unnamed: 0,NU_ANO,NU_IDADE_N,CS_SEXO,CS_RACA,SG_UF,CLASSI_FIN,EVOLUCAO
0,2016,4116,M,,17.0,8.0,
1,2016,4048,M,4.0,29.0,8.0,1.0



 Febre Amarela: 2,886 linhas √ó 15 colunas


Unnamed: 0,COD_MUN_LPI,MACRORREG_LPI,IDADE,UF_LPI,SE_IS,OBITO,MONITORAMENTO_IS,MUN_LPI,SEXO,DT_OBITO,MES_IS,COD_UF_LPI,ID,DT_IS,ANO_IS
0,140005.0,N,,RR,48.0,SIM,1994/1995,ALTO ALEGRE,M,01/12/1994,11.0,14,1,29/11/1994,1994
1,140045.0,N,19.0,RR,8.0,N√ÉO,1994/1995,PACARAIMA,M,,2.0,14,2,19/02/1995,1995


---
## 4Ô∏è‚É£ Transforma√ß√£o e Integra√ß√£o dos Dados

In [None]:
# 4.1 Mapeamentos padr√£o dados do SINAN


MAPA_RACA = {
    1: 'Branca', 2: 'Preta', 3: 'Amarela',
    4: 'Parda', 5: 'Ind√≠gena', 9: 'Ignorado'
}

MAPA_UF = {
    35: 'SP', 31: 'MG', 52: 'GO', 41: 'PR', 26: 'PE',
    23: 'CE', 29: 'BA', 50: 'MS', 33: 'RJ', 53: 'DF',
    24: 'RN', 51: 'MT', 32: 'ES', 42: 'SC', 25: 'PB',
    27: 'AL', 17: 'TO', 43: 'RS', 12: 'AC', 15: 'PA',
    22: 'PI', 13: 'AM', 28: 'SE', 14: 'RR', 16: 'AP',
    11: 'RO', 21: 'MA'
}

MAPA_EVOLUCAO = {
    1: 'Alta', 2: '√ìbito por doen√ßa',
    3: '√ìbito por outra causa', 9: 'Ignorado'
}

MAPA_CLASSI = {5: 'Confirmado', 8: 'Descartado', 10: 'Inconclusivo'}


def transformar_sinan(df, doenca):
    """Aplica mapeamentos e cria vari√°veis derivadas em datasets SINAN."""
    df = df.copy()

    # Ano
    df['NU_ANO'] = pd.to_numeric(df['NU_ANO'], errors='coerce').astype('Int16')

    # Idade em anos (c√≥digo SINAN: unidade*1000 + valor)
    df['NU_IDADE_N'] = pd.to_numeric(df['NU_IDADE_N'], errors='coerce')
    unidade = df['NU_IDADE_N'] // 1000
    valor   = df['NU_IDADE_N'] % 1000
    df['IDADE_ANOS'] = np.where(unidade == 4, valor, np.nan).astype('float32')

    # Faixa et√°ria
    bins   = [0, 4, 14, 24, 39, 59, 120]
    labels = ['0‚Äì4', '5‚Äì14', '15‚Äì24', '25‚Äì39', '40‚Äì59', '60+']
    df['FAIXA_ETARIA'] = pd.cut(df['IDADE_ANOS'], bins=bins, labels=labels, right=True)

    # Ra√ßa
    df['CS_RACA'] = pd.to_numeric(df['CS_RACA'], errors='coerce').map(MAPA_RACA)

    # UF
    df['SG_UF'] = pd.to_numeric(df['SG_UF'], errors='coerce').map(MAPA_UF)

    # Evolu√ß√£o e classifica√ß√£o
    if 'EVOLUCAO' in df.columns:
        df['EVOLUCAO'] = pd.to_numeric(df['EVOLUCAO'], errors='coerce').map(MAPA_EVOLUCAO)
    if 'CLASSI_FIN' in df.columns:
        df['CLASSI_FIN'] = pd.to_numeric(df['CLASSI_FIN'], errors='coerce').map(MAPA_CLASSI)

    # Per√≠odo epidemiol√≥gico
    df['PERIODO'] = np.where(
        df['NU_ANO'] < 2020,
        'Pr√©-Pandemia (‚â§2019)',
        'Pandemia/P√≥s (2020+)'
    )

    df['DOENCA'] = doenca
    return df


dengue      = transformar_sinan(dengue,      'Dengue')
chikungunya = transformar_sinan(chikungunya, 'Chikungunya')
zika        = transformar_sinan(zika,        'Zika')

print(' Transforma√ß√µes aplicadas.')

In [None]:

# 4.2 Transforma√ß√£o da Febre Amarela
# Obs: A fonte dela como foi especificado anteriormente √© diferente do sinan e segue uma estrutura diferente, por isso precisou ser feita separadamente.


fa = febre_amarela.copy()
fa.columns = fa.columns.str.upper().str.strip()

# Detectar coluna de ano automaticamente
col_ano  = next((c for c in fa.columns if 'ANO' in c), None)
col_sexo = next((c for c in fa.columns if 'SEXO' in c), None)
col_uf   = next((c for c in fa.columns if 'UF' in c or 'ESTADO' in c), None)

renomear = {}
if col_ano:  renomear[col_ano]  = 'NU_ANO'
if col_sexo: renomear[col_sexo] = 'CS_SEXO'
if col_uf:   renomear[col_uf]   = 'SG_UF'
fa = fa.rename(columns=renomear)

if 'NU_ANO' in fa.columns:
    fa['NU_ANO'] = pd.to_numeric(fa['NU_ANO'], errors='coerce').astype('Int16')
    fa['PERIODO'] = np.where(fa['NU_ANO'] < 2020, 'Pr√©-Pandemia (‚â§2019)', 'Pandemia/P√≥s (2020+)')

fa['DOENCA'] = 'Febre Amarela'
print(f' Febre Amarela transformada: {len(fa):,} casos')

In [None]:
# 4.3 Integra√ß√£o ‚Äî s√©rie temporal unificada (JOIN por concat)


def agg_casos_ano(df, doenca):
    return (
        df.groupby('NU_ANO', observed=True)
          .size()
          .reset_index(name='CASOS')
          .assign(DOENCA=doenca)
    )

serie_temporal = pd.concat([
    agg_casos_ano(dengue,      'Dengue'),
    agg_casos_ano(chikungunya, 'Chikungunya'),
    agg_casos_ano(zika,        'Zika'),
    agg_casos_ano(fa,          'Febre Amarela'),
], ignore_index=True)

serie_temporal = serie_temporal.dropna(subset=['NU_ANO'])
serie_temporal['NU_ANO'] = serie_temporal['NU_ANO'].astype(int)

print(' S√©rie temporal integrada (pivot):')
display(
    serie_temporal
    .pivot_table(index='NU_ANO', columns='DOENCA', values='CASOS', aggfunc='sum')
    .fillna(0).astype(int)
)

In [None]:
# 4.4 Vari√°veis derivadas


# Taxa de hospitaliza√ß√£o (Dengue e Chikungunya)
print('Taxa de hospitaliza√ß√£o:')
for nome, df in [('Dengue', dengue), ('Chikungunya', chikungunya)]:
    if 'HOSPITALIZ' in df.columns:
        total = len(df)
        hosp  = (pd.to_numeric(df['HOSPITALIZ'], errors='coerce') == 1).sum()
        print(f'  {nome}: {hosp:,} hospitaliza√ß√µes / {total:,} casos ({hosp/total*100:.2f}%)')

# M√©dia e desvio anual
print('\nM√©dia de casos anuais por doen√ßa:')
print(serie_temporal.groupby('DOENCA')['CASOS'].mean().round(0).astype(int))

---
## 5Ô∏è‚É£ Tratamento de Dados

In [None]:
# 5.1 Diagn√≥stico de valores faltantes


def diagnostico_nulos(df, nome):
    nulos = df.isnull().sum()
    pct   = (nulos / len(df) * 100).round(2)
    resultado = pd.DataFrame({'Faltantes': nulos, '%': pct})
    resultado = resultado[resultado['Faltantes'] > 0].sort_values('%', ascending=False)
    print(f'\n {nome}:')
    display(resultado)

for nome, df in [('Dengue', dengue), ('Chikungunya', chikungunya), ('Zika', zika)]:
    diagnostico_nulos(df, nome)

In [None]:
# 5.2 Tratamento de valores faltantes


def tratar_nulos(df):
    df = df.copy()
    # Sexo: ignorado ‚Üí 'I'
    if 'CS_SEXO' in df.columns:
        df['CS_SEXO'] = df['CS_SEXO'].fillna('I')
    # Categ√≥ricas: NaN ‚Üí 'N√£o informado'
    for col in ['CS_RACA', 'CLASSI_FIN', 'EVOLUCAO']:
        if col in df.columns:
            df[col] = df[col].fillna('N√£o informado')
    # Idade: mantida como NaN (imposs√≠vel imputar)
    return df

dengue      = tratar_nulos(dengue)
chikungunya = tratar_nulos(chikungunya)
zika        = tratar_nulos(zika)

print(' Nulos tratados.')

In [None]:
# 5.3 Outliers ‚Äî idades biologicamente imposs√≠veis


for df in [dengue, chikungunya, zika]:
    antes = df['IDADE_ANOS'].notna().sum()
    df.loc[(df['IDADE_ANOS'] < 0) | (df['IDADE_ANOS'] > 120), 'IDADE_ANOS'] = np.nan
    depois = df['IDADE_ANOS'].notna().sum()
    removidos = antes - depois
    if removidos > 0:
        print(f'  {df["DOENCA"].iloc[0]}: {removidos:,} outliers de idade removidos')

print(' Outliers tratados.')

In [None]:
# 5.4 Normaliza√ß√£o Z-score (para compara√ß√£o entre doen√ßas)


from sklearn.preprocessing import StandardScaler

pivot = (
    serie_temporal
    .pivot_table(index='NU_ANO', columns='DOENCA', values='CASOS', aggfunc='sum')
    .fillna(0)
)

scaler     = StandardScaler()
pivot_norm = pd.DataFrame(
    scaler.fit_transform(pivot),
    index=pivot.index,
    columns=pivot.columns
)

print(' Normaliza√ß√£o Z-score aplicada:')
display(pivot_norm.round(2))

In [None]:
# 5.5 Codifica√ß√£o de vari√°veis categ√≥ricas (Label Encoding)


from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
dengue['CS_SEXO_COD'] = le.fit_transform(dengue['CS_SEXO'].astype(str))

print('Codifica√ß√£o de CS_SEXO (Dengue):')
print(dict(zip(le.classes_, le.transform(le.classes_))))

---
## 6Ô∏è‚É£ Visualiza√ß√£o Interativa de Dados

> Todos os gr√°ficos abaixo s√£o **interativos**: passe o mouse para ver valores, clique na legenda para filtrar doen√ßas, use o zoom e os bot√µes no canto superior direito.

In [None]:

# 6.1 Gr√°fico de Linhas ‚Äî Evolu√ß√£o temporal das arboviroses


fig = px.line(
    serie_temporal.sort_values('NU_ANO'),
    x='NU_ANO', y='CASOS', color='DOENCA',
    color_discrete_map=CORES,
    markers=True,
    title='Evolu√ß√£o Temporal das Arboviroses no Brasil',
    labels={'NU_ANO': 'Ano', 'CASOS': 'Casos Notificados', 'DOENCA': 'Doen√ßa'},
    hover_data={'CASOS': ':,'},
)

# Linha vertical indicando in√≠cio da pandemia
fig.add_vline(
    x=2020, line_dash='dash', line_color='gray', opacity=0.6,
    annotation_text='Pandemia COVID-19', annotation_position='top right'
)

fig.update_layout(
    hovermode='x unified',
    xaxis=dict(dtick=1),
    yaxis_tickformat=',',
    legend_title='Doen√ßa',
    height=480,
    template='plotly_white'
)

fig.show()

In [None]:
# 6.2 Gr√°fico de Linhas com escala logar√≠tmica
# Obs: Peermite visualizar Zika e Febre Amarela junto com Dengue


fig_log = px.line(
    serie_temporal.sort_values('NU_ANO'),
    x='NU_ANO', y='CASOS', color='DOENCA',
    color_discrete_map=CORES,
    markers=True,
    log_y=True,
    title='Evolu√ß√£o Temporal das Arboviroses ‚Äî Escala Logar√≠tmica',
    labels={'NU_ANO': 'Ano', 'CASOS': 'Casos (escala log)', 'DOENCA': 'Doen√ßa'},
)

fig_log.add_vline(x=2020, line_dash='dash', line_color='gray', opacity=0.5)
fig_log.update_layout(
    hovermode='x unified', xaxis=dict(dtick=1),
    height=450, template='plotly_white'
)
fig_log.show()

In [None]:
# 6.3 Gr√°fico de Barras ‚Äî Top 15 UFs por casos de Dengue


uf_dengue = (
    dengue['SG_UF'].value_counts()
    .head(15)
    .reset_index()
    .rename(columns={'SG_UF': 'UF', 'count': 'Casos'})
    .sort_values('Casos', ascending=True)
)

fig_uf = px.bar(
    uf_dengue, x='Casos', y='UF',
    orientation='h',
    title='Dengue ‚Äî 15 Estados com Maior N√∫mero de Casos (2015‚Äì2024)',
    labels={'Casos': 'Casos Notificados', 'UF': 'Estado'},
    color='Casos',
    color_continuous_scale='Reds',
    text_auto=','
)

fig_uf.update_layout(height=480, template='plotly_white', coloraxis_showscale=False)
fig_uf.update_traces(textposition='outside')
fig_uf.show()

In [None]:

# 6.4 Histograma ‚Äî Distribui√ß√£o de Idade por Doen√ßa

# Montar tabela unificada com amostragem para performance
dfs_hist = []
for nome, df in [('Dengue', dengue), ('Chikungunya', chikungunya), ('Zika', zika)]:
    tmp = df[['IDADE_ANOS', 'DOENCA']].dropna()
    tmp = tmp[(tmp['IDADE_ANOS'] >= 0) & (tmp['IDADE_ANOS'] <= 100)]
    dfs_hist.append(tmp.sample(min(80_000, len(tmp)), random_state=42))

df_hist = pd.concat(dfs_hist)

fig_hist = px.histogram(
    df_hist, x='IDADE_ANOS', color='DOENCA',
    facet_col='DOENCA',
    nbins=40,
    color_discrete_map=CORES,
    title='Distribui√ß√£o de Idade dos Casos por Doen√ßa',
    labels={'IDADE_ANOS': 'Idade (anos)', 'count': 'Frequ√™ncia'},
    opacity=0.85,
)

fig_hist.update_layout(height=400, showlegend=False, template='plotly_white')
fig_hist.show()

In [52]:

# 6.5 Boxplot ‚Äî Comparativo de Idade entre Doen√ßas


fig_box = px.box(
    df_hist,
    x='DOENCA', y='IDADE_ANOS', color='DOENCA',
    color_discrete_map=CORES,
    title='Distribui√ß√£o de Idade dos Casos ‚Äî Dengue, Chikungunya e Zika',
    labels={'DOENCA': 'Doen√ßa', 'IDADE_ANOS': 'Idade (anos)'},
    points=False,
)

fig_box.update_layout(height=430, showlegend=False, template='plotly_white')
fig_box.show()

In [53]:
# 6.6 Gr√°fico de Barras Agrupadas ‚Äî Casos por Sexo e Per√≠odo


dfs_sexo = []
for nome, df in [('Dengue', dengue), ('Chikungunya', chikungunya), ('Zika', zika)]:
    tabela = (
        df[df['CS_SEXO'].isin(['F', 'M'])]
        .groupby(['PERIODO', 'CS_SEXO'], observed=True)
        .size()
        .reset_index(name='Casos')
        .assign(DOENCA=nome)
    )
    dfs_sexo.append(tabela)

df_sexo = pd.concat(dfs_sexo)
df_sexo['Sexo'] = df_sexo['CS_SEXO'].map({'F': 'Feminino', 'M': 'Masculino'})

fig_sexo = px.bar(
    df_sexo, x='PERIODO', y='Casos', color='Sexo',
    facet_col='DOENCA', barmode='group',
    color_discrete_sequence=['#E63946', '#457B9D'],
    title='Distribui√ß√£o de Casos por Sexo e Per√≠odo Epidemiol√≥gico',
    labels={'PERIODO': 'Per√≠odo', 'Casos': 'N√∫mero de Casos'},
    text_auto=False,
)

fig_sexo.update_layout(height=430, template='plotly_white')
fig_sexo.update_xaxes(tickangle=10)
fig_sexo.show()

In [54]:
# 6.7 Heatmap ‚Äî Intensidade epidemiol√≥gica normalizada (Z-score)


fig_heat = px.imshow(
    pivot_norm.T.round(2),
    color_continuous_scale='RdBu_r',
    color_continuous_midpoint=0,
    title='Intensidade Epidemiol√≥gica por Doen√ßa e Ano (Z-score)',
    labels={'x': 'Ano', 'y': 'Doen√ßa', 'color': 'Desvio (œÉ)'},
    aspect='auto',
    text_auto='.1f',
)

fig_heat.update_layout(height=320, template='plotly_white')
fig_heat.show()

In [None]:
# 6.8 Gr√°fico de Barras ‚Äî Distribui√ß√£o por Ra√ßa/Cor (Dengue)


raca_df = (
    dengue[~dengue['CS_RACA'].isin(['N√£o informado', 'Ignorado'])]
    ['CS_RACA'].value_counts()
    .reset_index()
    .rename(columns={'CS_RACA': 'Ra√ßa/Cor', 'count': 'Casos'})
    .sort_values('Casos', ascending=True)
)

fig_raca = px.bar(
    raca_df, x='Casos', y='Ra√ßa/Cor',
    orientation='h',
    title='Dengue ‚Äî Distribui√ß√£o de Casos por Ra√ßa/Cor (2015‚Äì2024)',
    color='Casos', color_continuous_scale='Blues',
    text_auto=','
)

fig_raca.update_layout(height=380, template='plotly_white', coloraxis_showscale=False)
fig_raca.update_traces(textposition='outside')
fig_raca.show()

In [None]:
# 6.9 Gr√°fico de Barras ‚Äî Total de casos por arbovirose


totais = (
    serie_temporal.groupby('DOENCA')['CASOS']
    .sum()
    .reset_index()
    .sort_values('CASOS', ascending=False)
)

fig_tot = px.bar(
    totais, x='DOENCA', y='CASOS',
    color='DOENCA',
    color_discrete_map=CORES,
    title='Total de Casos Notificados por Arbovirose no Brasil',
    labels={'DOENCA': 'Doen√ßa', 'CASOS': 'Total de Casos'},
    text_auto=','
)

fig_tot.update_layout(height=420, showlegend=False, template='plotly_white')
fig_tot.update_traces(textposition='outside')
fig_tot.show()

In [57]:

# 6.10 Gr√°fico de √Årea Empilhada ‚Äî Composi√ß√£o anual por doen√ßa

# Apenas Dengue, Chikungunya e Zika (mesmos per√≠odos)
df_area = serie_temporal[
    serie_temporal['DOENCA'].isin(['Dengue', 'Chikungunya', 'Zika'])
].sort_values('NU_ANO')

fig_area = px.area(
    df_area, x='NU_ANO', y='CASOS', color='DOENCA',
    color_discrete_map=CORES,
    title='Composi√ß√£o Anual de Casos ‚Äî Dengue, Chikungunya e Zika',
    labels={'NU_ANO': 'Ano', 'CASOS': 'Casos Notificados', 'DOENCA': 'Doen√ßa'},
    groupnorm='',   # empilhado absoluto
)

fig_area.update_layout(
    hovermode='x unified', xaxis=dict(dtick=1),
    height=430, template='plotly_white'
)
fig_area.show()

---
## 7Ô∏è‚É£ Produto Final ‚Äî Resultados e Conclus√µes

### 7.1 S√≠ntese dos Resultados

A an√°lise epidemiol√≥gica das arboviroses no Brasil, baseada em dados do SINAN/DataSUS, revelou padr√µes relevantes:

**Dengue** √© a arbovirose de maior impacto em volume absoluto de casos, com picos expressivos que refletem surtos epid√™micos c√≠clicos, t√≠picos da din√¢mica de imunidade populacional ao v√≠rus.

**Chikungunya** emergiu com for√ßa a partir de 2015 e manteve circula√ß√£o expressiva, especialmente em regi√µes de alta densidade vetorial.

**Zika** apresentou pico epid√™mico em 2015‚Äì2016 seguido de queda abrupta,  um padr√£o consistente com a aquisi√ß√£o de imunidade coletiva ap√≥s o surto inicial.

**Febre Amarela** apresenta volume de casos muito inferior, com surtos concentrados em anos espec√≠ficos, refletindo a natureza focal e sazonal da doen√ßa.

### 7.2 Padr√µes Epidemiol√≥gicos Observados

- **Sazonalidade:** todas as arboviroses apresentam varia√ß√£o temporal, com maior incid√™ncia em per√≠odos chuvosos (favorecendo a prolifera√ß√£o do *Aedes aegypti*).
- **Distribui√ß√£o geogr√°fica:** S√£o Paulo, Minas Gerais e Goi√°s concentram a maioria dos casos de Dengue, refletindo densidade populacional e urbaniza√ß√£o.
- **Perfil demogr√°fico:** maior propor√ß√£o de casos em adultos jovens; sexo feminino ligeiramente predominante, possivelmente por maior exposi√ß√£o domiciliar ao vetor.
- **Impacto da pandemia COVID-19:** poss√≠vel subnotifica√ß√£o vis√≠vel nas s√©ries temporais a partir de 2020.

### 7.3 Implica√ß√µes para a Sa√∫de P√∫blica

Os achados refor√ßam a necessidade de vigil√¢ncia epidemiol√≥gica ativa, intensifica√ß√£o do controle vetorial em per√≠odos de maior risco, monitoramento de grupos vulner√°veis e uso de ci√™ncia de dados para antecipar surtos e direcionar recursos.

### 7.4 Limita√ß√µes

- **Subnotifica√ß√£o:** casos leves raramente chegam ao sistema de sa√∫de
- **Inconsist√™ncias nas bases:** dados faltantes e diverg√™ncias entre anos
- **Aus√™ncia de vari√°veis externas:** fatores clim√°ticos, socioecon√¥micos e de cobertura vacinal n√£o foram integrados
- **An√°lise descritiva:** n√£o foram realizadas modelagens preditivas

### 7.5 Conclus√£o

Este projeto demonstra como a Ci√™ncia de Dados pode ser aplicada de forma pr√°tica no apoio √† an√°lise epidemiol√≥gica, contribuindo para a compreens√£o da din√¢mica das arboviroses no Brasil e oferecendo subs√≠dios para reflex√µes sobre vigil√¢ncia epidemiol√≥gica e pol√≠ticas p√∫blicas de sa√∫de.