# Análise pré-transformação dos dados

Este notebook tem como objetivo analisar individualmente as tabelas brutas
de casos de Dengue, Zika e Chikungunya, identificando problemas estruturais,
inconsistências e transformações necessárias antes da consolidação dos dados.

Cada tabela é analisada separadamente, seguida de:
- justificativa das transformações propostas
- visualização do formato esperado após a transformação

As decisões tomadas aqui servirão de base para os scripts em `src/transform`.


In [45]:
import pandas as pd
import numpy as np

In [46]:
from pathlib import Path

Path(".").resolve()


WindowsPath('C:/Users/gfasg/OneDrive/Área de Trabalho/Projeto Dengue/dengue-territorio-e-condicoes-urbanas-recife/notebooks')

In [47]:
df_dengue_2020 = pd.read_csv(
    "../data/raw/dengue/dengon2020_recife.csv",
    sep=";",
    encoding="latin1",
    low_memory=False
)

df_dengue_2020.head()


Unnamed: 0,nu_notificacao,tp_notificacao,co_cid,dt_notificacao,ds_semana_notificacao,notificacao_ano,co_uf_notificacao,co_municipio_notificacao,id_regional,co_unidade_notificacao,...,metro,petequias,hematura,sangram,laco_n,plasmatico,evidencia,plaq_menor,con_fhd,complica
0,3545397,2,A90,2020-01-01,202001,2020,26,260790,1497.0,6618464,...,,,,,,,,,,
1,3507054,2,A90,2020-01-01,202001,2020,26,261160,1497.0,671,...,,,,,,,,,,
2,3520539,2,A90,2020-01-02,202001,2020,26,261160,1497.0,7958838,...,,,,,,,,,,
3,3521380,2,A90,2020-01-03,202001,2020,26,261160,1497.0,6530389,...,,,,,,,,,,
4,3516940,2,A90,2020-01-03,202001,2020,26,261160,1497.0,2352516,...,,,,,,,,,,


Pelo metadado das tabelas de dengue, decidi que vamos analisar as seguintes colunas (informações) sobre os registros de casos de Dengue: 
num_notificacao;
dt_notificacao;
co_uf_notificacao;
co_municipio_notificacao;
nu_idade;
tp_sexo;
tp_gestante;
co_uf_residencia;
co_municipio_residencia;
co_regional_residencia;
no_bairro;
co_cbo_ocupacao;
febre;
mialgia;
cefaleia;
vomito;
nausea;
hepatopat;
hematolog;
diabetes;
artrite;
conjutivite
dor_costas

In [None]:
colunas_dengue_interesse = [
    "nu_notificacao",
    "dt_notificacao",
    "co_uf_notificacao",
    "co_municipio_notificacao",
    "dt_nascimento", # Extrair idade por aqui
    "tp_sexo",
    "tp_gestante",
    "co_uf_residencia",
    "co_municipio_residencia",
    "co_bairro_residencia",
    "co_regional_residencia",
    "febre",
    "mialgia",  
    "cefaleia",
    "vomito",
    "nausea",
    "hepatopat",
    "hematolog",
    "diabetes",
    "artrite",
    "conjutivite",
    "dor_costas"
]


In [49]:
df_dengue_2020_reduzido = df_dengue_2020[colunas_dengue_interesse].copy()

df_dengue_2020_reduzido.head()


Unnamed: 0,nu_notificacao,dt_notificacao,co_uf_notificacao,co_municipio_notificacao,dt_nascimento,tp_sexo,tp_gestante,co_uf_residencia,co_municipio_residencia,co_bairro_residencia,...,mialgia,cefaleia,vomito,nausea,hepatopat,hematolog,diabetes,artrite,conjutivite,dor_costas
0,3545397,2020-01-01,26,260790,1992-02-10,M,6.0,26,261160,81.0,...,2.0,1.0,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0
1,3507054,2020-01-01,26,261160,1984-10-04,F,9.0,26,261160,88.0,...,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0
2,3520539,2020-01-02,26,261160,1995-03-11,F,5.0,26,261160,59.0,...,1.0,1.0,1.0,1.0,2.0,2.0,2.0,2.0,2.0,2.0
3,3521380,2020-01-03,26,261160,1995-02-27,M,6.0,26,261160,70.0,...,2.0,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0
4,3516940,2020-01-03,26,261160,1989-01-27,M,6.0,26,261160,69.0,...,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0


In [50]:
df_dengue_2020_reduzido.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3540 entries, 0 to 3539
Data columns (total 22 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   nu_notificacao            3540 non-null   int64  
 1   dt_notificacao            3540 non-null   object 
 2   co_uf_notificacao         3540 non-null   int64  
 3   co_municipio_notificacao  3540 non-null   int64  
 4   dt_nascimento             3488 non-null   object 
 5   tp_sexo                   3540 non-null   object 
 6   tp_gestante               3539 non-null   float64
 7   co_uf_residencia          3540 non-null   int64  
 8   co_municipio_residencia   3540 non-null   int64  
 9   co_bairro_residencia      3529 non-null   float64
 10  co_regional_residencia    3540 non-null   int64  
 11  febre                     3529 non-null   float64
 12  mialgia                   3529 non-null   float64
 13  cefaleia                  3529 non-null   float64
 14  vomito  

### Seleção de colunas relevantes — Dengue

A tabela original de dengue possui mais de 120 colunas, muitas delas
administrativas ou específicas para vigilância clínica detalhada.

Para os objetivos deste projeto — análise territorial, demográfica,
temporal e de condições clínicas associadas — foi realizada a seleção
de um subconjunto de colunas consideradas essenciais, conforme definido
a partir do arquivo oficial de metadados.

Essa redução facilita a análise exploratória, melhora desempenho
e torna o pipeline mais claro e reprodutível.


### Escopo da análise estrutural

A análise detalhada de estrutura e possíveis transformações
é realizada inicialmente apenas para o ano de 2020 de Dengue,
por ser representativo do modelo de notificação utilizado
nos anos subsequentes.

Parte-se do pressuposto de que os arquivos de anos posteriores
seguem o mesmo esquema, o que será validado posteriormente
durante a implementação do pipeline de transformação.


### Leitura da tabela bruta — Zika 2021

A tabela de Zika 2021 foi carregada em seu formato original,
sem aplicação de transformações, com o objetivo de compreender
sua estrutura, tipos de dados e possíveis inconsistências,
servindo de base para a definição das transformações necessárias.


In [51]:
df_zika_2021 = pd.read_csv(
    "../data/raw/zika/zika-2021-ok.csv",
    sep=";",
    encoding="latin1",
    low_memory=False
)

df_zika_2021.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 641 entries, 0 to 640
Data columns (total 47 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   NU_NOTIFIC  641 non-null    int64  
 1   TP_NOT      641 non-null    int64  
 2   ID_AGRAVO   641 non-null    object 
 3   CS_SUSPEIT  0 non-null      float64
 4   DT_NOTIFIC  641 non-null    object 
 5   SEM_NOT     641 non-null    int64  
 6   NU_ANO      641 non-null    int64  
 7   SG_UF_NOT   641 non-null    int64  
 8   ID_MUNICIP  641 non-null    int64  
 9   ID_REGIONA  641 non-null    int64  
 10  ID_UNIDADE  641 non-null    int64  
 11  DT_SIN_PRI  641 non-null    object 
 12  SEM_PRI     641 non-null    int64  
 13  DT_NASC     607 non-null    object 
 14  NU_IDADE_N  641 non-null    int64  
 15  CS_SEXO     641 non-null    object 
 16  CS_GESTANT  641 non-null    int64  
 17  CS_RACA     641 non-null    int64  
 18  CS_ESCOL_N  628 non-null    float64
 19  SG_UF       641 non-null    i

### Equivalência de colunas — Zika 2021

| Conceito | Nome no CSV |
|--------|-------------|
| Número da notificação | NU_NOTIFIC |
| Data da notificação | DT_NOTIFIC |
| Ano da notificação | NU_ANO |
| Semana epidemiológica | SEM_NOT |
| Idade | NU_IDADE_N |
| Sexo | CS_SEXO |
| Gestante | CS_GESTANT |
| Bairro residência | NM_BAIRRO |
| Município residência | ID_MN_RESI |


Após a transformação, a tabela de Zika será reduzida para um conjunto
padronizado de colunas compatíveis com Dengue e Chikungunya,
permitindo análises comparativas entre agravos e anos.



In [None]:
colunas_zika_interesse = [
    "NU_NOTIFIC",     # Número da notificação
    "DT_NOTIFIC",     # Data da notificação
    "NU_ANO",         # Ano da notificação
    "SEM_NOT",        # Semana epidemiológica
    "SG_UF_NOT",      # UF da notificação
    "ID_MUNICIP",     # Município da notificação
    "DT_NASC",        # Idade [Extrair idade daqui]
    "CS_SEXO",        # Sexo
    "CS_GESTANT",     # Gestante
    "SG_UF",          # UF residência
    "ID_MN_RESI",     # Município residência
    "ID_RG_RESI",     # Regional residência
    "ID_BAIRRO",      # Código do bairro
    "NM_BAIRRO"       # Nome do bairro
]

df_zika_2021_sel = df_zika_2021[colunas_zika_interesse]


In [53]:
df_zika_2021_sel

Unnamed: 0,NU_NOTIFIC,DT_NOTIFIC,NU_ANO,SEM_NOT,SG_UF_NOT,ID_MUNICIP,DT_NASC,CS_SEXO,CS_GESTANT,SG_UF,ID_MN_RESI,ID_RG_RESI,ID_BAIRRO,NM_BAIRRO
0,3716012,2021-01-11,2021,202102,26,261160,1998-10-02,F,1,26,261160,1497,808,SANTO AMARO
1,3725134,2021-01-27,2021,202104,26,261160,1976-11-25,M,6,26,261160,1497,871,VARZEA
2,3762467,2021-02-04,2021,202105,26,261160,1979-07-20,F,6,26,261160,1497,883,AREIAS
3,3802872,2021-02-10,2021,202106,26,260290,1959-07-06,F,5,26,261160,1497,814,GRACAS
4,3908667,2021-04-28,2021,202117,26,261160,2013-05-19,F,6,26,261160,1497,821,IBURA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
636,3976982,2021-12-21,2021,202151,26,261160,2001-12-05,F,9,26,261160,1497,867,IPUTINGA
637,3976914,2021-12-01,2021,202148,26,261160,1973-12-03,F,5,26,261160,1497,883,AREIAS
638,4083062,2021-11-09,2021,202145,26,261160,2003-12-30,F,5,26,261160,1497,857,DOIS IRMAOS
639,3976979,2021-12-21,2021,202151,26,261160,2001-06-04,F,1,26,261160,1497,848,APIPUCOS


In [55]:
df_chik_2021 = pd.read_csv(
    "../data/raw/chikungunya/chikon-2021-ok.csv",
    sep=";",
    encoding="latin1",
    low_memory=False
)


In [56]:
df_chik_2021

Unnamed: 0,ï»¿NU_NOTIFIC,TP_NOT,ID_AGRAVO,DT_NOTIFIC,SEM_NOT,NU_ANO,SG_UF_NOT,ID_MUNICIP,ID_REGIONA,ID_UNIDADE,...,METRO,PETEQUIAS,HEMATURA,SANGRAM,LACO_N,PLASMATICO,EVIDENCIA,PLAQ_MENOR,CON_FHD,COMPLICA
0,3730663,2,A92.0,01/01/2021,202053,2021,26,261160,1497,671,...,,,,,,,,,,
1,3730659,2,A92.0,01/01/2021,202053,2021,26,261160,1497,671,...,,,,,,,,,,
2,3730662,2,A92.0,01/01/2021,202053,2021,26,261160,1497,671,...,,,,,,,,,,
3,3730664,2,A92.0,02/01/2021,202053,2021,26,261160,1497,671,...,,,,,,,,,,
4,3730665,2,A92.0,02/01/2021,202053,2021,26,261160,1497,671,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17659,4192700,2,A92.0,27/12/2021,202152,2021,26,261160,1497,531,...,,,,,,,,,,
17660,4087442,2,A92.0,27/12/2021,202152,2021,26,261160,1497,671,...,,,,,,,,,,
17661,4195237,2,A92.0,27/12/2021,202152,2021,26,261160,1497,604,...,,,,,,,,,,
17662,4301114,2,A92.0,27/12/2021,202152,2021,26,260790,1497,2319454,...,,,,,,,,,,


In [57]:
df_chik_2021.columns.tolist()

['ï»¿NU_NOTIFIC',
 'TP_NOT',
 'ID_AGRAVO',
 'DT_NOTIFIC',
 'SEM_NOT',
 'NU_ANO',
 'SG_UF_NOT',
 'ID_MUNICIP',
 'ID_REGIONA',
 'ID_UNIDADE',
 'DT_SIN_PRI',
 'SEM_PRI',
 'DT_NASC',
 'NU_IDADE_N',
 'CS_SEXO',
 'CS_GESTANT',
 'CS_RACA',
 'CS_ESCOL_N',
 'SG_UF',
 'ID_MN_RESI',
 'ID_RG_RESI',
 'ID_DISTRIT',
 'ID_BAIRRO',
 'NM_BAIRRO',
 'ID_LOGRADO',
 'NM_LOGRADO',
 'NU_CEP',
 'CS_ZONA',
 'ID_PAIS',
 'DT_INVEST',
 'ID_OCUPA_N',
 'FEBRE',
 'MIALGIA',
 'CEFALEIA',
 'EXANTEMA',
 'VOMITO',
 'NAUSEA',
 'DOR_COSTAS',
 'CONJUNTVIT',
 'ARTRITE',
 'ARTRALGIA',
 'PETEQUIA_N',
 'LEUCOPENIA',
 'LACO',
 'DOR_RETRO',
 'DIABETES',
 'HEMATOLOG',
 'HEPATOPAT',
 'RENAL',
 'HIPERTENSA',
 'ACIDO_PEPT',
 'AUTO_IMUNE',
 'DT_CHIK_S1',
 'DT_CHIK_S2',
 'DT_PRNT',
 'RES_CHIKS1',
 'RES_CHIKS2',
 'RESUL_PRNT',
 'DT_SORO',
 'RESUL_SORO',
 'DT_NS1',
 'RESUL_NS1',
 'DT_VIRAL',
 'RESUL_VI_N',
 'DT_PCR',
 'RESUL_PCR_',
 'SOROTIPO',
 'HISTOPA_N',
 'IMUNOH_N',
 'HOSPITALIZ',
 'DT_INTERNA',
 'UF',
 'MUNICIPIO',
 'TPAUTOCTO',
 '

In [58]:
(
    df_chik_2021
    .isna()
    .sum()
    .sort_values(ascending=False)
)


ID_LOGRADO    17664
DT_NS1        17664
DT_SORO       17664
GRAV_ENCH     17664
GRAV_INSUF    17664
              ...  
SG_UF             0
DT_ENCERRA        0
CLASSI_FIN        0
CRITERIO          0
EVOLUCAO          0
Length: 126, dtype: int64

In [None]:
colunas_chik_interesse = [
    "NU_NOTIFIC",
    "DT_NOTIFIC",
    "SG_UF_NOT",
    "ID_MUNICIP",
    "NU_ANO",
    "SEM_NOT",
    "NU_IDADE_N",
    "CS_SEXO",
    "CS_GESTANT",
    "SG_UF",
    "ID_MN_RESI",
    "ID_RG_RESI",
    "ID_BAIRRO",
    "NM_BAIRRO",
    "FEBRE",
    "MIALGIA",
    "CEFALEIA",
    "NAUSEA",
    "VOMITO",
    "ARTRITE",
    "DOR_COSTAS",
    "CONJUTIVI",
    "HEMATOLOG",
    "HEPATOPAT",
    "DIABETES"
]