<a href="https://colab.research.google.com/github/Cristie-Lima/e-SUS_Sinan_Mpox_ML-Workflow/blob/main/Analise_descritiva_do_Dataset_Mpox(e_SUS_Sinan).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Análise Descritiva do Dataset [e-SUS Sinan/Mpox](https://opendatasus.saude.gov.br/ne/dataset/mpox)**

  Este documento é material de apoio para análise exploratória e desenvolvimento de modelos preditivos

# 📊 Resumo por Bloco – Dataset Mpox (mpox_2022.csv)

- **Bloco 1 – Dados Geográficos e Administrativos** → 7 variáveis  
- **Bloco 2 – Dados Sociodemográficos e Pessoais** → 9 variáveis  
- **Bloco 3 – Sinais, Sintomas, Histórico Clínico e Condições de Saúde** → 19 variáveis  
- **Bloco 4 – Vacinação, Hospitalização e Evolução do Caso** → 8 variáveis  
- **Bloco 5 – Exames Laboratoriais e Tratamento** → 8 variáveis  
- **Bloco 6 – Exposição e Fatores de Risco** → 4 variáveis  
- **Campo técnico** → 1 variável  

🔢 **Total = 56 variáveis**  
(55 epidemiológicas + 1 técnica)


## 📍 Bloco 1 – Dados Geográficos e Administrativos



| Nome do campo                         | Campo interno              | Nome do campo na base de dados | Tipo        | Tipo de dado na literatura | Subtipo de dado   | Categorias                                  | Descrição                                                              | Regra                                                                                                                                                     | Características |
| ------------------------------------- | -------------------------- | ------------------------------ | ----------- | -------------------------- | ----------------- | ------------------------------------------- | ---------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------- |
| Classificação final do caso           | classi_fin                 | CLASSI_FIN                     | Numérico(1) | Numérico                   | Categoria nominal | 1=Confirmado (laboratorialmente), 3=Provável | Resultado final da classificação do caso.                               | Campo obrigatório.                                                                                                                                        | No dataset, só aparecem valores 1 e 3. |
| UF de Residência (código IBGE)        | co_uf_residencia           | CO_UF_RES                      | Numérico(2) | Categórico                 | Nominal           | Código IBGE da UF                           | Código numérico da UF de residência do paciente.                         | Obrigatório se residente no Brasil.                                                                                                                       | Complementa SG_UF. |
| UF de Residência (sigla)              | no_uf_residencia           | SG_UF                          | varchar2(2) | Categórico                 | Nominal           | Tabela IBGE (UF)                            | Unidade Federada de residência do paciente.                            | Obrigatório se residente no Brasil. Código ↔ descrição automáticos.                                                                                        | -               |
| UF da Notificação                     | no_uf_notificacao          | SG_UF_NOT                      | varchar2(2) | Categórico                 | Nominal           | Tabela IBGE                                 | Unidade Federativa da unidade notificadora.                            | Gerado automaticamente pelo sistema. Obrigatório.                                                                                                         | -               |
| Código IBGE (município notificação)   | co_municipio_notificacao   | ID_MUNICIP                     | varchar2(6) | Categórico                 | Nominal           | Tabela IBGE                                 | Código do município da unidade notificadora. Nome associado ao código. | Gerado automaticamente. Obrigatório.                                                                                                                      | -               |
| Data da notificação                   | dt_notificacao             | DT_NOTIFIC                     | Date        | Data                       | Temporal          | Formato DD/MM/AAAA                          | Data da notificação (> 01/01/2022 e < data atual).                     | Campo obrigatório.                                                                                                                                        | -               |
| Código IBGE (município de residência) | co_municipio_residencia    | ID_MN_RESI                     | varchar2(7) | Categórico                 | Nominal           | Tabela IBGE                                 | Código do município de residência do caso. Nome associado ao código.   | Obrigatório se residente no Brasil. Código ↔ descrição automáticos.                                                                                       | -               |

📌 Nota importante:

- No dataset real (`mpox_2022.csv`), os campos de UF (`SG_UF`, `SG_UF_NOT`) e municípios (`ID_MUNICIP`, `ID_MN_RESI`) estão bem preenchidos, com raríssimos valores nulos.  
- O campo **DT_NOTIFIC** contém datas entre **05/08/2022 e 13/12/2022**, armazenadas como texto (`object`) e que precisam ser convertidas para datas válidas (`datetime`) antes de análises temporais.


## 👤 Bloco 2 – Dados Sociodemográficos e Pessoais



| Nome do campo        | Campo interno       | Nome do campo na base de dados | Tipo        | Tipo de dado na literatura | Subtipo de dado   | Categorias                                                                                                       | Descrição                                                | Regra                                                                                                   | Características                                                 |
| -------------------- | ------------------- | ------------------------------ | ----------- | -------------------------- | ----------------- | ---------------------------------------------------------------------------------------------------------------- | -------------------------------------------------------- | ------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------- |
| Idade                | nu_idade           | NU_IDADE_N                     | Numérico(4) | Numérico                   | Discreto          | Valores inteiros (anos)                                                                                          | Idade informada quando não se sabe a data de nascimento. | Calculada automaticamente pelo sistema. Obrigatória se não houver data de nascimento.                   | No dataset real, os registros aparecem apenas em anos inteiros. |
| Sexo ao nascimento   | tp_sexo            | CS_SEXO                        | Numérico(1) | Numérico                   | Categoria nominal | 1=Masculino, 2=Feminino, 3=Intersexo, 9=Ignorado                                                                 | Sexo da pessoa em atendimento.                           | Campo obrigatório.                                                                                      | -                                                               |
| Comportamento sexual | comp_sexual        | COMP_SEXUAL                    | Numérico(1) | Numérico                   | Categoria nominal | 1=Homens, 2=Mulheres, 3=Ambos, 9=Ignorado                                                                        | Histórico de comportamento sexual.                       | Obrigatório. Desabilitado se Idade ≤ 14. Se Idade ≤ 14 → “Não se aplica”.                               | -                                                               |
| Orientação sexual    | tp_orienta_sexual  | ORIENTA_SEXUAL                 | Numérico(1) | Numérico                   | Categoria nominal | 1=Hetero, 2=Homo, 3=Bi, 4=Outra, 7=Não se aplica, 9=Ignorado                                                     | Orientação sexual da pessoa.                             | Campo obrigatório.                                                                                      | -                                                               |
| Identidade de gênero | tp_ident_genero    | IDENT_GENERO                   | Numérico(1) | Numérico                   | Categoria nominal | 1=Mulher cis, 2=Homem cis, 3=Mulher trans, 4=Homem trans, 5=Travesti, 6=Não binário, 7=Não se aplica, 9=Ignorado | Identidade de gênero.                                    | Campo obrigatório.                                                                                      | -                                                               |
| Raça/Cor             | tp_raca_cor        | CS_RACA                        | Numérico(1) | Numérico                   | Categoria nominal | 1=Branca, 2=Preta, 3=Amarela, 4=Parda, 5=Indígena, 9=Ignorado                                                    | Raça/cor declarada pela pessoa.                          | Campo obrigatório. Se “Indígena” → habilita campos de etnia/aldeamento.                                 | -                                                               |
| Gestante             | tp_gestante        | CS_GESTANT                     | Numérico(1) | Numérico                   | Categoria nominal | 1=1º tri, 2=2º tri, 3=3º tri, 4=Idade gestacional ignorada, 5=Não, 7=Não se aplica, 9=Ignorado                   | Condição gestacional.                                    | Obrigatório se sexo = Feminino. Preenchido como “Não se aplica” se sexo = Masculino ou Idade ≤ 10 anos. | -                                                               |
| É estrangeiro(a)?    | tp_estrangeiro     | ESTRANGEIRO                    | Numérico(1) | Numérico                   | Categoria nominal | 1=Sim, 2=Não, 9=Ignorado                                                                                         | Se a pessoa é estrangeira.                               | Campo obrigatório. Se “Sim”, habilita campos de nacionalidade/passaporte.                               | -                                                               |  

📌 Nota importante:

- No dataset real (`mpox_2022.csv`), os registros de **NU_IDADE_N** estão apenas em anos, embora o dicionário preveja também horas, dias e meses (1=Hora, 2=Dia, 3=Mês, 4=Ano; Ex: 3009=9 meses, 4018=18 anos).  
- O campo **CS_SEXO** é majoritariamente masculino (~91%), com poucos registros femininos e raríssimos intersexo.  
- A variável **CS_RACA** mostra predominância de brancos e pardos, com indígenas praticamente inexistentes.  
- As variáveis de comportamento sexual, orientação sexual e identidade de gênero apresentam alta proporção de valores “Ignorado (9)”, o que limita a granularidade da análise.  
- **CS_GESTANT vai ser tratada como categórica nominal** devido à presença de categorias que não respeitam ordem natural (ex.: “Não se aplica”, “Ignorado”).  


## 🩺 Bloco 3 – Sinais, Sintomas, Histórico Clínico e Condições de Saúde



| Nome do campo                   | Campo interno             | Nome do campo na base de dados | Tipo        | Tipo de dado na literatura | Subtipo de dado   | Categorias                                                                                 | Descrição                                 | Regra                                   | Características |
| -------------------------------- | ------------------------- | ------------------------------ | ----------- | -------------------------- | ----------------- | ------------------------------------------------------------------------------------------ | ----------------------------------------- | --------------------------------------- | --------------- |
| Data do início dos sintomas      | dt_inicio_sintomas        | DT_SIN_PRI                     | Date        | Data                       | Temporal          | Formato DD/MM/AAAA                                                                          | Data relatada de início dos primeiros sintomas.          | Campo obrigatório.                      | Pode divergir da DT_NOTIFIC em até 21 dias. |
| Sinais e sintomas (agrupados)    | st_sintoma                | SINTOMA                        | Texto       | Categórico múltiplo        | Lista             | Lista de sintomas separados por vírgula (ex.: Febre, Cefaleia, Exantema, etc.)             | Indica todos os sintomas relatados pelo paciente.         | Campo obrigatório.                      | Campo livre, pode conter múltiplos sintomas. |
| É imunossuprimido?               | pac_imunodeprimido        | PAC_IMUNOSSUP                  | Numérico(1) | Numérico                   | Categoria nominal | 1=Sim (doença), 2=Sim (medicação), 3=Sim (outra causa), 4=Não, 9=Ignorado                  | Condição de imunossupressão.              | Campo obrigatório.                      | Distribuição majoritária = Não. |
| Está com alguma IST ativa?       | pac_ist_ativa             | IST_ATIVA                      | Numérico(1) | Numérico                   | Categoria nominal | 1=Sim, 2=Não, 9=Ignorado                                                                    | Indica se paciente tem IST ativa.         | Campo obrigatório.                      | Controla habilitação das ISTs específicas. |
| Clamídea                         | ist_clamidea              | CLAMIDEA                       | Numérico(1) | Numérico                   | Categoria nominal | 0=Não, 1=Sim, 2=Não (espúrio), 9=Ignorado, vazio=Não                                       | Paciente com Clamídea ativa.              | Obrigatório se IST_ATIVA=Sim.           | - |
| Gonorreia                        | ist_gonorreia             | GONORREIA                      | Numérico(1) | Numérico                   | Categoria nominal | idem                                                                                       | Paciente com Gonorreia ativa.             | idem                                   | - |
| Sífilis                          | ist_sifilis               | SIFILIS                        | Numérico(1) | Numérico                   | Categoria nominal | idem                                                                                       | Paciente com Sífilis ativa.               | idem                                   | - |
| Herpes genital                   | ist_herpes_genital        | HERPES_GENITAL                 | Numérico(1) | Numérico                   | Categoria nominal | idem                                                                                       | Paciente com Herpes genital ativa.        | idem                                   | - |
| Cancro mole                      | ist_cancro_mole           | CANCRO_MOLE                    | Numérico(1) | Numérico                   | Categoria nominal | idem                                                                                       | Paciente com Cancro mole ativo.           | idem                                   | - |
| Trichomonas vaginalis            | ist_trichomonas_vaginals  | TRICHOMOMAS_VAGINALS           | Numérico(1) | Numérico                   | Categoria nominal | idem                                                                                       | Paciente com Trichomonas ativa.           | idem                                   | - |
| Linfogranuloma venéreo           | ist_linfogranuloma        | LINFOGRANULOMA                 | Numérico(1) | Numérico                   | Categoria nominal | idem                                                                                       | Paciente com LGV ativo.                   | idem                                   | - |
| Mycoplasma genitalium            | ist_mycoplasma_genital    | MYCOPLASMA_GENITAL             | Numérico(1) | Numérico                   | Categoria nominal | idem                                                                                       | Paciente com Mycoplasma genitalium ativo. | idem                                   | - |
| HPV                              | ist_hpv                   | HPV                            | Numérico(1) | Numérico                   | Categoria nominal | idem                                                                                       | Paciente com HPV ativo.                   | idem                                   | - |
| Doença Inflamatória Pélvica (DIP)| ist_dip                   | DIP                            | Numérico(1) | Numérico                   | Categoria nominal | idem                                                                                       | Paciente com DIP ativa.                   | idem                                   | - |
| Donovanose                       | ist_donovanose            | DONOVANOSE                     | Numérico(1) | Numérico                   | Categoria nominal | idem                                                                                       | Paciente com Donovanose ativa.            | idem                                   | - |
| HTLV                             | ist_htlv                  | HTLV                           | Numérico(1) | Numérico                   | Categoria nominal | idem                                                                                       | Paciente com HTLV ativo.                  | idem                                   | - |
| Verruga genital                  | ist_verruga_genital       | VERRUGA_GENITAL                | Numérico(1) | Numérico                   | Categoria nominal | idem                                                                                       | Paciente com Verruga genital ativa.       | idem                                   | - |
| HIV positivo?                    | pac_hiv                   | HIV                            | Numérico(1) | Numérico                   | Categoria nominal | 1=Sim, 2=Não, 9=Ignorado                                                                  | Status de HIV.                            | Campo obrigatório.                      | - |
| Se HIV+, contagem CD4            | contagem_hiv_cd4          | CONTAG_CD4                     | Numérico(5) | Numérico                   | Discreto (contagem) | Valor absoluto de linfócitos CD4 (ex.: 350, 482, 1200)                                    | Contagem absoluta de células CD4 por mm³. | Obrigatório se HIV=Sim.                 | - Não pode ser negativo. <br> - Muitos valores ausentes. <br> - Pode ser tratada como contínua em análises. |

📌 Nota importante:

- No dataset real (`mpox_2022.csv`), o campo **SINTOMA** concentra todos os sintomas em texto, separados por vírgula (ex.: “Febre, Cefaleia, Exantema”).  
  👉 Sugestão: aplicar pré-processamento para **“explodir” o campo em variáveis binárias (0/1)**, uma para cada sintoma.  
- As variáveis de ISTs específicas (**CLAMIDEA, GONORREIA, SIFILIS, etc.**) são **conceitualmente binárias (0=Não, 1=Sim)**.  
  👉 Contudo, no dataset real também aparecem os valores **2, 9 e vazio**, além de 0 e 1.  
  👉 Recomenda-se recodificar **2, 9 e vazio como 0 (Não)** para consistência analítica.  
  👉 Justificativa: embora armazenadas como **categoria nominal**, podem ser tratadas como **binárias** após recodificação.  
- **PAC_IMUNOSSUP** e **HIV** têm preenchimento majoritariamente como “Não”, com poucos positivos.  
- **CONTAG_CD4** é uma variável de **contagem (discreta)**, classificada como “numérico livre” no dicionário oficial.  
  👉 Na prática, deveria ser preenchida somente quando HIV=Sim, mas no dataset há muitos valores ausentes, **o que limita análises clínicas**.  
  👉 **Atenção: não pode assumir valores negativos.**  
  👉 Apesar de discreta, devido à amplitude dos valores (0 a mais de 2000), pode ser considerada **contínua em análises estatísticas**.  


## ⚕️ Bloco 4 – Vacinação, Hospitalização e Evolução do Caso



| Nome do campo              | Campo interno        | Nome do campo na base de dados | Tipo        | Tipo de dado na literatura | Subtipo de dado   | Categorias                                                                                   | Descrição                                        | Regra                                              | Características |
| -------------------------- | -------------------- | ------------------------------ | ----------- | -------------------------- | ----------------- | -------------------------------------------------------------------------------------------- | ------------------------------------------------ | -------------------------------------------------- | --------------- |
| Histórico de vacinação     | st_vacina            | VACINA                         | Numérico(1) | Numérico                   | Categoria nominal | 1=Prévia, 2=Pré-exposição, 3=Pós-exposição, 4=Não, 9=Ignorado                                | Situação vacinal contra varíola humana.          | Campo obrigatório.                                | Predomina “Não” ou “Ignorado”. |
| Data da vacina             | dt_vacina            | DATA_VACINA                    | Date        | Data                       | Temporal          | Formato DD/MM/AAAA                                                                           | Data da vacinação.                               | Obrigatório se VACINA = 1, 2 ou 3.                 | Pouco preenchida. |
| Ocorreu hospitalização?    | st_hospitalizacao    | HOSPITAL                       | Numérico(1) | Numérico                   | Categoria nominal | 1=Sim (clínico), 2=Sim (isolamento), 3=Não, 4=Outro, 9=Ignorado                              | Informa se houve hospitalização.                 | Campo obrigatório.                                | Maioria = Não. |
| Data da internação         | dt_internacao        | DT_INTERNA                     | Date        | Data                       | Temporal          | Formato DD/MM/AAAA                                                                           | Data da internação hospitalar.                   | Obrigatório se HOSPITAL = 1 ou 2.                 | Pouco preenchida. |
| O paciente foi para UTI?   | st_uti               | UTI                            | Numérico(1) | Numérico                   | Categoria nominal | 1=Sim, 2=Não, 9=Ignorado                                                                     | Indica se houve internação em UTI.               | Obrigatório se houve hospitalização.              | Casos muito raros. |
| Evolução do caso           | st_evolucao          | EVOLUCAO                       | Numérico(1) | Numérico                   | Categoria nominal | 1=Óbito por Monkeypox, 2=Cura, 3=Óbito por outra causa, 4=Em tratamento, 9=Ignorado          | Situação final do caso.                          | Campo obrigatório.                                | Predomina “Cura”. |
| Data da evolução           | dt_evolucao          | DT_EVOLUCAO                    | Date        | Data                       | Temporal          | Formato DD/MM/AAAA                                                                           | Data de encerramento do caso.                    | Obrigatório se EVOLUCAO ≠ 9 (Ignorado).           | Pouco preenchida. |
| Vínculo epidemiológico     | vinculo_epi          | VINCULO_EPI                    | Numérico(1) | Numérico                   | Categoria nominal | 1=Sim, 2=Não, 9=Ignorado                                                                     | Informa se há vínculo com outro caso confirmado. | Campo obrigatório.                                | Quase sempre = Não (casos autóctones). |

📌 Nota importante:

- No dataset real (`mpox_2022.csv`), **VACINA** quase sempre é “Não” ou “Ignorado”, mostrando baixa cobertura vacinal contra varíola em 2022.  
- **HOSPITAL** e **UTI** aparecem em pouquíssimos registros; maioria dos casos não exigiu internação.  
- **EVOLUCAO** é predominantemente “Cura”; os óbitos são raros e precisam ser analisados com cautela.  
- **VINCULO_EPI** é quase sempre “Não”, indicando que a maioria dos casos foi **autóctone** (sem vínculo com outro caso confirmado).  


## 🧪 Bloco 5 – Exames Laboratoriais e Tratamento


| Nome do campo                  | Campo interno          | Nome do campo na base de dados | Tipo        | Tipo de dado na literatura | Subtipo de dado   | Categorias                                                                                                                                     | Descrição                                               | Regra                                       | Características |
| ------------------------------- | ---------------------- | ------------------------------ | ----------- | -------------------------- | ----------------- | ---------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------- | ------------------------------------------- | --------------- |
| Tipo de amostra                 | tp_amostra             | TP_AMOST                       | Numérico(1) | Numérico                   | Categoria nominal | 1=Swab de vesícula (lesão), 2=Crosta da erupção cutânea, 3=Swab orofaríngeo, 4=Soro, 5=Sêmen, 6=Urina, 7=Swab retal, 8=Swab genital, 9=Outro   | Informa o tipo de amostra coletada.                     | Campo obrigatório.                          | Predomina “Swab de vesícula (lesão)”. |
| Data da coleta da amostra       | dt_coleta              | DT_COLETA                      | Date        | Data                       | Temporal          | Formato DD/MM/AAAA                                                                                                                             | Data em que a amostra foi coletada.                     | Obrigatório se TP_AMOST for informado.      | Alto índice de valores ausentes. |
| Resultado do exame laboratorial | resultado_exa_lab      | RESULTADO_EXA_LAB              | Numérico(1) | Numérico                   | Categoria nominal | 1=Detectável, 2=Inconclusivo/indeterminado, 3=Não detectável, 4=Pendente, 9=Ignorado                                                           | Resultado do exame laboratorial.                        | Campo obrigatório.                          | Predomina “Detectável”. |
| Método laboratorial utilizado   | metodo_lab             | MET_LAB                        | Numérico(1) | Numérico                   | Categoria nominal | 1=MPX PCR, 2=Sorologia, 3=Ortho PCR, 4=Sanger, 5=Sequenciamento, 6=Next Generation Sequencing (NGS), 7=Outro, 9=Ignorado                       | Método usado para análise laboratorial.                 | Campo obrigatório.                          | Predomina MPX PCR, raramente preenchido. |
| Caracterização genômica         | caract_genomica        | CARACT_GENOMICA                | Numérico(1) | Numérico                   | Categoria nominal | 1=Sim, 2=Não, 9=Ignorado                                                                                                                       | Indica se houve caracterização genômica do vírus.       | Não obrigatório.                           | Extremamente raro. |
| Clado do vírus                  | clado                  | CLADO                          | Numérico(1) | Numérico                   | Categoria nominal | 1=WA (África Ocidental), 2=CB (Bacia do Congo), 3=Outro, 9=Ignorado                                                                            | Identificação do clado viral.                           | Não obrigatório.                           | Extremamente raro. |
| Tratamento específico (Monkeypox)| tratamento_monkeypox   | TRATAMENTO_MONKEYPOX           | Numérico(1) | Numérico                   | Categoria nominal | 1=Tecovirimat, 2=Brincidofovir, 3=Cidofovir, 4=Não informado, 5=Sim, mas tratamento antiviral não conhecido, 6=Não (sem tratamento), 7=Outro(s) | Indica se foi administrado tratamento específico.       | Campo obrigatório.                          | Quase sempre “Não”. |
| Outro tratamento (descrição)    | outro_des              | OUTRO_DES                      | Texto       | Categórico                 | Texto livre                                                                                                                                    | Descrição de outro tratamento, se informado.            | Obrigatório se TRATAMENTO_MONKEYPOX = 2.   | Praticamente sem registros válidos. |


📌 Nota importante:

- No dataset real (`mpox_2022.csv`), **TP_AMOST** mostra predominância de “Swab de vesícula (lesão)”, refletindo a recomendação técnica e a prática laboratorial padrão para diagnóstico de Mpox.  
- **DT_COLETA** apresenta **alto índice de valores ausentes**, o que dificulta análises temporais do diagnóstico.  
- **RESULTADO_EXA_LAB** é majoritariamente “Detectável”, coerente com o surto de 2022.  
- **MET_LAB** raramente está preenchido; quando aparece, indica quase sempre **MPX PCR** como método de referência.  
  👉 Porém, também ocorrem registros com valor **0**, que **não existe no dicionário oficial**.  
  👉 Isso **pode ser interpretado** como **erro de migração de dados**, já que o sistema de notificação às vezes gera “0” ao exportar valores nulos/vazios.  
  👉 Recomenda-se recodificar **0 como 9 (Ignorado)** para manter consistência.  
- Em **CARACT_GENOMICA**, além dos valores previstos (1, 2, 9), aparecem registros com **0** e **3**.  
  👉 O **0** pode ser interpretado como erro de migração e deve ser recodificado para **9 (Ignorado)**.  
  👉 O **3** não existe no dicionário e deve ser tratado como inconsistente; sugere-se recodificar também para **9 (Ignorado)**.  
- Em **CLADO**, além dos valores previstos (1, 2, 3, 9), aparecem registros com **0**, que podem ser interpretados como erro de migração e recodificados como **9 (Ignorado)**.  
- Em **TRATAMENTO_MONKEYPOX**, além dos valores previstos (1–7), aparecem registros com **0** e **9**.  
  👉 O **0** pode ser interpretado como erro de migração (nulo exportado).  
  👉 O **9** não existe no dicionário oficial, mas segue a convenção de “Ignorado” em outros agravos.  
  👉 Recomenda-se recodificar ambos (**0 e 9**) como **4 = Não informado**, mantendo consistência com a codificação oficial.  
- **CARACT_GENOMICA** e **CLADO** são extremamente raros, informados apenas em laboratórios de referência com capacidade de sequenciamento.  
- **TRATAMENTO_MONKEYPOX** mostra baixíssimo uso de **Tecovirimat** (e outros antivirais) no Brasil em 2022.  
- **OUTRO_DES** praticamente não tem registros válidos.  


## 🧩 Bloco 6 – Exposição e Fatores de Risco


| Nome do campo                  | Campo interno    | Nome do campo na base de dados | Tipo        | Tipo de dado na literatura | Subtipo de dado   | Categorias                                                                 | Descrição                                                | Regra                                                                                 | Características |
| ------------------------------- | ---------------- | ------------------------------ | ----------- | -------------------------- | ----------------- | -------------------------------------------------------------------------- | -------------------------------------------------------- | ------------------------------------------------------------------------------------- | --------------- |
| Profissional de saúde?          | profis_saude     | PROFIS_SAUDE                   | Numérico(1) | Numérico                   | Categoria nominal | 1=Sim, 2=Não, 9=Ignorado                                                   | Indica se a pessoa é profissional de saúde.              | Campo não obrigatório.                                                                | No CSV há muitos ausentes (float64 por causa de NaN). Converter para Int64 preservando os NaN. |
| Doença transmitida ocupacional? | doenca_tra       | DOENCA_TRA.1                   | Numérico(1) | Numérico                   | Categoria nominal | 1=Sim, 2=Não, 9=Ignorado                                                   | Indica se houve doença transmitida no trabalho.           | Campo obrigatório se exposição ocupacional.                                           | No CSV aparece como `DOENCA_TRA.1` (com sufixo técnico). |
| Local de contato                | local_cont       | LOCAL_CONT                     | Numérico(1) | Numérico                   | Categoria nominal | 1=Domicílio, 2=Vizinhança, 3=Trabalho, 4=Creche/Escola, 5=Hospital/Posto, 6=Evento social sem contato sexual, 7=Evento social com contato sexual, 8=Outro, 9=Ignorado | Local provável de contato/exposição.                     | Campo obrigatório.                                                                      | No CSV aparecem valores 0 → recodificar para 9 (Ignorado). |
| Forma provável de transmissão   | transm           | TRANSM                         | Numérico(1) | Numérico                   | Categoria nominal | 1=Animal-humano, 2=IVD/transfusão, 3=Cuidado de saúde, 4=Vertical (mãe-filho), 5=Laboratorial, 6=Sexual, 7=Contato com material contaminado, 8=Desconhecida, 9=Outra | Provável forma de transmissão do vírus.                  | Campo obrigatório.                                                                      | No CSV aparecem valores 0 → recodificar para 8 (Desconhecida). |
| Contato com animal?             | contat_animal    | CONTAT_ANIMAL                  | Numérico(1) | Numérico                   | Categoria nominal | 1=Pets (cão/gato), 2=Pets roedores, 3=Animal silvestre (≠ roedor), 4=Roedor silvestre, 5=Outro | Indica contato com animal.                              | Campo obrigatório se há exposição.                                                       | No CSV aparecem valores 0/9 → recodificar para 5 (Outro). |

📌 Nota importante:

- No dataset real (`mpox_2022.csv`), **PROFIS_SAUDE** apresenta muitos ausentes, por isso aparece como `float64`. Deve ser convertido para `Int64`, preservando os NaN.  
- **LOCAL_CONT**: valores `0` não existem no dicionário; podem ser interpretados como erro de migração (nulo exportado). Recomenda-se recodificar `0 → 9` (Ignorado).  
- **TRANSM**: se aparecer `0`, recodificar `0 → 8` (Desconhecida) para aderir às categorias oficiais.  
- **CONTAT_ANIMAL**: as categorias são o tipo de animal (1–5); não há código para “Não”. Registros sem contato tendem a vir vazios. Se surgir `0` ou `9`, sugere-se tratar como ausente; se precisares de categoria fechada, documenta a decisão e mapeia `0/9 → 5` (Outro).  
- **DOENCA_TRA.1**: manter 1/2/9 conforme dicionário; valores fora disso devem ser considerados inconsistentes e recodificados para `9` (Ignorado).  


# 🛠️ Campo técnico – Dataset Mpox (mpox_2022.csv)



| Nome do campo      | Campo interno      | Nome do campo na base de dados | Tipo  | Descrição |
| ------------------ | ------------------ | ------------------------------ | ----- | ---------- |
| Arquivo de origem  | arquivo_origem     | __arquivo_origem__             | Texto | Identificador técnico do OpenDatasus, indica de qual arquivo .csv veio o registro. Não é variável epidemiológica, serve apenas para rastreabilidade. |

📌 Nota:
- A variável `__arquivo_origem__` **não faz parte da ficha de notificação/investigação**, mas aparece no CSV como metadado de exportação.  
- Deve ser **mantida apenas para auditoria ou rastreabilidade**.  
- Para análises epidemiológicas, pode ser descartada.  
