<a href="https://colab.research.google.com/github/Cristie-Lima/e-SUS_Sinan_Mpox_ML-Workflow/blob/main/Dicion%C3%A1rio_T%C3%A9cnico_e_Fluxos_de_Processamento__Mpox_2022(base_mpox).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **📘 Dicionário Técnico e 🔄 Fluxos de Processamento – Mpox 2022 (base_mpox)**

 Este documento é material de apoio para processamento de dados e desenvolvimento de modelos preditivos

# 📘 **Dicionário de Dados Pós-correção de Tipagem**



## 1) Categóricas nominais
| Variável         | Tipo final | Observação                                                                 |
| ---------------- | ---------- | -------------------------------------------------------------------------- |
| SG_UF            | object     | Sigla UF residência; 4 nulos                                               |
| SG_UF_NOT        | object     | Sigla UF notificação                                                       |
| ID_MUNICIP       | Int64      | Código IBGE município notificação                                          |
| CO_UF_RES        | Int64      | Código IBGE UF residência                                                  |
| ID_MN_RESI       | Int64      | Código IBGE município residência                                           |
| CS_SEXO          | Int64      | Sexo (1=Masculino, 2=Feminino, 3=Intersexo, 9=Ignorado)                    |
| COMP_SEXUAL      | Int64      | Comportamento sexual                                                       |
| ORIENTA_SEXUAL   | Int64      | Orientação sexual                                                          |
| IDENT_GENERO     | Int64      | Identidade de gênero                                                       |
| CS_RACA          | Int64      | Raça/cor declarada                                                         |
| PAC_IMUNOSSUP    | Int64      | Imunossupressão                                                            |
| IST_ATIVA        | Int64      | IST ativa                                                                  |
| TP_AMOST         | Int64      | Tipo de amostra; categorias 1–9                                            |
| ESTRANGEIRO      | Int64      | Estrangeiro (1=Sim, 2=Não, 9=Ignorado)                                     |
| HIV              | Int64      | Status de HIV                                                              |
| UTI              | Int64      | Internação em UTI                                                          |
| RESULTADO_EXA_LAB| Int64      | 1=Detectável, 2=Inconclusivo, 3=Não detectável, 4=Pendente, 9=Ignorado     |
| PROFIS_SAUDE     | Int64      | Profissional de saúde (alto índice de nulos)                               |
| VACINA           | Int64      | Histórico de vacinação Monkeypox                                           |
| TRATAMENTO_MONKEYPOX | Int64  | 0/9 → recodificados como 4 (Não informado)                                 |
| HOSPITAL         | Int64      | Hospitalização                                                             |
| EVOLUCAO         | Int64      | 1=Óbito Mpox, 2=Cura, 3=Óbito outra, 4=Em tratamento, 9=Ignorado           |
| VINCULO_EPI      | Int64      | Vínculo epidemiológico                                                     |
| LOCAL_CONT       | Int64      | 0 → 9 (Ignorado)                                                           |
| TRANSM           | Int64      | 0 → 8 (Desconhecida)                                                       |
| CONTAT_ANIMAL    | Int64      | Recomendado 0/9 → NA (ou 5=Outro se categoria fechada)                     |
| MET_LAB          | Int64      | 0 → 9 (Ignorado)                                                           |
| CARACT_GENOMICA  | Int64      | 0/3 → 9 (Ignorado)                                                         |
| CLADO            | Int64      | 0 → 9 (Ignorado)                                                           |
| DOENCA_TRA.1     | Int64      | Doença relacionada                                                         |

---

## 2) Categóricas ordinais
| Variável     | Tipo final | Observação                                                                    |
| ------------ | ---------- | ----------------------------------------------------------------------------- |
| CS_GESTANT   | Int64      | Gestante (1=1º tri, 2=2º tri, 3=3º tri, 4=Idade gest ignorada, 5=Não, 7=NSA, 9=Ignorado) |

---

## 3) Categóricas binárias (conceito sim/não; dataset trazia 0/1/2/9/vazio)
| Variável               | Tipo final | Observação                                    |
| ----------------------- | ---------- | --------------------------------------------- |
| GONORREIA               | Int64      | Recodificação: 2/9/vazio → 0                  |
| CLAMIDEA                | Int64      | Recodificação: 2/9/vazio → 0                  |
| SIFILIS                 | Int64      | Recodificação: 2/9/vazio → 0                  |
| HERPES_GENITAL          | Int64      | Recodificação: 2/9/vazio → 0                  |
| CANCRO_MOLE             | Int64      | Recodificação: 2/9/vazio → 0                  |
| TRICHOMOMOMAS_VAGINALS  | Int64      | Recodificação: 2/9/vazio → 0                  |
| LINFOGRANULOMA          | Int64      | Recodificação: 2/9/vazio → 0                  |
| MYCOPLASMA_GENITAL      | Int64      | Recodificação: 2/9/vazio → 0                  |
| HPV                     | Int64      | Recodificação: 2/9/vazio → 0                  |
| DIP                     | Int64      | Recodificação: 2/9/vazio → 0                  |
| DONOVANOSE              | Int64      | Recodificação: 2/9/vazio → 0                  |
| HTLV                    | Int64      | Recodificação: 2/9/vazio → 0                  |
| VERRUGA_GENITAL         | Int64      | Recodificação: 2/9/vazio → 0                  |

---

## 4) Variáveis discretas (quantitativas, inteiros)
| Variável     | Tipo final | Observação                                                                    |
| ------------ | ---------- | ----------------------------------------------------------------------------- |
| NU_IDADE_N   | Int64      | Idade em anos                                                                 |
| CONTAG_CD4   | Int64      | Contagem de células CD4; limpar caracteres, não-negativos, muitos ausentes     |

---

## 5) Variáveis temporais (datas)
| Variável     | Tipo final     | Observação                                      |
| ------------ | -------------- | ----------------------------------------------- |
| DT_NOTIFIC   | datetime64[ns] | Notificação (05/08/2022 a 13/12/2022)           |
| DT_SIN_PRI   | datetime64[ns] | Início dos sintomas                             |
| DT_COLETA    | datetime64[ns] | Data da coleta da amostra                       |
| DATA_VACINA  | datetime64[ns] | 100% nula                                       |
| DT_INTERNA   | datetime64[ns] | Data da internação hospitalar                   |
| DT_EVOLUCAO  | datetime64[ns] | Data do desfecho (cura, óbito, etc.)            |

---

## 6) Texto livre e listas múltiplas
| Variável     | Tipo final | Observação                                      |
| ------------ | ---------- | ----------------------------------------------- |
| SINTOMA      | object     | Lista separada por vírgula (precisa “explodir”) |
| OUTRO_DES    | object     | Texto livre (tratamento outro, raríssimos)      |

---

## 7) Identificador técnico
| Variável           | Tipo final | Observação                                  |
| ------------------ | ---------- | ------------------------------------------- |
| __arquivo_origem__ | object     | Identificador técnico do OpenDatasus        |


# 🔄 Fluxo de Pré-processamento — base_mpox



## 🧹 Limpeza de dados

### Diagnóstico de tipagem (última etapa da Análise Exploratória)
- Checar tipos de cada variável (conceitual vs. pandas).
- Identificar inconsistências: datas como `object`, binárias como `float64`, contagens como `object`.
👉 **Não altera dados**, apenas informa problemas.

### Correção de tipagem
- Conversões necessárias:
  - Datas → datetime64[ns]
  - Variáveis binárias (ISTs) → Int64 (0/1)
  - CONTAG_CD4 → Int64 (remoção de caracteres não numéricos, garantir ≥0)
- Justificativa: tipagem correta é base para imputação, codificação e modelagem.

### Recodificações
- Padronizar valores fora do dicionário:
  - MET_LAB: 0 → 9 (Ignorado)
  - LOCAL_CONT: 0 → 9 (Ignorado)
  - TRANSM: 0 → 8 (Desconhecida)
  - CONTAT_ANIMAL: 0/9 → 5 (Outro) ou NaN
  - TRATAMENTO_MONKEYPOX: 0/9 → 4 (Não informado)
- Justificativa: categorias harmonizadas evitam ruído analítico.

### Limpeza de incoerências
- CS_GESTANT em não-femininos → coerente (5=Não, 7=Não se aplica, 9=Ignorado).
- IST_ATIVA ≠ 1 mas ISTs positivas → recodificar para 0.
- Justificativa: corrige inconsistências semânticas.

### Imputação de valores faltantes
- Categóricas → Moda.
- Numéricas → Média (ou Mediana se distribuição enviesada).
- Datas → avaliar contexto (DATA_VACINA quase sempre nula → documentar).
- Justificativa: técnicas simples, alinhadas à proposta do curso.

---

✅ **Resultado esperado (saída do pré-processamento):**
- Categóricas consistentes (Int64/category).
- Binárias em 0/1 (Int64).
- Discretas (NU_IDADE_N, CONTAG_CD4) limpas e corretas.
- Datas válidas em datetime.
- Texto padronizado (OUTRO_DES tratado, SINTOMA expandido).
- Identificador técnico (`__arquivo_origem__`) mantido apenas para rastreabilidade.


# ⚙️ Fluxo de Engenharia de Atributos – Mpox 2022 (base_mpox)



Este fluxo cria novas variáveis a partir de datas, condições clínicas, fatores de risco e dados sociodemográficos, enriquecendo o dataset antes da modelagem.  
Inclui também auditorias automáticas (%NaN, min/max e correlações com alvos).

---

## ⏱️ Atributos temporais
- **delay_notif**: diferença entre `DT_SIN_PRI` e `DT_NOTIFIC`.  
- **delay_coleta**: diferença entre `DT_NOTIFIC` e `DT_COLETA`.  
- **duracao_caso**: diferença entre `DT_SIN_PRI` e `DT_EVOLUCAO`.  
- **tempo_internacao**: diferença entre `DT_INTERNA` e `DT_EVOLUCAO`.  
👉 Negativos viram `NaN`.

## 🩺 Atributos clínico-epidemiológicos
- **ist_any**: flag se existe alguma IST ativa.  
- **ist_count**: número de ISTs ativas.  
- **imune_risco**: flag combinando HIV positivo e imunossupressão.  
- **vacina_qualquer**: flag se recebeu qualquer vacinação contra varíola.  
- **sintoma_count**: número de sintomas listados.  
- **sintoma_cutaneo / sintoma_sistemico**: grupos de sintomas (se dummies existirem).

## 👤 Sociodemográficos derivados
- **faixa_etaria**: binning em classes (`0-11`, `12-17`, `18-29`, `30-59`, `60+`).  
- **raca_major**: simplificação de `CS_RACA` em Branca / Preta / Parda / Outro.  
- **regiao**: derivado de `SG_UF` (N, NE, CO, SE, S).

## 🔁 Interações opcionais
- **imune_risco_x_sintomas**: interação entre risco imunológico e sintomas.  
- **delay_notif_centered_regiao**: atraso ajustado pela mediana da região.

## 🎯 Alvos binários derivados
- **target_hosp**: hospitalização (Sim=1, Não=0).  
- **target_obito_any**: óbito por qualquer causa (1,3=óbito).  
- **target_obito_mpx**: óbito exclusivamente por Mpox (1=óbito Mpox).

---



# 🔄 Fluxo de Pós-processamento



## 🗑️ Remoção de variáveis inviáveis
- Identificadores técnicos (`__arquivo_origem__`).
- Colunas com altíssima proporção de nulos (ex.: DATA_VACINA).
- Variáveis “leaky” (ex.: DT_EVOLUCAO se usada como feature).
👉 Justificativa: reduz dimensionalidade e evita vazamento de informação.

## 🔡 Codificação (Encoders)
- Binárias → já 0/1 após pré-processamento.
- Nominais → OneHot Encoding (drop_first=True quando adequado).
- Ordinais → **nenhuma no dataset** (CS_GESTANT é tratada como nominal).
👉 Justificativa: transforma categorias em representações numéricas, sem hierarquia artificial.

## 📏 Escalonamento
- Variáveis numéricas contínuas/discretas (NU_IDADE_N, CONTAG_CD4).
- Aplicar StandardScaler ou MinMaxScaler conforme o modelo.
👉 Justificativa: algoritmos baseados em distância (kNN, SVM, Redes Neurais) exigem escalas comparáveis.

## ⚖️ Balanceamento de classes
- Variáveis-alvo: HOSPITAL e EVOLUCAO (óbito).
- Testar SMOTE (oversampling) + Tomek Links (undersampling).
- Justificativa: classes desbalanceadas prejudicam recall. Balanceamento corrige viés do classificador.

---

✅ **Resultado esperado (saída do pós-processamento):**
- Dataset convertido em matriz numérica limpa, balanceada e escalonada.
- Pronto para **Atividade 6: Treinamento e comparação de modelos**.


# 🚧 Atividades Futuras: Modelagem Preditiva para Classificação de Hospitalização (Mpox 2022 – eSUS Sinan)


# 🚀 Fluxo de Modelagem — Atividade 6 (Treinamento, Comparação e Seleção)



## 🎯 Objetivo
Treinar, comparar e selecionar o(s) melhor(es) classificador(es) para:
1) **Hospitalização** (HOSPITAL → binário)
2) **Óbito** (EVOLUCAO → binário: Óbito vs. Não-óbito)

> Diretriz: priorizar **sensibilidade/recall** para eventos graves (hospitalização/óbito). Ajustar limiar (threshold) conforme curva Precision–Recall.

---

## ✅ Preparação do conjunto
- **Split** inicial: `train/test` **estratificado** (ex.: 80/20), com `random_state` fixo.
- **Variável-alvo**:
  - *Hospitalização*: mapear 1/2/… → **1=hosp**; 3/… → **0=não-hosp** (conforme teu mapeamento).
  - *Óbito*: mapear **1=óbito por mpox** e **3=óbito outra causa** → **1=óbito** (se a pergunta clínica exigir “óbito qualquer causa”); **0** caso contrário. Documentar decisão.
- **Leakage control**: qualquer balanceamento (SMOTE/Tomek), seleção de features, escalonamento e OHE **dentro do CV/pipeline**.

---

## 🧪 Modelos a comparar
- **Naive Bayes** (Gaussian/Complement/Bernoulli conforme dados pós-OHE)
- **Árvore de Decisão**
- **Random Forest**
- **kNN**
- **Regressão Logística**
- **SVM** (Linear/RBF)
- **Rede Neural** (MLPClassifier)

> Observação: árvores/florestas não exigem escalonamento; kNN/SVM/MLP **exigem**.

---

## 🧰 Pipeline e validação
- **Pipeline único por modelo** (Imblearn `Pipeline`) com:
  1. *[opcional]* Seleção de features (ex.: VarianceThreshold / mutual_info)
  2. **Codificação** (OHE) — já definido no teu pós-processamento
  3. **Escalonamento** (apenas numéricas)
  4. **Balanceamento** (ex.: `SMOTE` ou `SMOTEENN`/`SMOTETomek`) — **dentro** do CV
  5. **Classificador**
- **Validação cruzada**: `StratifiedKFold` (k=5 ou 10).
- **Busca de hiperparâmetros**: `GridSearchCV` **ou** `RandomizedSearchCV`.
  - Métrica principal (scoring): **Recall**, **F2-score** ou **Average Precision (PR-AUC)**.
  - Métricas secundárias para relatório: **ROC-AUC**, **Precision**, **F1**, **Specificity (TNR)**, **Balanced Accuracy**.

---

## 📈 Avaliação e comparação
- **Em CV**: tabela com média±desvio de métricas por modelo.
- **No teste hold-out**:
  - Curva **ROC** e **Precision–Recall**.
  - **Confusion Matrix** com limiar padrão 0.5 e **otimizado** (ajustado para recall).
  - **Calibração** (opcional): Platt (sigmoide) ou isotônica; inspecionar **calibration curve**.
- **Escolha do limiar**:
  - Usar PR-curve para maximizar **Recall** com **Precision** aceitável (documenta trade-off).
  - Alternativas: maximizar **F2**, custo ponderado (FN > FP).

---

## 🔍 Interpretabilidade
- **Regressão Logística**: coeficientes (odds ratios) + IC (bootstrap opcional).
- **Árvores/Floresta**: `feature_importances_` + **Permutation Importance**.
- **Model-agnostic**: **SHAP** (TreeExplainer / KernelExplainer) para top features.
- **Análises de subgrupos** (estratos demográficos ou clínicos) se necessário.

---

## 🧪 Robustez e sanidade
- **Learning curves** (viés vs. variância).
- **Validation curves** (hiperparâmetros críticos).
- **Nested CV** (opcional para estimativa sem viés de generalização).
- **Ablation study**: sem/ com dummies de SINTOMA; sem/ com CONTAG_CD4; etc.

---

## ✅ Saída esperada
- Tabela comparativa (CV) + métricas no teste.
- Modelo vencedor **por alvo** (Hospitalização e Óbito), limiar recomendado e justificativas.
- Lista de features mais relevantes (explicabilidade).


# 📦 Fluxo de Uso do Modelo — Atividade 7 (Salvar, Carregar e Predizer)



## 🎯 Objetivo
Padronizar como tu **salvas**, **versionas**, **carregas** e **usas** o(s) modelo(s) treinado(s) para predições novas, preservando reprodutibilidade.

---

## 🗂️ Artefatos a salvar
- **Pré-processadores**:
  - Pipeline de **codificação** (OHE), **escalonamento** e **balanceamento** (se aplicável apenas para treino).
  - Dicionários de **mapeamento de rótulos** (óbito vs. não-óbito; hosp vs. não-hosp).
  - **Lista final de features** (ordem das colunas após OHE!).
- **Modelo vencedor** (com hiperparâmetros).
- **Threshold** escolhido (se diferente de 0.5).
- **Métricas** finais e **relatório** (JSON/CSV/Markdown).

> Formato: `joblib`/`pickle`. Sugestão de pastas:  
> `artifacts/` → `preprocess.pkl`, `model_hosp.pkl`, `model_obito.pkl`, `feature_list.json`, `metrics.json`.

---

## 🔁 Reprodutibilidade e versionamento
- **random_state** fixo em todos os passos.
- **requirements.txt** ou `pip freeze` do ambiente.
- **Versão do dataset** (hash/assinatura do CSV).
- **Model card** breve (objetivo, dados, métricas, limitações, vieses conhecidos).

---

## 🔮 Predição em dados novos
1. **Validação de schema** (colunas esperadas, tipos, categorias conhecidas).
2. **Aplicar o mesmo pipeline** de pré-processamento/codificação **na mesma ordem**.
3. **Gerar probabilidades** (`predict_proba`).
4. **Aplicar threshold** selecionado para a classe positiva (hospitalização/óbito).
5. **Retornar**: classe, probabilidade, features mais influentes (ex.: SHAP local).

> Importante: **NUNCA** re-treinar ou reimputar “olhando” os dados novos (evitar vazamento). Apenas transformar com artefatos salvos.

---

## 🧪 Sanidade em produção (opcional, recomendado)
- **Data drift**: monitorar mudanças em distribuições (PSI/KL).
- **Performance drift**: acompanhar recall/precision ao receber rótulos verdadeiros.
- **Recalibração periódica** (Platt/isotônica) se as probabilidades perderem aderência.

---

## ✅ Saída esperada
- Artefatos salvos em `artifacts/`.
- Função de **inference** (ex.: `predict_obito(df_novo)`, `predict_hosp(df_novo)`).
- Documentação curta de uso + exemplos com 1–2 linhas de dados sintéticos.


# AQUI FALTA VERIFICAR SE VAI USAR

# ⚙️ Engenharia de Atributos — base_mpox



A engenharia de atributos gera novas variáveis a partir de colunas já existentes, enriquecendo o dataset para melhorar a capacidade preditiva dos modelos.  
No caso da base *mpox*, destacam-se dois grandes eixos: **atributos temporais** e **atributos clínico-epidemiológicos derivados**.

---

## ⏱️ Engenharia de atributos temporais (Datas)

### Variáveis derivadas recomendadas
- **Atraso até notificação**: `DT_NOTIFIC - DT_SIN_PRI`  
  → quantos dias se passaram entre início dos sintomas e registro da notificação.  
- **Tempo até coleta de exame**: `DT_COLETA - DT_NOTIFIC`  
  → atraso no diagnóstico laboratorial.  
- **Duração até evolução do caso**: `DT_EVOLUCAO - DT_SIN_PRI`  
  → quantos dias o paciente levou até cura/óbito.  
- **Tempo de internação hospitalar**: `DT_EVOLUCAO - DT_INTERNA`  
  → duração da internação em dias.

### Tratamento
- Converter para número de dias (`.dt.days`).  
- Valores negativos ou incoerentes → recodificar como `NaN` (ex.: data de evolução anterior ao início dos sintomas).  
- Justificativa: variáveis contínuas derivadas de datas capturam **dinâmica temporal da doença**.

---

## 🩺 Engenharia de atributos clínico-epidemiológicos

### Condições clínicas combinadas
- Criar variável binária **“Comorbidade_IST”** = 1 se qualquer IST específica = 1.  
- Criar variável **“Comorbidade_total”** = contagem de ISTs ativas + HIV + imunossupressão.  
- Justificativa: sumariza o estado de saúde prévio em uma métrica compacta.

### Status vacinal detalhado
- Criar dummy “Vacina_Qualquer” = 1 se VACINA ∈ {1,2,3}, 0 caso contrário.  
- Justificativa: diferencia vacinados de não vacinados sem diluir em muitas categorias raras.

---

## 👤 Engenharia de atributos sociodemográficos

### Faixas etárias
- Transformar NU_IDADE_N em categorias:  
  - 0–11 anos = Criança  
  - 12–17 anos = Adolescente  
  - 18–29 = Jovem adulto  
  - 30–59 = Adulto  
  - 60+ = Idoso  
- Justificativa: pode capturar padrões não lineares sem depender apenas da variável contínua.

### Grupos raciais simplificados
- Criar variável **“Raça_majoritária”**: Branca, Preta, Parda, Outro.  
- Justificativa: reduz sparsidade e facilita interpretações.

---

## ✅ Resultado esperado

- Novas features enriquecem o dataset sem perder as originais.  
- Variáveis contínuas temporais → ajudam modelos lineares/regressão logística.  
- Variáveis binárias combinadas → ajudam árvores, random forest e redes neurais.  
- Todo novo atributo deve ser auditado quanto a:  
  - Distribuição (histograma).  
  - Proporção de valores ausentes.  
  - Correlação com variáveis-alvo (Hospitalização e Óbito).


## **EDA**

### 📑 **Diagnóstico de Tipagem e Consistência — base_mpox** (seguindo ordem dos vetores)


Este diagnóstico compara o **tipo esperado** (conceitual, definido na Análise Descritiva e no dicionário de dados) com o **tipo real** (pandas, conforme importação do arquivo `.csv`).

O objetivo é identificar variáveis já conformes e apontar aquelas que necessitam de **conversão de tipo** ou **recodificação de valores** para garantir consistência no pré-processamento.




### 🔹 Categóricas nominais (texto/loc)
| Variável   | Tipo esperado (conceitual)         | Tipo real (pandas) | Status | Conversão necessária → | Regra de recodificação |
|------------|------------------------------------|---------------------|--------|------------------------|------------------------|
| SG_UF      | Categórica nominal (sigla)         | object              | ✅     | -                      | - |
| SG_UF_NOT  | Categórica nominal (sigla)         | object              | ✅     | -                      | - |
| ID_MUNICIP | Categórica nominal (cód. IBGE)     | int64               | ✅     | -                      | - |
| CO_UF_RES  | Categórica nominal (cód. IBGE)     | int64               | ✅     | -                      | - |
| ID_MN_RESI | Categórica nominal (cód. IBGE)     | int64               | ✅     | -                      | - |

---

### 🔹 Categóricas múltiplas (lista em texto)
| Variável | Tipo esperado (conceitual)    | Tipo real (pandas) | Status | Conversão necessária → | Regra de recodificação |
|----------|-------------------------------|---------------------|--------|------------------------|------------------------|
| SINTOMA  | Lista categórica (texto)      | object              | ✅     | -                      | Explodir em dummies binárias |

---

### 🔹 Texto livre
| Variável   | Tipo esperado (conceitual) | Tipo real (pandas) | Status | Conversão necessária → | Observação |
|------------|-----------------------------|---------------------|--------|------------------------|------------|
| OUTRO_DES  | Texto livre                 | object              | ✅     | -                      | Padronizar texto/ortografia |

---

### 🔹 Binárias (numéricas, ISTs)
| Variável             | Tipo esperado (conceitual) | Tipo real (pandas) | Status | Conversão necessária → | Regra de recodificação |
|----------------------|-----------------------------|---------------------|--------|------------------------|------------------------|
| GONORREIA            | Binária (0/1)              | int64               | ✅     | -                      | {2,9,vazio}→0 |
| CLAMIDEA             | Binária (0/1)              | int64               | ✅     | -                      | {2,9,vazio}→0 |
| SIFILIS              | Binária (0/1)              | int64               | ✅     | -                      | {2,9,vazio}→0 |
| HERPES_GENITAL       | Binária (0/1)              | int64               | ✅     | -                      | {2,9,vazio}→0 |
| CANCRO_MOLE          | Binária (0/1)              | float64             | ⚠️     | Int64                  | {2,9,vazio}→0 |
| TRICHOMOMAS_VAGINALS | Binária (0/1)              | int64               | ✅     | -                      | {2,9,vazio}→0 |
| LINFOGRANULOMA       | Binária (0/1)              | int64               | ✅     | -                      | {2,9,vazio}→0 |
| MYCOPLASMA_GENITAL   | Binária (0/1)              | float64             | ⚠️     | Int64                  | {2,9,vazio}→0 |
| HPV                  | Binária (0/1)              | float64             | ⚠️     | Int64                  | {2,9,vazio}→0 |
| DIP                  | Binária (0/1)              | float64             | ⚠️     | Int64                  | {2,9,vazio}→0 |
| DONOVANOSE           | Binária (0/1)              | float64             | ⚠️     | Int64                  | {2,9,vazio}→0 |
| HTLV                 | Binária (0/1)              | float64             | ⚠️     | Int64                  | {2,9,vazio}→0 |
| VERRUGA_GENITAL      | Binária (0/1)              | float64             | ⚠️     | Int64                  | {2,9,vazio}→0 |

---

### 🔹 Categóricas nominais (numéricas, códigos)
| Variável            | Tipo esperado (conceitual) | Tipo real (pandas) | Status | Conversão necessária → | Regra de recodificação |
|---------------------|-----------------------------|---------------------|--------|------------------------|------------------------|
| CLASSI_FIN          | Categórica nominal (cód.)  | int64               | ✅     | -                      | - |
| CS_SEXO             | Categórica nominal (cód.)  | int64               | ✅     | -                      | - |
| COMP_SEXUAL         | Categórica nominal (cód.)  | int64               | ✅     | -                      | - |
| ORIENTA_SEXUAL      | Categórica nominal (cód.)  | int64               | ✅     | -                      | - |
| IDENT_GENERO        | Categórica nominal (cód.)  | int64               | ✅     | -                      | - |
| CS_RACA             | Categórica nominal (cód.)  | int64               | ✅     | -                      | - |
| CS_GESTANT          | Categórica nominal (cód.)  | int64               | ✅     | -                      | Vai ser tratada como nominal; 1–3 têm ordem, mas 4/5/7/9 quebram escala |
| PAC_IMUNOSSUP       | Categórica nominal (cód.)  | int64               | ✅     | -                      | - |
| IST_ATIVA           | Categórica nominal (cód.)  | int64               | ✅     | -                      | Consistência com ISTs |
| TP_AMOST            | Categórica nominal (cód.)  | int64               | ✅     | -                      | 0→9 (Ignorado) |
| ESTRANGEIRO         | Categórica nominal (cód.)  | int64               | ✅     | -                      | - |
| HIV                 | Categórica nominal (cód.)  | int64               | ✅     | -                      | - |
| UTI                 | Categórica nominal (cód.)  | int64               | ✅     | -                      | - |
| RESULTADO_EXA_LAB   | Categórica nominal (cód.)  | int64               | ✅     | -                      | - |
| PROFIS_SAUDE        | Categórica nominal (cód.)  | float64             | ⚠️     | Int64                  | Preservar NaN |
| VACINA              | Categórica nominal (cód.)  | int64               | ✅     | -                      | - |
| TRATAMENTO_MONKEYPOX| Categórica nominal (cód.)  | int64               | ✅     | -                      | 0/9→4 (Não informado) |
| HOSPITAL            | Categórica nominal (cód.)  | int64               | ✅     | -                      | - |
| EVOLUCAO            | Categórica nominal (cód.)  | int64               | ✅     | -                      | (1,2,3,4,9) |
| VINCULO_EPI         | Categórica nominal (cód.)  | int64               | ✅     | -                      | Quase sempre “Não” (autóctone) |
| LOCAL_CONT          | Categórica nominal (cód.)  | float64             | ⚠️     | Int64                  | 0→9 (Ignorado) |
| TRANSM              | Categórica nominal (cód.)  | float64             | ⚠️     | Int64                  | 0→8 (Desconhecida) |
| CONTAT_ANIMAL       | Categórica nominal (cód.)  | float64             | ⚠️     | Int64                  | 0/9→5 (Outro) |
| MET_LAB             | Categórica nominal (cód.)  | int64               | ✅     | -                      | 0→9 (Ignorado) |
| CARACT_GENOMICA     | Categórica nominal (cód.)  | float64             | ⚠️     | Int64                  | 0/3→9 (Ignorado) |
| CLADO               | Categórica nominal (cód.)  | float64             | ⚠️     | Int64                  | 0→9 (Ignorado) |
| DOENCA_TRA.1        | Categórica nominal (cód.)  | int64               | ✅     | -                      | Fora de {1,2,9}→9 |

---

### 🔹 Numéricas reais/discretas
| Variável    | Tipo esperado (conceitual) | Tipo real (pandas) | Status | Conversão necessária → | Observação |
|-------------|-----------------------------|---------------------|--------|------------------------|------------|
| NU_IDADE_N  | Numérica discreta (anos)   | int64               | ✅     | -                      | Tratar outliers (<0, >110) |
| CONTAG_CD4  | Numérica discreta/contínua | object              | ⚠️     | Int64                  | Remover não-numéricos; garantir ≥0 |

---

### 🔹 Datas temporais
| Variável    | Tipo esperado (conceitual) | Tipo real (pandas) | Status | Conversão necessária → | Observação |
|-------------|-----------------------------|---------------------|--------|------------------------|-------------|
| DT_NOTIFIC  | Temporal (data)            | object              | ⚠️     | datetime64[ns]         | 05/08/2022–13/12/2022 |
| DT_SIN_PRI  | Temporal (data)            | object              | ⚠️     | datetime64[ns]         | Deve ser ≤ DT_NOTIFIC |
| DT_COLETA   | Temporal (data)            | object              | ⚠️     | datetime64[ns]         | Deve ser próxima da notificação |
| DATA_VACINA | Temporal (data)            | float64             | ⚠️     | datetime64[ns]         | Quase sempre nula |
| DT_INTERNA  | Temporal (data)            | object              | ⚠️     | datetime64[ns]         | Se HOSPITAL=Sim |
| DT_EVOLUCAO | Temporal (data)            | object              | ⚠️     | datetime64[ns]         | Coerente com EVOLUCAO |

---

### 🔹 Identificador técnico
| Variável           | Tipo esperado (conceitual) | Tipo real (pandas) | Status | Conversão necessária → | Observação |
|--------------------|-----------------------------|---------------------|--------|------------------------|-------------|
| __arquivo_origem__ | Identificador técnico       | object              | ✅     | -                      | Não usar em modelagem |


# 🔄 **Fluxo de Pós-processamento**



## Remoção de variáveis inviáveis
- 100% nulas (ex.: DATA_VACINA).
- Quase totalmente nulas (>80%) ou quase constantes (>95% iguais).
- **Identificador técnico**: `__arquivo_origem__` → **REMOVER no pós** (rastreabilidade já cumprida no pré; evita vazamento/ruído).

## Tratamento de ausentes restantes
- Categóricas: imputar por moda ou categoria “Ignorado” conforme tua política.
- Numéricas: mediana/média quando fizer sentido ou manter NA se o algoritmo suportar (ex.: árvores).

## ⚙️ Codificação (Encoders)

### 🔹 Ordinal / Label Encoding
- ❌ Nenhuma variável será tratada como ordinal.
- Justificativa: a única candidata (`CS_GESTANT`) foi redefinida como categórica nominal,
  pois mistura códigos ordenáveis (1–3 = trimestres) com categorias não ordenáveis (4, 5, 7, 9).  
- Usar Label/Ordinal Encoding criaria falsas relações entre categorias.

---

### 🔹 One-Hot Encoding (OHE)
- Variáveis nominais (inclui `CS_GESTANT` e demais categóricas numéricas/textuais):  
  - Exemplos: `CLASSI_FIN`, `CS_SEXO`, `COMP_SEXUAL`, `ORIENTA_SEXUAL`, `IDENT_GENERO`,  
    `CS_RACA`, `IST_ATIVA`, `HIV`, `TP_AMOST`, `RESULTADO_EXA_LAB`, `PROFIS_SAUDE`,  
    `TRATAMENTO_MONKEYPOX`, `HOSPITAL`, `UTI`, `EVOLUCAO`, `VINCULO_EPI`, `LOCAL_CONT`,  
    `TRANSM`, `CONTAT_ANIMAL`, `MET_LAB`, `CARACT_GENOMICA`, `CLADO`, `ID_MUNICIP`,  
    `CO_UF_RES`, `ID_MN_RESI`, `SG_UF`, `SG_UF_NOT`, `DOENCA_TRA.1`.  

- Estratégia:
  - Usar **OneHotEncoder** (`handle_unknown='ignore'`).  
  - Avaliar `drop='first'`:  
    - **Regressão Logística / SVM** → usar `drop='first'` (evitar multicolinearidade).  
    - **Árvores / Florestas / KNN / Redes Neurais** → não necessário.  

---

### 🔹 Binárias (já codificadas em 0/1)
- Variáveis como ISTs específicas (GONORREIA, CLAMIDEA, SIFILIS, etc.) e dummies de `SINTOMA`.  
- Já em formato `0/1` → manter como `Int64`.

---

### 🔹 Texto livre
- `OUTRO_DES`: baixa cobertura → pode ser descartada. Se usada, aplicar **TF-IDF**.  
- `SINTOMA`: deve ser explodido em variáveis binárias (0/1), que já entram na seção de Binárias.

---

### 🔹 Identificador técnico
- `__arquivo_origem__`: remover da modelagem, manter apenas para rastreabilidade.

---

## ⚖️ Escalonamento (Scalers)

### 🔹 Variáveis numéricas
- `NU_IDADE_N`: discreta (anos) → pode ser escalonada.  
- `CONTAG_CD4`: discreta/contínua (após limpeza) → pode ser escalonada.  

### 🔹 Estratégia de escalonamento
- **StandardScaler**: útil para modelos lineares (Regressão Logística, SVM) e Redes Neurais.  
- **MinMaxScaler**: útil se deseja normalizar para [0,1] (p.ex. KNN, Redes Neurais com ativação sigmoide).  
- Árvores de decisão e Random Forest **não exigem escalonamento**.  

### 🔹 Observação
- Escalonar **somente após imputação e codificação**.  
- Definir escalonador no pipeline para ser aplicado **apenas às variáveis numéricas**.


## Datas cruas vs deltas (⚕️ recomendação clínica)
- **Remover as datas “cruas”** do `X` (não agregam predição direta).
- **Manter apenas deltas derivados** potencialmente úteis:
  - `DELTA_SIN_NOTIF_dias`, `DELTA_SIN_INTERNA_dias`.
  - Usar com cautela ou só para auditoria: `DELTA_SIN_COLETA_dias`, `DELTA_NOTIF_INTERNA_dias`.
  - **Nunca usar como feature** (risco de vazamento): `DELTA_SIN_DESFECHO_dias`.

## Preparação da variável-alvo
- Definir `y` = classe binária (ex.: “Óbito”=1 vs “Não óbito”=0, agregando Cura/Tratamento/Outra causa).
- Checar prevalência da classe positiva (óbito) e planejar **threshold** e **métrica focada em recall**.

## Relatório de diagnóstico final
- % de nulos por variável.
- Cardinalidade (nº de categorias).
- Frequência da categoria dominante.
- Sinalizar remoção quando:
  - 100% nula
  - Identificadora técnica
  - >80% nula
  - Quase constante (>95%)
  - Cardinalidade excessiva sem ganho analítico


# 🔄 **Fluxo de Pré-processamento**



## Conversão de tipos
- Garantir `Int64` (inteiro anulável) para códigos numéricos que podem conter nulos.
- Converter todas as datas para `datetime64[ns]` (`dayfirst=True`).
- Manter variáveis de texto em `object`.

## Recodificações
- Corrigir valores fora do dicionário:
  - MET_LAB: 0 → 9
  - CARACT_GENOMICA: 0/3 → 9
  - CLADO: 0 → 9
  - TRATAMENTO_MONKEYPOX: 0/9 → 4 (Não informado)
  - LOCAL_CONT: 0 → 9
  - TRANSM: 0 → 8
  - ISTs específicas: 2/9/vazio → 0

## Categóricas ordinais
- CS_GESTANT em `Int64` (ou `category` ordenada).
- Validar coerência: se CS_SEXO ≠ Feminino → valores esperados: 5=Não, 7=Não se aplica, 9=Ignorado.

## Categóricas binárias (ISTs)
- Recodificar 2/9/vazio → 0 (Não).
- Converter todas para `Int64`.
- Verificar consistência com IST_ATIVA:
  - Se IST_ATIVA = 1 → ISTs podem ser 0/1.
  - Se IST_ATIVA ≠ 1 → ISTs devem ser todos 0.

## Variáveis temporais
- Converter campos: DT_NOTIFIC, DT_SIN_PRI, DT_COLETA, DATA_VACINA, DT_INTERNA, DT_EVOLUCAO.
- Validar ranges (2022).
- Regras de coerência:
  - DT_SIN_PRI ≤ DT_NOTIFIC.
  - DT_COLETA próximo da notificação.
  - DT_INTERNA ≤ DT_EVOLUCAO (quando ambas existirem).
- ⚕️ Justificativa: mesmo sem modelagem temporal, converter para `datetime` é essencial para garantir consistência e derivar intervalos em dias (ex.: atraso de notificação, tempo até hospitalização). As datas “cruas” podem ser descartadas depois, mas os **intervalos derivados** podem ser preditores importantes.

## Variáveis discretas
- NU_IDADE_N: confirmar distribuição (em anos). Tratar outliers (<0 ou >110).
- CONTAG_CD4:
  - Remover caracteres não numéricos.
  - Converter para `Int64`.
  - Garantir valores não-negativos.
  - Muitos ausentes → documentar limitação analítica.

## Texto livre e listas múltiplas
- SINTOMA:
  - Normalizar tokens (minúsculas, sem espaços extras).
  - Explodir em variáveis binárias 0/1 (`SINT_*`).
- OUTRO_DES:
  - Revisar ortografia/duplicados.
  - Poucos registros válidos, mas manter.

## Relatório de checagem final
- Tipagem (`dtypes`) de todas as colunas.
- % de nulos em variáveis de data.
- Frequências básicas de categorias (TP_AMOST, RESULTADO_EXA_LAB, TRATAMENTO_MONKEYPOX).

## Identificador técnico — ⚠️ atenção
- `__arquivo_origem__` deve ser **mantido no pré-processamento** apenas para rastreabilidade/auditoria.
- **Não utilizar** em análises estatísticas nem modelagem.
- Será removido explicitamente no pós-processamento.
