<a href="https://colab.research.google.com/github/Cristie-Lima/e-SUS_Sinan_Mpox_ML-Workflow/blob/main/fluxo_de_aprendizagem_de_maquina_mpox_2022.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Fluxo de Aprendizagem de Máquina – Mpox 2022 (Hospitalização)
“A Ciência de Dados, quando aplicada à saúde, não prevê apenas números: prevê vidas.”

## Sumário
- [0. Resumo Executivo](#0-resumo-executivo)
- [1. Objetivo e Escopo](#1-objetivo-e-escopo)
    - [Base teórica (Kelleher et al., `2020`)](#base-teórica-(kelleher-et-al,-`2020`))
- [2. Fundamentos Metodológicos (Kelleher, `2020`)](#2-fundamentos-metodológicos-(kelleher,-`2020`))
    - [Base teórica (Kelleher et al., `2020`)](#base-teórica-(kelleher-et-al,-`2020`))
- [3. Dados, Dicionário e Governança](#3-dados,-dicionário-e-governança)
    - [Base teórica (Kelleher et al., `2020`)](#base-teórica-(kelleher-et-al,-`2020`))
  - [Tabela 3.1 – Dicionário resumido (variáveis principais)](#tabela-31-–-dicionário-resumido-(variáveis-principais))
    - [Base teórica (Kelleher et al., `2020`)](#base-teórica-(kelleher-et-al,-`2020`))
- [4. Análise Exploratória (`EDA`)](#4-análise-exploratória-(`eda`))
    - [Base teórica (Kelleher et al., `2020`)](#base-teórica-(kelleher-et-al,-`2020`))
- [5. Pré-processamento (Atividades 1–2)](#5-pré-processamento-(atividades-1–2))
  - [Tabela 5.1 – Tratamentos por variável (exemplos críticos)](#tabela-51-–-tratamentos-por-variável-(exemplos-críticos))
- [6. Construção e Seleção de Atributos (Atividades 3–5)](#6-construção-e-seleção-de-atributos-(atividades-3–5))
    - [Base teórica (Kelleher et al., `2020`)](#base-teórica-(kelleher-et-al,-`2020`))
- [6.1 Redução de Dimensionalidade (`PCA`)](#61-redução-de-dimensionalidade-(`pca`))
    - [Base teórica (Kelleher et al., `2020`)](#base-teórica-(kelleher-et-al,-`2020`))
  - [Tabela 6.1 – Aplicação de `PCA` por modelo](#tabela-61-–-aplicação-de-`pca`-por-modelo)
    - [Base teórica (Kelleher et al., `2020`)](#base-teórica-(kelleher-et-al,-`2020`))
- [6.2 Balanceamento](#62-balanceamento)
    - [Base teórica (Kelleher et al., `2020`)](#base-teórica-(kelleher-et-al,-`2020`))
  - [Tabela 6.2 – Comparação de técnicas de balanceamento](#tabela-62-–-comparação-de-técnicas-de-balanceamento)
    - [Base teórica (Kelleher et al., `2020`)](#base-teórica-(kelleher-et-al,-`2020`))
- [7. Modelagem (Atividade 6)](#7-modelagem-(atividade-6))
  - [Tabela 7.1 – Modelos e grids sugeridos](#tabela-71-–-modelos-e-grids-sugeridos)
    - [Base teórica (Kelleher et al., `2020`)](#base-teórica-(kelleher-et-al,-`2020`))
- [8. Avaliação](#8-avaliação)
    - [Base teórica (Kelleher et al., `2020`)](#base-teórica-(kelleher-et-al,-`2020`))
- [9. Implementação (Atividade 7)](#9-implementação-(atividade-7))
  - [Tabela 9.1 – Artefatos e Versionamento](#tabela-91-–-artefatos-e-versionamento)
    - [Base teórica (Kelleher et al., `2020`)](#base-teórica-(kelleher-et-al,-`2020`))
- [`10`. Riscos, Ética e Equidade](#`10`-riscos,-ética-e-equidade)
- [`11`. Conclusão](#`11`-conclusão)
- [Apêndice A – Métricas](#apêndice-a-–-métricas)
    - [Base teórica (Kelleher et al., `2020`)](#base-teórica-(kelleher-et-al,-`2020`))
- [Apêndice B – Técnicas de Balanceamento](#apêndice-b-–-técnicas-de-balanceamento)
- [Apêndice C – Glossário `PT` → `EN`](#apêndice-c-–-glossário-`pt`-→-`en`)
  - [Referências](#referências)

## 0. Resumo Executivo

Este relatório técnico apresenta o fluxo completo de Aprendizado de Máquina aplicado ao dataset e-`SUS`/Sinan Mpox `2022`, com foco em prever hospitalização.

Todas as etapas seguem a metodologia de Kelleher (`2020`) e estão descritas em profundidade, desde a preparação de dados até a implementação do modelo final.

 Cada escolha foi guiada por princípios técnicos sólidos e alinhada ao raciocínio clínico, garantindo robustez, interpretabilidade e aplicabilidade em saúde pública.

Pontos-chave do pipeline:

- Política de valores faltantes estratificada (≤5%, 5–`40`%, >`40`%), com flags informativas.

- Correções de plausibilidade clínica (ex.: idades válidas, coerência temporal entre sintomas e internação).

- Codificação adequada (nominais com One-Hot; rejeição a ordinais espúrios como `CS_GESTANT`).

- Balanceamento dos dados com SMOTETomek dentro da validação cruzada.

- Redução de dimensionalidade (`PCA`) aplicada quando benéfica (kNN, `SVM`, `MLP`).

- Comparação entre sete modelos preditivos.

- Priorização de Recall (sensibilidade) com ajuste de limiar e calibração.

- Serialização do pipeline completo, garantindo segurança e reprodutibilidade.


_"O pipeline (estrutura) de um projeto é um protocolo clínico."_

Assim como um protocolo clínico integra diagnóstico, conduta e seguimento, o pipeline integra preparação, modelagem e monitoramento para gerar impacto real.

## 1. Objetivo e Escopo

Objetivo específico: prever a probabilidade de hospitalização de pacientes com Mpox, usando dados clínicos e demográficos.

Uso: apoiar triagem, vigilância epidemiológica e planejamento de recursos hospitalares.

Requisitos: interpretabilidade, recall elevado (evitar falsos negativos), ética e governança.

Definir o objetivo é elaborar a anamnese de um paciente.

A anamnese é o ponto inicial do diagnóstico, onde o médico coleta informações essenciais.

Da mesma forma, definir claramente o objetivo da análise garante que o projeto siga uma direção alinhada à necessidade clínica.

#### Base teórica (Kelleher et al., `2020`)

- Pipeline preditivo em ciclos iterativos: Preparação → Modelagem → Avaliação → Implementação, alinhado à visão de processo descrita por Kelleher et al. (`2020`).

- Reprodutibilidade e disciplina experimental: documentar decisões, versões e resultados a cada iteração (Kelleher et al., `2020`).

## 2. Fundamentos Metodológicos (Kelleher, `2020`)

O fluxo adotado baseia-se no ciclo de Kelleher (`2020`), que organiza o processo de aprendizado de máquina em cinco macroetapas:

Preparação dos dados (Data Preparation).

Construção e seleção de atributos (Feature Engineering & Feature Selection).

Modelagem (Model Building).

Avaliação (Evaluation).

Implementação (Deployment).

Assim como um protocolo terapêutico define diagnóstico, tratamento e acompanhamento, o ciclo de aprendizado de máquina requer disciplina metodológica e revisões contínuas para garantir eficácia.

#### Base teórica (Kelleher et al., `2020`)

- Caracterização do dataset e do problema: granularidade temporal, unidades e coerência semântica, preparando o desenho de atributos (Kelleher et al., `2020`).

- Privacidade e governança desde o desenho: minimização de dados, consentimento e rastreabilidade (Kelleher et al., `2020`).

## 3. Dados, Dicionário e Governança

O dataset contém `10`.`920` registros e `56` variáveis, incluindo demografia, sintomas, comorbidades, datas de eventos e exames laboratoriais.

A variável-alvo é **`TARGET_HOSP`** (0 = não hospitalizado; 1 = hospitalizado).

#### Base teórica (Kelleher et al., `2020`)

- Caracterização do dataset e do problema: granularidade temporal, unidades e coerência semântica, preparando o desenho de atributos (Kelleher et al., `2020`).

- Privacidade e governança desde o desenho: minimização de dados, consentimento e rastreabilidade (Kelleher et al., `2020`).

### Tabela 3.1 – Dicionário resumido (variáveis principais)

| **Variável** | **Tipo** | **Papel** | **Notas** |
| --- | --- | --- | --- |
| `TARGET_HOSP` | Binária | Alvo | Hospitalização 0/1 |
| `NU_IDADE_N` | Numérica | Preditor | Valores plausíveis entre 0–`110` |
| `CS_SEXO` | Nominal | Preditor | Codificação One-Hot |
| `CS_RACA` | Nominal | Preditor | One-Hot; missing tratado |
| `CS_GESTANT` | Nominal | Preditor | Não ordinal; One-Hot + flag_missing |
| `FEBRE` | Binária | Preditor | Sintoma-chave |
| `HIV` | Binária | Preditor | Comorbidade crítica |
| `CONTAG_CD4` | Numérica | Preditor | Alta ausência → flag_exame |
| `DT_SIN_PRI` | Data | Preditor | Base para deltas temporais |
| `DT_INTERNA` | Data | Preditor | Alto missing; derivação de `DELTA_SINTOMAS` |

Governança de dados: versionamento de datasets e artefatos, uso de seeds para reprodutibilidade, logs de transformações, e princípios de privacidade por design.

Assim como uma cadeia de custódia em laboratório garante validade do diagnóstico, a governança garante a credibilidade do pipeline.

#### Base teórica (Kelleher et al., `2020`)

- Relatório de qualidade: distribuição, faltantes, outliers e consistência; a `EDA` informa as escolhas de limpeza e transformação (Kelleher et al., `2020`).

- Padrões de ausência (`MCAR`/`MAR`/`MNAR`) orientam o tratamento de faltantes e o risco de viés (Kelleher et al., `2020`).

## 4. Análise Exploratória (`EDA`)

A análise exploratória investigou distribuições, padrões de valores faltantes e correlações.

Principais achados:

Distribuição etária ampla (0–`110` anos).

Altos valores faltantes em ``DT_INTERNA`` (~`95`%) e ``DATA_VACINA`` (~`100`%).

Ausência de exames como `CD4` foi tratada como informação clínica relevante.

📊 Inserir: Histograma de Idade

📦 Inserir: Boxplot de Idade

🔥 Inserir: Heatmap de Correlação

📉 Inserir: Gráfico de Missing Values por variável

Assim como um check-up clínico revela o estado geral do paciente antes de uma intervenção, a `EDA` mostra as condições dos dados antes da modelagem.

#### Base teórica (Kelleher et al., `2020`)

- Tratamento de faltantes: imputação simples/indicadores é válida quando alinhada ao mecanismo de ausência e ao viés aceitável (Kelleher et al., `2020`).

- Escalonamento/normalização: essencial para métodos baseados em distância/gradiente; aplicar após a separação treino/teste (Kelleher et al., `2020`).

- Amostragem e redução de volume: decisões devem ser explicitadas e avaliadas por seu impacto estatístico (Kelleher et al., `2020`).

## 5. Pré-processamento (Atividades 1–2)

Tratamento de plausibilidade: idades limitadas entre 0 e `110` anos; coerência temporal (``DT_INTERNA`` ≥ ``DT_SIN_PRI``); proibição de datas futuras.

Correções de tipo e unificação de categorias foram aplicadas.

Política de valores faltantes:

≤5% → imputação simples (mediana/moda).

5–`40`% → imputação + flag_missing.

>`40`% → não imputar; criação de flag_exame.

### Tabela 5.1 – Tratamentos por variável (exemplos críticos)

| **Variável** | **Tratamento aplicado** | **Justificativa** |
| --- | --- | --- |
| `NU_IDADE_N` | Mediana; remoção de outliers clínicos | Distribuição assimétrica |
| `CS_SEXO` | Moda; One-Hot | Nominal, baixo missing |
| `CS_RACA` | Moda; One-Hot | Preserva distribuição |
| `CS_GESTANT` | Moda + flag_missing; One-Hot | Não ordinal; ausência informativa |
| `FEBRE`, `ERUPCAO` | Moda + flag_missing | Sintomas-chave |
| `HIV`, `DIABETES` | Moda + flag_missing | Comorbidades críticas |
| `CONTAG_CD4` | Flag_exame | Alta ausência; exame não solicitado |
| `CARGA_VIRAL` | Flag_exame | Alta ausência |

Assim como estabilizar um paciente antes da cirurgia reduz riscos, o pré-processamento garante que a modelagem comece em condições seguras.

## 6. Construção e Seleção de Atributos (Atividades 3–5)

Atributos derivados:

**`DELTA_SINTOMAS`** = diferença entre data de internação e início de sintomas.

**`SCORE_SINTOMAS`** = soma ponderada de sintomas clínicos.

Interações plausíveis, como idade × `HIV`.

Seleção: `ANOVA`, `RFE`, Random Forest importance, LogReg `L1`, Permutation Importance.

Escalonamento aplicado para modelos sensíveis à escala.

📊 Inserir: Importância de atributos (`RF`)

📊 Inserir: `SHAP` summary (opcional)

Assim como na farmacotécnica de precisão, escolhemos os ingredientes ativos que geram efeito e descartamos impurezas que não agregam.

#### Base teórica (Kelleher et al., `2020`)

- Redução de dimensionalidade é coerente com os princípios sobre distância e vizinhança em alta dimensão (Kelleher et al., `2020`).

- Aplique após escalonar; em modelos de árvore, avalie o custo-benefício, pois nem sempre ajuda (princípios em Kelleher et al., `2020`).

## 6.1 Redução de Dimensionalidade (`PCA`)

O `PCA` foi aplicado após escalonamento em modelos sensíveis à dimensionalidade (kNN, `SVM`, `MLP`), mas evitado em árvores e Random Forest.

#### Base teórica (Kelleher et al., `2020`)

- Redução de dimensionalidade é coerente com os princípios sobre distância e vizinhança em alta dimensão (Kelleher et al., `2020`).

- Aplique após escalonar; em modelos de árvore, avalie o custo-benefício, pois nem sempre ajuda (princípios em Kelleher et al., `2020`).

### Tabela 6.1 – Aplicação de `PCA` por modelo

| **Modelo** | **`PCA`?** | **Motivo** |
| --- | --- | --- |
| `SVM` | Sim | Estabiliza margem |
| kNN | Sim | Distâncias mais informativas |
| `MLP` | Sim | Reduz ruído e overfitting |
| Regressão Logística | Ocasional | Mitiga multicolinearidade |
| Árvores/`RF` | Não | Não se beneficiam |

Assim como uma tomografia sintetiza diferentes ângulos para revelar o interior do corpo, o `PCA` sintetiza variáveis para revelar estruturas ocultas.

#### Base teórica (Kelleher et al., `2020`)

- Reamostragem altera priors; executar dentro da validação para medir efeito real sem vazamento (princípios experimentais em Kelleher et al., `2020`).

- Avalie por `AUC`-`PR`/Recall quando a classe positiva é rara; `ROC` pode mascarar melhorias relevantes (Kelleher et al., `2020`).

## 6.2 Balanceamento

Estratégia adotada: **SMOTETomek** (`SMOTE` → Tomek), dentro da validação cruzada.

Alternativas: `SMOTEENN`, `ADASYN`, Class Weights.

#### Base teórica (Kelleher et al., `2020`)

- Reamostragem altera priors; executar dentro da validação para medir efeito real sem vazamento (princípios experimentais em Kelleher et al., `2020`).

- Avalie por `AUC`-`PR`/Recall quando a classe positiva é rara; `ROC` pode mascarar melhorias relevantes (Kelleher et al., `2020`).

### Tabela 6.2 – Comparação de técnicas de balanceamento

| **Técnica** | **Vantagens** | **Limitações** | **Melhor uso** |
| --- | --- | --- | --- |
| `SMOTE` | Amplia classe minoritária | Pode gerar ruído | Desbalanceamento leve |
| Tomek | Remove pares ambíguos | Não corrige severos | Ruído moderado |
| SMOTETomek | Equilibra + limpa | Mais custoso | Dados com ruído |
| `SMOTEENN` | Limpeza agressiva | Pode excluir úteis | Bases ruidosas |
| `ADASYN` | Foco adaptativo | Exagero em nichos | Subgrupos raros |
| Class Weights | Sem reamostragem | Suporte varia | LogReg/`SVM`/`RF` |

Assim como uma transfusão corrige deficiências e remove impurezas, o balanceamento ajusta as classes para treinos mais justos.

#### Base teórica (Kelleher et al., `2020`)

- Naive Bayes: fatorização por independência condicional; ótimo baseline em dados esparsos (Kelleher et al., `2020`).

- Regressão Logística: fronteira linear, otimização por gradiente; interpreta pesos/odds (Kelleher et al., `2020`).

- Árvores/Random Forest: instabilidade das árvores é mitigada por bagging e subamostragem de atributos (Kelleher et al., `2020`).

- kNN e `SVM`: sensíveis a escalas e distância; `SVM` maximiza margem e se beneficia de kernels (Kelleher et al., `2020`).

- Redes neurais: regularização com dropout/early stopping; softmax para multiclasse (Kelleher et al., `2020`).

## 7. Modelagem (Atividade 6)

Modelos avaliados: Naive Bayes, Regressão Logística, Árvore de Decisão, kNN, Random Forest, `SVM`, `MLP`.

Validação cruzada estratificada, tuning com GridSearchCV, ajuste de limiar e calibração.

### Tabela 7.1 – Modelos e grids sugeridos

| **Modelo** | **Grid sugerido (exemplos)** | **Forças** | **Limitações** |
| --- | --- | --- | --- |
| Naive Bayes | var_smoothing=[1e-9..1e-6] | Simples, rápido | Supõe independência |
| Regressão Logística | C=[0.`01`,1,`10`]; penalty=[l1,l2]; class_weight | Interpretável | Sensível à multicolinearidade |
| Árvore de Decisão | max_depth=[3..`20`] | Não linear | Overfitting |
| kNN | n_neighbors=[3..`31`] | Intuitivo | Sensível a escala |
| Random Forest | n_estimators=[`200`..`1000`] | Robusto | Mais custoso |
| `SVM` | kernel=[rbf,linear]; C=[0.1..`10`] | Boa margem | Alto custo |
| `MLP` | hidden_layer_sizes=[(`64`,`32`),(`128`,`64`)] | Flexível | Requer tuning |

📈 Inserir: Curvas `ROC`

📈 Inserir: Curvas Precision-Recall

📊 Inserir: Matrizes de Confusão

Assim como equipes médicas têm especializações diferentes, cada modelo tem forças e limitações, cabendo à avaliação escolher o mais adequado.

#### Base teórica (Kelleher et al., `2020`)

- Validação cruzada estratificada e desenho experimental adequado evitam viés/otimismo (Kelleher et al., `2020`).

- Métricas adequadas ao objetivo: Precision/Recall/`F1` e `AUC`-`PR` para desbalanceamento; `ROC` para separabilidade global (Kelleher et al., `2020`).

## 8. Avaliação

Métricas principais: Recall, Precisão, `F1`, `AUC`-`ROC` e `AUC`-`PR`.

Ajuste de limiar para maximizar Recall, análises por subgrupo (sexo, idade, raça) e intervalos de confiança via bootstrap.

📊 Inserir: Tabela comparativa de métricas

📈 Inserir: Curvas `ROC` e `PR`

📊 Inserir: Matrizes de Confusão

Assim como exames de seguimento confirmam a eficácia de um tratamento, as métricas confirmam a qualidade do modelo antes do deploy.

#### Base teórica (Kelleher et al., `2020`)

- Validação cruzada estratificada e desenho experimental adequado evitam viés/otimismo (Kelleher et al., `2020`).

- Métricas adequadas ao objetivo: Precision/Recall/`F1` e `AUC`-`PR` para desbalanceamento; `ROC` para separabilidade global (Kelleher et al., `2020`).

## 9. Implementação (Atividade 7)

Serialização: salvar, na ordem, o pipeline completo (pré-processadores, seletores, `PCA`, balanceadores e o modelo).

Esquema de entrada (schema) validado com checagens (tipos, intervalos, categorias conhecidas).

Monitoramento: drift de dados/rotulagem, quedas de Recall, recalibração de limiar e rotinas de re-treino.

Segurança: privacidade e minimização de dados, controle de acesso e logs.

### Tabela 9.1 – Artefatos e Versionamento

| **Artefato** | **Status** | **Observação** |
| --- | --- | --- |
| Encoders/Scalers/Selectors/`PCA` | Serializados | Acoplados no pipeline para evitar desvio de distribuição |
| Modelo final | Serializado | `RF` (operação) e LogReg (explicabilidade) |
| Seeds e configs | Registrados | Reprodutibilidade e auditoria |
| Dados balanceados | Não serializar | Regerar no treino para evitar leakage |

Implementar um modelo é como dar alta hospitalar com um plano de seguimento.

A alta não significa o fim do cuidado, mas o início de uma nova fase em que o paciente é monitorado, ajustado quando necessário e acompanhado para evitar recaídas.

#### Base teórica (Kelleher et al., `2020`)

- Questões legais, éticas e de viés devem ser tratadas desde o design; transparência e minimização de danos (Kelleher et al., `2020`).

## `10`. Riscos, Ética e Equidade

Auditoria por subgrupos (sexo, raça, idade), explicabilidade via coeficientes (LogReg) e `SHAP` (`RF`), privacidade por design.

Controle de vieses é essencial para segurança do paciente.

Assim como um comitê de ética clínica avalia riscos antes de liberar um tratamento, precisamos avaliar impactos éticos antes de colocar modelos em produção.

## `11`. Conclusão

O pipeline é robusto, auditável e clinicamente relevante.

Random Forest foi selecionado como modelo de produção, e Regressão Logística como referência explicável.

As analogias clínicas tornam o fluxo mais acessível para equipes de saúde.

## Apêndice A – Métricas

Recall (Sensibilidade): triagem que evita altas indevidas.

Precisão (Precision): evita tratar quem não precisa.

`F1`-Score: equilíbrio entre captar casos e evitar sobrecarga.

`AUC`-`ROC`: visão global de separabilidade.

`AUC`-`PR`: útil em cenários desbalanceados.

Calibração: fidedignidade das probabilidades.

#### Base teórica (Kelleher et al., `2020`)

- Reamostragem altera priors; executar dentro da validação para medir efeito real sem vazamento (princípios experimentais em Kelleher et al., `2020`).

- Avalie por `AUC`-`PR`/Recall quando a classe positiva é rara; `ROC` pode mascarar melhorias relevantes (Kelleher et al., `2020`).

## Apêndice B – Técnicas de Balanceamento

Ver Tabela 6.2.

## Apêndice C – Glossário `PT` → `EN`

Sensibilidade → Recall

Precisão → Precision

Equilíbrio → `F1`

Curva `ROC` → `ROC` Curve

Curva Precisão-Revocação → Precision-Recall Curve

Reamostragem → Resampling

Engenharia de atributos → Feature Engineering

Seleção de atributos → Feature Selection

Redução de dimensionalidade → Dimensionality Reduction

Validação cruzada → Cross-Validation

### Referências

Kelleher, J. D.; Mac Namee, B.; D’Arcy, A. (`2020`). *Fundamentals of Machine Learning for Predictive Data Analytics*. 2nd ed. `MIT` Press.

`CDC`/`NIH`: Diretrizes clínicas sobre `CD4`.

`OMS`/`WHO`: Relatórios epidemiológicos.

Documentação scikit-learn e imbalanced-learn.

*Gerado em: `2025`-`09`-`03` `10`:`33`:`38`*

Kelleher, J. D., Mac Namee, B., & D’Arcy, A. (`2020`). Fundamentals of Machine Learning for Predictive Data Analytics (2nd ed.). `MIT` Press.