<a href="https://colab.research.google.com/github/Cristie-Lima/e-SUS_Sinan_Mpox_ML-Workflow/blob/main/Dicion%C3%A1rio_T%C3%A9cnico_e_Fluxos_de_Processamento__Mpox_2022(base_mpox).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **📘 Dicionário Técnico e 🔄 Fluxos de Processamento – Mpox 2022 (base_mpox)**

 Este documento é material de apoio para processamento de dados e desenvolvimento de modelos preditivos

# 📘 **Dicionário Técnico**



## 1) Categóricas nominais
| Variável         | Tipo final | Observação                                                                 |
| ---------------- | ---------- | -------------------------------------------------------------------------- |
| SG_UF            | object     | Sigla UF residência; 4 nulos                                               |
| SG_UF_NOT        | object     | Sigla UF notificação                                                       |
| ID_MUNICIP       | Int64      | Código IBGE município notificação                                          |
| CO_UF_RES        | Int64      | Código IBGE UF residência                                                  |
| ID_MN_RESI       | Int64      | Código IBGE município residência                                           |
| CS_SEXO          | Int64      | Sexo (1=Masculino, 2=Feminino, 3=Intersexo, 9=Ignorado)                    |
| COMP_SEXUAL      | Int64      | Comportamento sexual                                                       |
| ORIENTA_SEXUAL   | Int64      | Orientação sexual                                                          |
| IDENT_GENERO     | Int64      | Identidade de gênero                                                       |
| CS_RACA          | Int64      | Raça/cor declarada                                                         |
| PAC_IMUNOSSUP    | Int64      | Imunossupressão                                                            |
| IST_ATIVA        | Int64      | IST ativa                                                                  |
| TP_AMOST         | Int64      | Tipo de amostra; categorias 1–9                                            |
| ESTRANGEIRO      | Int64      | Estrangeiro (1=Sim, 2=Não, 9=Ignorado)                                     |
| HIV              | Int64      | Status de HIV                                                              |
| UTI              | Int64      | Internação em UTI                                                          |
| RESULTADO_EXA_LAB| Int64      | 1=Detectável, 2=Inconclusivo, 3=Não detectável, 4=Pendente, 9=Ignorado     |
| PROFIS_SAUDE     | Int64      | Profissional de saúde (alto índice de nulos)                               |
| VACINA           | Int64      | Histórico de vacinação Monkeypox                                           |
| TRATAMENTO_MONKEYPOX | Int64  | 0/9 → recodificados como 4 (Não informado)                                 |
| HOSPITAL         | Int64      | Hospitalização                                                             |
| EVOLUCAO         | Int64      | 1=Óbito Mpox, 2=Cura, 3=Óbito outra, 4=Em tratamento, 9=Ignorado           |
| VINCULO_EPI      | Int64      | Vínculo epidemiológico                                                     |
| LOCAL_CONT       | Int64      | 0 → 9 (Ignorado)                                                           |
| TRANSM           | Int64      | 0 → 8 (Desconhecida)                                                       |
| CONTAT_ANIMAL    | Int64      | Recomendado 0/9 → NA (ou 5=Outro se categoria fechada)                     |
| MET_LAB          | Int64      | 0 → 9 (Ignorado)                                                           |
| CARACT_GENOMICA  | Int64      | 0/3 → 9 (Ignorado)                                                         |
| CLADO            | Int64      | 0 → 9 (Ignorado)                                                           |
| DOENCA_TRA.1     | Int64      | Doença relacionada                                                         |

---

## 2) Categóricas ordinais
| Variável     | Tipo final | Observação                                                                    |
| ------------ | ---------- | ----------------------------------------------------------------------------- |
| CS_GESTANT   | Int64      | Gestante (1=1º tri, 2=2º tri, 3=3º tri, 4=Idade gest ignorada, 5=Não, 7=NSA, 9=Ignorado) |

---

## 3) Categóricas binárias (conceito sim/não; dataset trazia 0/1/2/9/vazio)
| Variável               | Tipo final | Observação                                    |
| ----------------------- | ---------- | --------------------------------------------- |
| GONORREIA               | Int64      | Recodificação: 2/9/vazio → 0                  |
| CLAMIDEA                | Int64      | Recodificação: 2/9/vazio → 0                  |
| SIFILIS                 | Int64      | Recodificação: 2/9/vazio → 0                  |
| HERPES_GENITAL          | Int64      | Recodificação: 2/9/vazio → 0                  |
| CANCRO_MOLE             | Int64      | Recodificação: 2/9/vazio → 0                  |
| TRICHOMOMOMAS_VAGINALS  | Int64      | Recodificação: 2/9/vazio → 0                  |
| LINFOGRANULOMA          | Int64      | Recodificação: 2/9/vazio → 0                  |
| MYCOPLASMA_GENITAL      | Int64      | Recodificação: 2/9/vazio → 0                  |
| HPV                     | Int64      | Recodificação: 2/9/vazio → 0                  |
| DIP                     | Int64      | Recodificação: 2/9/vazio → 0                  |
| DONOVANOSE              | Int64      | Recodificação: 2/9/vazio → 0                  |
| HTLV                    | Int64      | Recodificação: 2/9/vazio → 0                  |
| VERRUGA_GENITAL         | Int64      | Recodificação: 2/9/vazio → 0                  |

---

## 4) Variáveis discretas (quantitativas, inteiros)
| Variável     | Tipo final | Observação                                                                    |
| ------------ | ---------- | ----------------------------------------------------------------------------- |
| NU_IDADE_N   | Int64      | Idade em anos                                                                 |
| CONTAG_CD4   | Int64      | Contagem de células CD4; limpar caracteres, não-negativos, muitos ausentes     |

---

## 5) Variáveis temporais (datas)
| Variável     | Tipo final     | Observação                                      |
| ------------ | -------------- | ----------------------------------------------- |
| DT_NOTIFIC   | datetime64[ns] | Notificação (05/08/2022 a 13/12/2022)           |
| DT_SIN_PRI   | datetime64[ns] | Início dos sintomas                             |
| DT_COLETA    | datetime64[ns] | Data da coleta da amostra                       |
| DATA_VACINA  | datetime64[ns] | 100% nula                                       |
| DT_INTERNA   | datetime64[ns] | Data da internação hospitalar                   |
| DT_EVOLUCAO  | datetime64[ns] | Data do desfecho (cura, óbito, etc.)            |

---

## 6) Texto livre e listas múltiplas
| Variável     | Tipo final | Observação                                      |
| ------------ | ---------- | ----------------------------------------------- |
| SINTOMA      | object     | Lista separada por vírgula (precisa “explodir”) |
| OUTRO_DES    | object     | Texto livre (tratamento outro, raríssimos)      |

---

## 7) Identificador técnico
| Variável           | Tipo final | Observação                                  |
| ------------------ | ---------- | ------------------------------------------- |
| __arquivo_origem__ | object     | Identificador técnico do OpenDatasus        |


# 🔄 **Fluxo de Pré-processamento**



## Conversão de tipos
- Garantir `Int64` (inteiro anulável) para códigos numéricos que podem conter nulos.
- Converter todas as datas para `datetime64[ns]` (`dayfirst=True`).
- Manter variáveis de texto em `object`.

## Recodificações
- Corrigir valores fora do dicionário:
  - MET_LAB: 0 → 9
  - CARACT_GENOMICA: 0/3 → 9
  - CLADO: 0 → 9
  - TRATAMENTO_MONKEYPOX: 0/9 → 4 (Não informado)
  - LOCAL_CONT: 0 → 9
  - TRANSM: 0 → 8
  - ISTs específicas: 2/9/vazio → 0

## Categóricas ordinais
- CS_GESTANT em `Int64` (ou `category` ordenada).
- Validar coerência: se CS_SEXO ≠ Feminino → valores esperados: 5=Não, 7=Não se aplica, 9=Ignorado.

## Categóricas binárias (ISTs)
- Recodificar 2/9/vazio → 0 (Não).
- Converter todas para `Int64`.
- Verificar consistência com IST_ATIVA:
  - Se IST_ATIVA = 1 → ISTs podem ser 0/1.
  - Se IST_ATIVA ≠ 1 → ISTs devem ser todos 0.

## Variáveis temporais
- Converter campos: DT_NOTIFIC, DT_SIN_PRI, DT_COLETA, DATA_VACINA, DT_INTERNA, DT_EVOLUCAO.
- Validar ranges (2022).
- Regras de coerência:
  - DT_SIN_PRI ≤ DT_NOTIFIC.
  - DT_COLETA próximo da notificação.
  - DT_INTERNA ≤ DT_EVOLUCAO (quando ambas existirem).
- ⚕️ Justificativa: mesmo sem modelagem temporal, converter para `datetime` é essencial para garantir consistência e derivar intervalos em dias (ex.: atraso de notificação, tempo até hospitalização). As datas “cruas” podem ser descartadas depois, mas os **intervalos derivados** podem ser preditores importantes.

## Variáveis discretas
- NU_IDADE_N: confirmar distribuição (em anos). Tratar outliers (<0 ou >110).
- CONTAG_CD4:
  - Remover caracteres não numéricos.
  - Converter para `Int64`.
  - Garantir valores não-negativos.
  - Muitos ausentes → documentar limitação analítica.

## Texto livre e listas múltiplas
- SINTOMA:
  - Normalizar tokens (minúsculas, sem espaços extras).
  - Explodir em variáveis binárias 0/1 (`SINT_*`).
- OUTRO_DES:
  - Revisar ortografia/duplicados.
  - Poucos registros válidos, mas manter.

## Relatório de checagem final
- Tipagem (`dtypes`) de todas as colunas.
- % de nulos em variáveis de data.
- Frequências básicas de categorias (TP_AMOST, RESULTADO_EXA_LAB, TRATAMENTO_MONKEYPOX).

## Identificador técnico — ⚠️ atenção
- `__arquivo_origem__` deve ser **mantido no pré-processamento** apenas para rastreabilidade/auditoria.
- **Não utilizar** em análises estatísticas nem modelagem.
- Será removido explicitamente no pós-processamento.


# ✨🐍 **Script Python enxuto e comentado — Pré-processamento**

Obs.: Para ser usado como guia ao fazer o passo a passo de validação no notebook do projeto


In [None]:
"""
import pandas as pd
import numpy as np
from typing import Tuple, Dict, Any, List

DATE_COLS = ['DT_NOTIFIC','DT_SIN_PRI','DT_COLETA','DATA_VACINA','DT_INTERNA','DT_EVOLUCAO']
IST_COLS = [
    'GONORREIA','CLAMIDEA','SIFILIS','HERPES_GENITAL','CANCRO_MOLE',
    'TRICHOMOMAS_VAGINALS','LINFOGRANULOMA','MYCOPLASMA_GENITAL','HPV','DIP',
    'DONOVANOSE','HTLV','VERRUGA_GENITAL'
]
INT64_NULLABLE_COLS = [
    'CANCRO_MOLE','MYCOPLASMA_GENITAL','HPV','DIP','DONOVANOSE','HTLV','VERRUGA_GENITAL',
    'LOCAL_CONT','TRANSM','CONTAT_ANIMAL','CARACT_GENOMICA','CLADO','PROFIS_SAUDE'
]
RECODE_MAPS = {
    'MET_LAB': {0: 9},
    'CARACT_GENOMICA': {0: 9, 3: 9},
    'CLADO': {0: 9},
    'TRATAMENTO_MONKEYPOX': {0: 4, 9: 4},
    'LOCAL_CONT': {0: 9},
    'TRANSM': {0: 8},
}
CONTAT_ANIMAL_POLICY = 'NA'  # 'NA' (recomendado) ou 'OUTRO_5'

def to_datetime_inplace(df: pd.DataFrame, cols: List[str]) -> None:
    for c in cols:
        if c in df.columns:
            df[c] = pd.to_datetime(df[c], dayfirst=True, errors='coerce')

def recode_values_inplace(df: pd.DataFrame, col: str, mapping: Dict[Any, Any]) -> None:
    if col in df.columns:
        df[col] = pd.to_numeric(df[col], errors='coerce')
        df[col] = df[col].replace(mapping)

def clean_cd4_to_int64(df: pd.DataFrame, col: str = 'CONTAG_CD4') -> None:
    if col not in df.columns:
        return
    cd4 = (df[col].astype(str).str.replace(r'[^0-9\-]', '', regex=True).replace({'': np.nan}))
    cd4 = pd.to_numeric(cd4, errors='coerce')
    cd4.loc[cd4 < 0] = np.nan
    df[col] = cd4.astype('Int64')

def ist_binary_recode_inplace(df: pd.DataFrame, cols: List[str]) -> None:
    for c in cols:
        if c in df.columns:
            df[c] = pd.to_numeric(df[c], errors='coerce')
            df[c] = df[c].replace({2: 0, 9: 0})
            df[c] = df[c].fillna(0).astype('Int64')

def cast_to_int64_nullable(df: pd.DataFrame, cols: List[str]) -> None:
    for c in cols:
        if c in df.columns:
            df[c] = pd.to_numeric(df[c], errors='coerce').astype('Int64')

def apply_contat_animal_policy_inplace(df: pd.DataFrame) -> None:
    if 'CONTAT_ANIMAL' not in df.columns:
        return
    df['CONTAT_ANIMAL'] = pd.to_numeric(df['CONTAT_ANIMAL'], errors='coerce')
    if CONTAT_ANIMAL_POLICY == 'NA':
        df['CONTAT_ANIMAL'] = df['CONTAT_ANIMAL'].replace({0: pd.NA, 9: pd.NA}).astype('Int64')
    elif CONTAT_ANIMAL_POLICY == 'OUTRO_5':
        df['CONTAT_ANIMAL'] = df['CONTAT_ANIMAL'].replace({0: 5, 9: 5}).astype('Int64')

def explode_sintoma_to_dummies(df: pd.DataFrame, col: str = 'SINTOMA', prefix: str = 'SINT_', sep: str = ',') -> pd.DataFrame:
    if col not in df.columns:
        return df
    s = (df[col].fillna('').astype(str).str.split(sep))
    s = s.apply(lambda items: sorted(set([i.strip().lower() for i in items if i.strip() != ''])))
    universe = sorted({token for lst in s for token in lst})
    for token in universe:
        new_col = prefix + token.replace(' ', '_').replace('-', '_')
        df[new_col] = s.apply(lambda lst: int(token in lst)).astype('Int64')
    return df

def quick_checks(df: pd.DataFrame) -> Dict[str, Any]:
    out = {
        'dtypes': df.dtypes.astype(str).to_dict(),
        'dates_na': {c: int(df[c].isna().sum()) for c in DATE_COLS if c in df.columns},
        'freq_TP_AMOST': df['TP_AMOST'].value_counts(dropna=False).to_dict() if 'TP_AMOST' in df.columns else None,
        'freq_RESULTADO_EXA_LAB': df['RESULTADO_EXA_LAB'].value_counts(dropna=False).to_dict() if 'RESULTADO_EXA_LAB' in df.columns else None,
        'freq_TRATAMENTO': df['TRATAMENTO_MONKEYPOX'].value_counts(dropna=False).to_dict() if 'TRATAMENTO_MONKEYPOX' in df.columns else None
    }
    if 'SG_UF' in df.columns:
        out['SG_UF_nulos'] = int(df['SG_UF'].isna().sum())
    return out

def preprocess_base_mpox(base_mpox: pd.DataFrame, explode_sintomas: bool = True) -> Tuple[pd.DataFrame, Dict[str, Any]]:
    df = base_mpox.copy()
    to_datetime_inplace(df, DATE_COLS)
    for col, mapping in RECODE_MAPS.items():
        recode_values_inplace(df, col, mapping)
    apply_contat_animal_policy_inplace(df)
    ist_binary_recode_inplace(df, IST_COLS)
    cast_to_int64_nullable(df, INT64_NULLABLE_COLS)
    clean_cd4_to_int64(df, 'CONTAG_CD4')
    for c in ['CLASSI_FIN','ID_MUNICIP','CO_UF_RES','ID_MN_RESI','CS_SEXO','COMP_SEXUAL',
              'ORIENTA_SEXUAL','IDENT_GENERO','CS_RACA','IST_ATIVA','PAC_IMUNOSSUP',
              'TP_AMOST','ESTRANGEIRO','HIV','UTI','RESULTADO_EXA_LAB','VACINA',
              'TRATAMENTO_MONKEYPOX','HOSPITAL','EVOLUCAO','VINCULO_EPI','LOCAL_CONT',
              'TRANSM','MET_LAB','CARACT_GENOMICA','CLADO','DOENCA_TRA.1','CS_GESTANT',
              'NU_IDADE_N']:
        if c in df.columns:
            df[c] = pd.to_numeric(df[c], errors='coerce').astype('Int64')
    if explode_sintomas:
        df = explode_sintoma_to_dummies(df, col='SINTOMA', prefix='SINT_')
    report = quick_checks(df)
    return df, report
"""

# 🔄 **Fluxo de Pós-processamento**



## Remoção de variáveis inviáveis
- 100% nulas (ex.: DATA_VACINA).
- Quase totalmente nulas (>80%) ou quase constantes (>95% iguais).
- **Identificador técnico**: `__arquivo_origem__` → **REMOVER no pós** (rastreabilidade já cumprida no pré; evita vazamento/ruído).

## Tratamento de ausentes restantes
- Categóricas: imputar por moda ou categoria “Ignorado” conforme tua política.
- Numéricas: mediana/média quando fizer sentido ou manter NA se o algoritmo suportar (ex.: árvores).

## Aplicação de encodings
- Binárias: já estão em 0/1.
- Ordinais (CS_GESTANT): Label Encoding preservando a hierarquia.
- Nominais: One-Hot Encoding (avaliar `drop_first=True` conforme o modelo).

## Datas cruas vs deltas (⚕️ recomendação clínica)
- **Remover as datas “cruas”** do `X` (não agregam predição direta).
- **Manter apenas deltas derivados** potencialmente úteis:
  - `DELTA_SIN_NOTIF_dias`, `DELTA_SIN_INTERNA_dias`.
  - Usar com cautela ou só para auditoria: `DELTA_SIN_COLETA_dias`, `DELTA_NOTIF_INTERNA_dias`.
  - **Nunca usar como feature** (risco de vazamento): `DELTA_SIN_DESFECHO_dias`.

## Preparação da variável-alvo
- Definir `y` = classe binária (ex.: “Óbito”=1 vs “Não óbito”=0, agregando Cura/Tratamento/Outra causa).
- Checar prevalência da classe positiva (óbito) e planejar **threshold** e **métrica focada em recall**.

## Relatório de diagnóstico final
- % de nulos por variável.
- Cardinalidade (nº de categorias).
- Frequência da categoria dominante.
- Sinalizar remoção quando:
  - 100% nula
  - Identificadora técnica
  - >80% nula
  - Quase constante (>95%)
  - Cardinalidade excessiva sem ganho analítico


# ✨🐍 Script Python enxuto e comentado — Pós-processamento (diagnóstico + preparação de X,y)

In [3]:
"""
import pandas as pd
import numpy as np
from typing import List, Dict

# -------------------------
# Configurações e listas
# -------------------------

DATE_COLS = ['DT_NOTIFIC','DT_SIN_PRI','DT_COLETA','DATA_VACINA','DT_INTERNA','DT_EVOLUCAO']

# Deltas criados no pré (mantemos só os não-vazados)
DELTA_KEEP = ['DELTA_SIN_NOTIF_dias','DELTA_SIN_INTERNA_dias']            # candidatos a feature
DELTA_AUDIT = ['DELTA_SIN_COLETA_dias','DELTA_NOTIF_INTERNA_dias']        # auditoria/qualidade do sistema
DELTA_NEVER = ['DELTA_SIN_DESFECHO_dias']                                  # NUNCA usar (vazamento)

IDENT_COLS = ['__arquivo_origem__']                                        # identificador técnico a remover

# Colunas numéricas que devem ser tratadas como contínuas (não one-hot)
CONTINUOUS_NUMERIC = ['NU_IDADE_N','CONTAG_CD4'] + DELTA_KEEP

# ISTs específicas já estão binárias 0/1 após o pré
IST_COLS = [
    'GONORREIA','CLAMIDEA','SIFILIS','HERPES_GENITAL','CANCRO_MOLE',
    'TRICHOMOMAS_VAGINALS','LINFOGRANULOMA','MYCOPLASMA_GENITAL','HPV','DIP',
    'DONOVANOSE','HTLV','VERRUGA_GENITAL'
]

# -------------------------
# 1) Diagnóstico de variáveis
# -------------------------

def diagnostico_variaveis(df: pd.DataFrame, threshold_nulos: float = 0.80, threshold_const: float = 0.95) -> pd.DataFrame:

    ### Retorna: Variável | % Nulos | Cardinalidade | Mais_frequente(%) | Flag_remover
    ### Regras Flag_remover:
    ###   - 100% nula
    ###   - > threshold_nulos nula
    ###   - classe dominante > threshold_const (quase-constante)
    ###   - identificador técnico (__arquivo_origem__)

    linhas = []
    for col in df.columns:
        n = len(df)
        nulos = df[col].isna().mean()
        card = df[col].nunique(dropna=True)
        top_freq = df[col].value_counts(normalize=True, dropna=True).max() if card > 0 else 0.0
        flag_remove = (nulos == 1.0) or (nulos > threshold_nulos) or (top_freq > threshold_const) or (col in IDENT_COLS)
        linhas.append({
            "Variável": col,
            "% Nulos": round(nulos*100, 2),
            "Cardinalidade": int(card),
            "Mais_frequente(%)": round(top_freq*100, 2),
            "Flag_remover": bool(flag_remove)
        })
    out = pd.DataFrame(linhas).sort_values(["Flag_remover","% Nulos","Mais_frequente(%)"], ascending=[False, False, False]).reset_index(drop=True)
    return out

# -------------------------
# 2) Seleção de features (remoções estruturais)
# -------------------------

def remover_inviaveis(df: pd.DataFrame,
                      cols_remover_extra: List[str] = None,
                      drop_dates: bool = True,
                      drop_delta_never: bool = True,
                      drop_ident: bool = True) -> pd.DataFrame:
    ### Remove colunas inviáveis:
    ###  - identificadores técnicos
    ###  - datas cruas
    ###  - deltas com vazamento
    ###  - lista extra opcional

    drops = []
    if drop_ident:
        drops += [c for c in IDENT_COLS if c in df.columns]
    if drop_dates:
        drops += [c for c in DATE_COLS if c in df.columns]
    if drop_delta_never:
        drops += [c for c in DELTA_NEVER if c in df.columns]
    if cols_remover_extra:
        drops += [c for c in cols_remover_extra if c in df.columns]
    return df.drop(columns=list(dict.fromkeys(drops)), errors='ignore')

# -------------------------
# 3) Encodings
# -------------------------

def inferir_categoricas_nominais(df: pd.DataFrame,
                                 max_card: int = 20,
                                 excluir: List[str] = None) -> List[str]:

    ### Heurística simples: colunas Int64 com baixa cardinalidade (<=max_card) são tratadas como nominais.
    ### Exclui colunas contínuas e binárias já numéricas.

    if excluir is None:
        excluir = []
    cats = []
    for col in df.columns:
        if col in excluir:
            continue
        if pd.api.types.is_integer_dtype(df[col]) and df[col].nunique(dropna=True) <= max_card:
            # evitar binárias 0/1 (já ok) e contínuas conhecidas
            if col in IST_COLS or col in CONTINUOUS_NUMERIC:
                continue
            cats.append(col)
    return cats

def one_hot_encode(df: pd.DataFrame, categorical_cols: List[str]) -> pd.DataFrame:
    if not categorical_cols:
        return df
    return pd.get_dummies(df, columns=categorical_cols, dummy_na=False, drop_first=True)

# -------------------------
# 4) Preparação de X (features) e y (alvo)
# -------------------------

def preparar_target_y(df: pd.DataFrame,
                      alvo_col: str = 'EVOLUCAO',
                      map_positivo: List[int] = [1],
                      map_negativo: List[int] = [2,3,4],
                      ignorar: List[int] = [9]) -> pd.Series:

    ### Converte EVOLUCAO em binária:
    ###   - y=1 se valor ∈ map_positivo (padrão: 1 = Óbito por Monkeypox)
    ###   - y=0 se valor ∈ map_negativo (padrão: 2=Cura, 3=Óbito outra causa, 4=Em tratamento)
    ###   - ignora valores em 'ignorar' (padrão: 9=Ignorado) definindo como NA

    s = df[alvo_col].astype('Int64')
    y = pd.Series(pd.NA, index=s.index, dtype='Int64')
    y = y.mask(s.isin(map_positivo), 1)
    y = y.mask(s.isin(map_negativo), 0)
    y = y.mask(s.isin(ignorar), pd.NA)
    return y.astype('Int64')

def preparar_X_y(df_clean: pd.DataFrame,
                 alvo_col: str = 'EVOLUCAO',
                 cols_remover_extra: List[str] = None) -> (pd.DataFrame, pd.Series, Dict[str, List[str]]):

    ### Gera X e y prontos para modelagem:
    ###   - remove inviáveis (identificador, datas cruas, deltas proibidos)
    ###   - cria y binário (óbito vs não óbito) com ignorados como NA
    ###   - infere categóricas nominais e aplica one-hot
    ###   - preserva numéricas contínuas e binárias 0/1
    ### Retorna: X, y, {'categoricas_nominais': [...]} para rastreio.

    # 1) y binário (antes de qualquer drop)
    y = preparar_target_y(df_clean, alvo_col=alvo_col)

    # 2) remover inviáveis de X
    X = remover_inviaveis(df_clean.drop(columns=[alvo_col], errors='ignore'),
                          cols_remover_extra=cols_remover_extra,
                          drop_dates=True,
                          drop_delta_never=True,
                          drop_ident=True)

    # 3) manter apenas deltas recomendados (se existirem)
    # (delas já ficam se existirem; DELTA_AUDIT permanecem só se não removidos por cols_remover_extra)
    # Caso queiras forçar retirada de DELTA_AUDIT:
    # X = X.drop(columns=[c for c in DELTA_AUDIT if c in X.columns], errors='ignore')

    # 4) inferir categóricas nominais e one-hot
    excluir = CONTINUOUS_NUMERIC + IST_COLS
    categoricas_nominais = inferir_categoricas_nominais(X, max_card=20, excluir=excluir)
    X_enc = one_hot_encode(X, categoricas_nominais)

    # 5) garantir tipos numéricos para modelagem
    # (Int64 -> float64 para alguns modelos scikit-learn; binárias 0/1 já OK)
    for col in X_enc.columns:
        if pd.api.types.is_integer_dtype(X_enc[col]):
            X_enc[col] = X_enc[col].astype('float64')

    info = {"categoricas_nominais": categoricas_nominais}
    return X_enc, y, info

# -------------------------
# 5) Exemplo de uso
# -------------------------

# 1) Diagnóstico (na base já pré-processada)
# diagnostico = diagnostico_variaveis(base_mpox_clean, threshold_nulos=0.80, threshold_const=0.95)
# print(diagnostico.head(20))

# 2) Lista sugerida para remoção (automática)
# sugeridas_remover = diagnostico.loc[diagnostico["Flag_remover"], "Variável"].tolist()
# print("Sugeridas para remoção:", sugeridas_remover)

# 3) Preparar X,y (removendo sugeridas + regras fixas)
# X, y, info = preparar_X_y(base_mpox_clean, alvo_col='EVOLUCAO', cols_remover_extra=sugeridas_remover)
# print(X.shape, y.value_counts(dropna=False))
# print("Categóricas nominais one-hot:", info["categoricas_nominais"])

"""

'\n## ✨🐍 Script Python enxuto e comentado — Pós-processamento (diagnóstico + preparação de X,y)\n\nimport pandas as pd\nimport numpy as np\nfrom typing import List, Dict\n\n# -------------------------\n# Configurações e listas\n# -------------------------\n\nDATE_COLS = [\'DT_NOTIFIC\',\'DT_SIN_PRI\',\'DT_COLETA\',\'DATA_VACINA\',\'DT_INTERNA\',\'DT_EVOLUCAO\']\n\n# Deltas criados no pré (mantemos só os não-vazados)\nDELTA_KEEP = [\'DELTA_SIN_NOTIF_dias\',\'DELTA_SIN_INTERNA_dias\']            # candidatos a feature\nDELTA_AUDIT = [\'DELTA_SIN_COLETA_dias\',\'DELTA_NOTIF_INTERNA_dias\']        # auditoria/qualidade do sistema\nDELTA_NEVER = [\'DELTA_SIN_DESFECHO_dias\']                                  # NUNCA usar (vazamento)\n\nIDENT_COLS = [\'__arquivo_origem__\']                                        # identificador técnico a remover\n\n# Colunas numéricas que devem ser tratadas como contínuas (não one-hot)\nCONTINUOUS_NUMERIC = [\'NU_IDADE_N\',\'CONTAG_CD4\'] + DELTA_KEEP\n\n# IS