# Modelagem Preditiva (N2)

---

## üóÇÔ∏è [ Projeto ]

**Dataset:** [Nome do dataset ou fonte de dados]  
**Objetivo Geral:** [Breve explica√ß√£o do prop√≥sito ‚Äî ex.: ‚ÄúAplicar t√©cnicas de modelagem preditiva para identificar padr√µes e realizar previs√µes a partir dos dados tratados.‚Äù]  

---

## üéØ Prop√≥sito do Notebook

Este notebook representa a **segunda etapa do pipeline anal√≠tico**, voltada √† **modelagem preditiva** e **valida√ß√£o estat√≠stica**.  
A partir dos dados j√° preparados e consolidados no **N1 (Prepara√ß√£o de Dados)**, s√£o aplicadas t√©cnicas de **Machine Learning supervisionado** ou **n√£o supervisionado**, de acordo com o tipo de problema em estudo (classifica√ß√£o, regress√£o ou agrupamento).

---

## üìã Descri√ß√£o Geral das Etapas

Nesta fase, o foco √© **construir, testar e comparar modelos preditivos**, assegurando desempenho consistente e interpretabilidade.  
A execu√ß√£o segue as boas pr√°ticas de **ci√™ncia de dados reprodut√≠vel** e utiliza a **estrutura modular do Template de Dados**, garantindo clareza e padroniza√ß√£o entre projetos.

**Tarefas previstas:**  
- Importa√ß√£o dos artefatos e metadados gerados no N1.  
- Separa√ß√£o entre **vari√°veis independentes (features)** e **vari√°vel-alvo (target)**, quando aplic√°vel.  
- Divis√£o do dataset em **conjuntos de treino e teste**.  
- Constru√ß√£o de **pipelines de modelagem** com etapas de pr√©-processamento, ajuste e avalia√ß√£o.  
- Treinamento de m√∫ltiplos algoritmos (ex.: *Regress√£o Log√≠stica, Random Forest, KNN, √Årvores de Decis√£o, Regress√£o Linear, Clustering, etc.*).  
- Avalia√ß√£o comparativa de desempenho com m√©tricas adequadas (Acur√°cia, F1-Score, RMSE, Silhouette Score, entre outras).  
- Interpreta√ß√£o dos resultados e an√°lise de import√¢ncia das vari√°veis.  
- Exporta√ß√£o de modelos, m√©tricas e relat√≥rios para o **N3 (An√°lise e Insights)**.

---

> üí° **Resumo:**  
> O N2 tem como objetivo transformar o dataset preparado no N1 em uma base anal√≠tica pronta para modelagem preditiva, explorando algoritmos, m√©tricas e estrat√©gias de valida√ß√£o.  
> √â o n√∫cleo experimental do projeto ‚Äî onde hip√≥teses s√£o testadas, modelos s√£o ajustados e o conhecimento come√ßa a emergir de forma quantitativa, sustentando a pr√≥xima etapa: o **N3 (Gera√ß√£o de Insights e Visualiza√ß√µes)**.


# üìò Bootstrap do N2 ‚Äî Inicializa√ß√£o do Ambiente e Configura√ß√£o do Dataset

Esta etapa realiza o **bootstrap completo do N2**, respons√°vel por preparar o ambiente,
carregar as configura√ß√µes globais e disponibilizar o dataset processado para o in√≠cio da modelagem supervisionada.

---

## ‚öôÔ∏è Etapas executadas

1. **Localiza√ß√£o autom√°tica da raiz do projeto (`PROJECT_ROOT`)**  
   O c√≥digo percorre a √°rvore de diret√≥rios at√© encontrar o arquivo `config/defaults.json`.  
   Isso garante que o notebook funcione corretamente mesmo quando aberto a partir de subpastas.

2. **Inje√ß√£o da raiz e do m√≥dulo `utils/` no `sys.path`**  
   Essa etapa assegura que fun√ß√µes utilit√°rias, como as do arquivo `utils/utils_data.py`,
   possam ser importadas e utilizadas sem ajustes manuais de caminho.

3. **Carregamento das configura√ß√µes globais (`defaults.json` + `local.json`)**  
   S√£o lidas defini√ß√µes essenciais ‚Äî como nome da vari√°vel alvo (`target_column`), 
   propor√ß√£o de treino e teste (`test_size`), controle de aleatoriedade (`random_state`),
   estrat√©gias de codifica√ß√£o, normaliza√ß√£o e detec√ß√£o de outliers.

4. **Valida√ß√£o da estrutura de diret√≥rios padr√£o**  
   Pastas como `artifacts/`, `reports/` e `artifacts/models/` s√£o verificadas e criadas automaticamente,  
   garantindo que o pipeline tenha onde salvar seus resultados e metadados.

5. **Descoberta e leitura do dataset processado**  
   O notebook identifica o arquivo final exportado pelo N1 (geralmente `data/processed/processed.parquet`),  
   realiza a leitura conforme o formato (Parquet, CSV ou Excel) e carrega o conte√∫do em um `DataFrame` pandas.

6. **Identifica√ß√£o da vari√°vel alvo e separa√ß√£o de dados**  
   A coluna-alvo √© localizada automaticamente com base nas configura√ß√µes, e o conjunto √© dividido em:  
   - `X`: features preditoras  
   - `y`: vari√°vel alvo (`TARGET_COL`)

7. **Verifica√ß√µes de sanidade e distribui√ß√£o da target**  
   S√£o exibidas m√©tricas b√°sicas como quantidade de linhas, colunas, valores nulos e distribui√ß√£o da vari√°vel alvo.  
   Essas informa√ß√µes permitem validar rapidamente se o dataset est√° √≠ntegro e pronto para o treinamento.

---

> üí° **Em resumo:**  
> Esta c√©lula garante que o N2 sempre inicie em um ambiente est√°vel e configurado,  
> com o dataset processado e a vari√°vel-alvo corretamente carregados,  
> prontos para o pipeline de modelagem supervisionada.


In [7]:
# -*- coding: utf-8 -*-
from __future__ import annotations

from pathlib import Path
import sys
import importlib
import pandas as pd
from sklearn.model_selection import train_test_split


def _find_up(relative_path: str, start: Path | None = None) -> Path | None:
    start = start or Path.cwd()
    rel = Path(relative_path)
    for base in (start, *start.parents):
        cand = base / rel
        if cand.exists():
            return cand
    return None

_cfg = _find_up("config/defaults.json")
if _cfg is None:
    raise FileNotFoundError(
        "config/defaults.json n√£o encontrado. Abra o notebook N2 dentro da estrutura do projeto."
    )

PROJECT_ROOT = _cfg.parent.parent.resolve()
UTILS_DIR = PROJECT_ROOT / "utils"
INIT_FILE = UTILS_DIR / "__init__.py"

if not UTILS_DIR.exists():
    raise ModuleNotFoundError(f"Pasta n√£o encontrada: {UTILS_DIR}")
if not INIT_FILE.exists():
    INIT_FILE.write_text("", encoding="utf-8")

root_str = str(PROJECT_ROOT)
if root_str not in sys.path:
    sys.path.insert(0, root_str)

print(f"[INFO] PROJECT_ROOT: {PROJECT_ROOT}")
print(f"[INFO] sys.path ok. utils: {UTILS_DIR}")

import utils.utils_data as ud
importlib.reload(ud)  # garante vers√£o mais recente se voc√™ editar utils_data.py


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] sys.path ok. utils: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\utils


<module 'utils.utils_data' from 'C:\\Users\\fabio\\Projetos DEV\\data projects\\telco-customer-churn-analysis\\utils\\utils_data.py'>

In [8]:
# 1) Puxa o contexto completo
ctx = ud.n2_bootstrap_context()

# 2) Descompacta o que vai usar nas pr√≥ximas c√©lulas
PROJECT_ROOT   = ctx["project_root"]
cfg            = ctx["cfg"]
df             = ctx["df"]
X              = ctx["X"]
y              = ctx["y"]
TARGET_COL     = ctx["target_col"]
processed_path = ctx["processed_path"]
num_cols       = ctx["num_cols"]
cat_cols       = ctx["cat_cols"]
other_cols     = ctx["other_cols"]
test_size      = ctx["test_size"]
random_state   = ctx["random_state"]
scale_numeric  = ctx["scale_numeric"]

print(f"[INFO] Processed file: {processed_path}")
print(f"[INFO] Target: {TARGET_COL}")
print(f"[INFO] Shapes -> X: {X.shape} | y: {y.shape}")

# 3) Painel estilizado N2 
ud.n2_render_status_panel(ctx, keep_path_parts=4)


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] [ensure_dirs] artifacts=C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\artifacts | reports=C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\reports | models=C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\artifacts\models
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] Processed file: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\data\processed\processed.parquet
[INFO] Target: Churn
[INFO] Shapes -> X: (7043, 132) | y: (7043,)


value,count,pct
no,5174,73.46%
yes,1869,26.54%

par√¢metro,valor
test_size,0.200000
random_state,42
scale_numeric,ON


In [9]:
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,PaymentMethod_len,PaymentMethod_word_count,PaymentMethod_has_error,PaymentMethod_has_cancel,PaymentMethod_has_premium,Churn_len,Churn_word_count,Churn_has_error,Churn_has_cancel,Churn_has_premium
0,7590-VHVEG,female,0,yes,no,1,no,no,dsl,no,...,16,2,False,False,False,2,1,False,False,False
1,5575-GNVDE,male,0,no,no,34,yes,no,dsl,yes,...,12,2,False,False,False,2,1,False,False,False
2,3668-QPYBK,male,0,no,no,2,yes,no,dsl,yes,...,12,2,False,False,False,3,1,False,False,False
3,7795-CFOCW,male,0,no,no,45,no,no,dsl,yes,...,25,3,False,False,False,2,1,False,False,False
4,9237-HQITU,female,0,no,no,2,yes,no,fiber optic,no,...,16,2,False,False,False,3,1,False,False,False


# ‚úÇÔ∏è Split Treino/Teste e Resumo de Colunas

Nesta etapa, preparamos os dados para a modelagem supervisionada, separando vari√°veis independentes (`X`) da vari√°vel alvo (`y`) e realizando o **split treino/teste** com par√¢metros consistentes definidos no `defaults.json`.

## O que acontece aqui

1. **Separa√ß√£o de X e y**
   - Remove-se a coluna alvo (`TARGET_COL`) de `X` e mant√©m-se `y` intacta para preservar a distribui√ß√£o original.

2. **Resumo de tipos de colunas**
   - Gera contagens de colunas **num√©ricas**, **categ√≥ricas** e **outras** (se houver).
   - Este diagn√≥stico orienta a constru√ß√£o do `ColumnTransformer` na pr√≥xima etapa.

3. **Split treino/teste com estratifica√ß√£o**
   - Usa `test_size` e `random_state` da configura√ß√£o.
   - Ativa `stratify=y` sempre que houver mais de uma classe, mantendo a **mesma propor√ß√£o** de classes em `train` e `test`.

4. **Diagn√≥sticos √∫teis**
   - Compara a **distribui√ß√£o da target** no conjunto geral vs. `train` vs. `test` (contagem e %).
   - Sinaliza **desbalanceamento** quando a classe majorit√°ria ultrapassa um limite (ex.: 80%).
   - Detecta **categorias raras** (freq. < 5 no `train`) em vari√°veis categ√≥ricas ‚Äî √∫til para evitar explos√£o do One-Hot e para tratar identificadores.

## Observa√ß√µes frequentes

- **IDs como `customerID`** aparecem como in√∫meras categorias raras. Em geral, **n√£o devem ser usadas como preditores**, pois s√£o identificadores sem rela√ß√£o causal. Recomenda-se **remov√™-las** de `X` (ou exclu√≠-las da lista de categ√≥ricas antes do One-Hot).
- Se houver **alto cardinalidade** e a vari√°vel for preditiva, considere t√©cnicas espec√≠ficas (target encoding, hashing, catboost encoder). Neste template, mantemos a abordagem pedag√≥gica e transparente com One-Hot e remo√ß√£o de IDs.

## Pr√≥ximo passo

- Construir o **pr√©-processamento** com `ColumnTransformer` (imputa√ß√£o + One-Hot para categ√≥ricas + escala opcional para num√©ricas) e ajustar no conjunto de treino.


In [10]:
# =============================================================================
# Split Treino/Teste e Resumo de Colunas
# =============================================================================

import importlib
import utils.utils_data as ud
importlib.reload(ud)


# Separar vari√°veis independentes (X) e alvo (y)
X = df.drop(columns=[TARGET_COL])
y = df[TARGET_COL]

# Resumo de colunas do X
num_cols, cat_cols, other_cols = ud.summarize_columns(X)
print(f"[INFO] Colunas num√©ricas: {len(num_cols)} | categ√≥ricas: {len(cat_cols)} | ignoradas: {len(other_cols)}")

# Par√¢metros do split vindos do defaults.json (estrutura FLAT atual)
split_params = {
    "test_size": cfg.get("test_size", 0.2),
    "random_state": cfg.get("random_state", 42),
    # estratifica√ß√£o: por enquanto fixo como True para manter o comportamento desejado
    "stratify": True,
}

test_size = split_params["test_size"]
random_state = split_params["random_state"]
do_stratify = split_params["stratify"]

print(f"[INFO] Split params -> test_size={test_size} | random_state={random_state} | stratify={do_stratify}")

# Split com estratifica√ß√£o quando aplic√°vel
stratify_vec = y if do_stratify else None

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=test_size,
    random_state=random_state,
    stratify=stratify_vec,
)

print(f"[INFO] X_train: {X_train.shape} | X_test: {X_test.shape}")

# -----------------------------------------------------------------------------
# Detec√ß√£o simples de categorias raras nas colunas categ√≥ricas (no train)
# -----------------------------------------------------------------------------
rare_threshold = 5  # voc√™ pode depois puxar isso de config se quiser
rare_categories_info = {}

for col in cat_cols:
    vc = X_train[col].value_counts(dropna=False)
    n_rare = (vc < rare_threshold).sum()
    if n_rare > 0:
        rare_categories_info[col] = int(n_rare)

if rare_categories_info:
    print(f"[INFO] Colunas categ√≥ricas com categorias raras (<{rare_threshold} amostras) no train:")
    for col, n_rare in rare_categories_info.items():
        print(f" - {col}: {n_rare} categorias raras")
else:
    print("[INFO] Nenhuma categoria rara detectada no train com o limite atual.")

# -----------------------------------------------------------------------------
# Painel estilizado (HTML) centralizado no utils_data.py
# Aqui ele j√° exibe:
# - card com resumo de colunas e params
# - distribui√ß√£o da target (geral/train/test) em tabelas estilizadas
# - tabela de categorias raras (se houver)
# -----------------------------------------------------------------------------
ud.n2_display_split_and_column_summary(
    numeric_cols=num_cols,
    categorical_cols=cat_cols,
    ignored_cols=other_cols,
    X_train=X_train,
    X_test=X_test,
    y_train=y_train,
    y_test=y_test,
    target_name=TARGET_COL,
    split_params=split_params,
    rare_categories=rare_categories_info,
    rare_threshold=rare_threshold,
    logger=None,  # se quiser usar o logger do contexto depois, √© s√≥ trocar aqui
)


[INFO] Colunas num√©ricas: 62 | categ√≥ricas: 70 | ignoradas: 0
[INFO] Split params -> test_size=0.2 | random_state=42 | stratify=True
[INFO] X_train: (5634, 132) | X_test: (1409, 132)
[INFO] Colunas categ√≥ricas com categorias raras (<5 amostras) no train:
 - customerID: 5634 categorias raras


Churn,count,pct
no,5174,73.46
yes,1869,26.54

Churn,count,pct
no,4139,73.46
yes,1495,26.54

Churn,count,pct
no,1035,73.46
yes,374,26.54

column,n_rare_categories
customerID,5634


# üßπ Remo√ß√£o de Colunas Irrelevantes para Modelagem

Nesta etapa removemos colunas que **n√£o contribuem para o aprendizado supervisionado** e que podem at√© prejudicar o desempenho dos modelos.
O objetivo √© garantir que o conjunto de features seja **enxuto, relevante e est√°vel** antes de passar para o pr√©-processamento e constru√ß√£o dos pipelines de Machine Learning.

In [11]:
# Lista de colunas a remover
cols_to_drop = ["customerID"]  # pode incluir mais: ["customerID", "colA", "colB"]

# Remover do conjunto de features
X = X.drop(columns=cols_to_drop)

print(f"[INFO] Colunas removidas: {cols_to_drop}")
print(f"[INFO] X agora possui {X.shape[1]} colunas.")


[INFO] Colunas removidas: ['customerID']
[INFO] X agora possui 131 colunas.


# ‚öôÔ∏è Pr√©-processamento ‚Äî One-Hot denso + escala opcional

Nesta etapa, preparamos `X` para treinamento aplicando **imputa√ß√£o**, **codifica√ß√£o categ√≥rica** e **padroniza√ß√£o opcional**.
Mantemos o bloco **vis√≠vel no N2** por transpar√™ncia pedag√≥gica: quem l√™ o notebook consegue enxergar claramente *como* os dados chegam ao modelo.

## O que acontece aqui

1. **Detec√ß√£o dos conjuntos de colunas**
   - Usamos `num_cols` e `cat_cols` (derivados de `summarize_columns(X)`) para endere√ßar o tratamento adequado a cada tipo.

2. **Pipeline num√©rico**
   - `SimpleImputer(strategy="mean")` para preencher valores ausentes.
   - `StandardScaler()` **opcional** (controlado por `cfg["scale_numeric"]`), deixando as features num√©ricas com m√©dia 0 e desvio 1.
   - Este bloco √© montado dinamicamente: se `scale_numeric=False`, o scaler √© omitido.

3. **Pipeline categ√≥rico**
   - `SimpleImputer(strategy="most_frequent")` para preencher categorias ausentes.
   - `OneHotEncoder(handle_unknown="ignore", output denso)`. O c√≥digo √© **compat√≠vel** com vers√µes antigas/novas do scikit-learn:
     - usa `sparse_output=False` quando dispon√≠vel;
     - faz *fallback* para `sparse=False` em vers√µes anteriores.

4. **ColumnTransformer**
   - Une os dois pipelines e aplica a transforma√ß√£o **apenas √†s colunas selecionadas**, descartando o restante (`remainder="drop"`).
   - Mantemos `verbose_feature_names_out=False` para preservar nomes leg√≠veis nas colunas expandidas do One-Hot.

5. **Ajuste e transforma√ß√£o**
   - `fit` no `X_train` (usando `y_train` quando necess√°rio) e `transform` no `X_train`/`X_test`.
   - Garantimos sa√≠da **densa** (arrays NumPy), apropriada para modelos que n√£o aceitam matrizes esparsas.

6. **Diagn√≥sticos r√°pidos**
   - Imprimimos:
     - `scale_numeric`, tamanho de `num_cols`/`cat_cols`,
     - quantidade total de **features transformadas**,
     - *preview* dos **primeiros nomes** de features,
     - `shapes` de `X_train_t`/`X_test_t`,
     - **mem√≥ria estimada** (MB) dos arrays transformados.

## Observa√ß√µes importantes

- **Identificadores (IDs)** como `customerID` n√£o devem compor `cat_cols` (explodem o One-Hot e n√£o agregam sinal preditivo).  
  Remova-os de `X` *antes* do preprocess ou exclua-os da lista de categ√≥ricas.
- Para colunas categ√≥ricas com **alta cardinalidade**, considere alternativas como **hashing trick**, **target encoding** ou **CatBoost encoding** em vers√µes futuras do template.
- Se a mem√≥ria ficar alta, avalie:
  - reduzir cardinalidade (agrupar categorias raras),
  - trocar o encoder,
  - ou trabalhar com sa√≠da **esparsa** (e modelos que aceitem esparsidade).

## Pr√≥ximo passo

- Encaixar o `preprocess` nos **Pipelines** dos modelos (Dummy, LogisticRegression, KNN, RandomForest, etc.) e seguir para o **seletor de modelos e hiperpar√¢metros (UI)**.


In [10]:
# === Pr√©-processamento (One-Hot denso + escala opcional) ===
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
import numpy as np
import pandas as pd

# Fun√ß√£o compat√≠vel com vers√µes antigas/novas do scikit-learn
def build_preprocess(numeric_cols, categorical_cols, scale_numeric=True):
    """
    Cria um ColumnTransformer com:
      - Num√©ricas: imputa√ß√£o m√©dia + (opcional) StandardScaler
      - Categ√≥ricas: imputa√ß√£o mais frequente + OneHotEncoder denso (compat√≠vel com vers√µes)
    """
    # 1) OneHotEncoder compat√≠vel com sklearn >= 1.4 (sparse_output) e vers√µes anteriores (sparse)
    try:
        ohe = OneHotEncoder(handle_unknown="ignore", sparse_output=False)
    except TypeError:
        ohe = OneHotEncoder(handle_unknown="ignore", sparse=False)

    # 2) Pipeline num√©rico
    num_steps = [("imputer", SimpleImputer(strategy="mean"))]
    if scale_numeric and len(numeric_cols) > 0:
        num_steps.append(("scaler", StandardScaler()))
    numeric_transformer = Pipeline(steps=num_steps)

    # 3) Pipeline categ√≥rico
    cat_transformer = Pipeline(steps=[
        ("imputer", SimpleImputer(strategy="most_frequent")),
        ("onehot", ohe),
    ])

    # 4) ColumnTransformer
    ct = ColumnTransformer(
        transformers=[
            ("num", numeric_transformer, numeric_cols if len(numeric_cols) > 0 else []),
            ("cat", cat_transformer, categorical_cols if len(categorical_cols) > 0 else []),
        ],
        remainder="drop",
        verbose_feature_names_out=False,
    )
    return ct


# ---- Constru√ß√£o do pr√©-processador conforme config
scale_numeric = bool(cfg.get("scale_numeric", True))
preprocess = build_preprocess(num_cols, cat_cols, scale_numeric=scale_numeric)
print(f"[INFO] scale_numeric={scale_numeric} | num_cols={len(num_cols)} | cat_cols={len(cat_cols)}")

# ---- Ajuste no treino
preprocess.fit(X_train, y_train)

# ---- Tentativa de inspecionar nomes de features geradas
feat_names = None
try:
    feat_names = preprocess.get_feature_names_out()
    print(f"[INFO] Features transformadas: {len(feat_names)}")
    print("[INFO] Preview das primeiras 20 features:")
    for n in feat_names[:20]:
        print(" -", n)
except Exception as e:
    print(f"[WARN] N√£o foi poss√≠vel obter nomes de features: {e}")

# ---- Transforma√ß√£o de treino e teste (densa)
X_train_t = preprocess.transform(X_train)
X_test_t  = preprocess.transform(X_test)

# Garante array denso (caso algum backend retorne esparso)
if hasattr(X_train_t, "toarray"):
    X_train_t = X_train_t.toarray()
if hasattr(X_test_t, "toarray"):
    X_test_t = X_test_t.toarray()

print(f"[INFO] Shapes transformados -> X_train_t: {X_train_t.shape} | X_test_t: {X_test_t.shape}")

# ---- (Opcional) Relato r√°pido de mem√≥ria
def _mb(nbytes): 
    return f"{(nbytes or 0) / (1024**2):.2f} MB"

try:
    mem_train = X_train_t.nbytes if isinstance(X_train_t, np.ndarray) else None
    mem_test  = X_test_t.nbytes  if isinstance(X_test_t,  np.ndarray) else None
    print(f"[INFO] Mem√≥ria estimada -> train={_mb(mem_train)} | test={_mb(mem_test)}")
except Exception:
    pass

# ---- (Opcional) DataFrame de features apenas para DEBUG/inspe√ß√£o (cuidado com mem√≥ria!)
# Ative s√≥ quando necess√°rio; por padr√£o, mantemos como arrays numpy eficientes.
# if feat_names is not None:
#     X_train_df = pd.DataFrame(X_train_t, columns=feat_names, index=X_train.index)
#     X_test_df  = pd.DataFrame(X_test_t,  columns=feat_names, index=X_test.index)
#     display(X_train_df.head(3))


[INFO] scale_numeric=True | num_cols=62 | cat_cols=65
[INFO] Features transformadas: 5787
[INFO] Preview das primeiras 20 features:
 - SeniorCitizen
 - tenure
 - MonthlyCharges
 - TotalCharges
 - SeniorCitizen_was_missing
 - tenure_was_missing
 - MonthlyCharges_was_missing
 - TotalCharges_was_missing
 - customerID_was_missing
 - gender_was_missing
 - Partner_was_missing
 - Dependents_was_missing
 - PhoneService_was_missing
 - MultipleLines_was_missing
 - InternetService_was_missing
 - OnlineSecurity_was_missing
 - OnlineBackup_was_missing
 - DeviceProtection_was_missing
 - TechSupport_was_missing
 - StreamingTV_was_missing
[INFO] Shapes transformados -> X_train_t: (5634, 5787) | X_test_t: (1409, 5787)
[INFO] Mem√≥ria estimada -> train=248.75 MB | test=62.21 MB


## 4) Seletor de modelos e hiperpar√¢metros (UI)

In [11]:
# === UI: Seletor de modelos + Hyperdrive (encapsulado no utils_data) ===
from utils.utils_data import n2_build_models_ui

n2_build_models_ui(
    preprocess=preprocess,
    X_train=X_train,
    y_train=y_train,
    X_test=X_test,
    y_test=y_test,
    models_dir=models_dir,
    reports_dir=reports_dir
)


Box(children=(VBox(children=(HBox(children=(HTML(value="<div class='lumen-title'>Seletor de modelos ¬∑ Hyperdri‚Ä¶

## 5) Treino, avalia√ß√£o e export de artefatos

In [None]:

def collect_params_from_tab():
    return {name: {k: w.value for k, w in spec["params"].items()} for name, spec in MODEL_REGISTRY.items()}

def compute_and_plot(pipe, name, X_test, y_test):
    y_pred = pipe.predict(X_test)
    metrics = compute_metrics(y_test, y_pred)
    fig, ax = plt.subplots(figsize=(5,4))
    ConfusionMatrixDisplay(confusion_matrix(y_test, y_pred)).plot(ax=ax, colorbar=False)
    ax.set_title(f"Matriz de confus√£o ‚Äî {name}")
    plt.show()
    try_plot_roc(pipe, X_test, y_test)
    print(f"[OK] {name}: accuracy={metrics['accuracy']:.4f} | f1={metrics['f1']:.4f}")
    return metrics

def train_and_eval(models_selected, params_by_model):
    results = {}
    for name, selected in models_selected.items():
        if not selected: 
            continue
        ModelClass = MODEL_REGISTRY[name]["class"]
        params = params_by_model.get(name, {})
        pipe = Pipeline(steps=[("preprocess", preprocess), ("clf", ModelClass(**params))])
        pipe.fit(X_train, y_train)
        metrics = compute_and_plot(pipe, name, X_test, y_test)
        results[name] = {"pipeline": pipe, "metrics": metrics, "params": params}
    return results

@out.capture()
def on_train_clicked(_):
    clear_output(wait=True)
    display(W.HTML("<h4>Treinando...</h4>"))
    selected = {name: chk.value for name, chk in model_checks.items()}
    params = collect_params_from_tab()
    results = train_and_eval(selected, params)

    if results:
        df_rank = pd.DataFrame([{"model": k, **v["metrics"], **{"params": v["params"]}} for k, v in results.items()])\
                    .sort_values(by=["f1", "accuracy"], ascending=False)
        display(W.HTML("<h4>Ranking (F1, depois Accuracy)</h4>")); display(df_rank)
        if cb_persist.value:
            for name, rec in results.items():
                persist_artifacts(name, rec["pipeline"], rec["metrics"], rec["params"], models_dir, reports_dir)
    else:
        print("[AVISO] Nenhum modelo selecionado.")

btn_train.on_click(on_train_clicked)
