# **Exercicio Duelo de Modelos 4**

Nesta tarefa, voc√™s ir√£o criar o seu pr√≥prio duelo de modelos, com o objetivo de superar os resultados apresentados em aula. O desafio √© alcan√ßar um desempenho superior ao que obtivemos, e para isso, ser√° necess√°rio aplicar todas as melhorias que voc√™s aprenderam ao longo dos m√≥dulos, utilizando a base de dados do Titanic.

**1. Escolha do Modelo:**
Selecione um dos modelos que foram explorados nos duelos de modelos ao longo do curso. Pode ser SVM, Random Forest, XGBoost, ou qualquer outro que tenhamos abordado.

**2. Aperfei√ßoamento:**
**Aplique as t√©cnicas que aprendemos para melhorar o desempenho do seu modelo:**

**Hiperpar√¢metros:** Utilize GridSearchCV ou RandomSearchCV para encontrar os melhores par√¢metros.

**Cross Validation:** Avalie a robustez do modelo utilizando valida√ß√£o cruzada para garantir que ele generaliza bem.

**Balanceamento de Classes:** Se o seu modelo lida com problemas de classes desbalanceadas, explore t√©cnicas como SMOTE, undersampling ou oversampling.

**Padroniza√ß√£o e Normaliza√ß√£o:** Lembre-se de padronizar os dados, especialmente se for usar modelos que s√£o sens√≠veis √† escala das vari√°veis.

**3. Submiss√£o no Kaggle:**
Treine o seu modelo com os dados de treino e gere as previs√µes para os dados de teste. Lembre-se de que o conjunto de teste n√£o possui a vari√°vel alvo (y_test), pois a avalia√ß√£o ser√° feita com base nas submiss√µes no Kaggle.
Submeta suas previs√µes na competi√ß√£o do Titanic no Kaggle.

**4. Entrega:**
Envie o c√≥digo que voc√™ desenvolveu, detalhando cada etapa do seu processo de modelagem, explicando as escolhas feitas e como essas ajudaram a melhorar o modelo.

Junto com o c√≥digo, envie um print do seu score obtido na plataforma do Kaggle. Esse score ser√° a sua m√©trica final de avalia√ß√£o, mostrando como o seu modelo se compara com os demais.

**5. Competi√ß√£o Saud√°vel:**
A ideia √© trazer um senso de competi√ß√£o saud√°vel, ent√£o n√£o vale replicar exatamente o que fizemos na aula! Inove, explore novas combina√ß√µes de par√¢metros e t√©cnicas, e mostre do que √© capaz. O importante √© exercitar o pensamento cr√≠tico e a capacidade de experimentar.

**Dicas Finais:**

Seja criativo e tenha um olhar cr√≠tico sobre o que pode ser melhorado.
Teste diferentes abordagens e n√£o se prenda a um √∫nico caminho.
Lembre-se de que, mais do que alcan√ßar o melhor score, o objetivo √© aprender e aplicar o conhecimento de forma pr√°tica e eficaz.
Boa sorte! Estamos ansiosos para ver como cada um de voc√™s vai se sair nesse desafio e quais insights ir√£o surgir dessa competi√ß√£o!

Ao final dessa atividade voc√™s ter√£o participado da primeira competi√ß√£o publica de ci√™ncia de dados de voc√™s = )




In [6]:
# ===================================================
# 1Ô∏è‚É£ Imports e Configura√ß√µes Globais
# ===================================================

import os, re, warnings, random
import numpy as np
import pandas as pd
from typing import Tuple
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_score
from catboost import CatBoostClassifier, Pool

ModuleNotFoundError: No module named 'catboost'

1Ô∏è‚É£ Imports e Configura√ß√µes Globais

O que tem dentro:

os, re, warnings, random: utilit√°rios do Python para manipula√ß√£o de arquivos, express√µes regulares, warnings e gera√ß√£o de n√∫meros aleat√≥rios.

numpy, pandas: bibliotecas essenciais para c√°lculo num√©rico e manipula√ß√£o de tabelas (DataFrames).

sklearn.model_selection.StratifiedKFold: para criar folds estratificados na valida√ß√£o cruzada.

sklearn.metrics.accuracy_score: para medir a acur√°cia do modelo.

catboost.CatBoostClassifier, Pool: modelo principal e estrutura de dados espec√≠fica para CatBoost.

Fun√ß√£o:

Permite ler e manipular os dados (pandas), fazer c√°lculos e opera√ß√µes num√©ricas (numpy), criar valida√ß√£o cruzada estratificada (StratifiedKFold), medir performance (accuracy_score) e treinar o modelo (CatBoost).

Por que escolhi:

CatBoost √© √≥timo para dados mistos (num√©ricos + categ√≥ricos) e geralmente supera XGBoost/LightGBM sem precisar de muito encoding manual.

StratifiedKFold evita que folds tenham distribui√ß√£o desigual de sobreviventes.

warnings e np.set_printoptions garantem que o notebook seja mais limpo e leg√≠vel.

Configura√ß√µes globais:

RANDOM_STATE: para reprodutibilidade.

N_SPLITS: n√∫mero de folds para CV.

TE_SMOOTHING: suaviza√ß√£o para target encoding, evita overfitting.

EARLY_STOPPING_ROUNDS: para parar o treinamento se n√£o houver melhora.

PSEUDO_LABEL, PL_POS_THR, PL_NEG_THR: controlam pseudo-labeling

In [None]:
# Configura√ß√µes gerais
warnings.filterwarnings("ignore")
np.set_printoptions(suppress=True)

RANDOM_STATE = 42
N_SPLITS = 5
TE_SMOOTHING = 20.0
EARLY_STOPPING_ROUNDS = 200
PSEUDO_LABEL = True          # True para usar pseudo-labeling, False para n√£o usar
PL_POS_THR, PL_NEG_THR = 0.98, 0.02

In [None]:
# ===================================================
# 2Ô∏è‚É£ Fun√ß√µes utilit√°rias
# ===================================================

def seed_everything(seed=42):
    """Fixar seeds para reprodutibilidade"""
    random.seed(seed)
    np.random.seed(seed)
    try:
        import torch
        torch.manual_seed(seed)
        torch.cuda.manual_seed_all(seed)
        torch.backends.cudnn.deterministic = True
        torch.backends.cudnn.benchmark = False
    except Exception:
        pass

def detect_input_dir():
    """Detecta a pasta onde os arquivos train/test CSV est√£o localizados"""
    for p in ["../input/titanic", "../input/Titanic", "./"]:
        if os.path.exists(os.path.join(p, "train.csv")):
            return p
    return "./"

def extract_title(name: str) -> str:
    """Extrai t√≠tulo do nome do passageiro"""
    if pd.isna(name): return "Unknown"
    m = re.search(r",\s*([^\.]+)\.", name)
    return m.group(1).strip() if m else "Unknown"

def clean_ticket_prefix(s: str) -> str:
    """Limpa e padroniza prefixo do ticket"""
    if pd.isna(s): return "NONE"
    s = str(s).upper()
    s = re.sub(r"[./]", "", s)
    s = re.sub(r"\s+", "", s)
    s = re.sub(r"\d+", "", s)
    return s if s else "NONE"

2Ô∏è‚É£ Fun√ß√µes utilit√°rias

O que tem dentro:

seed_everything(): fixa sementes de aleatoriedade no Python, numpy e PyTorch (se dispon√≠vel) para resultados reproduz√≠veis.

detect_input_dir(): localiza automaticamente onde os arquivos train.csv e test.csv est√£o.

extract_title(name): extrai o t√≠tulo do passageiro do campo Name.

clean_ticket_prefix(s): limpa e padroniza prefixos de tickets (ex.: "A/5 21171" ‚Üí "A").

Fun√ß√£o:

Garantir consist√™ncia nos experimentos (seed_everything).

Facilitar leitura de dados sem precisar alterar paths (detect_input_dir).

Criar features relevantes a partir de campos textuais (extract_title e clean_ticket_prefix).

Por que escolhi:

A an√°lise do Titanic mostra que t√≠tulos (Mr, Mrs, Master) e prefixos de tickets podem refletir status social ou grupos de viagem, impactando sobreviv√™ncia.

Limpeza de strings evita categorias inconsistentes e reduz cardinalidade.

In [None]:
# ===================================================
# 3Ô∏è‚É£ Fun√ß√£o de Preprocessamento
# ===================================================

def preprocess_full(df: pd.DataFrame, train_len: int) -> pd.DataFrame:
    """
    Cria√ß√£o de features derivadas, imputa√ß√£o de valores ausentes,
    winsoriza√ß√£o suave e normaliza√ß√£o.
    """
    out = df.copy()
    
    # Normalize text columns
    out["Sex"] = out["Sex"].astype(str).str.lower()
    out["Embarked"] = out["Embarked"].astype(str).str.upper()

    # Name-based features
    out["Title"] = out["Name"].apply(extract_title)
    title_counts_train = out.iloc[:train_len]["Title"].value_counts()
    rare_titles = title_counts_train[title_counts_train < 10].index
    out["Title"] = out["Title"].where(~out["Title"].isin(rare_titles), "Rare")
    out["LastName"] = out["Name"].fillna("").apply(lambda s: s.split(",")[0].strip() if "," in s else "Unknown")

    # Family / group
    out["FamilySize"] = out["SibSp"].fillna(0) + out["Parch"].fillna(0) + 1
    out["IsAlone"] = (out["FamilySize"] == 1).astype(int)

    # Ticket features
    out["TicketPrefix"] = out["Ticket"].apply(clean_ticket_prefix)
    ticket_counts = out["Ticket"].fillna("NA").value_counts()
    out["TicketGroupSize"] = out["Ticket"].fillna("NA").map(ticket_counts).fillna(1).astype(int)

    # Cabin features
    out["HasCabin"] = (~out["Cabin"].isna()).astype(int)
    out["CabinDeck"] = out["Cabin"].fillna("M").astype(str).str[0].str.upper()
    out["CabinMulti"] = out["Cabin"].astype(str).str.contains(r"\s").astype(int)

    # Embarked
    out["Embarked"] = out["Embarked"].where(out["Embarked"].isin(["S","C","Q"]), np.nan)
    mode_val = out.iloc[:train_len]["Embarked"].mode()
    mode_val = mode_val.iloc[0] if not mode_val.empty else "S"
    out["Embarked"] = out["Embarked"].fillna(mode_val)

    # Numeric types
    out["Pclass"] = out["Pclass"].astype(int)
    out["Fare"] = out["Fare"].astype(float)
    out["Age"] = out["Age"].astype(float)

    # Imputations
    pclass_med = out.iloc[:train_len].groupby("Pclass")["Fare"].median()
    out["Fare"] = out.apply(lambda r: pclass_med[r["Pclass"]] if pd.isna(r["Fare"]) else r["Fare"], axis=1)

    grp_med = out.iloc[:train_len].groupby(["Title","Pclass","Sex"])["Age"].median()
    def impute_age(r):
        if not pd.isna(r["Age"]): return r["Age"]
        key = (r["Title"], r["Pclass"], r["Sex"])
        return grp_med.get(key, out.iloc[:train_len]["Age"].median())
    out["Age"] = out.apply(impute_age, axis=1)

    # Derived features
    out["FarePerPerson"] = out["Fare"] / out["TicketGroupSize"]
    out["IsChild"] = (out["Age"] < 16).astype(int)
    out["IsMother"] = ((out["Sex"]=="female") & (out["Parch"]>0) & (out["Title"]=="Mrs")).astype(int)

    # Winsorization suave
    out["Fare"] = out["Fare"].clip(0, np.nanpercentile(out["Fare"], 99))
    out["FarePerPerson"] = out["FarePerPerson"].clip(0, np.nanpercentile(out["FarePerPerson"], 99))
    out["Age"] = out["Age"].clip(0, 80)

    return out


3Ô∏è‚É£ Fun√ß√£o de Preprocessamento

O que tem dentro:

Normaliza√ß√£o de colunas categ√≥ricas (Sex, Embarked) para evitar inconsist√™ncias.

Features derivadas do nome: Title, LastName.

Features familiares: FamilySize, IsAlone.

Features de ticket: TicketPrefix, TicketGroupSize.

Features de cabine: HasCabin, CabinDeck, CabinMulti.

Imputa√ß√£o de valores ausentes para Fare e Age.

Features derivadas: FarePerPerson, IsChild, IsMother.

Winsoriza√ß√£o suave para limitar outliers em Fare, Age e FarePerPerson.

Fun√ß√£o:

Transformar dados brutos em features num√©ricas e categ√≥ricas limpas, que podem ser usadas diretamente pelo CatBoost.

Criar indicadores que capturam padr√µes sociais/familiares importantes para sobreviv√™ncia.

Por que escolhi:

O CatBoost lida bem com categ√≥ricas, mas features bem pensadas aumentam muito a performance.

Winsoriza√ß√£o reduz impacto de outliers extremos, comum em Fare.

Imputa√ß√µes baseadas em grupos (Title + Pclass + Sex) respeitam a distribui√ß√£o dos dados e evitam vazamento.

In [None]:
# ===================================================
# 4Ô∏è‚É£ Fun√ß√£o K-Fold Target Encoding
# ===================================================

def kfold_target_mean_encode(X_tr: pd.DataFrame, y_tr: pd.Series,
                             X_te: pd.DataFrame, col: str,
                             n_splits=5, smoothing=20.0, random_state=42) -> Tuple[np.ndarray, np.ndarray]:
    """
    Target Encoding seguro: calcula m√©dia da vari√°vel target por categoria
    usando K-Fold para evitar vazamento de dados.
    """
    skf = StratifiedKFold(n_splits=n_splits, shuffle=True, random_state=random_state)
    prior = float(y_tr.mean())

    X_tr_col = X_tr[col].reset_index(drop=True)
    y_tr_ser = pd.Series(y_tr).reset_index(drop=True)
    X_te_col = X_te[col].reset_index(drop=True)

    oof = np.zeros(len(X_tr_col), dtype=float)
    for tr_idx, va_idx in skf.split(np.zeros(len(y_tr_ser)), y_tr_ser):
        df_fold = pd.DataFrame({col: X_tr_col.iloc[tr_idx], "y": y_tr_ser.iloc[tr_idx]})
        stats = df_fold.groupby(col)["y"].agg(["mean","count"])
        smooth = (stats["mean"]*stats["count"] + prior*smoothing) / (stats["count"] + smoothing)
        oof[va_idx] = X_tr_col.iloc[va_idx].map(smooth).fillna(prior).values

    stats_full = pd.DataFrame({col: X_tr_col.values, "y": y_tr_ser.values}).groupby(col)["y"].agg(["mean","count"])
    smooth_full = (stats_full["mean"]*stats_full["count"] + prior*smoothing) / (stats_full["count"] + smoothing)
    te = X_te_col.map(smooth_full).fillna(prior).values

    return oof, te


4Ô∏è‚É£ Fun√ß√£o K-Fold Target Encoding

O que tem dentro:

Codifica√ß√£o de vari√°veis categ√≥ricas de alta cardinalidade (LastName, TicketPrefix) usando a m√©dia da target (Survived) dentro de cada categoria.

Uso de Stratified K-Fold para garantir que a m√©dia seja calculada sem vazamento de dados.

Suaviza√ß√£o para reduzir overfitting.

Fun√ß√£o:

Transformar categorias com muitos valores √∫nicos em uma feature num√©rica correlacionada √† target.

Evita vazamento de informa√ß√£o entre folds (ou seja, a m√©dia do grupo n√£o ‚Äúvaza‚Äù a informa√ß√£o do fold de valida√ß√£o).

Por que escolhi:

Vari√°veis como LastName ou TicketPrefix s√£o muito espec√≠ficas e n√£o podem ser one-hot encoded.

K-Fold target encoding com smoothing √© a t√©cnica segura mais eficiente para isso.

In [None]:
# ===================================================
# 5Ô∏è‚É£ Carregamento dos Dados e Preprocessamento
# ===================================================

seed_everything(RANDOM_STATE)
INPUT_DIR = detect_input_dir()

train = pd.read_csv(os.path.join(INPUT_DIR, "train.csv"))
test  = pd.read_csv(os.path.join(INPUT_DIR, "test.csv"))

y = train["Survived"].astype(int)
train_nolabel = train.drop(columns=["Survived"])
full = pd.concat([train_nolabel, test], axis=0, ignore_index=True)

full = preprocess_full(full, train_len=len(train))


5Ô∏è‚É£ Carregamento dos Dados e Preprocessamento

O que tem dentro:

Leitura de train.csv e test.csv.

Separa√ß√£o de y (target) e features.

Concatenar train + test para pr√©-processar juntos (evita inconsist√™ncia de categorias).

Chamada da fun√ß√£o preprocess_full.

Fun√ß√£o:

Preparar dataset completo para feature engineering, mantendo separa√ß√£o correta entre treino e teste.

Por que escolhi:

Processar juntos evita que categorias novas no teste n√£o sejam tratadas.

Mant√©m consist√™ncia para target encoding e outras features derivadas.

In [None]:
# ===================================================
# 6Ô∏è‚É£ Target Encoding de Vari√°veis Categ√≥ricas de Alta Cardinalidade
# ===================================================

base_cat = ["Sex","Embarked","Title","CabinDeck","TicketPrefix"]
base_num = ["Pclass","Age","SibSp","Parch","Fare","FamilySize","IsAlone",
            "IsChild","IsMother","HasCabin","CabinMulti","TicketGroupSize","FarePerPerson"]

te_cols = ["LastName","TicketPrefix","CabinDeck","Title"]
n_train = len(train)
train_idx = np.arange(n_train)
test_idx  = np.arange(n_train, len(full))

X_all = full.copy()
te_train_parts, te_test_parts = {}, {}
for c in te_cols:
    oof_c, test_c = kfold_target_mean_encode(
        X_all.loc[train_idx,[c]], y, X_all.loc[test_idx,[c]],
        col=c, n_splits=N_SPLITS, smoothing=TE_SMOOTHING, random_state=RANDOM_STATE
    )
    te_train_parts[c+"_TE"] = oof_c
    te_test_parts[c+"_TE"] = test_c

for newc, arr in te_train_parts.items(): X_all.loc[train_idx, newc] = arr
for newc, arr in te_test_parts.items():  X_all.loc[test_idx, newc] = arr

use_cols = base_cat + base_num + [c+"_TE" for c in te_cols]
X_train = X_all.loc[train_idx, use_cols].reset_index(drop=True)
X_test  = X_all.loc[test_idx,  use_cols].reset_index(drop=True)


6Ô∏è‚É£ Target Encoding de Vari√°veis de Alta Cardinalidade

O que tem dentro:

Lista de vari√°veis a encodar (te_cols).

Loop que aplica kfold_target_mean_encode em cada coluna.

Adiciona colunas codificadas (_TE) ao dataframe.

Fun√ß√£o:

Transformar vari√°veis categ√≥ricas complexas em features num√©ricas seguras.

Preparar dataset pronto para o CatBoost.

Por que escolhi:

Evita overfitting e vazamento, enquanto permite aproveitar informa√ß√µes valiosas de categorias raras.

In [None]:
# ===================================================
# 7Ô∏è‚É£ Treinamento CatBoost com CV
# ===================================================

cat_idx = [X_train.columns.get_loc(c) for c in base_cat]  # Indices das colunas categ√≥ricas
skf = StratifiedKFold(n_splits=N_SPLITS, shuffle=True, random_state=RANDOM_STATE)

oof = np.zeros(len(X_train))
test_pred_folds = np.zeros((N_SPLITS, len(X_test)))
fold_acc = []

for fold, (tr, va) in enumerate(skf.split(X_train, y), 1):
    X_tr, X_va = X_train.iloc[tr], X_train.iloc[va]
    y_tr, y_va = y.iloc[tr], y.iloc[va]

    est = CatBoostClassifier(
        depth=6, learning_rate=0.05, iterations=3000, l2_leaf_reg=3.0,
        loss_function="Logloss", eval_metric="Accuracy",
        random_seed=RANDOM_STATE+fold, od_type="Iter", od_wait=EARLY_STOPPING_ROUNDS, verbose=False
    )
    tr_pool = Pool(X_tr, y_tr, cat_features=cat_idx)
    va_pool = Pool(X_va, y_va, cat_features=cat_idx)
    te_pool = Pool(X_test, cat_features=cat_idx)

    est.fit(tr_pool, eval_set=va_pool, use_best_model=True)
    va_p = est.predict_proba(va_pool)[:,1]
    te_p = est.predict_proba(te_pool)[:,1]

    oof[va] = va_p
    test_pred_folds[fold-1,:] = te_p
    fold_acc.append(accuracy_score(y_va, (va_p>=0.5).astype(int)))

print("CatBoost CV Acc per fold:", [f"{a:.4f}" for a in fold_acc], "| Mean:", f"{np.mean(fold_acc):.4f}")


7Ô∏è‚É£ Treinamento CatBoost com Cross-Validation

O que tem dentro:

Cria√ß√£o de folds estratificados.

Treinamento do CatBoost em cada fold.

Armazenamento das previs√µes OOF (out-of-fold) e previs√£o para teste.

C√°lculo de acur√°cia em cada fold.

Fun√ß√£o:

Treinar modelo robusto com valida√ß√£o cruzada.

Obter estimativas OOF para tuning de threshold e an√°lise de performance.

Por que escolhi:

CatBoost √© r√°pido e eficiente para dados mistos.

CV estratificado garante avalia√ß√£o justa e reduz vari√¢ncia na valida√ß√£o.

In [None]:
# ===================================================
# 8Ô∏è‚É£ Threshold tuning OOF
# ===================================================

ths = np.linspace(0.3,0.7,401)
best_t, best_acc = max(((t, accuracy_score(y,(oof>=t).astype(int))) for t in ths), key=lambda x:x[1])
print(f"OOF Accuracy = {best_acc:.4f} at threshold = {best_t:.3f}")

test_prob = test_pred_folds.mean(axis=0)
pred = (test_prob >= best_t).astype(int)


8Ô∏è‚É£ Threshold tuning OOF

O que tem dentro:

Varredura de thresholds entre 0.3 e 0.7.

Sele√ß√£o do threshold que maximiza acur√°cia OOF.

Aplica√ß√£o do threshold ao teste.

Fun√ß√£o:

Ajustar ponto de corte para transformar probabilidades em classes (0/1) de forma otimizada.

Por que escolhi:

O threshold default (0.5) pode n√£o ser ideal devido a desbalanceamento.

Melhora acur√°cia sem mexer no modelo.

In [None]:
# ===================================================
# 9Ô∏è‚É£ Pseudo-labeling opcional (safe)
# ===================================================

if PSEUDO_LABEL:
    high_pos = np.where(test_prob >= PL_POS_THR)[0]
    high_neg = np.where(test_prob <= PL_NEG_THR)[0]
    sel = np.concatenate([high_pos, high_neg])

    if sel.size > 0:
        X_aug = pd.concat([X_train, X_test.iloc[sel]], axis=0, ignore_index=True)
        y_aug = pd.concat([y.reset_index(drop=True),
                           pd.Series((test_prob[sel] >= PL_POS_THR).astype(int))],
                          axis=0).reset_index(drop=True)

        oof2 = np.zeros(len(X_train))
        test_pred_folds2 = np.zeros((N_SPLITS,len(X_test)))
        fold_acc2 = []

        for fold, (tr, va) in enumerate(skf.split(X_train,y),1):
            tr_idx_aug = np.concatenate([tr, n_train+np.arange(len(sel))])
            X_tr2, y_tr2 = X_aug.iloc[tr_idx_aug], y_aug.iloc[tr_idx_aug]
            X_va2, y_va2 = X_train.iloc[va], y.iloc[va]

            est2 = CatBoostClassifier(
                depth=6, learning_rate=0.05, iterations=3000, l2_leaf_reg=3.0,
                loss_function="Logloss", eval_metric="Accuracy",
                random_seed=RANDOM_STATE+123+fold, od_type="Iter", od_wait=EARLY_STOPPING_ROUNDS, verbose=False
            )
            tr_pool2 = Pool(X_tr2, y_tr2, cat_features=cat_idx)
            va_pool2 = Pool(X_va2, y_va2, cat_features=cat_idx)
            te_pool2 = Pool(X_test, cat_features=cat_idx)

            est2.fit(tr_pool2, eval_set=va_pool2, use_best_model=True)
            va_p2 = est2.predict_proba(va_pool2)[:,1]
            te_p2 = est2.predict_proba(te_pool2)[:,1]

            oof2[va] = va_p2
            test_pred_folds2[fold-1,:] = te_p2
            fold_acc2.append(accuracy_score(y_va2, (va_p2>=0.5).astype(int)))

        print("PL CatBoost CV Acc per fold:", [f"{a:.4f}" for a in fold_acc2], "| Mean:", f"{np.mean(fold_acc2):.4f}")
        ths2 = np.linspace(0.3,0.7,401)
        best_t2, best_acc2 = max(((t, accuracy_score(y,(oof2>=t).astype(int))) for t in ths2), key=lambda x:x[1])
        print(f"[PL] OOF Accuracy = {best_acc2:.4f} at threshold = {best_t2:.3f}")

        test_prob = test_pred_folds2.mean(axis=0)
        pred = (test_prob >= best_t2).astype(int)
    else:
        print("No high-confidence test samples for pseudo-labeling; skipping.")


9Ô∏è‚É£ Pseudo-labeling opcional

O que tem dentro:

Sele√ß√£o de amostras de teste com alta confian√ßa (>=0.98 ou <=0.02).

Adi√ß√£o dessas amostras ao treino com labels previstos.

Retraining do CatBoost sem recalcular target encoding.

Fun√ß√£o:

Aumentar o dataset de treino com exemplos confi√°veis do teste, para potencial melhoria de performance.

Por que escolhi:

T√©cnica leve e segura, s√≥ uma rodada, evita overfitting.

√ötil em competi√ß√µes com leaderboard.

In [None]:
# ===================================================
# üîü Submission
# ===================================================

sub = pd.DataFrame({"PassengerId": test["PassengerId"].values, "Survived": pred})
sub.to_csv("submission.csv", index=False)
print("Saved: submission.csv", sub.shape)


üîü Submission

O que tem dentro:

Cria√ß√£o do dataframe de submiss√£o com PassengerId e Survived.

Salvamento em CSV.

Fun√ß√£o:

Gerar arquivo pronto para submiss√£o no Kaggle.

Por que escolhi:

Padr√£o obrigat√≥rio da competi√ß√£o Titanic.

Explica√ß√£o geral:
Este notebook implementa um pipeline robusto para o desafio do Titanic, com foco em evitar vazamento de dados (leakage) e maximizar acur√°cia de valida√ß√£o.

Preprocessamento: Cria√ß√£o de features relevantes a partir de nomes, tickets, cabine e rela√ß√µes familiares.

Target Encoding: Codifica√ß√£o de vari√°veis categ√≥ricas de alta cardinalidade de forma segura via K-Fold (sem vazamento).

Treinamento: CatBoost com valida√ß√£o cruzada e early stopping.

Threshold tuning: Ajuste do threshold de probabilidade para melhorar a acur√°cia OOF.

Pseudo-labeling (opcional): Inclus√£o de amostras de teste de alta confian√ßa para potencial ganho de performance.

Submission: Gera√ß√£o do arquivo submission.csv pronto para Kaggle.