In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split

df = pd.read_csv(r'data\train_cleaned.csv')

# Código para comparação entre XGBoost e CatBoost

## Preparação dos dados para o **XGBoost**

In [3]:
# Transformando o alvo em 0/1
y = df['Transported'].astype(int)

# Removendo colunas irrelevantes para o modelo (sem engenharia de features)
cols_to_drop = ['PassengerId', 'Group', 'Surname', 'Cabin', 'Transported']
X_raw = df.drop(columns=cols_to_drop)

# Copiando os dados por segurança
X_xgb = X_raw.copy()

# Converter colunas booleanas (CryoSleep, VIP) para  0 ou 1
bool_cols = ['CryoSleep', 'VIP']
for col in bool_cols:
    # Preenche nulos com False (ou moda) antes de converter para garantir integridade
    X_xgb[col] = X_xgb[col].fillna(False).astype(int)

# One-Hot Encoding para XGBoost
X_xgb = pd.get_dummies(X_xgb, columns=['HomePlanet', 'Destination'], dummy_na=False)

# Divisão Treino/Teste para XGBoost
X_train_xgb, X_test_xgb, y_train, y_test = train_test_split(
    X_xgb, y, test_size=0.2, random_state=42
)

print("--- Formato dos dados ---")
print(f"XGBoost Input Shape: {X_train_xgb.shape} (Colunas expandidas com One-Hot)")


# Para XGBoost:
# model_xgb = XGBClassifier()
# model_xgb.fit(X_train_xgb, y_train)

# Para CatBoost:
# model_cat = CatBoostClassifier(cat_features=['HomePlanet', 'Destination', 'CryoSleep', 'VIP'])
# model_cat.fit(X_train_cat, y_train)

--- Formato dos dados ---
XGBoost Input Shape: (6954, 16) (Colunas expandidas com One-Hot)


## Preparação dos dados para o **CatBoost**

In [4]:
# Copiando os dados por segurança
X_cat = X_raw.copy()

# Guardando as colunas categóricas para passar para o modelo
cat_features = ['HomePlanet', 'Destination', 'CryoSleep', 'VIP']

# Preencher nulos em categóricas com 'Missing' e garantir que são strings
for col in cat_features:
    X_cat[col] = X_cat[col].fillna('Missing').astype(str)

# Divisão Treino/Teste para Catboost
X_train_cat, X_test_cat, _, _ = train_test_split(
    X_cat, y, test_size=0.2, random_state=42
)

print("--- Formato dos dados ---")
print(f"CatBoost Input Shape: {X_train_cat.shape} (Colunas originais mantidas)")

--- Formato dos dados ---
CatBoost Input Shape: (6954, 12) (Colunas originais mantidas)
