Link do dataset >>> link

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# --- 1. Carregando os Dados ---

try:
    train_df = pd.read_csv('https://drive.google.com/uc?export=download&id=1Qhb8AXtSg1s6GtUO_1KemL93r7QYa5Bk')
    test_df = pd.read_csv('https://drive.google.com/uc?export=download&id=1me6rv01pqOK6MBROHQTwTYXCSR_k68gP')
    print("Arquivos 'train.csv' e 'test.csv' carregados com sucesso!")
except FileNotFoundError:
    print("‚ö†Ô∏è Erro: Arquivos 'train.csv' e 'test.csv' n√£o encontrados.")
    train_df = pd.DataFrame()
    test_df = pd.DataFrame()

if not train_df.empty:

    # --- 2. Explora√ß√£o Inicial (R√°pida) ---
    print("\n--- Informa√ß√µes Originais (Treino) ---")
    train_df.info()

    # --- 3. Engenharia de Atributos (Feature Engineering) ---

    # Guardamos os IDs do dataset de teste para a submiss√£o final
    passenger_ids_teste = test_df['PassengerId']

    # Criamos uma lista para aplicar as mesmas transforma√ß√µes em ambos
    data_frames = [train_df, test_df]

    print("\nIniciando Engenharia de Atributos...")

    for df in data_frames:
        # 3.1. Separando o 'PassengerId' (gggg_pp)
        if 'PassengerId' in df.columns:
            df[['Group', 'GroupNumber']] = df['PassengerId'].str.split('_', expand=True)

        # 3.2. Separando a 'Cabin' (deck/num/side)
        if 'Cabin' in df.columns:
            # Preenchemos nulos com um padr√£o para o split funcionar
            df['Cabin'] = df['Cabin'].fillna('Unknown/0/Unknown')
            df[['Deck', 'CabinNum', 'Side']] = df['Cabin'].str.split('/', expand=True)

    print("Engenharia de Atributos conclu√≠da!")


    # --- 4. Definindo Colunas de Gastos ---
    colunas_gastos = ['RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck']


    # --- 5. Tratamento de Dados Faltantes (NaN) ---
    print("\nIniciando tratamento de dados faltantes (NaN)...")

    # 5.1. Gastos: Nulo (NaN) provavelmente significa gasto 0.
    train_df[colunas_gastos] = train_df[colunas_gastos].fillna(0.0)
    test_df[colunas_gastos] = test_df[colunas_gastos].fillna(0.0)

    # 5.2. Criar feature 'TotalSpend' (Total Gasto)
    # Isso ajuda na l√≥gica do CryoSleep e √© uma boa feature
    train_df['TotalSpend'] = train_df[colunas_gastos].sum(axis=1)
    test_df['TotalSpend'] = test_df[colunas_gastos].sum(axis=1)

    # 5.3. CryoSleep (L√≥gica Inteligente)
    # Se gastou > 0, n√£o pode estar em CryoSleep (False)
    # Se gastou == 0, provavelmente est√° em CryoSleep (True)
    train_df.loc[(train_df['TotalSpend'] > 0) & (train_df['CryoSleep'].isnull()), 'CryoSleep'] = False
    train_df.loc[(train_df['TotalSpend'] == 0) & (train_df['CryoSleep'].isnull()), 'CryoSleep'] = True

    test_df.loc[(test_df['TotalSpend'] > 0) & (test_df['CryoSleep'].isnull()), 'CryoSleep'] = False
    test_df.loc[(test_df['TotalSpend'] == 0) & (test_df['CryoSleep'].isnull()), 'CryoSleep'] = True

    # 5.4. Age: Preencher com a MEDIANA (mais robusta a outliers)
    # IMPORTANTE: Usamos a mediana *do treino* para preencher ambos
    age_median = train_df['Age'].median()
    print(f"Preenchendo 'Age' (NaN) com a mediana do treino: {age_median}")
    train_df['Age'] = train_df['Age'].fillna(age_median)
    test_df['Age'] = test_df['Age'].fillna(age_median)

    # 5.5. Categ√≥ricos (HomePlanet, Destination, VIP): Preencher com a MODA
    # (o valor mais frequente do treino)

    # HomePlanet
    home_planet_mode = train_df['HomePlanet'].mode()[0]
    print(f"Preenchendo 'HomePlanet' (NaN) com a moda do treino: {home_planet_mode}")
    train_df['HomePlanet'] = train_df['HomePlanet'].fillna(home_planet_mode)
    test_df['HomePlanet'] = test_df['HomePlanet'].fillna(home_planet_mode)

    # Destination
    destination_mode = train_df['Destination'].mode()[0]
    print(f"Preenchendo 'Destination' (NaN) com a moda do treino: {destination_mode}")
    train_df['Destination'] = train_df['Destination'].fillna(destination_mode)
    test_df['Destination'] = test_df['Destination'].fillna(destination_mode)

    # VIP
    vip_mode = train_df['VIP'].mode()[0]
    print(f"Preenchendo 'VIP' (NaN) com a moda do treino: {vip_mode}")
    train_df['VIP'] = train_df['VIP'].fillna(vip_mode)
    test_df['VIP'] = test_df['VIP'].fillna(vip_mode)

    print("Tratamento de dados faltantes conclu√≠do!")

    # --- 6. Verifica√ß√£o P√≥s-Tratamento ---
    print("\n--- Resumo dos Dados (Treino) AP√ìS tratamento de NaN ---")
    # Agora n√£o devemos ter mais valores nulos (exceto 'Transported' no teste)
    train_df.info()

    print("\n--- Resumo dos Dados (Teste) AP√ìS tratamento de NaN ---")
    test_df.info()

Arquivos 'train.csv' e 'test.csv' carregados com sucesso!

--- Informa√ß√µes Originais (Treino) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8693 entries, 0 to 8692
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   PassengerId   8693 non-null   object 
 1   HomePlanet    8492 non-null   object 
 2   CryoSleep     8476 non-null   object 
 3   Cabin         8494 non-null   object 
 4   Destination   8511 non-null   object 
 5   Age           8514 non-null   float64
 6   VIP           8490 non-null   object 
 7   RoomService   8512 non-null   float64
 8   FoodCourt     8510 non-null   float64
 9   ShoppingMall  8485 non-null   float64
 10  Spa           8510 non-null   float64
 11  VRDeck        8505 non-null   float64
 12  Name          8493 non-null   object 
 13  Transported   8693 non-null   bool   
dtypes: bool(1), float64(6), object(7)
memory usage: 891.5+ KB

Iniciando Engenharia de Atributos...
Enge

  train_df['VIP'] = train_df['VIP'].fillna(vip_mode)
  test_df['VIP'] = test_df['VIP'].fillna(vip_mode)


In [None]:
# --- 7. Codifica√ß√£o de Vari√°veis Categ√≥ricas e Booleanas ---

print("\nIniciando codifica√ß√£o de vari√°veis...")

# 7.1. Converter colunas Booleanas (True/False) para Inteiros (1/0)
# O modelo entende 1 e 0 melhor do que True/False.
bool_cols = ['CryoSleep', 'VIP']
for col in bool_cols:
    train_df[col] = train_df[col].astype(int)
    test_df[col] = test_df[col].astype(int)

# 7.2. Converter a coluna Alvo (Target)
# Fazemos isso apenas no dataset de treino, pois o de teste n√£o tem essa coluna
if 'Transported' in train_df.columns:
    train_df['Transported'] = train_df['Transported'].astype(int)

# 7.3. Definir colunas categ√≥ricas para One-Hot Encoding
# Estas s√£o as colunas de texto que restaram
categorical_cols = ['HomePlanet', 'Destination', 'Deck', 'Side']

# 7.4. Definir colunas para remover
# N√£o s√£o mais necess√°rias ou n√£o s√£o √∫teis para um modelo simples
cols_to_drop = ['PassengerId', 'Name', 'Cabin', 'Group', 'GroupNumber', 'CabinNum']

# Aplicar a remo√ß√£o
train_df = train_df.drop(columns=cols_to_drop)
test_df = test_df.drop(columns=cols_to_drop)

# 7.5. Aplicar One-Hot Encoding (pd.get_dummies)
# Esta √© a forma mais simples de transformar texto em colunas num√©ricas
# Usamos 'pd.concat' para garantir que treino e teste tenham
# exatamente as mesmas colunas (caso um valor s√≥ exista em um dos datasets)

# Salva o n√∫mero de linhas do treino para podermos separar depois
num_treino = len(train_df)

# Combina os dataframes
combined_df = pd.concat([train_df, test_df], ignore_index=True)

# Aplica o get_dummies no dataframe combinado
combined_df_processed = pd.get_dummies(combined_df, columns=categorical_cols, drop_first=False)

# Separa de volta em treino e teste
train_df_processed = combined_df_processed.iloc[:num_treino]
test_df_processed = combined_df_processed.iloc[num_treino:]

# Importante: O 'Transported' no test_df_processed ser√° NaN,
# mas n√£o tem problema, pois vamos separar X_test e y_test
# Antes de separar, vamos dropar 'Transported' do test_df_processed
# (pois ele n√£o existe l√°, s√≥ apareceu por causa do concat)
test_df_processed = test_df_processed.drop(columns=['Transported'])
print("Codifica√ß√£o conclu√≠da!")

# --- 8. Verifica√ß√£o P√≥s-Codifica√ß√£o ---
print("\n--- Resumo dos Dados (Treino) AP√ìS codifica√ß√£o ---")
# Agora TODAS as colunas devem ser num√©ricas (int ou float)
train_df_processed.info()

print("\n--- Primeiras linhas (Treino) AP√ìS codifica√ß√£o ---")
# Veja as novas colunas: HomePlanet_Earth, HomePlanet_Europa, etc.
print(train_df_processed.head())


Iniciando codifica√ß√£o de vari√°veis...
Codifica√ß√£o conclu√≠da!

--- Resumo dos Dados (Treino) AP√ìS codifica√ß√£o ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8693 entries, 0 to 8692
Data columns (total 28 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   CryoSleep                  8693 non-null   int64  
 1   Age                        8693 non-null   float64
 2   VIP                        8693 non-null   int64  
 3   RoomService                8693 non-null   float64
 4   FoodCourt                  8693 non-null   float64
 5   ShoppingMall               8693 non-null   float64
 6   Spa                        8693 non-null   float64
 7   VRDeck                     8693 non-null   float64
 8   Transported                8693 non-null   float64
 9   TotalSpend                 8693 non-null   float64
 10  HomePlanet_Earth           8693 non-null   bool   
 11  HomePlanet_Europa          8693 non-n

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# --- 9. Prepara√ß√£o Final dos Dados ---

print("\nPreparando dados para o modelo...")

# 9.1. Definir o Alvo (y) e as Features (X) de Treino
# X_train s√£o todas as colunas de treino, MENOS o alvo ('Transported')
X_train = train_df_processed.drop(columns=['Transported'])
# y_train √© APENAS a coluna alvo ('Transported')
y_train = train_df_processed['Transported']

# 9.2. Definir o X de Teste
# O X_test j√° est√° pronto (ele n√£o tem a coluna 'Transported')
X_test = test_df_processed

print(f"Dimens√µes de X_train: {X_train.shape}")
print(f"Dimens√µes de y_train: {y_train.shape}")
print(f"Dimens√µes de X_test: {X_test.shape}")


# --- 10. Treinamento do Modelo (√Årvore de Decis√£o) ---

print("\nTreinando o modelo DecisionTreeClassifier...")

# 10.1. Criar a inst√¢ncia do modelo
# 'random_state=42' garante que o resultado seja o mesmo toda vez que rodar
model = DecisionTreeClassifier(random_state=42)

# 10.2. Treinar o modelo com TODOS os dados de treino
model.fit(X_train, y_train)

print("Modelo treinado com sucesso!")


# --- 11. Fazer Previs√µes e Criar Submiss√£o ---
print("\nGerando previs√µes para o arquivo de submiss√£o...")
# 11.1. Fazer previs√µes no dataset de teste
predictions_int = model.predict(X_test)

# 11.2. Converter as previs√µes de volta para o formato (True/False)
# O modelo prev√™ 1 (True) e 0 (False), mas o Kaggle quer o texto.
predictions_bool = predictions_int.astype(bool)

# 11.3. Criar o DataFrame de submiss√£o
# Usamos os 'passenger_ids_teste' que guardamos l√° no come√ßo
submission_df = pd.DataFrame({
    'PassengerId': passenger_ids_teste,
    'Transported': predictions_bool
})

# 11.4. Salvar o arquivo .csv
submission_df.to_csv('submission.csv', index=False)

print("\nArquivo 'submission.csv' criado com sucesso!")
print("Voc√™ j√° pode encontr√°-lo no menu lateral (üìÅ) e fazer o download.")

# --- (Opcional) Verificando o arquivo ---
print("\n--- Primeiras linhas do 'submission.csv' ---")
print(submission_df.head())


Preparando dados para o modelo...
Dimens√µes de X_train: (8693, 27)
Dimens√µes de y_train: (8693,)
Dimens√µes de X_test: (4277, 27)

Treinando o modelo DecisionTreeClassifier...
Modelo treinado com sucesso!

Gerando previs√µes para o arquivo de submiss√£o...

Arquivo 'submission.csv' criado com sucesso!
Voc√™ j√° pode encontr√°-lo no menu lateral (üìÅ) e fazer o download.

--- Primeiras linhas do 'submission.csv' ---
  PassengerId  Transported
0     0013_01         True
1     0018_01        False
2     0019_01         True
3     0021_01         True
4     0023_01        False
