In [1]:
import pandas as pd

# Dados de teste fornecidos pelo Kaggle
test_df = pd.read_csv('../data/raw/test.csv')
test_df.head()


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


📝 Explicação:
Esse é o arquivo test.csv do Kaggle, que não contém a coluna "Survived" — nosso modelo deve prever isso com base nas outras colunas.

In [2]:
# Salvando o PassengerId, que será necessário para o submission.csv
passenger_ids = test_df['PassengerId']

# Removendo colunas não utilizadas
test_df.drop(['Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

# Tratando valores nulos
test_df['Age'].fillna(test_df['Age'].median(), inplace=True)
test_df['Fare'].fillna(test_df['Fare'].median(), inplace=True)
test_df['Embarked'].fillna(test_df['Embarked'].mode()[0], inplace=True)

# Convertendo para numérico
test_df['Sex'] = test_df['Sex'].map({'male': 0, 'female': 1})
test_df['Embarked'] = test_df['Embarked'].map({'S': 0, 'C': 1, 'Q': 2})


In [3]:
X_submission = test_df.drop('PassengerId', axis=1)


📝 Explicação:
Aqui garantimos que as features de entrada sejam as mesmas usadas no modelo.

In [4]:
from sklearn.ensemble import RandomForestClassifier

# Recarregar dados de treino
train_df = pd.read_csv('../data/raw/train.csv')

# Mesmo pré-processamento do treino
train_df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)
train_df['Age'].fillna(train_df['Age'].median(), inplace=True)
train_df['Embarked'].fillna(train_df['Embarked'].mode()[0], inplace=True)
train_df['Sex'] = train_df['Sex'].map({'male': 0, 'female': 1})
train_df['Embarked'] = train_df['Embarked'].map({'S': 0, 'C': 1, 'Q': 2})

X_final = train_df.drop('Survived', axis=1)
y_final = train_df['Survived']

# Treinando Random Forest com todos os dados
final_model = RandomForestClassifier(random_state=42)
final_model.fit(X_final, y_final)


RandomForestClassifier(random_state=42)

In [6]:
import os

# Criar a pasta se não existir
os.makedirs('../data/processed', exist_ok=True)

# Agora salva normalmente
submission.to_csv('../data/processed/submission.csv', index=False)


📝 Explicação:
os.makedirs(..., exist_ok=True) cria a pasta, e não dá erro se ela já existir.

Isso garante que o caminho de destino está pronto para o arquivo ser salvo.

In [7]:
pd.read_csv('../data/processed/submission.csv').head()


Unnamed: 0,PassengerId,Survived
0,892,0
1,893,0
2,894,0
3,895,1
4,896,0


In [8]:
import os

os.path.exists('../data/processed/submission.csv')


True

In [9]:
submission = pd.read_csv('../data/processed/submission.csv')
submission.head()


Unnamed: 0,PassengerId,Survived
0,892,0
1,893,0
2,894,0
3,895,1
4,896,0


## ✅ Verificando o arquivo de submissão

Após salvar o arquivo `submission.csv`, é importante garantir que:

- O arquivo foi realmente criado no caminho correto.
- O arquivo contém os dados no formato esperado.
- Podemos visualizar uma prévia para conferir.

Para isso, usamos:

```python
import os

# Verificar se o arquivo existe
os.path.exists('../data/processed/submission.csv')


In [10]:
import pandas as pd

submission = pd.read_csv('../data/processed/submission.csv')
submission.head()


Unnamed: 0,PassengerId,Survived
0,892,0
1,893,0
2,894,0
3,895,1
4,896,0


## ✅ Verificação do arquivo de submissão

Após salvar o arquivo `submission.csv`, é importante confirmar que:

- O arquivo foi criado na pasta correta.
- O arquivo contém os dados no formato esperado.
- Podemos visualizar uma prévia dos dados.

---

```python
import os
import pandas as pd

# Verificar se o arquivo existe
file_path = '../data/processed/submission.csv'
if os.path.exists(file_path):
    print(f"Arquivo '{file_path}' encontrado com sucesso!")
    # Carregar e mostrar as primeiras linhas
    submission = pd.read_csv(file_path)
    display(submission.head())
else:
    print(f"Arquivo '{file_path}' NÃO encontrado. Verifique o caminho e tente novamente.")
