# Resolução Titanic com Random Forest

Explicação em detalhes do código e as decisões tomadas em cada etapa:

1.  Importar bibliotecas:

In [11]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

Essas bibliotecas são necessárias para carregar e manipular os dados, dividir os dados em conjuntos de treinamento e validação, criar e treinar o modelo Random Forest e avaliar a precisão do modelo.


2.  Carregar os dados de treinamento e teste:

In [12]:
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')
test_ids = test_data["PassengerId"]

Essa parte do código lê os arquivos CSV do Titanic (train.csv e test.csv) e os armazena em dataframes (train_data e test_data) usando a biblioteca Pandas.
Também criamos a variável "test_ids" para armazenar os IDs dos passageiros e podermos usar mais tarde, visto que a coluna "PassengerId" será "dropada" do dataset de teste.


3.  Pré-processamento dos dados:

In [13]:
def preprocess_data(df):
    # Preencher valores ausentes
    df['Age'].fillna(df['Age'].median(), inplace=True)
    df['Fare'].fillna(df['Fare'].median(), inplace=True)
    df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)

    # Codificar variáveis categóricas
    df = pd.get_dummies(df, columns=['Sex', 'Embarked'])

    # Descartar colunas irrelevantes
    df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

    return df

# Pré-processar dados de treinamento e teste
train_data = preprocess_data(train_data)
test_data = preprocess_data(test_data)

Essa função de pré-processamento é aplicada tanto aos dados de treinamento quanto aos dados de teste. As seguintes etapas são realizadas:

-   Preencher valores ausentes: O código preenche os valores ausentes na coluna 'Age' e 'Fare' com a mediana dos valores existentes. Na coluna 'Embarked', os valores ausentes são preenchidos com o valor mais frequente (o modo) da coluna.

-   Codificar variáveis categóricas: O código utiliza a função `pd.get_dummies` para criar colunas dummy (binárias) para as variáveis categóricas 'Sex' e 'Embarked'. Isso é necessário porque a maioria dos algoritmos de aprendizado de máquina não podem lidar diretamente com variáveis categóricas. A codificação one-hot cria colunas separadas para cada categoria, indicando a presença ou ausência da categoria.

-   Descartar colunas irrelevantes: O código remove as colunas 'PassengerId', 'Name', 'Ticket' e 'Cabin', que são consideradas irrelevantes para a previsão de sobrevivência.


4.  Dividir dados de treinamento em recursos (X) e alvo (y):

In [14]:
X = train_data.drop('Survived', axis=1)
y = train_data['Survived']

Nessa etapa, os dados de treinamento são divididos em recursos (X) e alvo (y), da mesma forma que no exemplo anterior. Os recursos são todas as colunas, exceto 'Survived', e o alvo é a coluna 'Survived', que indica se o passageiro sobreviveu ou não.


5.  Dividir dados em conjunto de treinamento e conjunto de validação:

In [15]:
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

Essa etapa divide os dados de treinamento em um conjunto de treinamento e um conjunto de validação para avaliar o desempenho do modelo, usando a função `train_test_split` do scikit-learn. A divisão é feita da mesma forma que no exemplo anterior, onde 80% dos dados são usados para treinamento e 20% para validação, com uma semente aleatória definida como 42 para garantir a reprodutibilidade.


6.  Criar e treinar o modelo Random Forest:

In [16]:
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

Nessa etapa, um objeto `RandomForestClassifier` é criado e treinado usando os conjuntos de treinamento. O modelo Random Forest é escolhido como o algoritmo de aprendizado de máquina neste exemplo. O parâmetro `n_estimators` define o número de árvores no modelo (definido como 100 neste caso). O parâmetro `random_state` define uma semente aleatória para garantir a reprodutibilidade.


7.  Fazer previsões no conjunto de validação e avaliar a precisão do modelo:

In [17]:
y_pred = model.predict(X_val)
accuracy = accuracy_score(y_val, y_pred)
print(f"Acurácia do modelo: {accuracy}")

Acurácia do modelo: 0.8044692737430168


Nessa etapa, o modelo treinado é usado para fazer previsões no conjunto de validação (`X_val`). As previsões resultantes são comparadas com os rótulos reais (`y_val`) para calcular a acurácia do modelo. A acurácia é uma métrica comum usada para avaliar o desempenho de modelos de classificação e representa a porcentagem de previsões corretas em relação ao total de previsões.


8.  Fazer previsões nos dados de teste:

In [18]:
test_pred = model.predict(test_data)

Após treinar e avaliar o modelo, é hora de usá-lo para fazer previsões nos dados de teste (`test_data`). Essas previsões serão usadas para criar o arquivo de submissão final.


9.  Criar DataFrame com as previsões e salvar em arquivo CSV:

In [19]:
submission = pd.DataFrame({
    'PassengerId': test_ids.values,
    'Survived': test_pred
})
submission.to_csv('submission_2.csv', index=False)

Nessa etapa, é criado um DataFrame chamado `submission` contendo as previsões feitas pelo modelo nos dados de teste. O DataFrame possui duas colunas: 'PassengerId', que contém os IDs dos passageiros, e 'Survived', que contém as previsões de sobrevivência para cada passageiro. Em seguida, o DataFrame é salvo em um arquivo CSV chamado 'submission.csv' para ser submetido no Kaggle.

Essas são as principais etapas do código usando o método Random Forest no problema do Titanic. O Random Forest é um algoritmo de aprendizado de máquina poderoso que utiliza um conjunto de árvores de decisão para realizar previsões. Ele é capaz de capturar relações complexas nos dados e geralmente produz bons resultados em problemas de classificação.