# Resolução Titanic com Regressão Logística

Com explicação em detalhes do código e as decisões tomadas em cada etapa:

1.  Importar bibliotecas:

In [29]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

Essas bibliotecas são necessárias para carregar e manipular os dados, dividir os dados em conjuntos de treinamento e validação, criar e treinar o modelo de Regressão Logística e avaliar a precisão do modelo.


2.  Carregar os dados de treinamento e teste:


In [30]:
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')
test_ids = test_data["PassengerId"]

Essa parte do código lê os arquivos CSV do Titanic (train.csv e test.csv) e os armazena em dataframes (train_data e test_data) usando a biblioteca Pandas.
Também criamos a variável "test_ids" para armazenar os IDs dos passageiros e podermos usar mais tarde, visto que a coluna "PassengerId" será "dropada" do dataset de teste.


3.  Pré-processamento dos dados:

In [31]:
def preprocess_data(df):
    # Preencher valores ausentes
    df['Age'].fillna(df['Age'].median(), inplace=True)
    df['Fare'].fillna(df['Fare'].median(), inplace=True)
    df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)

    # Codificar variáveis categóricas
    df = pd.get_dummies(df, columns=['Sex', 'Embarked'])

    # Descartar colunas irrelevantes
    df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

    return df


# Pré-processar dados de treinamento e teste
train_data = preprocess_data(train_data)
test_data = preprocess_data(test_data)

Essa função de pré-processamento é aplicada tanto aos dados de treinamento quanto aos dados de teste. As seguintes etapas são realizadas:

-   Preencher valores ausentes: O código preenche os valores ausentes na coluna 'Age' e 'Fare' com a mediana dos valores existentes. Na coluna 'Embarked', os valores ausentes são preenchidos com o valor mais frequente (o modo) da coluna.

-   Codificar variáveis categóricas: O código utiliza a função `pd.get_dummies` para criar colunas dummy (binárias) para as variáveis categóricas 'Sex' e 'Embarked'. Isso é necessário porque a maioria dos algoritmos de aprendizado de máquina não podem lidar diretamente com variáveis categóricas. A codificação one-hot cria colunas separadas para cada categoria, indicando a presença ou ausência da categoria.

-   Descartar colunas irrelevantes: O código remove as colunas 'PassengerId', 'Name', 'Ticket' e 'Cabin', que são consideradas irrelevantes para a previsão de sobrevivência.


4.  Dividir dados de treinamento em recursos (X) e alvo (y):

In [32]:
X = train_data.drop('Survived', axis=1)
y = train_data['Survived']

Nessa etapa, os dados de treinamento são divididos em recursos (X) e alvo (y). Os recursos são todas as colunas, exceto 'Survived', e o alvo é a coluna 'Survived' que indica se o passageiro sobreviveu ou não.


5.  Dividir dados em conjunto de treinamento e conjunto de validação:

In [33]:
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

Nessa etapa, os dados de treinamento são divididos em um conjunto de treinamento e um conjunto de validação para avaliar o desempenho do modelo.

-   `X_train` e `y_train` são os conjuntos de treinamento que serão usados para treinar o modelo.
-   `X_val` e `y_val` são os conjuntos de validação que serão usados para avaliar o desempenho do modelo.

O parâmetro `test_size=0.2` indica que 20% dos dados serão usados para validação, enquanto 80% serão usados para treinamento. O parâmetro `random_state=42` define uma semente aleatória para garantir que a divisão dos dados seja reproduzível.


6.  Criar e treinar o modelo de Regressão Logística:

In [34]:
model = LogisticRegression(random_state=0, max_iter=1000)
model.fit(X_train, y_train)

Nessa etapa, um objeto `LogisticRegression` é criado e treinado usando os conjuntos de treinamento. O modelo de Regressão Logística é escolhido como o algoritmo de aprendizado de máquina neste exemplo. Esse modelo é amplamente utilizado para problemas de classificação binária, como prever a sobrevivência no caso do Titanic.


7.  Fazer previsões no conjunto de validação e avaliar a precisão do modelo:

In [35]:
y_pred = model.predict(X_val)
accuracy = accuracy_score(y_val, y_pred)
print(f"Acurácia do modelo: {accuracy}")

Acurácia do modelo: 0.8100558659217877


Nessa etapa, o modelo treinado é usado para fazer previsões no conjunto de validação (`X_val`). As previsões resultantes são comparadas com os rótulos reais (`y_val`) para calcular a acurácia do modelo. A acurácia é uma métrica comum usada para avaliar o desempenho de modelos de classificação e representa a porcentagem de previsões corretas em relação ao total de previsões.


8.  Fazer previsões nos dados de teste:

In [36]:
test_pred = model.predict(test_data)

Após treinar e avaliar o modelo, é hora de usá-lo para fazer previsões nos dados de teste (`test_data`).

9.  Criar DataFrame com as previsões e salvar em arquivo CSV:

In [37]:
submission = pd.DataFrame({
    'PassengerId': test_ids.values,
    'Survived': test_pred
})
submission.to_csv('submission.csv', index=False)

Nessa etapa, é criado um DataFrame chamado submission contendo as previsões feitas pelo modelo nos dados de teste. O DataFrame possui duas colunas: 'PassengerId', que contém os IDs dos passageiros, e 'Survived', que contém as previsões de sobrevivência para cada passageiro. Em seguida, o DataFrame é salvo em um arquivo CSV chamado 'submission.csv' para ser submetido no Kaggle.

Essas são as principais etapas do código fornecido, que abrange desde o pré-processamento dos dados até a criação, treinamento e avaliação do modelo, bem como a geração das previsões finais e a criação do arquivo de submissão para o desafio do Titanic no Kaggle.