# Desafio: Regressão Logística no Conjunto de Dados do Titanic

Neste desafio, você fará a transição de modelar tarefas de regressão para uma tarefa de classificação usando regressão logística. Você trabalhará com o famoso conjunto de dados do Titanic, que contém informações sobre passageiros e se eles sobreviveram ou não.

**Instruções:**

1. Abra o arquivo Jupyter Notebook chamado "Regressao_Logistica.ipynb".
    
2. Siga as instruções passo a passo fornecidas no notebook para:
    
    * Carregar e explorar o conjunto de dados do Titanic.
    * Pré-processar os dados, incluindo o tratamento de valores ausentes e a codificação de variáveis categóricas.
    * Dividir os dados em um conjunto de treinamento e um conjunto de teste.
    * Construir e treinar um modelo de regressão logística para prever a sobrevivência dos passageiros.
    * Avaliar o desempenho do modelo usando métricas relevantes de classificação.
    * Fazer previsões em novos dados usando o modelo treinado.
3. Ao longo do caminho, você ganhará insights sobre regressão logística, tarefas de classificação e técnicas práticas de pré-processamento de dados.
    
4. Complete quaisquer desafios de programação e responda às perguntas apresentadas no notebook.
    
5. Sinta-se à vontade para experimentar com diferentes parâmetros, engenharia de recursos ou melhorias no modelo para aprimorar seu entendimento.
    

Ao concluir este desafio, você terá uma melhor compreensão da regressão logística e de como aplicá-la a problemas de classificação do mundo real. Divirta-se explorando o conjunto de dados do Titanic e construindo seu modelo de classificação!

# Resolução

Aqui estão os passos para resolver o desafio:

1. Importe as bibliotecas necessárias no Jupyter Notebook:

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

2. Carregue o conjunto de dados do Titanic:

In [2]:
# Carregue o conjunto de dados do Titanic
titanic_data = pd.read_csv("assets/titanic.csv")
titanic_data.head(2)

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,1


3. Explore e pré-processe os dados:
    
    * Visualize informações básicas sobre os dados.
    * Lide com valores ausentes.
    * Encode variáveis categóricas.
    * Selecione as características relevantes para o modelo.

4. Divida os dados em conjuntos de treinamento e teste, depois de tratar:

In [3]:
# Preencha os valores ausentes com algum valor (por exemplo, zero)
titanic_data.fillna(0, inplace=True)

# Separe o conjunto de dados em recursos (X) e o alvo (y)
X = titanic_data[['PassengerId']]
y = titanic_data['Survived']

# Divida os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

5. Construa e treine o modelo de regressão logística:

In [4]:
# Crie e treine o modelo de regressão logística
model = LogisticRegression()
model.fit(X_train, y_train)

# Faça previsões no conjunto de teste
y_pred = model.predict(X_test)

6. Avalie o desempenho do modelo:


In [5]:
# Avalie o desempenho do modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia do modelo: {accuracy * 100:.2f}%')

Acurácia do modelo: 59.52%
