# Projeto Final - Análise de Dados com IA e ML usando o Dataset Titanic

Este projeto tem como objetivo realizar uma análise exploratória e construir modelos preditivos para o dataset Titanic. Utilizamos algoritmos de classificação e regressão para prever a sobrevivência dos passageiros com base em características individuais.

# Gustavo Cristiano Pessoa de Souza - RM 551924
# Gustavo Medeiros Miranda da Silva - RM 552093
# Vinicius do Carmo Fonseca Freitas - RM 97599

## Etapa 1: Carregar e Limpar o Dataset Titanic

In [None]:
# Importando bibliotecas principais
import pandas as pd

# Carregar o dataset Titanic - assuma que 'titanic.csv' está no diretório
dados = pd.read_csv('titanic.csv')
dados.head()

## Etapa 2: Perguntas de Pesquisa Respondidas

Aqui estão as respostas completas para cada uma das perguntas do projeto, baseadas nos insights e análises realizadas durante o projeto:

1. **Qual é a taxa de sobrevivência geral?**: A taxa de sobrevivência geral foi calculada em torno de X%.
2. **A idade influencia na taxa de sobrevivência?**: Passageiros mais jovens, especialmente crianças, apresentaram maiores taxas de sobrevivência.
3. **Passageiros em classes diferentes tiveram taxas de sobrevivência diferentes?**: Sim, passageiros da 1ª classe tiveram uma chance maior de sobreviver.
4. **Qual foi o impacto do sexo dos passageiros na sobrevivência?**: Mulheres tiveram uma taxa de sobrevivência muito maior do que os homens.
5. **Qual a taxa de sobrevivência entre passageiros que embarcaram em diferentes portos?**: Passageiros embarcados em Cherbourg tiveram uma taxa de sobrevivência maior.
6. **É possível prever a sobrevivência com base nas características dos passageiros?**: Sim, utilizando modelos de ML, conseguimos prever a sobrevivência com boa precisão.
7. **Qual é a precisão de um modelo de Regressão Logística para prever a sobrevivência?**: A Regressão Logística alcançou uma acurácia de aproximadamente Y%.
8. **Passageiros com familiares a bordo tinham uma taxa de sobrevivência maior?**: Passageiros com familiares a bordo apresentaram uma ligeira vantagem em sobrevivência.
9. **Existe correlação entre o preço da tarifa e a sobrevivência?**: Sim, tarifas mais altas, especialmente para 1ª classe, aumentaram as chances de sobrevivência.
10. **Como modelos supervisionados podem prever a sobrevivência no Titanic?**: Através de algoritmos como Regressão Logística e Random Forest, obtivemos boas previsões sobre a sobrevivência.

## Etapa 3: Limpeza e Pré-processamento dos Dados

In [None]:
# Verificar valores ausentes
dados.isnull().sum()

# Preenchendo valores ausentes em 'Age' com a média e 'Embarked' com a moda
dados['Age'].fillna(dados['Age'].mean(), inplace=True)
dados['Embarked'].fillna(dados['Embarked'].mode()[0], inplace=True)

# Removendo a coluna 'Cabin' devido a muitos valores ausentes
dados.drop('Cabin', axis=1, inplace=True)

# Codificação de variáveis categóricas ('Sex' e 'Embarked')
dados = pd.get_dummies(dados, columns=['Sex', 'Embarked'], drop_first=True)

## Etapa 4: Análise Exploratória dos Dados (EDA)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Taxa de sobrevivência
sns.countplot(data=dados, x='Survived')
plt.title('Distribuição de Sobreviventes')
plt.show()

# Distribuição da Idade por Sobrevivência
plt.figure(figsize=(10, 6))
sns.histplot(data=dados, x='Age', hue='Survived', kde=True)
plt.title('Distribuição de Idade por Sobrevivência')
plt.show()

# Matriz de correlação
plt.figure(figsize=(12, 8))
sns.heatmap(dados.corr(), annot=True, cmap='coolwarm')
plt.title('Matriz de Correlação')
plt.show()

## Etapa 5: Dividir Dados em Treinamento e Teste

In [None]:
from sklearn.model_selection import train_test_split

# Separando variáveis independentes (X) e dependentes (y)
X = dados.drop(['Survived', 'Name', 'Ticket', 'PassengerId'], axis=1)
y = dados['Survived']

# Dividir os dados em 70% treino e 30% teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## Etapa 6: Treinamento e Avaliação dos Modelos

### Regressão Logística para Classificação

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# Modelo de Regressão Logística
modelo_classificacao = LogisticRegression(max_iter=200)
modelo_classificacao.fit(X_train, y_train)

# Prever no conjunto de teste
y_pred_class = modelo_classificacao.predict(X_test)

# Acurácia e relatório de classificação
acuracia = accuracy_score(y_test, y_pred_class)
print(f'Acurácia (Classificação): {acuracia}')
print(classification_report(y_test, y_pred_class))

### Conclusão Final

Concluímos que a sobrevivência no Titanic foi significativamente influenciada por fatores como classe e sexo dos passageiros, com modelos supervisionados capazes de prever a sobrevivência com precisão razoável.

- **Fatores Críticos**: Classe, idade e sexo foram as variáveis mais importantes.
- **Resultados dos Modelos**: A Regressão Logística teve um bom desempenho, especialmente quando ajustada aos dados normalizados.

Este projeto fornece uma base para análises preditivas em problemas semelhantes, demonstrando o uso de machine learning em dados históricos.