## **Projeto de machine learning – Classificação de sobrevivência dos passageiros do Titanic**

### Introdução

O naufrágio do Titanic é um dos naufrágios mais infames da história. 

Em 15 de abril de 1912, durante sua viagem inaugural, o RMS Titanic, amplamente considerado “inafundável”, afundou após colidir com um iceberg. Infelizmente, não havia botes salva-vidas suficientes para todos a bordo, resultando na morte de 1.502 dos 2.224 passageiros e tripulantes. 

Embora houvesse algum elemento de sorte envolvido na sobrevivência, parece que alguns grupos de pessoas tinham maior probabilidade de sobreviver do que outros. 

 

### O desafio

O desafio consiste em construir um modelo de dados com a melhor precisão possível, que consiga classificar se um passageiro irá ou não sobreviver ao naufrágio, utilizando os dados fornecidos. 

O modelo irá apenas responder se o passageiro irá ou não sobreviver, logo trata-se de um problema de classificação binaria. 

Este desafio é baseado no desafio online proposto pelo kaggle (https://www.kaggle.com/c/titanic/overview/evaluation) 


### Utilizando a base da dados titanic.csv

O arquivo titanic.csv contém dados de 887 passageiros reais do Titanic. Cada linha representa uma pessoa. As colunas descrevem diferentes atributos sobre a pessoa, incluindo se ela sobreviveu (Survided), sua classe de passageiros (PClass), seu nome (Name), seu sexo (Sex), sua idade (Age), se haviam irmãos ou esposa/esposo a bordo (Siblings/Spouses Aboard), se haviam pais ou filhos abordo (Parents/Children Aboard) e a tarifa que pagaram para embarcar (Fare).


### Entrega do trabalho

Cada integrante do grupo deverá entregar na tarefa do Teams um arquivo de notebook (.ipynb) contendo todo o código desenvolvido (células de código) e explicações de cada passo dado no projeto (células markdown). Caso algum integrante esqueça de entregar sua cópia do trabalho ele poderá ficar sem nota. Importante: todos os integrantes do grupo devem entregar o mesmo trabalho. 


### Desenvolvimento

Ao menos dois algoritmos diferentes de classificação devem ser testados na tarefa sendo que o modelo deverá ser construído usando o melhor algoritmo. Não se esqueçam da etapa de aperfeiçoamento do modelo após escolher um algoritmo. 


### Grupo

O trabalho será desenvolvido em grupos de 2 até 4 alunos. O nome dos integrantes deve constar numa célula de markdown no início do trabalho. Respeitem os tamanhos dos grupos.



### FAQ 

- **Trabalhos iguais em grupos diferentes :** Zero para ambos os grupos. Cuidado com o que vocês compartilham entre si. 

- **Usei uma IA para fazer os códigos pra mim, por isso ficou igual ao do outro grupo:** Zero para ambos os grupos. Usem as IA (GPT e afins) com responsabilidade. Não sai copiando e colando qualquer coisa que eles respondem... Usem a cabeça... 

- **Segui um tutorial do YouTube, por isso ficou igual ao do outro grupo:** Zero

- **Trabalho encontrado na internet igual ao do grupo:** Zero 

---

### grupo
- Murilo Ramalho da Mata


---
1. Importar bibliotecas
2. Carregar os dados
3. Explorar e limpar os dados
4. Dividir os dados em conjuntos de treinamento e teste
5. Escalar os dados
6. Treinar o modelo
7. Avaliar o modelo
8. Fazer previsões no conjunto de teste
9. Submeter previsões no Kaggle


# Importando as bibliotecas necessárias

In [41]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

### Carregando os Dados
Carregaremos o conjunto de dados `titanic.csv`.


In [42]:
data = pd.read_csv('titanic.csv')

### Explorando os Dados
Vamos fazer uma exploração inicial dos dados para entender sua estrutura.


In [43]:
print(data.head())
print(data.info())
print(data.describe())

   Survived  Pclass                                               Name  \
0         0       3                             Mr. Owen Harris Braund   
1         1       1  Mrs. John Bradley (Florence Briggs Thayer) Cum...   
2         1       3                              Miss. Laina Heikkinen   
3         1       1        Mrs. Jacques Heath (Lily May Peel) Futrelle   
4         0       3                            Mr. William Henry Allen   

      Sex   Age  Siblings/Spouses Aboard  Parents/Children Aboard     Fare  
0    male  22.0                        1                        0   7.2500  
1  female  38.0                        1                        0  71.2833  
2  female  26.0                        0                        0   7.9250  
3  female  35.0                        1                        0  53.1000  
4    male  35.0                        0                        0   8.0500  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 887 entries, 0 to 886
Data columns (total 8

### Verificando Dados Faltantes
Vamos verificar se existem dados faltantes no conjunto de dados.


In [44]:
print(data.isnull().sum())

Survived                   0
Pclass                     0
Name                       0
Sex                        0
Age                        0
Siblings/Spouses Aboard    0
Parents/Children Aboard    0
Fare                       0
dtype: int64


### Preenchendo Valores Nulos
Preencheremos os valores nulos na coluna `Age`, Preenchendo valores nulos para a coluna 'Age' com a mediana


In [45]:
data['Age'].fillna(data['Age'].median(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Age'].fillna(data['Age'].median(), inplace=True)


### Convertendo Variáveis Categóricas
Converteremos a variável categórica `Sex` em variáveis dummy.


In [46]:
data = pd.get_dummies(data, columns=['Sex'], drop_first=True)

### Removendo Colunas Não Numéricas
Removeremos a coluna `Name`, pois ela não é relevante para a previsão.

In [47]:
data.drop('Name', axis=1, inplace=True)

### Separando os Dados em Características e Alvo
Separaremos os dados em características (`X`) e alvo (`y`).


In [48]:
X = data.drop('Survived', axis=1)
y = data['Survived']

### Dividindo os Dados
Dividiremos os dados em conjuntos de treinamento e validação.


In [49]:
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

### Escalando os Dados
Usaremos o `StandardScaler` para normalizar os dados.


In [50]:
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_val = scaler.transform(X_val)

### Treinando os Modelos
Utilizaremos `RandomForestClassifier` e `LogisticRegression` para treinar os modelos nos dados de treinamento.


In [51]:
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

lr_model = LogisticRegression(random_state=42, max_iter=1000)
lr_model.fit(X_train, y_train)

### Avaliando os Modelos
Calcularemos a precisão, matriz de confusão e relatório de classificação para avaliar a performance dos modelos.

In [52]:
rf_y_pred = rf_model.predict(X_val)
print("Random Forest Classifier:")
print(f"Accuracy: {accuracy_score(y_val, rf_y_pred)}")
print(confusion_matrix(y_val, rf_y_pred))
print(classification_report(y_val, rf_y_pred))

lr_y_pred = lr_model.predict(X_val)
print("Logistic Regression:")
print(f"Accuracy: {accuracy_score(y_val, lr_y_pred)}")
print(confusion_matrix(y_val, lr_y_pred))
print(classification_report(y_val, lr_y_pred))

Random Forest Classifier:
Accuracy: 0.7752808988764045
[[91 20]
 [20 47]]
              precision    recall  f1-score   support

           0       0.82      0.82      0.82       111
           1       0.70      0.70      0.70        67

    accuracy                           0.78       178
   macro avg       0.76      0.76      0.76       178
weighted avg       0.78      0.78      0.78       178

Logistic Regression:
Accuracy: 0.7471910112359551
[[96 15]
 [30 37]]
              precision    recall  f1-score   support

           0       0.76      0.86      0.81       111
           1       0.71      0.55      0.62        67

    accuracy                           0.75       178
   macro avg       0.74      0.71      0.72       178
weighted avg       0.74      0.75      0.74       178



### Avaliando os Modelos
Calcularemos a precisão, matriz de confusão e relatório de classificação para avaliar a performance dos modelos.


In [53]:
rf_y_pred = rf_model.predict(X_val)
rf_accuracy = accuracy_score(y_val, rf_y_pred)
print("Random Forest Classifier:")
print(f"Accuracy: {rf_accuracy * 100:.2f}%")
print(confusion_matrix(y_val, rf_y_pred))
print(classification_report(y_val, rf_y_pred))

lr_y_pred = lr_model.predict(X_val)
lr_accuracy = accuracy_score(y_val, lr_y_pred)
print("Logistic Regression:")
print(f"Accuracy: {lr_accuracy * 100:.2f}%")
print(confusion_matrix(y_val, lr_y_pred))
print(classification_report(y_val, lr_y_pred))

Random Forest Classifier:
Accuracy: 77.53%
[[91 20]
 [20 47]]
              precision    recall  f1-score   support

           0       0.82      0.82      0.82       111
           1       0.70      0.70      0.70        67

    accuracy                           0.78       178
   macro avg       0.76      0.76      0.76       178
weighted avg       0.78      0.78      0.78       178

Logistic Regression:
Accuracy: 74.72%
[[96 15]
 [30 37]]
              precision    recall  f1-score   support

           0       0.76      0.86      0.81       111
           1       0.71      0.55      0.62        67

    accuracy                           0.75       178
   macro avg       0.74      0.71      0.72       178
weighted avg       0.74      0.75      0.74       178



### Fazendo Previsões
Utilizaremos o modelo com melhor desempenho para fazer previsões nos dados de validação.

In [54]:
best_model = rf_model if rf_accuracy > lr_accuracy else lr_model
best_model_name = 'Random Forest Classifier' if rf_accuracy > lr_accuracy else 'Logistic Regression'
predictions = best_model.predict(X_val)

print(f"O modelo com melhor desempenho é: {best_model_name}")
print(f"Porcentagem de acerto do Random Forest Classifier: {rf_accuracy * 100:.2f}%")
print(f"Porcentagem de acerto do Logistic Regression: {lr_accuracy * 100:.2f}%")
print(f"Porcentagem de acerto do melhor modelo: {max(rf_accuracy, lr_accuracy) * 100:.2f}%")

O modelo com melhor desempenho é: Random Forest Classifier
Porcentagem de acerto do Random Forest Classifier: 77.53%
Porcentagem de acerto do Logistic Regression: 74.72%
Porcentagem de acerto do melhor modelo: 77.53%


### Conclusão
Seguindo esses passos, construímos um pipeline completo de machine learning para prever a sobrevivência dos passageiros do Titanic, utilizando dois modelos diferentes para comparação. Experimente diferentes modelos, ajuste hiperparâmetros e realize validações mais robustas para melhorar a performance do seu modelo.