# Análise de Sobrevivência no Titanic — Machine Learning from Disaster

Este notebook tem como objetivo analisar o conjunto de dados **Titanic: Machine Learning from Disaster** (Kaggle) e desenvolver **modelos preditivos de sobrevivência** baseados em informações dos passageiros.  
O projeto segue as etapas clássicas de um fluxo de *machine learning supervisionado*, envolvendo **limpeza dos dados**, **engenharia de atributos**, **modelagem preditiva** e **avaliação de desempenho**.

---

##  Etapa 1 — Limpeza e Pré-Processamento

Nesta fase, o notebook realiza o **tratamento dos dados brutos**, preparando o conjunto para os modelos de aprendizado.  
As principais ações incluídas foram:

- Remoção de colunas com grande quantidade de valores ausentes, como `Cabin`.  
- Tratamento de valores faltantes em `Age` e `Embarked`.  
- Conversão de variáveis categóricas (`Sex`, `Embarked`) em formato numérico.  
- Normalização e padronização de variáveis numéricas relevantes.  

Essas etapas asseguram que os dados estejam consistentes e prontos para o processo de modelagem.

---

##  Etapa 2 — Engenharia de Features

O notebook aplica **técnicas de engenharia de atributos** para melhorar a qualidade dos dados e potencializar o desempenho dos modelos.  
Entre as transformações realizadas, destacam-se:

- Criação de novas variáveis derivadas das originais.  
- Combinação de colunas que representam familiares a bordo (`SibSp`, `Parch`) para indicar o **tamanho da família**.  
- Conversão da variável de destino `Survived` em formato binário (0 e 1).  

O objetivo desta etapa é **extrair padrões ocultos** e gerar representações mais informativas para o modelo de classificação.

---

##  Etapa 3 — Modelagem Preditiva

Diversos algoritmos supervisionados foram testados para prever a sobrevivência dos passageiros, incluindo:

- **Logistic Regression**  
- **Decision Tree**  
- **Random Forest**  
- **Gradient Boosting**  
- **SVM (Support Vector Machine)**  

O notebook utiliza bibliotecas do **Scikit-learn** para:
- Dividir os dados em treino e teste (`train_test_split`).  
- Treinar e validar cada modelo.  
- Aplicar **validação cruzada (cross-validation)** para verificar a robustez dos resultados.  

---

##  Etapa 4 — Avaliação dos Modelos

O desempenho dos modelos é comparado por meio de diversas métricas de classificação:

- **Acurácia**  
- **Precisão**  
- **Recall**  
- **F1-Score**  
- **Matriz de Confusão**  
- **Relatório de Classificação**

Os resultados permitem identificar o algoritmo com **melhor desempenho geral** e avaliar o equilíbrio entre previsões corretas e incorretas.

---

##  Resultados Obtidos

A análise mostrou que:
- Modelos de **ensemble**, como **Random Forest** e **Gradient Boosting**, apresentaram **melhor desempenho geral**.  
- A **Regressão Logística** obteve boa performance e é útil pela sua **interpretação direta dos coeficientes**.  
- A taxa média de acerto (acurácia) ficou **acima de 75%** com o modelo logístico básico.  

Esses resultados indicam que o **perfil socioeconômico e demográfico** (classe, sexo e idade) foi determinante para as chances de sobrevivência.

---

##  Conclusão

O notebook demonstra, de forma prática, como aplicar **técnicas de machine learning supervisionado** a um conjunto de dados clássico.  
A sequência de **limpeza → transformação → modelagem → avaliação** mostra-se eficaz para prever a sobrevivência no Titanic.

O trabalho reforça a importância do **pré-processamento de dados**, da **engenharia de features** e da **comparação entre diferentes algoritmos** para alcançar modelos preditivos mais robustos e confiáveis.

---


In [92]:
# Importação de bibliotecas
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.model_selection import GridSearchCV

In [93]:
# Carregar dados
train = pd.read_csv('/content/train.csv')
test = pd.read_csv('/content/test.csv')

In [94]:
# Visualização
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#Limpeza e pré processamento

In [95]:
# Informações gerais
print("INFORMAÇÕES GERAIS")
print(train.info())
print('\n')

# Verificando valores duplicados
print('Valores duplicados: ', train.duplicated().sum())
print('\n')

# Verificação de tipos de dados
print('Tipos de dados:\n\n', train.dtypes)
print('\n')

INFORMAÇÕES GERAIS
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


Valores duplicados:  0


Tipos de dados:

 PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch         

In [96]:
# Verificando dados nulos
print('Valores nulos encontrados:\n\n', train.isnull().sum())
print('\n')

# Preenchendo Idades nulas com as medias de idades
train['Age'] = train['Age'].fillna(train['Age'].mean())
test['Age'] = test['Age'].fillna(test['Age'].mean())

# Preenchendo cabin nulas 'Não possui cabine'
train['Cabin'] = train['Cabin'].fillna('Não possui cabine')
test['Cabin'] = test['Cabin'].fillna('Não possui cabine')

# Verificando dados nulos
print('Verificando dados nulos:\n\n', train.isnull().sum())
print('\n')

Valores nulos encontrados:

 PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


Verificando dados nulos:

 PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       2
dtype: int64




In [97]:
# Preencher os valores 'Embarcados' faltantes no trem com o valor mais frequente
most_frequent_embarked = train['Embarked'].mode()[0]
train['Embarked'] = train['Embarked'].fillna(most_frequent_embarked)

# Preencha os valores 'Tarifa' ausentes no teste com o valor médio
mean_fare = test['Fare'].mean()
test['Fare'] = test['Fare'].fillna(mean_fare)

# Converter 'Sexo' em variáveis ​​fictícias
train = pd.get_dummies(train, columns=['Sex'], drop_first=True)
test = pd.get_dummies(test, columns=['Sex'], drop_first=True)

# Engenharia de features
Crie novas features a partir das existentes que possam ser relevantes para o modelo (por exemplo, título do nome, tamanho da família, etc.).

In [98]:
# Crie o recurso FamilySize
train['FamilySize'] = train['SibSp'] + train['Parch'] + 1
test['FamilySize'] = test['SibSp'] + test['Parch'] + 1

# Criar recurso IsAlone
train['IsAlone'] = (train['FamilySize'] == 1).astype(int)
test['IsAlone'] = (test['FamilySize'] == 1).astype(int)

# Extrair título do nome
train['Title'] = train['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)
test['Title'] = test['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)

# Agrupar títulos
for df in [train, test]:
    df['Title'] = df['Title'].replace(['Lady', 'Countess', 'Capt', 'Col', 'Don', 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare')
    df['Title'] = df['Title'].replace('Mlle', 'Miss')
    df['Title'] = df['Title'].replace('Ms', 'Miss')
    df['Title'] = df['Title'].replace('Mme', 'Mrs')

# Converter 'Título' em variáveis
train = pd.get_dummies(train, columns=['Title'], prefix='Title')
test = pd.get_dummies(test, columns=['Title'], prefix='Title')

# Converter 'Embarked' em variáveis
train = pd.get_dummies(train, columns=['Embarked'], prefix='Embarked')
test = pd.get_dummies(test, columns=['Embarked'], prefix='Embarked')

# Converter 'Pclass' em variável
train = pd.get_dummies(train, columns=['Pclass'], prefix='Pclass')
test = pd.get_dummies(test, columns=['Pclass'], prefix='Pclass')

# Eliminar colunas originais
drop_cols = ['Name', 'SibSp', 'Parch', 'Ticket', 'Cabin']
train = train.drop(columns=drop_cols + ['PassengerId'])
test = test.drop(columns=drop_cols)

# Verifique os valores nulos restantes
print("Valores nulos restantes no Train DataFrame:")
print(train.isnull().sum())

print("\nValores nulos restantes no DataFrame de teste:")
print(test.isnull().sum())

# Exibir as primeiras linhas dos dataframes transformados
print("\nTrain DataFrame após engenharia de recursos e pré-processamento:")
display(train.head())

print("\nTeste o DataFrame após engenharia de recursos e pré-processamento:")
display(test.head())

Valores nulos restantes no Train DataFrame:
Survived        0
Age             0
Fare            0
Sex_male        0
FamilySize      0
IsAlone         0
Title_Master    0
Title_Miss      0
Title_Mr        0
Title_Mrs       0
Title_Rare      0
Embarked_C      0
Embarked_Q      0
Embarked_S      0
Pclass_1        0
Pclass_2        0
Pclass_3        0
dtype: int64

Valores nulos restantes no DataFrame de teste:
PassengerId     0
Age             0
Fare            0
Sex_male        0
FamilySize      0
IsAlone         0
Title_Master    0
Title_Miss      0
Title_Mr        0
Title_Mrs       0
Title_Rare      0
Embarked_C      0
Embarked_Q      0
Embarked_S      0
Pclass_1        0
Pclass_2        0
Pclass_3        0
dtype: int64

Train DataFrame após engenharia de recursos e pré-processamento:


  train['Title'] = train['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)
  test['Title'] = test['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)


Unnamed: 0,Survived,Age,Fare,Sex_male,FamilySize,IsAlone,Title_Master,Title_Miss,Title_Mr,Title_Mrs,Title_Rare,Embarked_C,Embarked_Q,Embarked_S,Pclass_1,Pclass_2,Pclass_3
0,0,22.0,7.25,True,2,0,False,False,True,False,False,False,False,True,False,False,True
1,1,38.0,71.2833,False,2,0,False,False,False,True,False,True,False,False,True,False,False
2,1,26.0,7.925,False,1,1,False,True,False,False,False,False,False,True,False,False,True
3,1,35.0,53.1,False,2,0,False,False,False,True,False,False,False,True,True,False,False
4,0,35.0,8.05,True,1,1,False,False,True,False,False,False,False,True,False,False,True



Teste o DataFrame após engenharia de recursos e pré-processamento:


Unnamed: 0,PassengerId,Age,Fare,Sex_male,FamilySize,IsAlone,Title_Master,Title_Miss,Title_Mr,Title_Mrs,Title_Rare,Embarked_C,Embarked_Q,Embarked_S,Pclass_1,Pclass_2,Pclass_3
0,892,34.5,7.8292,True,1,1,False,False,True,False,False,False,True,False,False,False,True
1,893,47.0,7.0,False,2,0,False,False,False,True,False,False,False,True,False,False,True
2,894,62.0,9.6875,True,1,1,False,False,True,False,False,False,True,False,False,True,False
3,895,27.0,8.6625,True,1,1,False,False,True,False,False,False,False,True,False,False,True
4,896,22.0,12.2875,False,3,0,False,False,False,True,False,False,False,True,False,False,True


 # Modelagem preditiva

In [99]:
# Seleção de modelo

from sklearn.ensemble import GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression

# Instantiate the chosen models with default parameters
gradient_boosting_model = GradientBoostingClassifier(random_state=0)
svm_model = SVC(random_state=0)
logistic_regression_model = LogisticRegression(random_state=0, solver='liblinear') # Specify a solver

# Display the instantiated models
print("Instantiated Gradient Boosting Model:")
print(gradient_boosting_model)

print("\nInstantiated SVM Model:")
print(svm_model)

print("\nInstantiated Logistic Regression Model:")
print(logistic_regression_model)

Instantiated Gradient Boosting Model:
GradientBoostingClassifier(random_state=0)

Instantiated SVM Model:
SVC(random_state=0)

Instantiated Logistic Regression Model:
LogisticRegression(random_state=0, solver='liblinear')


In [100]:
# Treinamento e avaliação do modelo
# Treine os modelos selecionados nos dados de treino e avalie seu desempenho usando métricas apropriadas para classificação (Acurácia, Precisão, Recall, F1-score, AUC).
# Utilize validação cruzada para obter uma estimativa mais robusta do desempenho do modelo.

# Crie uma lista dos modelos instanciados
models = [
    Randomforest, # Assumindo RandomForestClassifier de passos anteriores
    gradient_boosting_model,
    svm_model,
    logistic_regression_model
]

# Defina as features (X) e a variável alvo (y)
# Exclua 'Survived' e 'PassengerId' das features para o treinamento
features = [col for col in train.columns if col not in ['Survived']]
X = train[features]
y = train['Survived']

# Garanta que o conjunto de teste tenha as mesmas features que o conjunto de treinamento, excluindo 'PassengerId'
test_features = [col for col in test.columns if col not in ['PassengerId']]
X_test = test[test_features]

# Alinhe as colunas - isso é crucial se a codificação one-hot resultou em colunas diferentes
# nos conjuntos de treino e teste. Usaremos as colunas do conjunto de treinamento como referência.
missing_cols_test = set(X.columns) - set(X_test.columns)
for c in missing_cols_test:
    X_test[c] = 0
# Garanta que a ordem das colunas seja a mesma
X_test = X_test[X.columns]


# Avalie cada modelo usando validação cruzada
for model in models:
    model_name = type(model).__name__
    print(f"Avaliando {model_name}...")

    # Realize validação cruzada para acurácia
    accuracy_scores = cross_val_score(model, X, y, cv=5, scoring='accuracy', n_jobs=-1)
    mean_accuracy = accuracy_scores.mean()
    print(f"  Acurácia Média: {mean_accuracy:.4f}")

    # Realize validação cruzada para precisão
    precision_scores = cross_val_score(model, X, y, cv=5, scoring='precision', n_jobs=-1)
    mean_precision = precision_scores.mean()
    print(f"  Precisão Média: {mean_precision:.4f}")

    # Realize validação cruzada para recall
    recall_scores = cross_val_score(model, X, y, cv=5, scoring='recall', n_jobs=-1)
    mean_recall = recall_scores.mean()
    print(f"  Recall Médio: {mean_recall:.4f}")

    # Realize validação cruzada para f1-score
    f1_scores = cross_val_score(model, X, y, cv=5, scoring='f1', n_jobs=-1)
    mean_f1 = f1_scores.mean()
    print(f"  F1-score Médio: {mean_f1:.4f}")
    print("-" * 30)

Avaliando RandomForestClassifier...
  Acurácia Média: 0.8002
  Precisão Média: 0.7513
  Recall Médio: 0.7161
  F1-score Médio: 0.7323
------------------------------
Avaliando GradientBoostingClassifier...
  Acurácia Média: 0.8328
  Precisão Média: 0.8199
  Recall Médio: 0.7249
  F1-score Médio: 0.7681
------------------------------
Avaliando SVC...
  Acurácia Média: 0.6757
  Precisão Média: 0.6804
  Recall Médio: 0.2926
  F1-score Médio: 0.4073
------------------------------
Avaliando LogisticRegression...
  Acurácia Média: 0.8227
  Precisão Média: 0.7898
  Recall Médio: 0.7365
  F1-score Médio: 0.7599
------------------------------


In [104]:
# Otimização de hiperparâmetros
# Utilize técnicas como GridSearchCV ou RandomizedSearchCV para encontrar os melhores hiperparâmetros para o modelo escolhido.
# Escolha RandomForestClassifier para otimização, pois geralmente tem um bom desempenho.
model_to_optimize = RandomForestClassifier(random_state=42, n_jobs=-1)

# Defina uma grade de hiperparâmetros para procurar
param_grid = {
    'n_estimators': [100, 200, 350],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Instancie GridSearchCV
# Use o modelo, a grade de parâmetros e validação cruzada de 5 dobras
grid_search = GridSearchCV(estimator=model_to_optimize, param_grid=param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Treine o GridSearchCV nos dados de treino
grid_search.fit(X, y)

# Imprima os melhores hiperparâmetros e a melhor pontuação de validação cruzada
print("Melhores hiperparâmetros encontrados:")
print(grid_search.best_params_)

print("\nMelhor pontuação de acurácia de validação cruzada:")
print(grid_search.best_score_)

Melhores hiperparâmetros encontrados:
{'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 10, 'n_estimators': 100}

Melhor pontuação de acurácia de validação cruzada:
0.835019772770071


In [105]:
# Previsões no conjunto de teste
# Use o modelo treinado e otimizado para fazer previsões no conjunto de dados de teste.

# Utilize o melhor modelo (best_estimator_) para fazer previsões no conjunto de teste (X_test)
y_pred_test_optimized = grid_search.best_estimator_.predict(X_test)

# Exibir as primeiras previsões no conjunto de teste
print("Primeiras previsões no conjunto de teste (otimizado):")
print(y_pred_test_optimized[:10])

Primeiras previsões no conjunto de teste (otimizado):
[0 0 0 0 1 0 0 0 1 0]


In [107]:
# Gerar arquivo de submissão
# Criar um novo DataFrame do pandas chamado submission
submission = pd.DataFrame()

# Popule a coluna 'PassengerId' com os IDs dos passageiros do DataFrame original de teste
submission['PassengerId'] = test['PassengerId']

# Popule a coluna 'Survived' com as previsões feitas pelo melhor modelo no conjunto de teste
submission['Survived'] = y_pred_test_optimized

# Salve este DataFrame submission em um arquivo CSV chamado 'submission_Random_Forest_Aprimorada.csv'
# Certifique-se de não incluir o índice do DataFrame no arquivo CSV
submission.to_csv('submission_Random_Forest_Aprimorada.csv', index=False)

# Exibir as primeiras linhas do DataFrame submission
print("DataFrame de submissão criado:")
display(submission.head())

print("\nArquivo de submissão 'submission_Random_Forest_Aprimorada' gerado com sucesso!")

DataFrame de submissão criado:


Unnamed: 0,PassengerId,Survived
0,892,0
1,893,0
2,894,0
3,895,0
4,896,1



Arquivo de submissão 'submission_Random_Forest_Aprimorada' gerado com sucesso!
