<a href="https://colab.research.google.com/github/kmendesDev/project_titanic/blob/main/ml_titanic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Projeto Titanic - Machine Learning

## Introdução

👋🛳️ Olá, seja bem-vindo ao Desafio Titanic Kaggle! Esta é a lendária competição de Machine Learning do Titanic - o melhor e primeiro desafio de ML no Kaggle.

Esse projeto foi desenvolvido em colaboração com os Cientistas de Dados:

:iphone: Developers contacts

Kaio Mendes - [![General badge](https://img.shields.io/badge/LinkedIn-0077B5?style=for-the-badge&logo=linkedin&logoColor=white<SUBJECT>-<STATUS>-<COLOR>.svg)](https://www.linkedin.com/in/kaio-mendes-bba196150)  -  [![General badge](https://img.shields.io/badge/GitHub-100000?style=for-the-badge&logo=github&logoColor=white<SUBJECT>-<STATUS>-<COLOR>.svg)](https://github.com/kmendesDev)

Cassio Viana - [![General badge](https://img.shields.io/badge/LinkedIn-0077B5?style=for-the-badge&logo=linkedin&logoColor=white<SUBJECT>-<STATUS>-<COLOR>.svg)](https://www.linkedin.com/in/cvs1987)  -  [![General badge](https://img.shields.io/badge/GitHub-100000?style=for-the-badge&logo=github&logoColor=white<SUBJECT>-<STATUS>-<COLOR>.svg)](https://github.com/cvs2010)


O objetivo desse projeto é utilizar aprendizado de máquina para criar um modelo que preveja quais passageiros sobreviveram ao naufrágio do Titanic.

O Desafio: O naufrágio do Titanic é um dos naufrágios mais infames da história. Em 15 de abril de 1912, durante sua viagem inaugural, o RMS Titanic, amplamente considerado "inafundável", afundou após colidir com um iceberg. Infelizmente, não havia botes salva-vidas suficientes para todos a bordo, resultando na morte de 1502 dos 2224 passageiros e tripulantes.

Embora tenha havido algum elemento de sorte envolvido na sobrevivência, parece que alguns grupos de pessoas tinham mais probabilidade de sobreviver do que outros.

Neste projeto, iremos desenvolver um modelo preditivo de Machine Learning que responda à pergunta: "que tipo de pessoas tinham mais probabilidade de sobreviver?" usando dados dos passageiros (como nome, idade, gênero, classe socioeconômica, etc).

Quais Dados foram usados?
Dois conjuntos de dados semelhantes que incluem informações dos passageiros, como nome, idade, gênero, classe socioeconômica, etc. Um conjunto de dados é intitulado train.csv e o outro é intitulado test.csv.

O train.csv contém os detalhes de um subconjunto dos passageiros a bordo (exatamente 891) e, o que é mais importante, revelará se eles sobreviveram ou não, também conhecido como "verdade básica". Já o conjunto de dados test.csv contém informações semelhantes, mas não revela a "verdade básica" para cada passageiro. Sua tarefa é prever esses resultados.

Usando os padrões encontrados nos dados do train.csv, prevemos se os 418 passageiros a bordo (encontrados no test.csv) sobreviveram.

Confira a pasta "data" para explorar ainda mais os conjuntos de dados.

https://www.kaggle.com/competitions/titanic/overview/description


##Importação de bibliotecas

In [None]:
# Importando bibliotecas para manuseio de dados e visualização
import pandas as pd  # Para manusear dados tabulares
import seaborn as srn  # Para gráficos estatísticos
import matplotlib.pyplot as plt  # Para criação de gráficos

# Importando bibliotecas para cálculos matemáticos e estatísticos
import statistics as sts  # Para cálculos matemáticos
import numpy as np  # Para operações numéricas

# Importando bibliotecas para pré-processamento de dados
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.pipeline import make_pipeline

# Importando bibliotecas para balanceamento de classes
from imblearn.under_sampling import RandomUnderSampler

# Importando bibliotecas para avaliação de modelos
from sklearn.metrics import (
    roc_auc_score,
    accuracy_score,
    f1_score,
    confusion_matrix,
    classification_report,
    recall_score,
    precision_score,
    fbeta_score
)

# Importando bibliotecas para treinamento de modelos
from sklearn.model_selection import (
    train_test_split,
    cross_val_score,
    StratifiedKFold,
    GridSearchCV,
)

# Importando algoritmos de aprendizado de máquina
from sklearn.svm import SVC, SVR
from lightgbm import LGBMClassifier
from sklearn.linear_model import SGDClassifier, LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.cluster import KMeans

##Importação dos dados após a limpeza e tratamento

In [None]:
# Baixar arquivos salvos no github
!wget https://github.com/kmendesDev/project_titanic/raw/main/data/training_data_cleaned.csv
!wget https://github.com/kmendesDev/project_titanic/raw/main/data/testing_data_cleaned.csv
dataset_test = pd.read_csv("/content/testing_data_cleaned.csv")
dataset_train = pd.read_csv("/content/training_data_cleaned.csv")

--2023-09-02 14:34:59--  https://github.com/kmendesDev/project_titanic/raw/main/data/training_data_cleaned.csv
Resolving github.com (github.com)... 20.27.177.113
Connecting to github.com (github.com)|20.27.177.113|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/kmendesDev/project_titanic/main/data/training_data_cleaned.csv [following]
--2023-09-02 14:35:00--  https://raw.githubusercontent.com/kmendesDev/project_titanic/main/data/training_data_cleaned.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.111.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 49724 (49K) [text/plain]
Saving to: ‘training_data_cleaned.csv.2’


2023-09-02 14:35:00 (1.24 MB/s) - ‘training_data_cleaned.csv.2’ saved [49724/49724]

--2023-09-02 14:35:00--  https://github.com

In [None]:
dataset_train

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S,Ticket_number,Ticket_value_encoded,Ticket_final,Cabin_encoded,Cabin_number,Cabin_combined
0,1,0,3,22.0,1,0,7.2500,0,1,0,0,1,21171,1,121171,0,0,0
1,2,1,1,38.0,1,0,71.2833,1,0,1,0,0,17599,2,217599,3,85,385
2,3,1,3,26.0,0,0,7.9250,1,0,0,0,1,3101282,3,33101282,0,0,0
3,4,1,1,35.0,1,0,53.1000,1,0,0,0,1,113803,4,4113803,3,123,3123
4,5,0,3,35.0,0,0,8.0500,0,1,0,0,1,373450,4,4373450,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,27.0,0,0,13.0000,0,1,0,0,1,211536,4,4211536,0,0,0
887,888,1,1,19.0,0,0,30.0000,1,0,0,0,1,112053,4,4112053,2,42,242
888,889,0,3,29.0,1,2,23.4500,1,0,0,0,1,6607,16,166607,0,0,0
889,890,1,1,26.0,0,0,30.0000,0,1,1,0,0,111369,4,4111369,3,148,3148


In [None]:
dataset_train.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S,Ticket_number,Ticket_value_encoded,Ticket_final,Cabin_encoded,Cabin_number,Cabin_combined
886,887,0,2,27.0,0,0,13.0,0,1,0,0,1,211536,4,4211536,0,0,0
887,888,1,1,19.0,0,0,30.0,1,0,0,0,1,112053,4,4112053,2,42,242
888,889,0,3,29.0,1,2,23.45,1,0,0,0,1,6607,16,166607,0,0,0
889,890,1,1,26.0,0,0,30.0,0,1,1,0,0,111369,4,4111369,3,148,3148
890,891,0,3,32.0,0,0,7.75,0,1,0,1,0,370376,4,4370376,0,0,0


In [None]:
dataset_train.shape

(891, 18)

In [None]:
dataset_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 18 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   PassengerId           891 non-null    int64  
 1   Survived              891 non-null    int64  
 2   Pclass                891 non-null    int64  
 3   Age                   891 non-null    float64
 4   SibSp                 891 non-null    int64  
 5   Parch                 891 non-null    int64  
 6   Fare                  891 non-null    float64
 7   Sex_female            891 non-null    int64  
 8   Sex_male              891 non-null    int64  
 9   Embarked_C            891 non-null    int64  
 10  Embarked_Q            891 non-null    int64  
 11  Embarked_S            891 non-null    int64  
 12  Ticket_number         891 non-null    int64  
 13  Ticket_value_encoded  891 non-null    int64  
 14  Ticket_final          891 non-null    int64  
 15  Cabin_encoded         8

In [None]:
dataset_train.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S,Ticket_number,Ticket_value_encoded,Ticket_final,Cabin_encoded,Cabin_number,Cabin_combined
count,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.560236,0.523008,0.381594,32.204208,0.352413,0.647587,0.188552,0.08642,0.725028,255220.4,6.43771,6200213.0,8.343434,131577.3,500894100.0
std,257.353842,0.486592,0.836071,13.00501,1.102743,0.806057,49.693429,0.47799,0.47799,0.391372,0.281141,0.446751,569492.7,7.335101,28633880.0,108.018688,2727308.0,10524120000.0
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,190.0,0.0,0.0,0.0
25%,223.5,0.0,2.0,22.0,0.0,0.0,7.9104,0.0,0.0,0.0,0.0,0.0,13518.5,4.0,217758.0,0.0,0.0,0.0
50%,446.0,0.0,3.0,29.0,0.0,0.0,14.4542,0.0,1.0,0.0,0.0,1.0,110813.0,4.0,4111320.0,0.0,0.0,0.0
75%,668.5,1.0,3.0,35.0,1.0,0.0,31.0,1.0,1.0,0.0,0.0,1.0,347073.5,4.0,4347076.0,0.0,0.0,0.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292,1.0,1.0,1.0,1.0,1.0,3101317.0,44.0,423101300.0,2222.0,57596370.0,222257600000.0


In [None]:
dataset_test

Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S,Ticket_number,Ticket_value_encoded,Ticket_final,Cabin_encoded,Cabin_number,Cabin_combined
0,892,3,34.5,0,0,7.8292,0,1,0,1,0,330911,0,330911,0,0,0
1,893,3,47.0,1,0,7.0000,1,0,0,0,1,363272,0,363272,0,0,0
2,894,2,62.0,0,0,9.6875,0,1,0,1,0,240276,0,240276,0,0,0
3,895,3,27.0,0,0,8.6625,0,1,0,0,1,315154,0,315154,0,0,0
4,896,3,22.0,1,1,12.2875,1,0,0,0,1,3101298,0,3101298,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,30.0,0,0,8.0500,0,1,0,0,1,3236,25,253236,0,0,0
414,1306,1,39.0,0,0,108.9000,1,0,1,0,0,17758,2,217758,3,105,3105
415,1307,3,38.5,0,0,7.2500,0,1,0,0,1,3101262,22,223101262,0,0,0
416,1308,3,30.0,0,0,8.0500,0,1,0,0,1,359309,0,359309,0,0,0


In [None]:
dataset_test.tail()

Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S,Ticket_number,Ticket_value_encoded,Ticket_final,Cabin_encoded,Cabin_number,Cabin_combined
413,1305,3,30.0,0,0,8.05,0,1,0,0,1,3236,25,253236,0,0,0
414,1306,1,39.0,0,0,108.9,1,0,1,0,0,17758,2,217758,3,105,3105
415,1307,3,38.5,0,0,7.25,0,1,0,0,1,3101262,22,223101262,0,0,0
416,1308,3,30.0,0,0,8.05,0,1,0,0,1,359309,0,359309,0,0,0
417,1309,3,30.0,1,1,22.3583,0,1,1,0,0,2668,0,2668,0,0,0


In [None]:
dataset_test.shape

(418, 17)

In [None]:
dataset_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 17 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   PassengerId           418 non-null    int64  
 1   Pclass                418 non-null    int64  
 2   Age                   418 non-null    float64
 3   SibSp                 418 non-null    int64  
 4   Parch                 418 non-null    int64  
 5   Fare                  418 non-null    float64
 6   Sex_female            418 non-null    int64  
 7   Sex_male              418 non-null    int64  
 8   Embarked_C            418 non-null    int64  
 9   Embarked_Q            418 non-null    int64  
 10  Embarked_S            418 non-null    int64  
 11  Ticket_number         418 non-null    int64  
 12  Ticket_value_encoded  418 non-null    int64  
 13  Ticket_final          418 non-null    int64  
 14  Cabin_encoded         418 non-null    int64  
 15  Cabin_number          4

In [None]:
dataset_test.describe()

Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S,Ticket_number,Ticket_value_encoded,Ticket_final,Cabin_encoded,Cabin_number,Cabin_combined
count,418.0,418.0,418.0,418.0,418.0,418.0,418.0,418.0,418.0,418.0,418.0,418.0,418.0,418.0,418.0,418.0,418.0
mean,1100.5,2.26555,30.216507,0.447368,0.392344,35.625688,0.363636,0.636364,0.244019,0.110048,0.645933,238472.0,3.921053,5735537.0,20.260766,417055.0,1597816000.0
std,120.810458,0.841838,12.635016,0.89676,0.981429,55.840509,0.481622,0.481622,0.430019,0.313324,0.478803,553720.1,9.143985,36811550.0,189.561444,4867543.0,18783670000.0
min,892.0,1.0,0.17,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,996.25,1.0,23.0,0.0,0.0,7.8958,0.0,0.0,0.0,0.0,0.0,13096.5,0.0,28154.75,0.0,0.0,0.0
50%,1100.5,3.0,30.0,0.0,0.0,14.4542,0.0,1.0,0.0,0.0,1.0,33844.0,0.0,223860.0,0.0,0.0,0.0
75%,1204.75,3.0,35.75,1.0,0.0,31.5,1.0,1.0,0.0,0.0,1.0,343131.2,2.0,349234.2,0.0,0.0,0.0
max,1309.0,3.0,76.0,8.0,9.0,512.3292,1.0,1.0,1.0,1.0,1.0,3101315.0,43.0,423101300.0,2222.0,57596370.0,222257600000.0


# Modelo de Machine Learning

## Checando os dados antes de instanciar o modelo
- Verificando valores NaN
- Verificando valores numéricos
- Verificando se ainda há dados faltantes
- Verificando se ainda há dados categóricos
- Verificando nomes de colunas corretos nos datasets de treinamento e teste

In [None]:
dataset_train_ml = dataset_train
dataset_test_ml = dataset_test

In [None]:
dataset_train_ml

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S,Ticket_number,Ticket_value_encoded,Ticket_final,Cabin_encoded,Cabin_number,Cabin_combined
0,1,0,3,22.0,1,0,7.2500,0,1,0,0,1,21171,1,121171,0,0,0
1,2,1,1,38.0,1,0,71.2833,1,0,1,0,0,17599,2,217599,3,85,385
2,3,1,3,26.0,0,0,7.9250,1,0,0,0,1,3101282,3,33101282,0,0,0
3,4,1,1,35.0,1,0,53.1000,1,0,0,0,1,113803,4,4113803,3,123,3123
4,5,0,3,35.0,0,0,8.0500,0,1,0,0,1,373450,4,4373450,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,27.0,0,0,13.0000,0,1,0,0,1,211536,4,4211536,0,0,0
887,888,1,1,19.0,0,0,30.0000,1,0,0,0,1,112053,4,4112053,2,42,242
888,889,0,3,29.0,1,2,23.4500,1,0,0,0,1,6607,16,166607,0,0,0
889,890,1,1,26.0,0,0,30.0000,0,1,1,0,0,111369,4,4111369,3,148,3148


In [None]:
dataset_test_ml

Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S,Ticket_number,Ticket_value_encoded,Ticket_final,Cabin_encoded,Cabin_number,Cabin_combined
0,892,3,34.5,0,0,7.8292,0,1,0,1,0,330911,0,330911,0,0,0
1,893,3,47.0,1,0,7.0000,1,0,0,0,1,363272,0,363272,0,0,0
2,894,2,62.0,0,0,9.6875,0,1,0,1,0,240276,0,240276,0,0,0
3,895,3,27.0,0,0,8.6625,0,1,0,0,1,315154,0,315154,0,0,0
4,896,3,22.0,1,1,12.2875,1,0,0,0,1,3101298,0,3101298,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,30.0,0,0,8.0500,0,1,0,0,1,3236,25,253236,0,0,0
414,1306,1,39.0,0,0,108.9000,1,0,1,0,0,17758,2,217758,3,105,3105
415,1307,3,38.5,0,0,7.2500,0,1,0,0,1,3101262,22,223101262,0,0,0
416,1308,3,30.0,0,0,8.0500,0,1,0,0,1,359309,0,359309,0,0,0


In [None]:
dataset_test_ml.shape

(418, 17)

In [None]:
dataset_train_ml.shape

(891, 18)

In [None]:
dataset_test_ml.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 17 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   PassengerId           418 non-null    int64  
 1   Pclass                418 non-null    int64  
 2   Age                   418 non-null    float64
 3   SibSp                 418 non-null    int64  
 4   Parch                 418 non-null    int64  
 5   Fare                  418 non-null    float64
 6   Sex_female            418 non-null    int64  
 7   Sex_male              418 non-null    int64  
 8   Embarked_C            418 non-null    int64  
 9   Embarked_Q            418 non-null    int64  
 10  Embarked_S            418 non-null    int64  
 11  Ticket_number         418 non-null    int64  
 12  Ticket_value_encoded  418 non-null    int64  
 13  Ticket_final          418 non-null    int64  
 14  Cabin_encoded         418 non-null    int64  
 15  Cabin_number          4

In [None]:
dataset_train_ml.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 18 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   PassengerId           891 non-null    int64  
 1   Survived              891 non-null    int64  
 2   Pclass                891 non-null    int64  
 3   Age                   891 non-null    float64
 4   SibSp                 891 non-null    int64  
 5   Parch                 891 non-null    int64  
 6   Fare                  891 non-null    float64
 7   Sex_female            891 non-null    int64  
 8   Sex_male              891 non-null    int64  
 9   Embarked_C            891 non-null    int64  
 10  Embarked_Q            891 non-null    int64  
 11  Embarked_S            891 non-null    int64  
 12  Ticket_number         891 non-null    int64  
 13  Ticket_value_encoded  891 non-null    int64  
 14  Ticket_final          891 non-null    int64  
 15  Cabin_encoded         8

In [None]:
# Verificando valores NaN no dataset_training_ml
dataset_train_ml.isnull().sum()

PassengerId             0
Survived                0
Pclass                  0
Age                     0
SibSp                   0
Parch                   0
Fare                    0
Sex_female              0
Sex_male                0
Embarked_C              0
Embarked_Q              0
Embarked_S              0
Ticket_number           0
Ticket_value_encoded    0
Ticket_final            0
Cabin_encoded           0
Cabin_number            0
Cabin_combined          0
dtype: int64

In [None]:
# Verificando valores NaN no dataset_training_ml
dataset_test_ml.isnull().sum()

PassengerId             0
Pclass                  0
Age                     0
SibSp                   0
Parch                   0
Fare                    0
Sex_female              0
Sex_male                0
Embarked_C              0
Embarked_Q              0
Embarked_S              0
Ticket_number           0
Ticket_value_encoded    0
Ticket_final            0
Cabin_encoded           0
Cabin_number            0
Cabin_combined          0
dtype: int64

In [None]:
# Checando os nomes das colunas nos datasets de treino e teste
print('Colunas do dataset_train_ml: ', dataset_train_ml.columns)
print('/n')
print('Colunas do dataset_test_ml: ', dataset_test_ml.columns)

Colunas do dataset_train_ml:  Index(['PassengerId', 'Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare',
       'Sex_female', 'Sex_male', 'Embarked_C', 'Embarked_Q', 'Embarked_S',
       'Ticket_number', 'Ticket_value_encoded', 'Ticket_final',
       'Cabin_encoded', 'Cabin_number', 'Cabin_combined'],
      dtype='object')
/n
Colunas do dataset_test_ml:  Index(['PassengerId', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Sex_female',
       'Sex_male', 'Embarked_C', 'Embarked_Q', 'Embarked_S', 'Ticket_number',
       'Ticket_value_encoded', 'Ticket_final', 'Cabin_encoded', 'Cabin_number',
       'Cabin_combined'],
      dtype='object')


Tudo ok
- Mesma quantidade de colunas (training tem uma coluna a mais 'Survived')
- Mesmas etiquetas nas colunas dos datasets de treino e teste
- Todos os valores numéricos com o mesmo tipo em cada coluna
- Não há valores faltantes

## Criando o protótipo do modelo

### Definindo qual modelo de machine learning utilizar

Breve explicação a cerca de cada modelo:

1. **RandomForestClassifier (rf)**:
   - Tipo: Ensemble de árvores de decisão.
   - Funcionamento: Cria um conjunto de árvores de decisão e combina suas previsões para obter uma decisão final.
   - Uso: Classificação e também pode ser usado para tarefas de regressão.

2. **DecisionTreeClassifier (dt)**:
   - Tipo: Árvore de decisão.
   - Funcionamento: Constrói uma árvore de decisão binária que divide o espaço de características em regiões para tomar decisões de classificação.
   - Uso: Classificação.

3. **SGDClassifier (sgdc)**:
   - Tipo: Gradiente Descendente Estocástico (SGD) Classifier.
   - Funcionamento: Usa o SGD para treinar modelos lineares, incluindo SVMs lineares e regressão logística.
   - Uso: Classificação.

4. **SVC (svc)**:
   - Tipo: Support Vector Classifier (SVC).
   - Funcionamento: Usa vetores de suporte para encontrar um hiperplano que melhor separa as classes em espaços de alta dimensão.
   - Uso: Classificação.

5. **LogisticRegression (lr)**:
   - Tipo: Regressão Logística.
   - Funcionamento: Modela a probabilidade de uma classe usando uma função logística.
   - Uso: Classificação.

6. **XGBClassifier (xgb)**:
   - Tipo: Gradient Boosting Classifier.
   - Funcionamento: Usa o método de impulso para melhorar o desempenho dos modelos fracos, geralmente árvores de decisão.
   - Uso: Classificação.

7. **LGBMClassifier (lgbm)**:
   - Tipo: Gradient Boosting Classifier, com otimização para eficiência.
   - Funcionamento: Semelhante ao XGBoost, mas otimizado para velocidade e eficiência computacional.
   - Uso: Classificação.

8. **GaussianNB (nb)**:
   - Tipo: Naive Bayes.
   - Funcionamento: Baseado no teorema de Bayes, assume independência condicional entre as características.
   - Uso: Classificação, especialmente quando as premissas ingênuas de independência são atendidas.

Cada um desses modelos é adequado para diferentes tipos de problemas de classificação, e a escolha depende da natureza dos dados e dos requisitos de desempenho.

Os modelos K-means e SVR (support vector regression) não são adequados para problemas de classificação.

  9. **K-Means:**

  Tipo de Problema:

  O K-Means é usado para clusterização, onde o objetivo é agrupar dados sem rótulos em grupos com base em similaridade.
  
  Supervisão:

    - Os modelos de classificação requerem dados de treinamento rotulados para aprender a fazer previsões.
    - O K-Means não requer rótulos; ele encontra agrupamentos com base apenas na similaridade entre os dados.
    Saída:

  Os modelos de classificação produzem uma classe como saída (por exemplo, "spam" ou "não spam").
  O K-Means produz rótulos de clusters para cada observação.

  10. **SVR (Support Vector Regression):**

  Tipo de Problema:

  O SVR é usado para regressão, onde o objetivo é prever um valor contínuo (por exemplo, prever o preço de uma casa).
  Saída:

    - Os modelos de classificação produzem classes categóricas como saída (por exemplo, "sim" ou "não").
    - O SVR produz valores numéricos como saída, que representam uma estimativa contínua.


Os modelos de classificação usam algoritmos que se concentram na separação de classes, como árvores de decisão, regressão logística, entre outros.
O SVR utiliza a técnica de Máquinas de Vetores de Suporte para realizar a regressão, encontrando um hiperplano que melhor se ajusta aos dados de treinamento. Em resumo, a principal diferença está no tipo de problema que eles resolvem e na natureza de suas saídas. Os outros modelos são amplamente usados para classificação, enquanto o K-Means é usado para clusterização e o SVR para regressão.

In [None]:
def val_model(X, y, clf):
    """
    Cross Validation Function.

    # Arguments
        X: DataFrame, independent variables.
        y: Series, vector, target variable.
        clf: Scikit-learn Classifier.
        quiet: bool, indicating whether the function should print the results.

    # Returns
        tuple, containing cross-validation average accuracy, ROC AUC, Recall, Precision, F1-Score
    """
    # Transforming X and y to numpy arrays
    X = np.array(X)
    y = np.array(y)
    # Creating a pipeline with StandardScaler and clf (classifier model)
    pipeline = make_pipeline(StandardScaler(), clf)
    # Performing cross validation and scoring metrics
    scores = cross_val_score(pipeline, X, y, scoring='accuracy')
    roc_auc_scores = cross_val_score(pipeline, X, y, scoring='roc_auc')
    recall_scores = cross_val_score(pipeline, X, y, scoring='recall')
    precision_scores = cross_val_score(pipeline, X, y, scoring='precision')
    f1_scores = cross_val_score(pipeline, X, y, scoring='f1')
    # Returning results
    return scores.mean(), roc_auc_scores.mean(), recall_scores.mean(), precision_scores.mean(), f1_scores.mean()

# Instantiating the variables X and y
X = dataset_train_ml.drop(columns=['Survived'])
y = dataset_train_ml['Survived']

# Splitting the dataset into the Training set and Test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Standardizing the data (Centering: The mean (average) of the data and Scaling: The standard deviation)
scaler = StandardScaler().fit(X_train)
X_train = scaler.transform(X_train)

# X_train columns names
X_train = pd.DataFrame(X_train, columns=X.columns)

# Undersampling (data preprocessing technique used to balance class distributions in imbalanced datasets)
rus = RandomUnderSampler(random_state=42)
X_train_rus, y_train_rus = rus.fit_resample(X_train, y_train)

# Instantiating the models
rf = RandomForestClassifier(random_state=42)
dt = DecisionTreeClassifier(random_state=42)
sgdc = SGDClassifier(random_state=42)
svc = SVC(random_state=42)
lr = LogisticRegression(random_state=42)
xgb = XGBClassifier(random_state=42)
lgbm = LGBMClassifier(random_state=42, verbose=-1)
nb = GaussianNB()

# Creating the lists
model = []
accuracy = []
roc_auc = []
recall = []
precision = []
f1 = []
confusion_matrices = []

# Fitting the models
rf_fit = rf.fit(X_train_rus, y_train_rus)
dt_fit = dt.fit(X_train_rus, y_train_rus)
sgdc_fit = sgdc.fit(X_train_rus, y_train_rus)
svc_fit = svc.fit(X_train_rus, y_train_rus)
lr_fit = lr.fit(X_train_rus, y_train_rus)
xgb_fit = xgb.fit(X_train_rus, y_train_rus)
lgbm_fit = lgbm.fit(X_train_rus, y_train_rus)
nb_fit = nb.fit(X_train_rus, y_train_rus)

# Evaluating results (accuracy, roc_auc, recall, precision, f1, confusion matrix)
# This loop iterates through each of the listed models, collects the name of the classifier's class,
# and calculates performance metrics using the val_model function.
for clf in (rf, dt, sgdc, svc, lr, xgb, lgbm, nb):
    model.append(clf.__class__.__name__)
    acc, roc_auc_score, recall_score, precision_score_value, f1_score_value = val_model(X_train_rus, y_train_rus, clf)
    # Calculating confusion matrix
    y_pred = clf.predict(X_test)
    confusion_matrix_value = confusion_matrix(y_test, y_pred)
    # Appending the scores of each model
    accuracy.append(acc)
    roc_auc.append(roc_auc_score)
    recall.append(recall_score)
    precision.append(precision_score_value)
    f1.append(f1_score_value)
    confusion_matrices.append(confusion_matrix_value)

# Creating a DataFrame to store results
results_df = pd.DataFrame({
    'Model': model,
    'Accuracy': accuracy,
    'ROC AUC': roc_auc,
    'Recall': recall,
    'Precision': precision,
    'F1-Score': f1,
    'Confusion Matrix': confusion_matrices
})

# Calculating the mean of metrics
results_df['Mean Score'] = results_df[['Accuracy', 'ROC AUC', 'Recall', 'Precision', 'F1-Score']].mean(axis=1)

# Starting the index from 1
results_df.index = results_df.index + 1

# Showing the results
results_df

Unnamed: 0,Model,Accuracy,ROC AUC,Recall,Precision,F1-Score,Confusion Matrix,Mean Score
1,RandomForestClassifier,0.78361,0.850151,0.746331,0.808187,0.775789,"[[7, 98], [8, 66]]",0.792814
2,DecisionTreeClassifier,0.699567,0.699476,0.686443,0.709494,0.696068,"[[105, 0], [74, 0]]",0.69821
3,SGDClassifier,0.705227,0.742181,0.698043,0.709487,0.697864,"[[105, 0], [73, 1]]",0.71056
4,SVC,0.785445,0.83981,0.724039,0.827842,0.770538,"[[105, 0], [74, 0]]",0.789535
5,LogisticRegression,0.764849,0.840512,0.753529,0.770934,0.761292,"[[105, 0], [73, 1]]",0.778223
6,XGBClassifier,0.763067,0.845762,0.753739,0.768507,0.76037,"[[105, 0], [71, 3]]",0.778289
7,LGBMClassifier,0.791121,0.859413,0.787491,0.796234,0.79112,"[[88, 17], [22, 52]]",0.805076
8,GaussianNB,0.51864,0.784287,0.067086,0.726667,0.121017,"[[95, 10], [45, 29]]",0.443539


**Métricas de Desempenho de Modelos de Machine Learning:**

**1. Accuracy (Acurácia):**
   - É a métrica mais comum para avaliar o desempenho de um modelo.
   - Calcula a proporção de previsões corretas em relação ao total de previsões.
   - A fórmula é: `(Número de previsões corretas) / (Número total de previsões)`.

**2. ROC AUC (Área sob a Curva ROC):**
   - Avalia a capacidade de classificação de um modelo de classificação binária.
   - A Curva ROC (Receiver Operating Characteristic) mostra a taxa de verdadeiros positivos em relação à taxa de falsos positivos em diferentes limiares de classificação.
   - O ROC AUC é a área sob essa curva. Quanto maior, melhor.
   - É útil quando os dados estão desequilibrados.

**3. Recall (Revocação):**
   - Também conhecido como Sensibilidade ou Taxa de Verdadeiros Positivos.
   - Mede a proporção de verdadeiros positivos (instâncias relevantes corretamente previstas) em relação ao total de instâncias relevantes no conjunto de dados.
   - É importante quando o custo de falsos negativos é alto, como em diagnósticos médicos.

**4. Precision (Precisão):**
   - Também conhecida como Valor Preditivo Positivo.
   - Mede a proporção de verdadeiros positivos em relação ao total de previsões positivas feitas pelo modelo.
   - É importante quando o custo de falsos positivos é alto, como em sistemas de detecção de spam.

**5. F1-Score:**
   - É a média harmônica entre Recall e Precision.
   - Oferece um equilíbrio entre Recall e Precision.
   - É útil quando você deseja levar em consideração tanto os falsos positivos quanto os falsos negativos.
   - A fórmula é: `2 * (Precision * Recall) / (Precision + Recall)`.

**6. Confusion Matrix (Matriz de Confusão):**
   - É uma tabela que descreve o desempenho de um modelo de classificação em um conjunto de dados de teste.
   - Possui quatro elementos:
     - Verdadeiros Positivos (TP): Instâncias positivas corretamente classificadas.
     - Verdadeiros Negativos (TN): Instâncias negativas corretamente classificadas.
     - Falsos Positivos (FP): Instâncias negativas erroneamente classificadas como positivas.
     - Falsos Negativos (FN): Instâncias positivas erroneamente classificadas como negativas.
   - É uma ferramenta poderosa para entender onde o modelo está errando e acertando.

Essas métricas são usadas para avaliar o desempenho de modelos de machine learning e ajudam a tomar decisões sobre a escolha do modelo, ajustes de hiperparâmetros e otimização do desempenho. A escolha da métrica certa depende do problema e das consequências de falsos positivos e falsos negativos.

### Modelo de Random Forest

In [None]:
# Resetando o dataset_test_ml
dataset_test_ml = dataset_test

In [None]:
X = dataset_train_ml.drop(columns=['Survived'])
y = dataset_train_ml['Survived']

# Dividindo o conjunto de dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de Random Forest
random_forest = RandomForestClassifier(random_state=42)

# Treinando o modelo
random_forest.fit(X_train, y_train)

# Fazendo previsões no conjunto de teste
y_pred = random_forest.predict(X_test)

# Calculando a acurácia do modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia do modelo: {accuracy:.5f}')

Acurácia do modelo: 0.82123


In [None]:
# Resetando o nome da variável classification_report
from sklearn.metrics import classification_report # Não entendi porque está acontecendo isso??? Se retirar essa linha dá erro
class_report = classification_report(y_test, y_pred)
print("Relatório de Classificação:")
print(class_report)
# Converter o relatório em um DataFrame
classification_report = pd.DataFrame(classification_report(y_test, y_pred, output_dict=True)).transpose()
# Calcular a média das métricas
mean_metrics = classification_report.mean()
# Excluir a coluna "support" das médias, se necessário
mean_metrics = mean_metrics.drop("support")
# Calcular a média entre as métricas
mean_average = mean_metrics.mean()
# Exibir a média entre as métricas
print(f'Média das Métricas {mean_average:.5f}')
# Exibindo o F2-score no conjunto de teste
# Calculando o F2-score no conjunto de teste
f2_test_score = fbeta_score(y_test, y_pred, beta=2)
print(f'F2-score no conjunto de teste: {f2_test_score:.5f}')
# Calculando a acurácia do modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia: {accuracy:.5f} \n')

Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.82      0.90      0.85       105
           1       0.83      0.72      0.77        74

    accuracy                           0.82       179
   macro avg       0.82      0.81      0.81       179
weighted avg       0.82      0.82      0.82       179

Média das Métricas 0.81633
F2-score no conjunto de teste: 0.73611
Acurácia: 0.82123 



In [None]:
# Prevendo a sobrevivência para o conjunto de teste

# Excluindo a coluna 'Survived'
dataset_test_ml = dataset_test_ml.drop(columns=['Survived'])

# Separando a característica "Survived"
dataset_test_ml['Survived'] = random_forest.predict(dataset_test_ml)

# Movendo a coluna "Survived" para a segunda posição
dataset_test_ml = dataset_test_ml[['PassengerId', 'Survived']].copy()

In [None]:
dataset_test_ml

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,0
2,894,0
3,895,0
4,896,1
...,...,...
413,1305,0
414,1306,1
415,1307,0
416,1308,0


In [None]:
# Contagem de sobreviventes
dataset_test_ml['Survived'].value_counts()

0    278
1    140
Name: Survived, dtype: int64

In [None]:
# Selecionando apenas as colunas PassengerId e Survived do dataset_test_ml
dataset_test_submission = dataset_test_ml[['PassengerId', 'Survived']].copy()

# Transformando a coluna "Survived" em valores numéricos inteiros usando .loc[]
dataset_test_submission['Survived'] = dataset_test_submission['Survived'].astype(int)

# Resetando o índice
dataset_test_submission.reset_index(drop=True, inplace=True)
dataset_test_submission

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,0
2,894,0
3,895,0
4,896,1
...,...,...
413,1305,0
414,1306,1
415,1307,0
416,1308,0


In [None]:
# Verificando o shape do dataset_test_submission antes de salvar o arquivo .csv
dataset_test_submission.shape

(418, 2)

In [None]:
# Salvando o dataset_test_submission em um arquivo .csv
dataset_test_submission.to_csv('dataset_test_submission.csv', index=False)

Prevendo a sobrevivência de cada passageiro em taxa (%)

In [None]:
# Carregue seus dados e prepare X e y
X = dataset_train_ml.drop(columns=['Survived'])
y = dataset_train_ml['Survived']

# Divida o conjunto de dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crie o modelo XGBoost
random_forest = RandomForestClassifier(random_state=42)

# Treine o modelo
random_forest.fit(X_train, y_train)

# Faça previsões de probabilidades no conjunto de teste
y_probabilities = random_forest.predict_proba(X_test)

# Obtenha as probabilidades de sobrevivência (classe 1)
survival_probabilities = y_probabilities[:, 1]

# Arredonde as probabilidades de sobrevivência para duas casas decimais
survival_probabilities_rounded = [round(prob, 3) for prob in survival_probabilities]

# Crie um DataFrame com as probabilidades arredondadas e a coluna 'Sobreviveu' baseada em y_pred
result_df = pd.DataFrame({'Taxa de Sobrevivência': survival_probabilities_rounded,
                          'Sobreviveu': y_pred})

# Exiba o DataFrame resultante
result_df

Unnamed: 0,Taxa de Sobrevivência,Sobreviveu
0,0.35,0
1,0.06,0
2,0.08,0
3,0.97,1
4,0.35,0
...,...,...
174,0.41,0
175,0.09,0
176,0.22,0
177,0.88,1
