# Entendimento do Projeto

Trata-se de um desafio disponibilizado na plataforma Kaggle. O objetivo do projeto é prever se um determinado passageiro será transportado ou não através da análise de 13 features (variáveis não dependentes). Dessa forma, o propósito do Notebook é apresentar uma análise exploratória dos dados a fim de de formular hipóteses, e por fim, realizar a predição utilizando 5 modelos de classificação clássicos: K-Nearest Neighbors, Naive Bayes, Support Vector Machines, Decision Trees e Logistic Regression.


| Atributo     | Datatype | Descrição                            | Exemplo                         |
|--------------|----------|--------------------------------------|---------------------------------|
| PassengerId  | object   | Cada Id assume o formato gggg_pp onde gggg indica um grupo com o qual o passageiro está viajando e pp é o seu número dentro do grupo. As pessoas de um grupo são frequentemente membros da família, mas nem sempre. | 0000_00                             |
| HomePlanet   | object   | O planeta de onde o passageiro partiu, normalmente o planeta de residência permanente.     | Earth                             |
| CryoSleep    | object   | Indica se o passageiro optou por ser colocado em animação suspensa durante a viagem. Os passageiros em sono criogênico ficam confinados em suas cabines. | False                             |
| Cabin        | object   | O número da cabine onde o passageiro está hospedado. Assume a forma deck/num/side, onde o lado pode ser P para Bombordo ou S para Estibordo.     | B/0/P                             |
| Destination  | object   | O planeta para onde o passageiro irá desembarcar.        | TRAPPIST-1e |
| Age          | float    | A idade do passageiro.                                     | 39.0                                |
| VIP          | object   | Se o passageiro pagou por serviço VIP especial durante a viagem. | False                                |
| RoomService  | float    | Valor que o passageiro faturou em cada uma das muitas comodidades de luxo da Nave Espacial Titanic.                                     | 0.0                                |
| FoodCourt    | float    | Valor que o passageiro faturou em cada uma das muitas comodidades de luxo da Nave Espacial Titanic.                                     | 0.0                                |
| ShoppingMall | float    | Valor que o passageiro faturou em cada uma das muitas comodidades de luxo da Nave Espacial Titanic.                                     | 0.0                                |
| Spa          | float    | Valor que o passageiro faturou em cada uma das muitas comodidades de luxo da Nave Espacial Titanic.                                     | 0.0                                |
| VRDeck       | float    | Valor que o passageiro faturou em cada uma das muitas comodidades de luxo da Nave Espacial Titanic.                                     | 0.0                                |
| Name         | object   | O nome e sobrenome do passageiro.                                     | Maham Ofracculy                                |
| Transported  | bool     | Se o passageiro foi transportado para outra dimensão. Este é o alvo, a coluna que você está tentando prever.                                     | True                                |

Fonte das informações: https://www.kaggle.com/competitions/spaceship-titanic/data
___

# Entendimento e Pré-Processamento dos Dados

Nessa seção realizaremos a importação, preparação e análise exploratória dos dados.

00 - Importação das bibliotecas

In [1]:
import pandas as pd
import plotly.express as plt
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import f1_score
from sklearn import neighbors
from sklearn import naive_bayes
from sklearn import tree
from sklearn import svm
from sklearn import linear_model
from sklearn.metrics import brier_score_loss

01 - Importação do conjunto de treinamento "train_data.csv" e "test_data.csv"

In [2]:
train_data = pd.read_csv("_datasets/train.csv")
test_data = pd.read_csv("_datasets/test.csv")

02 - Visualizando as colunas do conjunto de treinamento

In [3]:
train_data.columns

Index(['PassengerId', 'HomePlanet', 'CryoSleep', 'Cabin', 'Destination', 'Age',
       'VIP', 'RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck',
       'Name', 'Transported'],
      dtype='object')

03 - Visualizando a estrutura (linhas e colunas) do conjunto de treinamento

In [4]:
train_data.shape

(8693, 14)

04 - Visualizando os cinco primeiro registros do conjunto de treinamento

In [5]:
train_data.head(5)

Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
0,0001_01,Europa,False,B/0/P,TRAPPIST-1e,39.0,False,0.0,0.0,0.0,0.0,0.0,Maham Ofracculy,False
1,0002_01,Earth,False,F/0/S,TRAPPIST-1e,24.0,False,109.0,9.0,25.0,549.0,44.0,Juanna Vines,True
2,0003_01,Europa,False,A/0/S,TRAPPIST-1e,58.0,True,43.0,3576.0,0.0,6715.0,49.0,Altark Susent,False
3,0003_02,Europa,False,A/0/S,TRAPPIST-1e,33.0,False,0.0,1283.0,371.0,3329.0,193.0,Solam Susent,False
4,0004_01,Earth,False,F/1/S,TRAPPIST-1e,16.0,False,303.0,70.0,151.0,565.0,2.0,Willy Santantines,True


05 - Visualizando os cinco último registros do conjunto de treinamento

In [6]:
train_data.tail(5)

Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
8688,9276_01,Europa,False,A/98/P,55 Cancri e,41.0,True,0.0,6819.0,0.0,1643.0,74.0,Gravior Noxnuther,False
8689,9278_01,Earth,True,G/1499/S,PSO J318.5-22,18.0,False,0.0,0.0,0.0,0.0,0.0,Kurta Mondalley,False
8690,9279_01,Earth,False,G/1500/S,TRAPPIST-1e,26.0,False,0.0,0.0,1872.0,1.0,0.0,Fayey Connon,True
8691,9280_01,Europa,False,E/608/S,55 Cancri e,32.0,False,0.0,1049.0,0.0,353.0,3235.0,Celeon Hontichre,False
8692,9280_02,Europa,False,E/608/S,TRAPPIST-1e,44.0,False,126.0,4688.0,0.0,0.0,12.0,Propsh Hontichre,True


06 - Visualizando as principais métricas estatistícas das variáveis numéricas do conjunto de treinamento

In [7]:
train_data.describe()

Unnamed: 0,Age,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck
count,8514.0,8512.0,8510.0,8485.0,8510.0,8505.0
mean,28.82793,224.687617,458.077203,173.729169,311.138778,304.854791
std,14.489021,666.717663,1611.48924,604.696458,1136.705535,1145.717189
min,0.0,0.0,0.0,0.0,0.0,0.0
25%,19.0,0.0,0.0,0.0,0.0,0.0
50%,27.0,0.0,0.0,0.0,0.0,0.0
75%,38.0,47.0,76.0,27.0,59.0,46.0
max,79.0,14327.0,29813.0,23492.0,22408.0,24133.0


07 - Análise das métricas estatistícas das variáveis numéricas com o uso do Box Plot

In [8]:
fig_bp_age = plt.box(train_data, x="Age", title="Age - Box Plot")
fig_bp_age.update_layout(xaxis_title="Age", yaxis_title="")
fig_bp_age.show()

In [9]:
fig_bp_room = plt.box(train_data, x="RoomService", title="RoomService - Box Plot")
fig_bp_room.update_layout(xaxis_title="RoomService", yaxis_title="")
fig_bp_room.show()

In [10]:
fig_bp_food = plt.box(train_data, x="FoodCourt", title="FoodCourt - Box Plot")
fig_bp_food.update_layout(xaxis_title="FoodCourt", yaxis_title="")
fig_bp_food.show()

In [11]:
fig_bp_shopping = plt.box(train_data, x="ShoppingMall", title="ShoppingMall - Box Plot")
fig_bp_shopping.update_layout(xaxis_title="ShoppingMall", yaxis_title="")
fig_bp_shopping.show()

In [12]:
fig_bp_spa = plt.box(train_data, x="Spa", title="Spa - Box Plot")
fig_bp_spa.update_layout(xaxis_title="Spa", yaxis_title="")
fig_bp_spa.show()

In [13]:
fig_bp_vrdeck = plt.box(train_data, x="VRDeck", title="VRDeck - Box Plot")
fig_bp_vrdeck.update_layout(xaxis_title="VRDeck", yaxis_title="")
fig_bp_vrdeck.show()

Com excessão da variável "Age", todas as demais features (RoomService, FoodCourt, ShoppingMall, Spa e VRDeck) apresentaram um número relevante de eventos que ultapassaram o limite superior do Box Plot, o que levanta a suspeita de casos que podem vir a ser tratados como outliers. Para fins de teste, uma possibilidade seria realizar o treinamento do modelo com/sem os "outliers".

Após realizar o treinamento dos modelos com/sem outliers, ou seja, com/sem a filtragem de dados que estão fora do limite superior e inferior, notei que as métricas de avaliação do modelo (Acurácia, Precisão Média e F1-Score) apresentaram valores mais satisfatórios quando não houve a remoção dos eventos. Dessa forma, foram considerados todos os dados da amostra para realizar o treinamento dos modelos.

08 - Verificando ocorrências de dados nulos no conjunto de treinamento e teste

In [14]:
print(f"PassengerId (train/test) nulo -> {train_data["PassengerId"].isnull().sum(),test_data["PassengerId"].isnull().sum()}")
print(f"HomePlanet (train/test) nulo -> {train_data["HomePlanet"].isnull().sum(),test_data["HomePlanet"].isnull().sum()}")
print(f"CryoSleep (train/test) nulo -> {train_data["CryoSleep"].isnull().sum(),test_data["CryoSleep"].isnull().sum()}")
print(f"Cabin (train/test) nulo -> {train_data["Cabin"].isnull().sum(),test_data["Cabin"].isnull().sum()}")
print(f"Destination (train/test) nulo -> {train_data["Destination"].isnull().sum(),test_data["Destination"].isnull().sum()}")
print(f"Age (train/test) nulo -> {train_data["Age"].isnull().sum(),test_data["Age"].isnull().sum()}")
print(f"VIP (train/test) nulo -> {train_data["VIP"].isnull().sum(),test_data["VIP"].isnull().sum()}")
print(f"RoomService (train/test) nulo -> {train_data["RoomService"].isnull().sum(),test_data["RoomService"].isnull().sum()}")
print(f"FoodCourt (train/test) nulo -> {train_data["FoodCourt"].isnull().sum(),test_data["FoodCourt"].isnull().sum()}")
print(f"ShoppingMall (train/test) nulo -> {train_data["ShoppingMall"].isnull().sum(),test_data["ShoppingMall"].isnull().sum()}")
print(f"Spa (train/test) nulo -> {train_data["Spa"].isnull().sum(),test_data["Spa"].isnull().sum()}")
print(f"VRDeck (train/test) nulo -> {train_data["VRDeck"].isnull().sum(),test_data["VRDeck"].isnull().sum()}")
print(f"Name (train/test) nulo -> {train_data["Name"].isnull().sum(),test_data["Name"].isnull().sum()}")
print(f"Transported (train/test) nulo -> {train_data["Transported"].isnull().sum(),test_data["Transported"].isnull().sum()}")

PassengerId (train/test) nulo -> (0, 0)
HomePlanet (train/test) nulo -> (201, 87)
CryoSleep (train/test) nulo -> (217, 93)
Cabin (train/test) nulo -> (199, 100)
Destination (train/test) nulo -> (182, 92)
Age (train/test) nulo -> (179, 91)
VIP (train/test) nulo -> (203, 93)
RoomService (train/test) nulo -> (181, 82)
FoodCourt (train/test) nulo -> (183, 106)
ShoppingMall (train/test) nulo -> (208, 98)
Spa (train/test) nulo -> (183, 101)
VRDeck (train/test) nulo -> (188, 80)
Name (train/test) nulo -> (200, 94)
Transported (train/test) nulo -> (0, 0)


09 - Tratando os dados nulos de acordo com o seu datatype

In [15]:
def prep_null_train(feature, datatype):
    """
    Input: feature (string) representa uma variável independente ; dataype (string) representa o tipo de dado da feature (string ou number)
    Ouput: realiza o tratamento da feature (string ou number) identificada inicialmente como nula
    """
    if datatype == "string":
        train_data[feature] = train_data[feature].apply(lambda x: "Unknown" if pd.isna(x) else str(x))
        test_data[feature] = test_data[feature].apply(lambda x: "Unknown" if pd.isna(x) else str(x))
        return f"{feature} (train/test) nulo -> {train_data[feature].isnull().sum(),test_data[feature].isnull().sum()}"
    elif datatype == "number":
        train_data[feature] = train_data[feature].apply(lambda x: 0 if pd.isna(x) else float(x))
        test_data[feature] = test_data[feature].apply(lambda x: 0 if pd.isna(x) else float(x))
        return f"{feature} (train/test) nulo -> {train_data[feature].isnull().sum(),test_data[feature].isnull().sum()}"
    else:
        return "Unknown datatype! Check the function docs!"

print(prep_null_train("HomePlanet", "string"))
print(prep_null_train("CryoSleep", "number"))
print(prep_null_train("Cabin", "string"))
print(prep_null_train("Destination", "string"))
print(prep_null_train("Age", "number"))
print(prep_null_train("VIP", "number"))
print(prep_null_train("RoomService", "number"))
print(prep_null_train("FoodCourt", "number"))
print(prep_null_train("ShoppingMall", "number"))
print(prep_null_train("Spa", "number"))
print(prep_null_train("VRDeck", "number"))
print(prep_null_train("Name", "string"))

HomePlanet (train/test) nulo -> (0, 0)
CryoSleep (train/test) nulo -> (0, 0)
Cabin (train/test) nulo -> (0, 0)
Destination (train/test) nulo -> (0, 0)
Age (train/test) nulo -> (0, 0)
VIP (train/test) nulo -> (0, 0)
RoomService (train/test) nulo -> (0, 0)
FoodCourt (train/test) nulo -> (0, 0)
ShoppingMall (train/test) nulo -> (0, 0)
Spa (train/test) nulo -> (0, 0)
VRDeck (train/test) nulo -> (0, 0)
Name (train/test) nulo -> (0, 0)


10 - Realizando o encoding das variáveis categóricas para que sejam consideradas nos modelos

In [16]:
def encoding(feature):
    label_encoder = preprocessing.LabelEncoder()
    train_data[feature] = label_encoder.fit_transform(train_data[feature])
    test_data[feature] = label_encoder.fit_transform(test_data[feature])
    train_data[feature].unique()
    test_data[feature].unique()

encoding("HomePlanet")
encoding("Cabin")
encoding("Destination")
encoding("Name")
encoding("Transported")

11 - Verificando a execução da função encoding no tratamento das variáveis categóricas do conjunto de dados e teste

In [17]:
train_data.head(5)

Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
0,0001_01,1,0.0,149,2,39.0,0.0,0.0,0.0,0.0,0.0,0.0,5252,0
1,0002_01,0,0.0,2184,2,24.0,0.0,109.0,9.0,25.0,549.0,44.0,4502,1
2,0003_01,1,0.0,1,2,58.0,1.0,43.0,3576.0,0.0,6715.0,49.0,457,0
3,0003_02,1,0.0,1,2,33.0,0.0,0.0,1283.0,371.0,3329.0,193.0,7149,0
4,0004_01,0,0.0,2186,2,16.0,0.0,303.0,70.0,151.0,565.0,2.0,8320,1


In [18]:
test_data.head(5)

Unnamed: 0,PassengerId,HomePlanet,CryoSleep,Cabin,Destination,Age,VIP,RoomService,FoodCourt,ShoppingMall,Spa,VRDeck,Name,Transported
0,0013_01,0,1.0,2784,2,27.0,0.0,0.0,0.0,0.0,0.0,0.0,2912,0
1,0018_01,0,0.0,1867,2,19.0,0.0,0.0,9.0,0.0,2823.0,0.0,2406,0
2,0019_01,1,1.0,257,0,31.0,0.0,0.0,0.0,0.0,0.0,0.0,3376,0
3,0021_01,1,0.0,259,2,38.0,0.0,0.0,6652.0,0.0,181.0,585.0,2711,0
4,0023_01,0,0.0,1940,2,20.0,0.0,10.0,0.0,635.0,0.0,0.0,668,0


12 - Analisando o nível de correlação entre as variáveis independentes e a variável alvo

In [19]:
correlation = train_data.corr()
correlation.sort_values(["Transported"], ascending = False, inplace = True)
print(f"Features ordenadas por ordem de correlação com a variável dependente\n\n{correlation['Transported']}")

Features ordenadas por ordem de correlação com a variável dependente

Transported     1.000000
CryoSleep       0.460132
HomePlanet      0.107755
FoodCourt       0.045583
PassengerId     0.021491
ShoppingMall    0.009391
Name           -0.008420
VIP            -0.037261
Cabin          -0.052604
Age            -0.071330
Destination    -0.104817
VRDeck         -0.204874
Spa            -0.218545
RoomService    -0.241124
Name: Transported, dtype: float64


In [20]:
fig_corr = plt.imshow(
    correlation, 
    x = ["Transported", "CryoSleep", "HomePlanet", "FoodCourt", "PassengerId", "ShoppingMall", "Name", "VIP", "Cabin", "Age", "Destination", "VRDeck", "Spa", "RoomService"],
    y = ["Transported", "CryoSleep", "HomePlanet", "FoodCourt", "PassengerId", "ShoppingMall", "Name", "VIP", "Cabin", "Age", "Destination", "VRDeck", "Spa", "RoomService"],
    text_auto=True)
fig_corr.update_layout(title = "Nível de correlação entre as features", xaxis_nticks = 14)
fig_corr.show()

O que é correlação? É um número, entre -1 e 1, que indica o vínculo entre dois eventos distintos que aconteceram ao mesmo tempo, entretanto, um evento NÃO foi necessariamente a causa do outro, como por exemplo: todos os dias em que trabalho presencialmente, o clima está frio e/ou chuvoso. Partindo do exemplo, o segundo evento, clima frio e/ou chuvoso, não é causado necessariamente pelo fato de eu ir trabalhar presencialmente, o que indica ser uma infeliz coincidência.
- Qual a diferença entre correlação e causalidade? https://www.youtube.com/watch?v=l4Byu2Dym2A
- Correlação não é causalidade, mas o que é então? https://escoladedados.org/tutoriais/correlacao-nao-e-causalidade-mas-o-que-e-entao
___

# Treinamento dos Modelos

Nessa seção realizaremos a divisão dos conjuntos de dados entre treinamento e teste, e treinamento dos modelos.

13 - Gerando os conjuntos de treino (x, y) e teste (x, y)

In [21]:
x = train_data[["HomePlanet","CryoSleep","Cabin","Destination","Age","VIP","RoomService","FoodCourt","ShoppingMall","Spa","VRDeck","Name"]]
y = train_data["Transported"]
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20, random_state=2077)

14 - Treinamento do modelo com o K-Nearest Neighbors

In [22]:
knn = neighbors.KNeighborsClassifier(n_neighbors=3)
knn.fit(x_train, y_train)
y_pred_knn = knn.predict(x_test)
mean_precision_knn = round(knn.score(x_train, y_train), 2)
accuracy_knn = round(accuracy_score(y_test, y_pred_knn), 2)
f_one_knn = round(f1_score(y_test, y_pred_knn, average="weighted"), 2)
brier_knn = round(brier_score_loss(y_test, y_pred_knn), 2)
print(f"K-Nearest Neighbors")
print(f"-> Precisão média: {mean_precision_knn} ; Acurácia: {accuracy_knn} ; F1-Score: {f_one_knn} ; Brier Score: {brier_knn}")

K-Nearest Neighbors
-> Precisão média: 0.86 ; Acurácia: 0.75 ; F1-Score: 0.75 ; Brier Score: 0.25


15 - Treinamento do modelo com o Naive Bayes

In [23]:
bayes = naive_bayes.GaussianNB()
bayes.fit(x_train, y_train)
y_pred_bayes = bayes.predict(x_test)
mean_precision_bayes = round(bayes.score(x_train, y_train), 2)
accuracy_bayes = round(accuracy_score(y_test, y_pred_bayes), 2)
f_one_bayes = round(f1_score(y_test, y_pred_bayes, average="weighted"), 2)
brier_bayes = round(brier_score_loss(y_test, y_pred_bayes), 2)
print(f"Naive Bayes")
print(f"-> Precisão média: {mean_precision_bayes} ; Acurácia: {accuracy_bayes} ; F1-Score: {f_one_bayes} ; Brier Score: {brier_bayes}")

Naive Bayes
-> Precisão média: 0.7 ; Acurácia: 0.69 ; F1-Score: 0.67 ; Brier Score: 0.31


16 - Treinamento do modelo com o Support Vector Machine

In [24]:
svm = svm.SVC()
svm.fit(x_train, y_train)
y_pred_svm = svm.predict(x_test)
mean_precision_svm = round(svm.score(x_train, y_train), 2)
accuracy_svm = round(accuracy_score(y_test, y_pred_svm), 2)
f_one_svm = round(f1_score(y_test, y_pred_svm, average="weighted"), 2)
brier_svm = round(brier_score_loss(y_test, y_pred_svm), 2)
print(f"Support Vector Machine")
print(f"-> Precisão média: {mean_precision_svm} ; Acurácia: {accuracy_svm} ; F1-Score: {f_one_svm} ; Brier Score: {brier_svm}")

Support Vector Machine
-> Precisão média: 0.78 ; Acurácia: 0.78 ; F1-Score: 0.78 ; Brier Score: 0.22


17 - Treinamento do modelo com o Decision Tree

In [25]:
tree = tree.DecisionTreeClassifier()
tree.fit(x_train, y_train)
y_pred_tree = tree.predict(x_test)
mean_precision_tree = round(tree.score(x_train, y_train), 2)
accuracy_tree = round(accuracy_score(y_test, y_pred_tree), 2)
f_one_tree = round(f1_score(y_test, y_pred_tree, average="weighted"), 2)
brier_tree = round(brier_score_loss(y_test, y_pred_tree), 2)
print(f"Árvore de Decisão")
print(f"-> Precisão média: {mean_precision_tree} ; Acurácia: {accuracy_tree} ; F1-Score: {f_one_tree} ; Brier Score: {brier_tree}")

Árvore de Decisão
-> Precisão média: 1.0 ; Acurácia: 0.72 ; F1-Score: 0.72 ; Brier Score: 0.28


18 - Treinamento do modelo com o Logistic Regression

In [26]:
logReg = linear_model.LogisticRegression(random_state=0, max_iter=1000)
logReg.fit(x_train, y_train)
y_pred_logReg = logReg.predict(x_test)
mean_precision_logReg = round(logReg.score(x_train, y_train), 2)
accuracy_logReg = round(accuracy_score(y_test, y_pred_logReg), 2)
f_one_logReg = round(f1_score(y_test, y_pred_logReg, average="weighted"), 2)
brier_logReg = round(brier_score_loss(y_test, y_pred_logReg), 2)
print(f"Regressão Logística")
print(f"-> Precisão média: {mean_precision_logReg} ; Acurácia: {accuracy_logReg} ; F1-Score: {f_one_logReg} ; Brier Score: {brier_logReg}")

Regressão Logística
-> Precisão média: 0.78 ; Acurácia: 0.77 ; F1-Score: 0.77 ; Brier Score: 0.23


___
# Avaliação dos Resultados

Nessa seção realizaremos a avaliação das métricas de resposta dos modelos.

19 - Consolidando as métricas de avaliação dos modelos

In [27]:
results = {
    "K-Nearest Neighbors" : f"Precisão média: {mean_precision_knn} ; Acurácia: {accuracy_knn} ; F1-Score: {f_one_knn} ; Brier Score: {brier_knn}",
    "Naive Bayes" : f"Precisão média: {mean_precision_bayes} ; Acurácia: {accuracy_bayes} ; F1-Score: {f_one_bayes} ; Brier Score: {brier_bayes}",
    "Support Vector Machine" : f"Precisão média: {mean_precision_svm} ; Acurácia: {accuracy_svm} ; F1-Score: {f_one_svm} ; Brier Score: {brier_svm}",
    "Árvore de Decisão" : f"Precisão média: {mean_precision_tree} ; Acurácia: {accuracy_tree} ; F1-Score: {f_one_tree} ; Brier Score: {brier_tree}",
    "Regressão Logística" : f"Precisão média: {mean_precision_logReg} ; Acurácia: {accuracy_logReg} ; F1-Score: {f_one_logReg} ; Brier Score: {brier_logReg}",
}
for key, value in results.items():
    print(f"{key}")
    print(f"-> {value}")

K-Nearest Neighbors
-> Precisão média: 0.86 ; Acurácia: 0.75 ; F1-Score: 0.75 ; Brier Score: 0.25
Naive Bayes
-> Precisão média: 0.7 ; Acurácia: 0.69 ; F1-Score: 0.67 ; Brier Score: 0.31
Support Vector Machine
-> Precisão média: 0.78 ; Acurácia: 0.78 ; F1-Score: 0.78 ; Brier Score: 0.22
Árvore de Decisão
-> Precisão média: 1.0 ; Acurácia: 0.72 ; F1-Score: 0.72 ; Brier Score: 0.28
Regressão Logística
-> Precisão média: 0.78 ; Acurácia: 0.77 ; F1-Score: 0.77 ; Brier Score: 0.23


- Métricas de avaliação de modelos de aprendizado de máquina: https://mariofilho.com/precisao-recall-e-f1-score-em-machine-learning/#o-que-é-precisão
- RMSE e Brier Score: https://mariofilho.com/rmse-raiz-do-erro-quadratico-medio-em-machine-learning/
___

# Exportação dos Resultados

Nessa seção utilizaremos os modelos treinados para realizar a predição se um determinado tripulante será ou não transportado ao seu destino, e posteriormente exportar o resultado de todos os modelos como .csv para submeter no Kaggle.

20 - Realizando a predição com os modelos treinados

In [28]:
x_test = test_data[["HomePlanet","CryoSleep","Cabin","Destination","Age","VIP","RoomService","FoodCourt","ShoppingMall","Spa","VRDeck","Name"]]
y_pred_knn = knn.predict(x_test)
y_pred_bayes = bayes.predict(x_test)
y_pred_svm = svm.predict(x_test)
y_pred_tree = tree.predict(x_test)
y_pred_logReg = logReg.predict(x_test)

21 - Exportando os arquivos para submeter na plataforma Kaggle

In [29]:
submission = pd.read_csv("_submission/submission.csv")

submission_knn = pd.DataFrame({"PassengerId" : submission.PassengerId, "Transported" : y_pred_knn})
submission_knn["Transported"] = submission_knn["Transported"].apply(lambda x: True if x == 1 else False)
submission_knn.to_csv("_submission/submission_knn.csv", index=False)

submission_bayes = pd.DataFrame({"PassengerId" : submission.PassengerId, "Transported" : y_pred_bayes})
submission_bayes["Transported"] = submission_bayes["Transported"].apply(lambda x: True if x == 1 else False)
submission_bayes.to_csv("_submission/submission_bayes.csv", index=False)

submission_svm = pd.DataFrame({"PassengerId" : submission.PassengerId, "Transported" : y_pred_svm})
submission_svm["Transported"] = submission_svm["Transported"].apply(lambda x: True if x == 1 else False)
submission_svm.to_csv("_submission/submission_svm.csv", index=False)

submission_tree = pd.DataFrame({"PassengerId" : submission.PassengerId, "Transported" : y_pred_tree})
submission_tree["Transported"] = submission_tree["Transported"].apply(lambda x: True if x == 1 else False)
submission_tree.to_csv("_submission/submission_tree.csv", index=False)

submission_logReg = pd.DataFrame({"PassengerId" : submission.PassengerId, "Transported" : y_pred_logReg})
submission_logReg["Transported"] = submission_logReg["Transported"].apply(lambda x: True if x == 1 else False)
submission_logReg.to_csv("_submission/submission_logReg.csv", index=False)

22 - Após exportar os resultados e submeter na plataforma Kaggle, os resultados apresentados na matriz abaixo foram gerados

| Algoritmo | Kaggle Score |
|-----------|--------------|
| logReg    | 0.78115      |
| svm       | 0.77811      |
| knn       | 0.72714      |
| bayes     | 0.71218      |
| tree      | 0.70844      |

___