### Importação das biliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# importa o knn
from sklearn.neighbors import KNeighborsClassifier
# importa a decision tree
from sklearn import tree
# importa o random forest
from sklearn.ensemble import RandomForestClassifier
# importa o módulo de métricas
from sklearn import metrics
# importa a função auxiliar para fazer a divisao dos dados
from sklearn.model_selection import train_test_split
# importa o encoder para transformar as classes em texto em números
from sklearn.preprocessing import LabelEncoder
# importa o standard scaler para normalizar os dados numéricos
from sklearn.preprocessing import StandardScaler
# importa o minmax scaler para normalizar os dados numéricos
from sklearn.preprocessing import MinMaxScaler


### Tratamento dos dados

In [8]:
# Importa o csv de treino e teste das classes e remove as linhas que possuem idade, porto de embarque ou tarifa nulas
train_x = pd.read_csv('train.csv')
train_x = train_x.dropna(subset=['Age']).dropna(subset=['Embarked']).dropna(subset=['Fare'])
train_y = train_x['Survived']
train_x.pop('Survived')
test_x = pd.read_csv('test.csv')
test_y = pd.read_csv('gender_submission.csv')
merged = pd.merge(test_x, test_y, on='PassengerId')
merged = merged.dropna(subset=['Age']).dropna(subset=['Embarked']).dropna(subset=['Fare'])
test_x = merged.drop(['Survived'], axis=1)
test_y = merged['Survived']

# Removendo colunas que não serão utilizadas
train_x.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)
test_x.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

# Transformando a variável Sexo para numérica (male e female para 1 e 0, respectivamente) e a variável Embarked para numérica (C, Q e S para 0, 1 e 2, respectivamente)
le = LabelEncoder()
le.fit(train_x['Sex'])
train_x['Sex'] = le.transform(train_x['Sex'])
le.fit(test_x['Sex'])
test_x['Sex'] = le.transform(test_x['Sex'])

le.fit(train_x['Embarked'])
train_x['Embarked'] = le.transform(train_x['Embarked'])
le.fit(test_x['Embarked'])
test_x['Embarked'] = le.transform(test_x['Embarked'])

train_x.head()
test_x.head()

# Normalizando os dados com standard scaler
# scaler = StandardScaler()
# scaler.fit(train_x[['Age']])
# train_x['Age'] = scaler.transform(train_x[['Age']])
# scaler.fit(test_x[['Age']])
# test_x['Age'] = scaler.transform(test_x[['Age']])
# scaler.fit(train_x[['Fare']])
# train_x['Fare'] = scaler.transform(train_x[['Fare']])
# scaler.fit(test_x[['Fare']])
# test_x['Fare'] = scaler.transform(test_x[['Fare']])

# Normalizando os dados com min max scaler
scaler = MinMaxScaler()
scaler.fit(train_x[['Age']])
train_x['Age'] = scaler.transform(train_x[['Age']])
scaler.fit(test_x[['Age']])
test_x['Age'] = scaler.transform(test_x[['Age']])
scaler.fit(train_x[['Fare']])
train_x['Fare'] = scaler.transform(train_x[['Fare']])
scaler.fit(test_x[['Fare']])
test_x['Fare'] = scaler.transform(test_x[['Fare']])

# Normalizando os dados com divisão pelo máximo
# test_x['Age'] = test_x['Age'] / test_x['Age'].max()
# test_x['Fare'] = test_x['Fare'] / test_x['Fare'].max()
# train_x['Age'] = train_x['Age'] / train_x['Age'].max()
# train_x['Fare'] = train_x['Fare'] / train_x['Fare'].max()


### Treinamento do modelo KNN

In [9]:
# # Treinando o modelo KNN
knn = KNeighborsClassifier(n_neighbors=19)

#Treinamos o modelo utilizando treino X e treino Y
knn.fit(train_x, train_y)

# Realizando a predição com o modelo treinado
pred_y = knn.predict(test_x)

print("Accuracy:", metrics.accuracy_score(pred_y, test_y))
print("F1-score:", metrics.f1_score(pred_y, test_y, average='micro'))
print("Precision:", metrics.precision_score(pred_y, test_y, average='micro'))
print("Recall:", metrics.recall_score(pred_y, test_y, average='micro'))

# Percorrendo entre 1 e 50 para encontrar o melhor valor de K (encontrado o valor 19)
# for i in range(1, 51):
#     # Treinando o modelo KNN
#     knn = KNeighborsClassifier(n_neighbors=i)

#     #Treinamos o modelo utilizando treino X e treino Y
#     knn.fit(train_x, train_y)

#     # Realizando a predição com o modelo treinado
#     pred_y = knn.predict(test_x)

#     print("K =", i)
#     print("Accuracy:", metrics.accuracy_score(pred_y, test_y))
#     print("F1-score:", metrics.f1_score(pred_y, test_y, average='micro'))
#     print("Precision:", metrics.precision_score(pred_y, test_y, average='micro'))
#     print("Recall:", metrics.recall_score(pred_y, test_y, average='micro'))
#     print('--------------------------------------------------------------------------------------------------------')

Acurácia: 0.8851963746223565
F1-score: 0.8851963746223565
Precision: 0.8851963746223565
Recall: 0.8851963746223565


### Treinamento do modelo Decision Tree

In [10]:
# Geramos a árvore de decisão utilizando gini como critério de cálculo de Information Gain
# clf = tree.DecisionTreeClassifier(criterion="gini", random_state=42)
clf = tree.DecisionTreeClassifier(criterion="entropy", random_state=42, max_depth=8)
# clf = tree.DecisionTreeClassifier(criterion="log_loss", random_state=42)

#Treinamos o modelo utilizando treino X e treino Y
clf.fit(train_x, train_y)

# Predizemos o conteúdo do teste X
pred_y = clf.predict(test_x)

print("Accuracy:", metrics.accuracy_score(pred_y, test_y))
print("F1-score:", metrics.f1_score(pred_y, test_y, average='micro'))
print("Precision:", metrics.precision_score(pred_y, test_y, average='micro'))
print("Recall:", metrics.recall_score(pred_y, test_y, average='micro'))

# Percorrendo entre 1 e 50 para encontrar o melhor valor de níveis da árvore (encontrado o valor 8 com o critério de entropia)

# for i in range(1, 51):
#     # Treinando o modelo KNN
#     clf = tree.DecisionTreeClassifier(criterion="entropy", random_state=42, max_depth=i)

#          #Treinamos o modelo utilizando treino X e treino Y
#     clf.fit(train_x, train_y)

#     # Predizemos o conteúdo do teste X
#     pred_y = clf.predict(test_x)

#     print("K =", i)
#     print("Accuracy:", metrics.accuracy_score(pred_y, test_y))
#     print("F1-score:", metrics.f1_score(pred_y, test_y, average='micro'))
#     print("Precision:", metrics.precision_score(pred_y, test_y, average='micro'))
#     print("Recall:", metrics.recall_score(pred_y, test_y, average='micro'))
#     print('--------------------------------------------------------------------------------------------------------')

Acurácia: 0.8338368580060423
F1-score: 0.8338368580060423
Precision: 0.8338368580060423
Recall: 0.8338368580060423


### Treinamento do modelo Random Forest

In [11]:
# Geramos a floreta gini como critério de cálculo de Information Gain
clf = RandomForestClassifier(n_estimators=80, criterion='entropy', random_state=42)

#Treinamos o modelo utilizando treino X e treino Y
clf.fit(train_x, train_y)

# Predizemos o conteúdo do teste X
pred_y = clf.predict(test_x)

print("Accuracy:", metrics.accuracy_score(pred_y, test_y))
print("F1-score:", metrics.f1_score(pred_y, test_y, average='micro'))
print("Precision:", metrics.precision_score(pred_y, test_y, average='micro'))
print("Recall:", metrics.recall_score(pred_y, test_y, average='micro'))

# Percorrendo entre 1 e 100 para encontrar o melhor valor de níveis das árvores (encontrado o valor 80 com o critério de entropia)

# for i in range(1, 101):
#     # Geramos a floreta gini como critério de cálculo de Information Gain
#     clf = RandomForestClassifier(n_estimators=i, criterion='entropy', random_state=42)

#     #Treinamos o modelo utilizando treino X e treino Y
#     clf.fit(train_x, train_y)

#     # Predizemos o conteúdo do teste X
#     pred_y = clf.predict(test_x)

#     print('K = ', i)
#     print("Accuracy:", metrics.accuracy_score(pred_y, test_y))
#     print("F1-score:", metrics.f1_score(pred_y, test_y, average='micro'))
#     print("Precision:", metrics.precision_score(pred_y, test_y, average='micro'))
#     print("Recall:", metrics.recall_score(pred_y, test_y, average='micro'))
#     print('--------------------------------------------------------------------------------------------------------')

Acurácia: 0.8217522658610272
F1-score: 0.8217522658610272
Precision: 0.8217522658610272
Recall: 0.8217522658610272


### Avaliação dos resultados

Baseado nos resultados identificados após o treinamento dos modelos com os algoritmos KNN, Decision Tree e Random Forest, realizando a manipulação dos hiperparametros para encontrar as melhores métricas em cada um e baseando a análise no cálculo das métricas Accuracy, F1-score, Precisão e Recall, foi possível identificar que o modelo KNN apresentou os melhores resultados.