# Exercício 1 - Titanic

`Gabarito - Adolfo Guimarães`

Esse exercício tem como objetivo exercitar os conceitos básicos de dataset e de aprendizagem de máquina vistos no tutorial HelloWorld e prepara-lo para o que será abordado nas próximas aulas.

No exercício vamos trabalhar com um outro clássico dataset de aprendizagem de máquina: sobreviventes do titanic. Este também é um problema de classificação que visa dado um conjunto de informações dos passageiros do Titanic, pretende-se classifica-los em "sobreviveu" ou "não sobreviveu" ao naufrágio.

A sua tarefa principal é pesquisar sobre o KNN no scikit learn e aplica-lo a este problema.

O arquivo final deve ser submetido no Kaggle:

https://www.kaggle.com/c/titanic/data (é necessário fazer um cadastro no Kaggle)

# Etapa 1: Treinamento

A primeira etapa é treinar o modelo. O código a seguir prepara a base para que seja usada no Scikit-Learn. Como a biblioteca só aceita valores numéricos, precisamos mapear os valores textuais para numéricos e eliminar alguns campos desnecessários para o problema. 

In [None]:
import pandas as pd
import numpy as np

from sklearn.model_selection import cross_val_score

In [2]:
df = pd.read_csv("https://raw.githubusercontent.com/adolfoguimaraes/machinelearningclass/master/datasets/titanic/train.csv")

print("Tabela Original")
df.head()

Tabela Original


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [3]:
df = df.drop(['Name', 'Ticket', 'Cabin'], axis=1)
df['Gender'] = df['Sex'].map({'female': 0, 'male':1}).astype(float)
df['Port'] = df['Embarked'].map({'C':1, 'S':2, 'Q':3}).astype(float)
df = df.drop(['Sex', 'Embarked'], axis=1)
cols = df.columns.tolist()
cols = [cols[1]] + cols[0:1] + cols[2:]
df = df[cols]
df = df.fillna(-1)


print("Tabela depois de processada")
df.head()

Tabela depois de processada


Unnamed: 0,Survived,PassengerId,Pclass,Age,SibSp,Parch,Fare,Gender,Port
0,0,1,3,22.0,1,0,7.25,1.0,2.0
1,1,2,1,38.0,1,0,71.2833,0.0,1.0
2,1,3,3,26.0,0,0,7.925,0.0,2.0
3,1,4,1,35.0,1,0,53.1,0.0,2.0
4,0,5,3,35.0,0,0,8.05,1.0,2.0


In [None]:
dataset = {
    'data': df.values[0:, 2:],
    'target': df.values[0:,0]
}

In [None]:
X = dataset['data']
y = dataset['target']

## Atividade 

Treine um modelo que permita classificar os passageiros em sobreviventes ou não. Aponte como resposta o código e a acurácia do modelo usando o KNN. 

In [6]:
from sklearn.neighbors import KNeighborsClassifier

knn_3 = KNeighborsClassifier(n_neighbors=3)

knn_3.fit(X, y)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=3, p=2,
           weights='uniform')

In [7]:
knn_3.score(X, y)

0.8417508417508418

In [8]:
for k in range(1, 20):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X, y)
    print(k, knn.score(X, y))

1 0.9674523007856342
2 0.835016835016835
3 0.8417508417508418
4 0.8024691358024691
5 0.8047138047138047
6 0.7721661054994389
7 0.7710437710437711
8 0.7620650953984287
9 0.7654320987654321
10 0.7485970819304153
11 0.7407407407407407
12 0.7317620650953984
13 0.7272727272727273
14 0.7171717171717171
15 0.7283950617283951
16 0.7250280583613917
17 0.7272727272727273
18 0.7160493827160493
19 0.7239057239057239


# Etapa 2 - Teste

O Kaggle disponibiliza uma base de teste sem rótulos para que possamos testar o modelo criado. 

O código a seguir acessa a base de teste e formata a base para scikit-learn assim como foi feito na etapa de treinamento. 

In [9]:
df_test = pd.read_csv("https://raw.githubusercontent.com/adolfoguimaraes/machinelearningclass/master/datasets/titanic/test.csv")

df_test.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [10]:
df_test = df_test.drop(['Name', 'Ticket', 'Cabin'], axis=1)
df_test['Gender'] = df_test['Sex'].map({'female': 0, 'male':1}).astype(int)
df_test['Port'] = df_test['Embarked'].map({'C':1, 'S':2, 'Q':3}).astype(int)
df_test = df_test.drop(['Sex', 'Embarked'], axis=1)
df_test = df_test.fillna(-1)

print("Tabela depois de processada")
df_test.head()

Tabela depois de processada


Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare,Gender,Port
0,892,3,34.5,0,0,7.8292,1,3
1,893,3,47.0,1,0,7.0,0,2
2,894,2,62.0,0,0,9.6875,1,3
3,895,3,27.0,0,0,8.6625,1,2
4,896,3,22.0,1,1,12.2875,0,2


Aplique o modelo treinado à base de teste.

In [None]:
# Modelo com o melhor valor de K testado anteriormente.

knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X, y)

test = df_test.values[0:, 1:]
test_ids = df_test.values[0:, 0]

predict_values = knn.predict(test)

# Saída

Por fim, gere o arquivo no formato exigido pelo Kaggle e submeta na competição correspondente. Informe a acurácia retornada pelo Kaggle e compare com a sua. 

In [None]:
def generate_csv(id_values, predict_result, filename):
    count = 0
    values = []
    for id_value in id_values:
        values.append((int(id_value), int(predict_result[count])))
        count += 1

    df = pd.DataFrame(values, columns=['PassengerId','Survived']) 
    df.to_csv(filename + ".csv", sep=',', columns=['PassengerId','Survived'], index=False)

In [None]:
generate_csv(test_ids, predict_values, "output")

In [None]:
# Use para baixar o arquivo do colab
from google.colab import files
files.download('output.csv') 

# Melhorando o resultado 

Aplique a metodologia de treino e teste com validação cruzada para melhorar o resultado submetido ao Kaggle.

In [15]:
best_value = 0
best_k = 0

for k in range(1, 30):
    knn = KNeighborsClassifier(n_neighbors=k)
    score_mean = cross_val_score(knn, X, y, cv=5, scoring='accuracy').mean()
    
    if score_mean > best_value:
        best_value = score_mean
        best_k = k
        
print("Melhor valor de k foi %i com acurácia de %f" % (best_k, best_value))

Melhor valor de k foi 3 com acurácia de 0.704855


In [None]:
# Aplicando o modelo com o melhor K na base de teste

# Modelo com o melhor valor de K testado anteriormente.

knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X, y)

predict_values = knn.predict(test)

In [None]:
generate_csv(test_ids, predict_values, "output_crossval_k3")

In [None]:
# Use para baixar o arquivo do colab
from google.colab import files
files.download('output_crossval_k3.csv') 