# Selecionar a melhor estratégia para classificação com KNN

Neste notebook exploraremos os métodos para conseguir a melhor configuração do valor K do algoritmo KNN (_k-nearest neighbor_) e a melhor estratégia para eliminação de _missing values_.

Para tal, variamos os valores de K de forma crescente utilizando cada uma das três bases de dados em que foi aplicado uma estratégia para substituição dos _missing values_.

A métrica utilizada para a avaliação da melhor estratégia é a acurácia.

### importar as bibliotecas necessárias

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

### Carregar as bases de dados

In [2]:
# Dados de treinameto
# Missing values substituídos pela média, moda e mediana, respectiviamente
training_mean = pd.read_csv("data/training_mean.csv").set_index('sessionNo')
training_mode = pd.read_csv("data/training_mode.csv").set_index('sessionNo')
training_median = pd.read_csv("data/training_median.csv").set_index('sessionNo')

# Dados de teste
# Missing values substituídos pela média, moda e mediana, respectiviamente
testing_mean = pd.read_csv("data/testing_mean.csv").set_index('sessionNo')
testing_mode = pd.read_csv("data/testing_mode.csv").set_index('sessionNo')
testing_median = pd.read_csv("data/testing_median.csv").set_index('sessionNo')

## Funções auxiliares

### Separar um dataframe em um vetor de características e  um vetor de classe

In [3]:
def splitData(df):
    x = df.iloc[:, :-1]
    y = df['order']
    return x, y

### Calcular um array de acurácias para cada valor de k

Essa função testa valores ímpares de K até um valor dado por _lenght_ retornando um vetor de acurácias, o menor valor e o parâmetro K que gerou esse valor.

In [4]:
def makeErrosKnn(df_train, df_test, length):
    x_train, y_train = splitData(df_train)
    x_test, y_test = splitData(df_test)
    errors = []
    best_k = 1
    minimun = 5111.
    for k in range(1, length + 2, 2):
        knn = KNeighborsClassifier(n_neighbors=k, n_jobs=-1)
        knn.fit(x_train, y_train)
        erro = knn.score(x_test, y_test)
        if(erro < minimun):
            minimun = erro
            best_k = k
        errors.append(erro)
    return errors, minimun, best_k

## Execuções dos experimentos

### Missing values substituídos pela média

In [None]:
errors, minimun, best_k = makeErrosKnn(df_train, df_test, length)
plt.plot(list(range(1, len(errors), 2)), errors, marker='o')
plt.xlabel('K')
plt.ylabel('Acurácia')
plt.title('Acurácias por valores de K')
plt.show()
print('Menor erro: '+ str(minimun) +'; Melhor k: '+ str(best_k))