# Selecionando parâmetros para o KNN

Neste notebook selecionaremos o melhor valor de K para o algoritmo de seleção KNN

### Importar as bibliotecas

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier

### Carregar os dados 

In [2]:
# Dados de treinameto
training_mean = pd.read_csv("data/training_mean.csv").set_index('sessionNo') # Missing values substituídos pela média
training_mode = pd.read_csv("data/training_mode.csv").set_index('sessionNo') # Missing values substituídos pela moda
training_median = pd.read_csv("data/training_median.csv").set_index('sessionNo') # Missing values substitídos pela mediana

# Dados de teste
testing_mean = pd.read_csv("data/testing_mean.csv").set_index('sessionNo') # Missing values substituídos pela média
testing_mode = pd.read_csv("data/testing_mode.csv").set_index('sessionNo') # Missing values substituídos pela moda
testing_median = pd.read_csv("data/testing_median.csv").set_index('sessionNo') # Missing values substitídos pela mediana

## Escolher o melhor parâmetro K para o KNN e a melhor estratégia para tratamento de missing values

### Separar um dataframe em um vetor de características e  um vetor de classe

In [3]:
def splitData(df):
    x = df.iloc[:, :-1]
    y = df['order']
    return x, y

### Testar o classificador

Variando o valor de k entre 1 e 201 passo 2

In [4]:
def makeErrosKnn(df_train, df_test, length):
    x_train, y_train = splitData(df_train)
    x_test, y_test = splitData(df_test)
    ks = list(range(1, length, 2))
    errors = []
    
    for k in ks:
        knn = KNeighborsClassifier(n_neighbors=k, n_jobs=-1)
        knn.fit(x_train, y_train)
        errors.append(abs(y_test - knn.predict(x_test)).sum())
    return errors

### Melhor K para a estratégia de substituir missing values pela média

In [5]:
errors = makeErrosKnn(training_mean, testing_mean, 203)
plt.plot(list(range(1, 203, 2)), erros, marker='+')
plt.show()
print(min(errors))

NameError: name 'erros' is not defined

### Melhor K para a estratégia de substituir missing values pela moda

In [None]:
errors = makeErrosKnn(training_mode, testing_mode, 203)
plt.plot(list(range(1, 203, 2)), errors, marker='+')
plt.show()
print(min(errors))

### Melhor K para a estratégia de substituir missing values pela mediana

In [None]:
errors = makeErrosKnn(training_median, testing_median, 203)
plt.plot(list(range(1, 203, 2)), errors, marker='+')
plt.show()
print(min(errors))

Verificamos nesta etapa que a melhor combinação de estratégia para a classificação com KNN é utilizar a substituição dos _missing values_ pela média e K = 5.

## Escolher a melhor quantidade de estimadores para o RF e a melhor estratégia para tratamento de missing values

## Testando o classificador
 
Variando a quantidade de estimadores entre 1 e 201, passo 2, e entre 1 e 2000, passo 50.

In [None]:
def errorRandomForest(df_train, df_test, length, step):
    x_train, y_train = splitData(df_train)
    x_test, y_test = splitData(df_test)
    estimators = list(range(1, length, step))
    errors = []
    for e in estimators:
        rf = RandomForestClassifier(n_estimators=e, max_depth=None, min_samples_split=2, random_state=0, n_jobs=-1)
        rf.fit(x_train, y_train)
        errors.append(abs(y_test - rf.predict(x_test)).sum())
    return errors

In [None]:
errors = errorRandomForest(training_mean, testing_mean, 203, 2)
plt.plot(list(range(1, 203, 2)), errors, marker='+')
plt.show()
print(min(errors))

In [None]:
errors = errorRandomForest(training_mean, testing_mean, 2003, 50)
plt.plot(list(range(1, 2003, 50)), errors, marker='+')
plt.show()
print(min(errors))

In [None]:
errors = errorRandomForest(training_mode, testing_mode, 203, 2)
plt.plot(list(range(1, 203, 2)), errors, marker='+')
plt.show()
print(min(errors))

In [None]:
errors = errorRandomForest(training_mode, testing_mode, 2003, 50)
plt.plot(list(range(1, 203, 2)), errors, marker='+')
plt.show()
print(min(errors))

In [None]:
errors = errorRandomForest(training_median, testing_median, 203)
plt.plot(list(range(1, 203, 2)), errors, marker='+')
plt.show()
print(min(errors))

In [None]:
errors = errorRandomForest(training_median, testing_median, 2003, 50)
plt.plot(list(range(1, 2003, 50)), errors, marker='+')
plt.show()
print(min(errors))

## Testando o classificador Arvore de Decisão

In [None]:
tree = DecisionTreeClassifier(criterion='entropy',max_depth=None, min_samples_split=2,random_state=0)

### Realiza classificação com a arvore de decisão

In [None]:
def errorDecisionTree(df_train, df_test):
    x_train, y_train = splitData(df_train)
    x_test, y_test = splitData(df_test)
    tree.fit(x_train,y_train)
    error = abs(y_test - tree.predict(x_test)).sum()
    return error

### Erro calulado com a estratégia de substituir missing values pela média

In [None]:
errorDecisionTree(training_mean, testing_mean)

### Erro calulado com a estratégia de substituir missing values pela moda

In [None]:
errorDecisionTree(training_mode, testing_mode)

### Erro calulado com a estratégia de substituir missing values pela mediana

In [None]:
errorDecisionTree(training_median, testing_median)