# Classificador KNN - "Diabetes"

Estamos interessados em predizer classes do data set "diabetes" (weka) utilizando nosso classificador KNN.

## Importando bibliotecas

In [None]:
# Para obter o data set
from util.dataparser import DataParser as dp
# Biblioteca numpy
import numpy as np
# Classificador KNN
from classifiers.neighbors import KNeighborsClassifier
# Para medir o tempo de execução dos algoritmos
from ext.timer import elapsed_timer

## Obtendo o data set

In [None]:
X, y = dp.arff_data('datasets/diabetes.arff')

In [None]:
X = np.asarray(X)
Y = np.asarray(y)
X
Y

Permutamos o nosso data set para obter instâncias randomicas de treino e teste:

In [None]:
indices = np.random.permutation(len(X))
X_train = X[indices[:-10]]
y_train = y[indices[:-10]]
X_test  = X[indices[-10:]]
y_test  = y[indices[-10:]]

X_train, y_train
X_test, y_test

## Classificação

### Definindo uma função que exibe os resultados

In [None]:
def mostrar_resultados(X_test, pred):
    i = 0
    total_correct = 0
    for test in X_test:
        if pred[i] == y_test[i]:
            total_correct += 1
        acc = (total_correct / (i+1)) * 100
        print('test['+str(i)+']', '\tpred:', pred[i], '\torig:', y_test[i], '\tacc:', str(round(acc, 2))+'%')
        i += 1

### Classificando imagens 

#### Algoritmo KD-Tree

A seguir instanciamos o nosso classificador knn com o algoritmo _kd-tree_. 

Observe como a acurácia do data set de teste muda conforme o valor do tamanho da folha.

In [None]:
# Testando com o tamanho de folha igual a 30
with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=30, n_neighbors=5, algorithm='kd_tree')
    classifier.fit(X_train, y_train)
    pred = classifier.predict(X_test)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(y_test, pred)

In [None]:
# Testando com o tamanho de folha igual a 100
with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=100, n_neighbors=5, algorithm='kd_tree')
    classifier.fit(X_train, y_train)
    pred = classifier.predict(X_test)
    print("Tempo de execução: " + str(elapsed()))
    
mostrar_resultados(y_test, pred)

In [None]:
# Testando com o tamanho de folha igual a 1000
with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=1000, n_neighbors=5, algorithm='kd_tree')
    classifier.fit(X_train, y_train)
    pred = classifier.predict(X_test)
    print("Tempo de execução: " + str(elapsed()))   

mostrar_resultados(y_test, pred)

#### Algoritmo de força bruta

In [None]:
with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(algorithm='brute')
    classifier.fit(X_train, y_train)
    pred = classifier.predict(X_test)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(y_test, pred)

### Comparando resultados com sci-kit learn

O _sci-kit learn_ implementa o algoritmo de classificação KNN de forma extremamente eficiente. Observe os resultados obtidos ao classificar os dígitos usando a biblioteca ```sklearn.neighbors```.

In [None]:
# Classificador KNN do sci-kit learn
from sklearn.neighbors import KNeighborsClassifier

In [None]:
# Pelo algoritmo kd-tree:
with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(algorithm='kd_tree')
    classifier.fit(X_train, y_train)
    pred = classifier.predict(X_test)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(y_test, pred)

In [None]:
# Pelo algoritmo de força bruta:
with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(algorithm='brute')
    classifier.fit(X_train, y_train)
    pred = classifier.predict(X_test)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(y_test, pred)

## Referencias

Rahul Bhalley, 2017. __Digit recognition__. _https://towardsdatascience.com/mnist-with-k-nearest-neighbors-8f6e7003fab7_. 