# Classificador KNN - MNIST

Estamos interessados em reconhecer digitos utilizando nosso classificador KNN.
Resolver esse problema através do algoritmo KNN é extremamente simples, fazemos exatamente a mesma coisa que faríamos para classificar outro tipo de dado, apenas cada imagem como um vetor de pixels.

## Importando bibliotecas

In [None]:
# Para obter o data set de imagens
from tensorflow.examples.tutorials.mnist import input_data
# Biblioteca numpy
import numpy as np
# Classificador KNN
from classifiers.neighbors import KNeighborsClassifier
# Para medir o tempo de execução dos algoritmos
from ext.timer import elapsed_timer

## Obtendo o data set

A seguir, utilizamos a biblioteca _tensorflow_ para obter o data set MNIST

In [None]:
mnist = input_data.read_data_sets('datasets/MNIST_data/')

In [None]:
# Define o tamanho do data set:
TAMANHO = 5000

In [None]:
train_images = np.asarray(mnist.train.images[:TAMANHO])
train_labels = np.asarray(mnist.train.labels[:TAMANHO])
test_images = np.asarray(mnist.test.images)
test_labels = np.asarray(mnist.test.labels)

## Classificação

### Definindo uma função que exibe os resultados

In [None]:
def mostrar_resultados(test_images, pred):
    i = 0
    total_correct = 0
    for test_image in test_images:
        if pred[i] == test_labels[i]:
            total_correct += 1
        acc = (total_correct / (i+1)) * 100
        print('test image['+str(i)+']', '\tpred:', pred[i], '\torig:', test_labels[i], '\tacc:', str(round(acc, 2))+'%')
        i += 1

### Classificando imagens 

#### Algoritmo KD-Tree

A seguir instanciamos o nosso classificador knn com o algoritmo _kd-tree_. 

Observe como a acurácia do data set de teste muda conforme o valor do tamanho da folha.

In [None]:
# Testando com o tamanho de folha igual a 30
with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=30, n_neighbors=5, algorithm='kd_tree')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(test_images, pred)

In [None]:
# Testando com o tamanho de folha igual a 100
with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=100, n_neighbors=5, algorithm='kd_tree')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))
    
mostrar_resultados(test_images, pred)

In [None]:
# Testando com o tamanho de folha igual a 1000
with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=1000, n_neighbors=5, algorithm='kd_tree')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))   

mostrar_resultados(test_images, pred)

#### Algoritmo de força bruta

In [None]:
with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(algorithm='brute')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(test_images, pred)

### Comparando resultados com sci-kit learn

O _sci-kit learn_ implementa o algoritmo de classificação KNN de forma extremamente eficiente. Observe os resultados obtidos ao classificar os dígitos usando a biblioteca ```sklearn.neighbors```.

In [None]:
# Classificador KNN do sci-kit learn
from sklearn.neighbors import KNeighborsClassifier

In [None]:
# Pelo algoritmo kd-tree:
with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(algorithm='kd_tree')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(test_images, pred)

In [None]:
# Pelo algoritmo de força bruta:
with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(algorithm='brute')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(test_images, pred)

## Referencias

Rahul Bhalley, 2017. __Digit recognition__. _https://towardsdatascience.com/mnist-with-k-nearest-neighbors-8f6e7003fab7_. 