# Classificador KNN - Encontrando parâmetros para a base de dados MNIST

Estamos interessados em melhorar a performance do nosso classificador KNN.

## Importando bibliotecas

In [None]:
# Para obter o data set de imagens
from tensorflow.examples.tutorials.mnist import input_data
# Biblioteca numpy
import numpy as np
# Classificador KNN
from classifiers.neighbors import KNeighborsClassifier
# Para medir o tempo de execução dos algoritmos
from ext.timer import elapsed_timer

## Obtendo o data set

A seguir, utilizamos a biblioteca _tensorflow_ para obter o data set MNIST

In [None]:
mnist = input_data.read_data_sets('datasets/MNIST_data/')

In [None]:
# Define o tamanho do data set:
TAMANHO = 1000

In [None]:
train_images = np.asarray(mnist.train.images[:TAMANHO])
train_labels = np.asarray(mnist.train.labels[:TAMANHO])
test_images = np.asarray(mnist.test.images)
test_labels = np.asarray(mnist.test.labels)

## Classificação

### Definindo uma função que exibe os resultados

In [None]:
def mostrar_resultados(test_images, pred):
    i = 0
    total_correct = 0
    for test_image in test_images:
        if pred[i] == test_labels[i]:
            total_correct += 1
        acc = (total_correct / (i+1)) * 100
        print('test image['+str(i)+']', '\tpred:', pred[i], '\torig:', test_labels[i], '\tacc:', str(round(acc, 2))+'%')
        i += 1

### Classificando imagens 

#### Algoritmo KD-Tree

A seguir instanciamos o nosso classificador knn com o algoritmo _kd-tree_. Iremos tentar obter a melhor acurácia possível apenas com o tamanho de folha igual a 30. Modificaremos as medidas de distância, o número de vizinhos a serem analisados, entre outros parâmetros.

In [None]:
# Leaf size = 30, n_neighbors = 3, dist_metric = euclidean, weights = uniform

with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=30, n_neighbors=3, algorithm='kd_tree')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(test_images, pred)

In [None]:
# Leaf size = 30, n_neighbors = 5, dist_metric = euclidean, weights = uniform

with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=30, n_neighbors=5, algorithm='kd_tree')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(test_images, pred)

In [None]:
# Leaf size = 30, n_neighbors = 7, dist_metric = euclidean, weights = uniform

with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=30, n_neighbors=7, algorithm='kd_tree')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(test_images, pred)

In [None]:
# Leaf size = 30, n_neighbors = 9, dist_metric = euclidean, weights = uniform

with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=30, n_neighbors=9, algorithm='kd_tree')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(test_images, pred)

In [None]:
# Leaf size = 30, n_neighbors = 3, dist_metric = manhattan, weights = uniform

with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=30, n_neighbors=3, 
                                      algorithm='kd_tree', dist_metric='manhattan')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(test_images, pred)

In [None]:
# Leaf size = 30, n_neighbors = 3, dist_metric = chebyshev, weights = uniform

with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=30, n_neighbors=3, 
                                      algorithm='kd_tree', dist_metric='chebyshev')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(test_images, pred)

In [None]:
# Leaf size = 30, n_neighbors = 3, dist_metric = euclidean, weights = distance

with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=30, n_neighbors=3,
                                      algorithm='kd_tree', weights='distance')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(test_images, pred)

In [None]:
# Leaf size = 30, n_neighbors = 5, dist_metric = euclidean, weights = distance

with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=30, n_neighbors=5, 
                                      algorithm='kd_tree', weights='distance')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(test_images, pred)

In [None]:
# Leaf size = 30, n_neighbors = 7, dist_metric = euclidean, weights = distance

with elapsed_timer() as elapsed:
    classifier = KNeighborsClassifier(leaf_size=30, n_neighbors=7, 
                                      algorithm='kd_tree', weights='distance')
    classifier.fit(train_images, train_labels)
    pred = classifier.predict(test_images)
    print("Tempo de execução: " + str(elapsed()))

mostrar_resultados(test_images, pred)

## Resultados

Através dos nossos testes, percebemos que os parametros
- Leaf size = 30
- n_neighbors = 3
- dist_metric = euclidean
- weights = distance
fornecem pistas de bons parâmetros para obter uma melhor acurácia na predição de dígitos da base de dados MNIST, utilizando nosso classificador. 

É claro que deixamos nosso data set apenas com 2000 instâncias, por motivos de memória e tempo, além de termos definido o tamanho da folha como 30, já que quanto maior a folha, mais tempo é necessário para calcular a distância entre vizinhos (o algoritmo executa uma busca em força bruta dos vizinhos mais próximos na folha encontrada).

Note ainda que nosso classificador tem um desempenho muito inferior ao algoritmo do sk learn por exemplo, mas é interessante notar como a mudança de alguns parâmetros afetam o desenpenho do classificador, em especial o número de vizinhos a serem analisados.