## Análise Empírica do algoritmo K-NN

### 1. Implementação do classificador

In [7]:
# Realização dos imports das bibliotecas
import numpy as np
from sklearn.datasets import load_digits
from sklearn.metrics.pairwise import euclidean_distances
from sklearn.model_selection import train_test_split


def class_histogram(kn_neighbors, n_classes):
    c = [0] * n_classes # custo constante

    for i in kn_neighbors: # custo O(n)
        c[i] += 1 # custo constante

    return c # custo constante

def knn(X_train, Y_train, x, k):
    
    # Calcula o vetor de distâncias entre x e todos os pontos em X_train
    d = euclidean_distances(x.reshape(1, -1), X_train).reshape(-1)
    
    idx = np.argsort(d) # custo O(n lg n) (quick sort)

    hist = class_histogram(Y_train[idx][:k], len(set(Y_train))) # custo O(n)
    

    return np.argmax(hist) # custo O(n) ?



### 2. Carregamento da base de dados de dígitos e divisão em treino e teste

In [8]:
X, Y = load_digits(return_X_y=True) # custo O(n)

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, shuffle=True) # custo constante

misses, hits = 0, 0 # custo constante
k = 3 # custo constante


for i, x in enumerate(X_test): 
    if knn(X_train, Y_train, x, k) == Y_test[i]:
        hits += 1 # custo constante
    else:
        misses += 1 # custo constante

print ("Acurácia: %.02f%%" % (hits / float(hits + misses) * 100)) # custo constante ?

Acurácia: 98.70%


### 3. Análise completa do algoritmo

### 3.1 Análise assintótica

* No que diz respeito ao *algoritmo K-NN*, foi verificado que ele segue um comportamento __O(n\*lg\*n)__. Para chegar a este resultado, foram considerados os seguintes pontos:
  * A função *class\_histogram* tem o seu desempenho definido por: **T(n) = c + n + c = O(n)**
      * O termo *n* da soma é proveniente do laço for. Sua análise é trivial, visto que dada uma entrada de tamanho n para os vizinhos, o laço será executado n vezes.
  * Já a função _knn_ tem o seu desempenho definido por: __T(n) = n + n\*lg\*n + n + n = O(n\*lg\*n)__
      * O primeiro termo *n* da soma é proveniente da análise da função de distância euclidiana. Essa análise pode ser detalhada da seguinte maneira:
          1. O conjunto passado como parâmetro para a função euclidiana é o conjunto de treino, que corresponde a 70% do total de dados da base de números. Logo, sendo *n* o tamanho da base de dados, o conjunto de treino obedece à relação $\frac{7n}{10}$, que também pode ter o seu tamanho representado como sendo *n*.
          2. Assim, ao executar a função euclidiana é calculado o vetor distância entre um valor *x* passado como parâmetro e todos os pontos do conjunto de treino.
          3. Analisando os parâmetros passados para a função euclidiana, tem-se que **x = 64** e **n = 1217**. Levando em consideração que as funções **reshape** tem custo constante, obtemos o seguinte comportamento: __T(n) = 64\*c\*n\*c = 64\*n = O(n)__
      * Já o segundo termo, _n\*lg\*n_, corresponde a análise da função argsort do numpy, que é embasada no algoritmo de ordenação _Quick Sort_, cujo desempenho é _n\*lg\*n_.
      * O terceiro termo, *n*, provém da análise da função *class\_histogram* descrita anteriormente.
      * Por fim, o último termo *n* da soma corresponde ao desempenho da função argmax do numpy. Essa função retorna o índice do maior valor do array passado como parâmetro, por isso seu desempenho é *n*, pois é necessário percorrer um array de tamanho n.
* Em relação ao algoritmo que efetua o *carregamento da base dados*, verificou-se que o seu comportamento é __T(n) = n + 3c + n\*(n\*lg\*n) + c = O(n²\*lg\*n)__
    * O primeiro *n* corresponde ao desempenho da função de carregamento do sklearn. DETALHAR MAIS.
    * O termo __n\*(n\*lg\*n)__ provém do laço for que é executado n vezes (o n corresponde ao tamanho do conjunto designado para teste), sendo que em cada uma dessas vezes o algoritmo knn, que é __n\*\lg\*n__, é invocado no if. Por isso existe a multiplicação existe, ou seja, knn invocado n vezes.

### 3.2 Análise empírica

* Para a análise empírica foi considerada uma entrada de tamanho ???? EXECUTAR

### 3.3 Comparação entre análise assintótica e análise empírica

* A tabela a seguir apresenta uma comparação entre as análises assintótica e empírica.
<style type="text/css">
.tg  {border-collapse:collapse;border-spacing:0;}
.tg td{font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;}
.tg th{font-family:Arial, sans-serif;font-size:14px;font-weight:normal;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;}
.tg .tg-c3ow{border-color:inherit;text-align:center;vertical-align:top}
.tg .tg-uys7{border-color:inherit;text-align:center}
</style>
<table class="tg">
  <tr>
    <th class="tg-uys7"><span style="font-weight:bold">Elemento</span></th>
    <th class="tg-uys7"><span style="font-weight:bold">Tempo Assintótico</span></th>
    <th class="tg-uys7"><span style="font-weight:bold">Entrada</span></th>
    <th class="tg-uys7"><span style="font-weight:bold">Tempo empírico</span></th>
  </tr>
  <tr>
    <td class="tg-uys7"></td>
    <td class="tg-uys7"></td>
    <td class="tg-uys7"></td>
    <td class="tg-uys7"></td>
  </tr>
  <tr>
    <td class="tg-uys7"></td>
    <td class="tg-uys7"></td>
    <td class="tg-uys7"></td>
    <td class="tg-uys7"></td>
  </tr>
  <tr>
    <td class="tg-c3ow"></td>
    <td class="tg-c3ow"></td>
    <td class="tg-c3ow"></td>
    <td class="tg-c3ow"></td>
  </tr>
  <tr>
    <td class="tg-c3ow"></td>
    <td class="tg-c3ow"></td>
    <td class="tg-c3ow"></td>
    <td class="tg-c3ow"></td>
  </tr>
</table>

* Já a figura a seguir apresenta o comportamento do algoritmo conforme a entrada fornecida