# Tutorial Python: kNN
---
1. [Princípios](#knn-principios)
    1. [Conceito](#conceito)
    2. [Exemplo](#exemplo)
2. [Implementação](#knn-implementacao)
    1. [Distância](#distancia)
3. [Discussão](#knn-discussao)
4. [Aplicações](#knn-aplicacoes)

# <span id="knn-principios">Princípios</span>
---

O kNN (k-Nearest Neighbors ou k-vizinhos mais próximos) é um algoritmo classificador supervisionado e baseado em instância. Seu princípio se baseia no seguinte fato:
<span id="conceito"></span>    
> Uma instância tem sua classe definida com base na classe que mais se repete entre seus **k vizinhos mais próximos**.

Vamos entender a frase acima. 
1. Primeiro, é necessário definir o que é **proximidade**. Esse termo se relaciona com **distância**, tendo que 2 items são próximos quando a distância entre eles é pequena; ou ainda, que *n* items são mais próximos à um outro elemento quando dentre um conjunto estes *n* items apresentam a menor distância para tal elemento. Portanto, uma boa medida de distância é fundamental para um bom kNN;
2. Após selecionar uma medida de **distância adequada**, deve se buscar os **elementos mais próximos**, ou vizinhos. Porém, essa quantidade é definida previamente, que é o nosso **k**;
3. Em posse desses elementos, os quais possuem uma classe já definida, verifica a **classe que mais se repete** neles e essa será definida como a classe da nossa instância teste.

Em outras palavras, esse algoritmo é uma aplicação daquele ditado "diz com quem tu andas, que eu direi quem tu és". Uma vez que ele literalmente compara os elementos mais próximos e define a instância desconhecida a partir desses.

<span id="exemplo">**Por exemplo:**</span> imaginemos que entre uma família de flores têm-se duas espécies, que representam as Classes A e B, e as características que permitem sua distinção são $x_1$ e $x_2$. Esses traços foram medidos em 10 flores, cujas espécies são conhecidas e certas, e o resultado gerou o gráfico abaixo.

Um aluno que não entendia muito sobre flores leu sobre esta família e achou uma flor dela. Com a pretensão de identificar a espécie, ele também avaliou os atributos e o representou no gráfico como uma estrela vermelha. Com base nos 6 vizinhos mais próximos ele identificou que a flor pertencia a espécie da Classe A.

![Exemplo de uso](../img/knn-concept.png "Título")

## Implementação
---

A primeira parte dos nossos tutoriais sempre será a preparação do conjunto de dados. Logo, o primeiro passo para tratar essa coleção é obtê-la! Faremos isso a partir da leitura de um arquivo *csv*.

In [102]:
import csv
import random
def carregar_dados(nome_arquivo, corte=0.67, treino=[], teste=[]):
    with open(nome_arquivo, 'r') as arquivo:
        dados = list(csv.reader(arquivo))
        num_col = len(dados[0])
        num_lin = len(dados)
        for lin in range(num_lin-1):
            if random.random() > corte:
                teste.append(dados[lin][:num_col])
            else:
                treino.append(dados[lin][:num_col])
        return treino, teste

In [104]:
treino, teste = [], []
carregar_dados('../datasets/iris/iris.data',0.8, treino, teste)
print('Treino:', len(treino))
print('Teste:', len(teste))

Treino: 116
Teste: 34


In [136]:
import numpy as np
def distancia_euclidiana(instancia1, instancia2, dimensoes):
    distancia = 0
    for d in range(dimensoes):
        distancia += pow(float(instancia1[d])-float(instancia2[d]),2)
    return np.sqrt(distancia)

vetor1 = [2,1,'1',2,'a']
vetor2 = [1,'1.5',2,1,'b']
distancia_euclidiana(vetor1, vetor2, 4)

1.8027756377319946

In [164]:
def encontrar_vizinhos(dados, instancia, k):
    vizinhos = []
    for dado in dados:
        distancia = distancia_euclidiana(instancia, dado, len(instancia)-1)
        vizinhos.append((dado, distancia))
    vizinhos.sort(key=lambda x: x[1])
    return [vetor for vetor, distancia in vizinhos[:k]]

In [225]:
dados = [[2,1,'1',2,'a'],[1,'1.5',2,1,'c'],[3,'1.5',2,1,'a']]
teste = [1,2,1,1]
encontrar_vizinhos(dados,teste,3)

[[1, '1.5', 2, 1, 'c'], [2, 1, '1', 2, 'a'], [3, '1.5', 2, 1, 'a']]

In [226]:
def definir_instancia(vizinhos, posicao_classe=-1):
    votos = {}
    for vizinho in vizinhos:
        classe = vizinho[posicao_classe]
        if classe in votos:
            votos[classe]+= 1
        else:
            votos[classe] = 1
    classes_ordenadas = sorted(votos.items(), key=lambda x: x[1], reverse=True)
    return classes_ordenadas[0][0]

In [228]:
definir_instancia(encontrar_vizinhos(dados,teste,3))

'a'

## Discussão
---

## Aplicações
---