# Tutorial: implementando kNN em Python

O algoritmo "kNN" (k-Nearest Neighbors ou k-vizinhos mais próximos) é fácil de entender e implementar, além de ser uma ferramenta poderosa!
Quase parece ser simples demais para ser um algoritmo de *machine learning*. 

A ideia é a seguinte: 

*"Se o que estou comendo parece pizza com borda de chocolate e tem borda de chocolate, então deve ser pizza com borda de chocolate!"*

Em outras palavras, para classificar uma coisa desconhecida, analisamos com o que essa coisa mais se parece, e fazemos uma média para chegar à conclusão!

# Pegando a intuição

Analise a imagem abaixo. Digamos que você quer descobrir se o misterioso círculo verde é na verdade um Triângulo Vermelho ou Quadrado Azul. O que você faria?

![title](src/knn.png)
*Fonte: Wikipedia*

Uma opção seria pegar os três vizinhos mais próximos e adivinhar que o círculo verde é provavelmente um Triângulo Vermelho. Você poderia, ainda, expandir o circulo além e analisar os cinco vizinhos mais próximos para classificar (3 de 5 vizinhos mais próximos são Quadrados Azuis, então podemos adivinhar que o misterioso círculo verde é um Quadrado Azul quando k=5).

E fim. Isso é **k-nearest neighbors**. Você pega os *k* vizinhos (ou dados) mais próximos e faz a média de seus valores se a variável for contínua (como preço de um produto) ou a moda se a variável for categórica (como Quadrado Azul vs Triângulo Vermelho).

### Definindo "proximidade": medidas de distância

Como faz pra saber a distância entre uma instância e os "vizinhos mais próximos"? Como determinar matematicamente quais dos Quadrados Azuis e Triângulos Vermelhos estão mais próximos do círculo verde, especialmente se você não pode medir isso no "olhômetro"?

O jeito mais direto é medir a distância euclidiana (geometricamente corresponde a uma linha reta). Outra forma seria a distância Manhattan, que faz alusão ao formato quadriculado da maior parte das ruas na ilha de Manhattan. Como essa forma é mais parecida com andar por quarteirões, é mais útil no cálculo de tarifas para motoristas de Uber, por exemplo.

![distancias](src/distancias.png)
*Linha verde = distância euclidiana. Linha azul = distância de Manhattan.*
*Fonte: Wikipedia*

Normalmente, você não precisa calcular qualquer distância na mão, porque basta uma rápida pesquisa no Google para encontrar funções prontas em bibliotecas como **NumPy** e **SciPy**. Mas de qualquer forma, talvez seja legal ver coisas da geometria do ensino médio sendo úteis para construir modelos de *Machine Learning*!

Para pontos bidimensionais P(px, py) e Q(qx, qy), calculamos a distância assim:

![distancia](src/distancia.svg)

Isso pode ser generalizado para pontos de qualquer dimensão.

# Implementando

Esta implementação será específica para classificação (variável categórica) e demonstraremos usando o exemplo das plantas da flor Iris, que tem 3 espécies diferentes:
- Iris setosa
- Iris virginica
- Iris versicolor

![title](src/iris.png)
*Fonte: UCI Machine Learning Repository*

Iremos elaborar um modelo que irá fazer predições baseado em duas medidas para a sépala e para a pétala: a largura e comprimento. E o conjunto de dados é um conjunto padrão, em que a espécie é conhecida para todas as instâncias. Assim, podemos separar o conjunto em partes de treino e de teste e usar os resultados para medir a taxa de acerto. Nesse problema, uma boa taxa é acima de 90%, normalmente 96% ou mais.

### Preparando os dados

O primeiro passo é carregar os dados:

In [1]:
import csv
with open('src/iris.csv', 'rb') as arquivocsv:
    linhas = csv.reader(arquivocsv)
    for linha in linhas:
        print ', '.join(linha)

5.1, 3.5, 1.4, 0.2, Iris-setosa
4.9, 3.0, 1.4, 0.2, Iris-setosa
4.7, 3.2, 1.3, 0.2, Iris-setosa
4.6, 3.1, 1.5, 0.2, Iris-setosa
5.0, 3.6, 1.4, 0.2, Iris-setosa
5.4, 3.9, 1.7, 0.4, Iris-setosa
4.6, 3.4, 1.4, 0.3, Iris-setosa
5.0, 3.4, 1.5, 0.2, Iris-setosa
4.4, 2.9, 1.4, 0.2, Iris-setosa
4.9, 3.1, 1.5, 0.1, Iris-setosa
5.4, 3.7, 1.5, 0.2, Iris-setosa
4.8, 3.4, 1.6, 0.2, Iris-setosa
4.8, 3.0, 1.4, 0.1, Iris-setosa
4.3, 3.0, 1.1, 0.1, Iris-setosa
5.8, 4.0, 1.2, 0.2, Iris-setosa
5.7, 4.4, 1.5, 0.4, Iris-setosa
5.4, 3.9, 1.3, 0.4, Iris-setosa
5.1, 3.5, 1.4, 0.3, Iris-setosa
5.7, 3.8, 1.7, 0.3, Iris-setosa
5.1, 3.8, 1.5, 0.3, Iris-setosa
5.4, 3.4, 1.7, 0.2, Iris-setosa
5.1, 3.7, 1.5, 0.4, Iris-setosa
4.6, 3.6, 1.0, 0.2, Iris-setosa
5.1, 3.3, 1.7, 0.5, Iris-setosa
4.8, 3.4, 1.9, 0.2, Iris-setosa
5.0, 3.0, 1.6, 0.2, Iris-setosa
5.0, 3.4, 1.6, 0.4, Iris-setosa
5.2, 3.5, 1.5, 0.2, Iris-setosa
5.2, 3.4, 1.4, 0.2, Iris-setosa
4.7, 3.2, 1.6, 0.2, Iris-setosa
4.8, 3.1, 1.6, 0.2, Iris-setosa
5.4, 3.4

Em seguida, vamos dividir o conjunto em parte de treino que o kNN pode usar para fazer predições e em parte de teste que usaremos para avaliar a taxa de acerto do modelo.

Primeiro, convertemos as medidas das flores que foram lidas como strings em números que podemos usar para nosso trabalho. Depois, dividimos (cortamos) o conjunto aleatoriamente em uma propoção de 70/30.

Juntamos tudo isso em uma função de nome *carregarDados* que carrega um CSV com o nome fornecido e o divide aleatoriamente usando a proporção fornecida.

In [2]:
import random
def carregarDados(nome_arquivo, corte, conjunto_treino=[] , conjunto_teste=[]):
	with open(nome_arquivo, 'rb') as arquivo_csv:
	    linhas = csv.reader(arquivo_csv)
	    dataset = list(linhas)
	    for x in range(len(dataset)-1):
	        for y in range(4):
	            dataset[x][y] = float(dataset[x][y])
	        if random.random() < corte:
	            conjunto_treino.append(dataset[x])
	        else:
	            conjunto_teste.append(dataset[x])

Podemos testar essa função assim:

In [8]:
conjunto_treino=[]
conjunto_teste=[]
carregarDados('src/iris.csv', 0.7, conjunto_treino, conjunto_teste)
print 'Train: ' + repr(len(conjunto_treino))
print 'Test: ' + repr(len(conjunto_teste))

Train: 95
Test: 55


### Proximidade

A fim de fazer predições, vamos calcular a proximidade ou similaridade entre duas instâncias quaisquer. Precisamos disso para poder localizar os K dados mais similares no conjunto de treino para, então, fazer a predição.

Como as quatro medidas das flores já são numéricas e estão na mesma unidade de medida, podemos usar a distância euclidiana diretamente:

In [9]:
import math
def distancia_euclidiana(instancia1, instancia2, tamanho):
	distancia = 0
	for x in range(tamanho):
		distancia += pow((instancia1[x] - instancia2[x]), 2)
	return math.sqrt(distancia)

Podemos testar essa função com dados inventados:


In [14]:
dado1 = [2, 2, 2, 2, 'a']
dado2 = [4, 4, 4, 4, 'b']
distancia = distancia_euclidiana(dado1, dado2, 4)
print 'Distancia: ' + repr(distancia)

Distancia: 4.0


### Vizinhos


Agora que tenho uma ferramenta pra dizer a similaridade, podemos usá-la para coletar as k instâncias mais parecidas com uma dada instância desconhecida.

Esse processo é simplesmente calcular a distância entre a instância desconhecida e todas as outras conhecidas, e pegar aquelas com as menores distâncias:

In [15]:
import operator 
def localizar_vizinhos(conjunto_treino, instancia_teste, k):
    distancias = []
    tamanho = len(instancia_teste)-1
    for x in range(len(conjunto_treino)):
        dist = distancia_euclidiana(instancia_teste, conjunto_treino[x], tamanho)
        distancias.append((conjunto_treino[x], dist))
    distancias.sort(key=operator.itemgetter(1))
    vizinhos = []
    for x in range(k):
        vizinhos.append(distancias[x][0])
    return vizinhos

Podemos testar assim:


In [17]:
conjuntoTreino = [[2, 2, 2, 2, 'a'], [4, 4, 4, 4, 'b']]
instancia_teste = [5, 5, 5, 5]
k = 1
vizinhos = localizar_vizinhos(conjuntoTreino, instancia_teste, k)
print(vizinhos)

[[4, 4, 4, 4, 'b']]


### Resposta


Uma vez que localizamos os vizinhos mais próximos, o próximo passo é delegar uma resposta prevista com base nesses vizinhos. Podemos fazer isso ao deixar cada vizinho "votar" por sua classe atribuída, e pegar a classe com mais votos como sendo a predição.

Abaixo, a função pega a resposta votada pela maioria por um número de vizinhos (assumindo que a classe é o último atribudo de cada vizinho):

In [18]:
import operator
def calcularResposta(vizinhos):
    votos = {}
    for x in range(len(vizinhos)):
        resposta = vizinhos[x][-1]
        if resposta in votos:
            votos[resposta] += 1
        else:
            votos[resposta] = 1
    votosOrdenados = sorted(votos.iteritems(), key=operator.itemgetter(1), reverse=True)
    return votosOrdenados[0][0]

Podemos testar essa função com alguns vizinhos assim:


In [19]:
vizinhos = [[1,1,1,1,'a'], [2,2,2,2,'a'], [3,3,3,3,'b']]
resposta = calcularResposta(vizinhos)
print(resposta)

a


### Taxa de acerto


Temos todos os pedaços do algoritmo feitos. Uma preocupação a essa altura é como avaliar a taxa de acerto de suas predições. E um jeito fácil de fazer isso é encontrar a proporção do número total de predições corretas em relação a todas as predições feitas.

Abaixo, a função conta o total de respostas certas e retorna a taxa de acerto como uma porcentagem de classificações corretas.

In [20]:
def calcularAcerto(conjunto_teste, respostas):
    corretos = 0
    for x in range(len(conjunto_teste)):
        if conjunto_teste[x][-1] is respostas[x]:
            corretos += 1
    return (corretos/float(len(conjunto_teste))) * 100.0

Podemos testar essa função com dados e predições fictícias:


In [21]:
conjunto_teste = [[1,1,1,1,'a'], [2,2,2,2,'a'], [3,3,3,3,'b']]
respostas = ['a', 'a', 'a']
acerto = calcularAcerto(conjunto_teste, respostas)
print(acerto)

66.6666666667


### Finalizando o algoritmo

Agora temos todas as peças do algoritmo em mãos, e podemos encaixá-las juntas na função main:

In [31]:
import csv
with open('src/iris.csv', 'rb') as arquivocsv:
    linhas = csv.reader(arquivocsv)

import random
def carregarDados(nome_arquivo, corte, conjunto_treino=[] , conjunto_teste=[]):
    with open(nome_arquivo, 'rb') as arquivo_csv:
        linhas = csv.reader(arquivo_csv)
        dataset = list(linhas)
        for x in range(len(dataset)-1):
	        for y in range(4):
	            dataset[x][y] = float(dataset[x][y])
	        if random.random() < corte:
	            conjunto_treino.append(dataset[x])
	        else:
	            conjunto_teste.append(dataset[x])

import math
def distancia_euclidiana(instancia1, instancia2, tamanho):
	distancia = 0
	for x in range(tamanho):
		distancia += pow((instancia1[x] - instancia2[x]), 2)
	return math.sqrt(distancia)

import operator
def localizar_vizinhos(conjunto_treino, instancia_teste, k):
    distancias = []
    tamanho = len(instancia_teste)-1
    for x in range(len(conjunto_treino)):
        dist = distancia_euclidiana(instancia_teste, conjunto_treino[x], tamanho)
        distancias.append((conjunto_treino[x], dist))
    distancias.sort(key=operator.itemgetter(1))
    vizinhos = []
    for x in range(k):
        vizinhos.append(distancias[x][0])
    return vizinhos

import operator
def calcularResposta(vizinhos):
    votos = {}
    for x in range(len(vizinhos)):
        resposta = vizinhos[x][-1]
        if resposta in votos:
            votos[resposta] += 1
        else:
            votos[resposta] = 1
    votosOrdenados = sorted(votos.iteritems(), key=operator.itemgetter(1), reverse=True)
    return votosOrdenados[0][0]

def calcularAcerto(conjunto_teste, respostas):
    corretos = 0
    for x in range(len(conjunto_teste)):
        if conjunto_teste[x][-1] == respostas[x]:
            corretos += 1
    return (corretos/float(len(conjunto_teste))) * 100.0


def main():
    # prerarar os dados
    conjunto_treino = []
    conjunto_teste = []
    corte = 0.7
    carregarDados('src/iris.csv', corte, conjunto_treino, conjunto_teste)
    print 'Conjunto de treino: ' +repr(len(conjunto_treino))
    print 'Conjunto de teste: ' +repr(len(conjunto_teste))
    #gerar respostas
    respostas = []
    k = 3
    for x in range(len(conjunto_teste)):
        vizinhos = localizar_vizinhos(conjunto_treino, conjunto_teste[x], k)
        resultado = calcularResposta(vizinhos)
        respostas.append(resultado)
        print('> previsto=' + repr(resultado) + ', real=' + repr(conjunto_teste[x][-1]))
    acerto = calcularAcerto(conjunto_teste, respostas)
    print('Taxa de acerto: ' + repr(acerto) + '%')

main()


Conjunto de treino: 106
Conjunto de teste: 44
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-setosa', real='Iris-setosa'
> previsto='Iris-versicolor', real='Iris-versicolor'
> previsto='Iris-versicolor', real='Iris-versicolor'
> previsto='Iris-versicolor', real='Iris-versicolor'
> previsto='Iris-versicolor', real='Iris-versicolor'
> previsto='Iris-versi

# Sobre o kNN

O fato de o kNN não depender de uma função paramétrica pré-definida *f(X)* relacionando uma classe *Y* com um dado *X* o torna adequado para situações em que a relação entre os atributos de *X* é muito complexa para ser expressa através de um simples modelo linear. 

O kNN pertence à família dos algoritmos baseados em instância, com aprendizado competitivo e *lazy learning* ("aprendizado preguiçoso").

Algoritmo baseado en instância é aquele que modela um problema usando instâncias dos dados a fim de decidir sua predição. O kNN é um exemplo extremo disso, porque o seu modelo consiste de, simplesmente, todas as instâncias do seu conjunto de dados.

Aprendizado competitivo porque, internamente, há a competição entre os elementos do conjunto: somente aquelas instâncias mais similares "vencem" a votação ao classificar uma instância nunca vista antes.

Lazy learning, ou aprendizado preguiçoso, se refere ao fato de que o kNN não gera um modelo propriamente dito até a hora em que lhe é pedido para fazer uma predição. É claro: toda vez que pedimos uma resposta ao algoritmo, ele busca, dentre todo o conjunto de dados que foi fornecido, aqueles mais similares. Sempre. No último segundo. (*preguiçoso*)

Uma desvantagem do kNN é que ele pode ser bastante custoso computacionalmente, porque ele sempre repete as mesmas pesquisas dentro de conjuntos de treino maiores. Contudo, ele é poderoso porque não assume nenhum pressuposto sobre os dados. Isso porque ele não gera um modelo no formato de uma função (linear, por exemplo). Assim, ele é considerado um modelo não-paramétrico.

### Ajustando o valor de K

Para tentar aumentar a taxa de acerto, podemos tentar variar o valor de K e ver no que dá.

Colocar valores pequenos de K pode tornar o modelo "ingênuo", pois ele toma suas decisões tomando como base poucas informações, ou pouca experiência. Porém, assim o modelo também fica mais flexível.

Colocar valores maiores de K pode tornar o modelo mais robusto (menos ingênuo), e ajuda a evitar um fenômeno conhecido como "[overfitting](https://pt.wikipedia.org/wiki/Sobreajuste)". Porém, assim o modelo pode ficar muito inflexível. Por exemplo: se escolhermos o tamanho total do conjunto de dados como sendo o valor de K, o modelo vai simplesmente ver qual é a classe mais comum dentro do conjunto, e atribuir essa classe para *tudo o que vier depois*.

Portanto, o melhor é procurar um ponto de equilíbrio para balancear as vantagens e desvantagens entre ingenuidade e experiência.