# KNN (K-NEAREST NEIGHBORS)

Algoritmo de aprendizado de máquina, que siginifica os K-visinhos mais próximos, no qual classifica elementos a partir da distâncias entre eles.

Exemplo de um modelo que analisa a semelhança de dados e pode ser calculado a partir de uma distância, nesse sentido o método KNN pode ser interessante já que as métricas de distância conseguem calcular bem a similaridade bem entre dois indivíduos.

O método KNN pode ser usado para classificação ou regressão em cima de um conjunto de elementos. 

## Métricas 

Para tanto, nesse método é utilizado algumas métricas. Dentre as mais utilizadas, temos a euclidiana que é utilizado para calcular a distâncias.
Para a **distância euclidiana** entre dados bidimencional, a distância entre os dois pontos sendo cada ponto composto por das coordenadas é dado por,

                    sqrt((X1 - X2)² + (Y1 - Y2)²)

In [92]:
fruta_a = [5,0.75] #Lista dos atributos de uma fruta
fruta_b = [2,0.5]

In [93]:
((fruta_a[0]-fruta_b[0])**2 + (fruta_a[1]-fruta_b[1])**2)**(0.5)

3.010398644698074

## KNN para classificação

Nesse tipo de KNN a ideia é escolher os vizinhos mais próximos pegando a classe da maioria dos vizinhos mais próximos.

Para não implementar o código pesado do KNN por baixo do python é baixado a biblioteca do *sklearn.neighbors*.Ao treinar os dados, eles serão armazenados e comparado com novos dados observando a métrica dos vizinhos mais próximos do dado de treino. Esses vizinhos mais próximos são escolhidos para a classificação.  Ao instanciar o objeto knn com o método *KNeighborsClassifier()*, o parâmetro *n_neighbors = n* indica para o KNN que cada novo elemento será comparada aos n vizinhos mais próximos. Assim, essa técnica compara um novo dado aos dados de treino, verifica aqueles mais próximos e repete a classe da maioria.

O KNN não aplicado a classificadores com métricas que não se relacionem bem valores númericos, ou seja, quando existir atributos que possuem números mas não representam valores númericos.


In [94]:
#Importando a classe e método KNN
from sklearn.neighbors import KNeighborsClassifier

In [95]:
#Instanciando o objeto com o KNN
knn = KNeighborsClassifier(n_neighbors = 3)

### Base de dados


Para executar o algoritmo KNN será usado o conjunto de dados de frutas. Para tanto só será utizado os atributos massa, altura, largura e cor na variavel X e os rotulos nem outra variavel.

In [96]:
import pandas as pd
data = pd.read_table('fruit_data_with_colors.txt')

In [97]:
data

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
0,1,apple,granny_smith,192,8.4,7.3,0.55
1,1,apple,granny_smith,180,8.0,6.8,0.59
2,1,apple,granny_smith,176,7.4,7.2,0.6
3,2,mandarin,mandarin,86,6.2,4.7,0.8
4,2,mandarin,mandarin,84,6.0,4.6,0.79
5,2,mandarin,mandarin,80,5.8,4.3,0.77
6,2,mandarin,mandarin,80,5.9,4.3,0.81
7,2,mandarin,mandarin,76,5.8,4.0,0.81
8,1,apple,braeburn,178,7.1,7.8,0.92
9,1,apple,braeburn,172,7.4,7.0,0.89


In [98]:
X = data[['mass','height','width','color_score']]
y = data['fruit_label']

### Treinando o algoritmo

In [99]:
#Importar o método para separar treino e teste
from sklearn.model_selection import train_test_split

In [100]:
#Separa os dados em treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X,y)

In [101]:
#Função de treino fit para treinar a rede
knn.fit(X_treino,y_treino)

### Validação do modelo

O método *.score* efetua a predição de acordo com os atributos de teste e comparar o resultado com os rotulos de teste, calculando o grau de acerto do algoritmo.

Já para observar os dados previstos e não a porcentagem de acerto é utilizado o método *.predict(teste)*.

In [102]:
#Avaliar o modelo
knn.score(X_teste , y_teste )

0.5333333333333333

### Normalizando os dados
A ordem da grandeza dos dados se torna bastante relevante na criação de uma KNN, fazendo com que o algoritmo tenha um desempenho ruim. Nesse sentido, é importante sempre normalizar os dados. Para isso,  é utilizado os conceitos de pré-processamento dos dados, por meio da *minmaxscaler*.

In [112]:
from sklearn.preprocessing import MinMaxScaler

In [113]:
#Variável que armazenara o objeto MinMaxScalar
mm = MinMaxScaler()

In [114]:
#Transforma os dados entre zero e um em cada atributo (colunas)
X_treino = mm.fit_transform(X_treino)

Nesse caso é tranformado os dados de acordo com as escalas dos dados de treino já que toda tranformação dos dados deve-se basear na transformação executada nos dados de treino.


### Retreinando e validando o algoritmo

In [115]:
X_teste = mm.transform(X_teste)

In [119]:
#Criando o objeto KNN
knn = KNeighborsClassifier(n_neighbors=1)

In [120]:
#Treinando o algoritmo 
knn.fit(X_treino,y_treino)

In [121]:
knn.score( X_teste, y_teste )

0.9333333333333333

In [110]:
#Retorna a previsão do algoritmo para os dados de teste
knn.predict(X_teste)

array([1, 3, 1, 1, 2, 4, 3, 3, 1, 4, 1, 1, 4, 2, 1], dtype=int64)

In [111]:
y_teste

31    3
41    3
22    1
19    1
5     2
43    4
42    3
24    3
18    1
50    4
12    1
9     1
46    4
3     2
10    1
Name: fruit_label, dtype: int64

## KNN para regressão

Paracido com o KNN para classificação, onde a ideia é calcular a média dos rotulos dos vizinhos mais próximos, ou seja, o processo do calculo da distância é igual porém o rotulo do novo elemento é apenas a média dos rotulos dos vizinhos.

In [123]:
from sklearn.neighbors import KNeighborsRegressor

In [124]:
#Instânciando o objeto KNN
knn = KNeighborsRegressor(n_neighbors=3)

### Base de dados

Preço dos imoveis de Boston. Para tanto é utilizado a biblioteca do *sklearn.datasets*.

In [125]:
from sklearn.datasets import load_boston

In [127]:
#Dicionário de python com os dados dos preços dos imoveis de Boston
data = load_boston()

In [132]:
#Separando os dados de interesse com atributos e rotulos
X,y = load_boston(return_X_y = True)

In [138]:
print(load_boston()['DESCR'])

### Normalizando os dados

In [139]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
mm = MinMaxScaler()

### Treinando o modelo

In [134]:
from sklearn.model_selection import train_test_split

In [135]:
X_treino, X_teste, y_treino, y_teste = train_test_split(X,y)

In [136]:
knn.fit(X_treino,y_treino)

### Validação do modeo

In [137]:
knn.score(X_teste,y_teste)

0.5426461951785053