# KNN
[KNN](https://scikit-learn.org/stable/auto_examples/neighbors/plot_classification.html) significa "K Nearest Neighbors" (K Vizinhos Mais Próximos) e é um tipo de algoritmo de aprendizado de máquina usado para __classificação__ e __regressão.__ Ele funciona encontrando os K pontos de dados mais próximos de um novo ponto de dados e usando a classe ou valor desses pontos para classificar ou prever o valor do novo ponto de dados.

- O KNN é como um sistema de votação: os K pontos de dados mais próximos de um novo ponto de dados "votam" na classe ou valor do novo ponto de dados.
- O novo ponto de dados é classificado na classe com o maior número de votos (classificação) ou recebe o valor médio dos votos (regressão).

<img src="../assets/3-knn.png"
     alt="Features and Labels"
     style="float: center; margin-right: 10px;" />

Separa os pontos do dataset em 'regiões'.

K baixo = smaller dataset (utilizar numero impar)
K alto = large dataset

weights = 'unirform' da importancia igual a datapoints
weights = 'distance' da importancia a datapoints proximos

## Como funciona?

- __Calcular a distância entre os pontos de dados:__ O KNN usa uma medida de distância, como a distância euclidiana, para calcular a distância entre o novo ponto de dados e todos os outros pontos de dados no conjunto de treinamento.
- __Encontrar os K pontos de dados mais próximos:__ O KNN encontra os K pontos de dados com a menor distância do novo ponto de dados.
Classificar ou prever o valor do novo ponto de dados:
    - __Classificação:__ O KNN conta o número de pontos de dados em cada classe entre os K pontos de dados mais próximos. O novo ponto de dados é classificado na classe com o maior número de pontos.
    - __Regressão:__
     O KNN calcula a média dos valores dos K pontos de dados mais próximos. O novo ponto de dados recebe esse valor médio.

In [None]:
import numpy as np
import pandas as pd
from sklearn import neighbors, metrics
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

In [None]:
data = pd.read_csv('../data/datasetCars/car.data')

In [None]:
data.head()

In [None]:
x = data[['buying',
          'maint', 
          'safety'
]].values
y = data[['class']]

In [None]:
x, y

## Convertendo os Atributos Nominais para Interios

In [None]:
Le = LabelEncoder()

for i in range(len(x[0])):
    x[:, i] = Le.fit_transform(x[:, 1])

print(x)

## Convertendo os Atributos Nominais para Interios

In [None]:
label_mapping = {
    'unacc' : 0,
    'acc' : 1,
    'good' : 2,
    'vgood' : 3
}

y['class'] = y['class'].map(label_mapping)
y = np.array(y)
y

## Create a Model

In [None]:
knn = neighbors.KNeighborsClassifier(n_neighbors=25, weights='uniform')

Split it in Train set and Test set

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

In [None]:
knn.fit(x_train, y_train)

In [None]:
prediction = knn.predict(x_test)

In [None]:
accuracy = metrics.accuracy_score(y_test, prediction)
print(f'prediciyion: {prediction}')

In [None]:
print(f'accuracy: {accuracy}')

In [None]:
index = 100
print(f'actual value: {y[index]}')
print(f'prediction values: {knn.predict(x)[index]}')