# 5.5 - K-Nearest Neighbors

Em KNN, K é o número de vizinhos mais próximos. O número de vizinhos é o principal fator decisivo. K é geralmente um número ímpar se o número de classes for 2. Quando K = 1, o algoritmo é conhecido como o algoritmo do vizinho mais próximo. Este é o caso mais simples. Suponha que P1 seja o ponto para o qual o rótulo precisa prever. Primeiro, você encontra o ponto mais próximo de P1 e, em seguida, o rótulo do ponto mais próximo atribuído a P1.

![fig_1](https://i.ibb.co/ysBPQ9x/boosting-1-drawio-2.png)


Suponha que P1 seja o ponto para o qual o rótulo precisa prever. Primeiro, você encontra o ponto k mais próximo de P1 e, a seguir, classifica os pontos pela maioria dos votos de seus k vizinhos. Cada objeto vota em sua classe e a classe com mais votos é considerada a previsão. Para encontrar os pontos semelhantes mais próximos, você encontra a distância entre os pontos usando medidas de distância como distância euclidiana, distância de Hamming, distância de Manhattan e distância de Minkowski. KNN tem as seguintes etapas básicas:

![fig_2](https://i.ibb.co/N6FBbPK/boosting-1-drawio-3.png)

![fig_3](https://i.ibb.co/QKVrQfz/boosting-1-drawio-4.png)

![fig_4](https://i.ibb.co/dJzX0mL/boosting-1-drawio-5.png)

## Como você decide o número de vizinhos em KNN?

A pesquisa mostrou que nenhum número ótimo de vizinhos se adequa a todos os tipos de conjuntos de dados. Cada conjunto de dados tem seus próprios requisitos. No caso de um pequeno número de vizinhos, o ruído terá uma influência maior no resultado, e um grande número de vizinhos o torna computacionalmente caro. A pesquisa também mostrou que uma pequena quantidade de vizinhos é o ajuste mais flexível, que terá baixa tendência, mas alta variância, e um grande número de vizinhos terá um limite de decisão mais suave, o que significa menor variação, mas maior tendência.

Geralmente, os cientistas de dados escolhem um número ímpar se o número de classes for par. Você também pode verificar gerando o modelo em diferentes valores de ke verificar seu desempenho. Você também pode tentar o método de Elbow aqui.

![fig_5](https://i.ibb.co/sj0kHBb/boosting-1-drawio-6.png)

## Em Python

Definindo Conjunto de Dados

In [2]:
weather=['Sunny','Sunny','Overcast','Rainy','Rainy','Rainy','Overcast','Sunny','Sunny',
'Rainy','Sunny','Overcast','Overcast','Rainy']
# Second Feature
temp=['Hot','Hot','Hot','Mild','Cool','Cool','Cool','Mild','Cool','Mild','Mild','Mild','Hot','Mild']

# Label or target varible
play=['No','No','Yes','Yes','Yes','No','Yes','No','Yes','Yes','Yes','Yes','Yes','No']

Codificando os dados das colunas

In [5]:
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
weather_encoded=le.fit_transform(weather)
print(weather_encoded)

[2 2 0 1 1 1 0 2 2 1 2 0 0 1]


In [6]:
temp_encoded=le.fit_transform(temp)
label=le.fit_transform(play)

Combinando os recursos

In [8]:
features=list(zip(weather_encoded,temp_encoded))

Gerando o modelo

In [10]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)

model.fit(features,label)

predicted= model.predict([[0,2]])
print(predicted)

[1]


### Agora um exemplo com KNN usando multiplos rótulos

In [11]:
from sklearn import datasets
wine = datasets.load_wine()

Explorando os dados

In [13]:
print(wine.feature_names)

['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']


In [14]:
print(wine.target_names)

['class_0' 'class_1' 'class_2']


In [15]:
print(wine.data[0:5])

[[1.423e+01 1.710e+00 2.430e+00 1.560e+01 1.270e+02 2.800e+00 3.060e+00
  2.800e-01 2.290e+00 5.640e+00 1.040e+00 3.920e+00 1.065e+03]
 [1.320e+01 1.780e+00 2.140e+00 1.120e+01 1.000e+02 2.650e+00 2.760e+00
  2.600e-01 1.280e+00 4.380e+00 1.050e+00 3.400e+00 1.050e+03]
 [1.316e+01 2.360e+00 2.670e+00 1.860e+01 1.010e+02 2.800e+00 3.240e+00
  3.000e-01 2.810e+00 5.680e+00 1.030e+00 3.170e+00 1.185e+03]
 [1.437e+01 1.950e+00 2.500e+00 1.680e+01 1.130e+02 3.850e+00 3.490e+00
  2.400e-01 2.180e+00 7.800e+00 8.600e-01 3.450e+00 1.480e+03]
 [1.324e+01 2.590e+00 2.870e+00 2.100e+01 1.180e+02 2.800e+00 2.690e+00
  3.900e-01 1.820e+00 4.320e+00 1.040e+00 2.930e+00 7.350e+02]]


In [16]:
print(wine.data.shape)

(178, 13)


In [17]:
print(wine.target.shape)

(178,)


Dividindo os dados

In [18]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3) # 70% training and 30% test

**Criando um modelo com K = 5**

In [19]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)

In [20]:
from sklearn import metrics
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.7777777777777778


**Criando um modelo com k=7**

In [21]:
knn = KNeighborsClassifier(n_neighbors=7)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)

In [22]:
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.7777777777777778


## Vantagens

A fase de treinamento da classificação de K-neighbor mais próximo é muito mais rápida em comparação com outros algoritmos de classificação. Não há necessidade de treinar um modelo para generalização. É por isso que KNN é conhecido como o algoritmo de aprendizagem simples e baseado em instância. KNN pode ser útil no caso de dados não lineares. Pode ser usado com o problema de regressão. O valor de saída do objeto é calculado pela média do valor de k vizinhos mais próximos.

## Desvantagens

A fase de teste da classificação de K-neighbor mais próximo é mais lenta e mais cara em termos de tempo e memória. Requer grande memória para armazenar todo o conjunto de dados de treinamento para previsão. KNN requer escalonamento de dados porque KNN usa a distância euclidiana entre dois pontos de dados para encontrar os vizinhos mais próximos. A distância euclidiana é sensível às magnitudes. Os recursos com altas magnitudes terão mais peso do que os recursos com baixas magnitudes. KNN também não é adequado para grandes dados dimensionais.