<a href="https://colab.research.google.com/github/johyunkang/MLwithPythonCookbook/blob/main/15_KNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Chapter 15 KNN

## 15.1 샘플의 최근접 이웃 찾기

과제 : 샘플에서 가장 가까운 k개의 샘플(이웃)을 찾아야 함

해결 : 사이킷런의 NearestNeighbors를 사용

In [1]:
from sklearn.datasets import load_iris
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import StandardScaler

iris = load_iris()
x = iris.data
y = iris.target

standard = StandardScaler()
x_scaled = standard.fit_transform(x)

In [2]:
import pandas as pd
df = pd.DataFrame(x, columns=iris.feature_names)
display(df.head(3))

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


In [3]:
# k=2 최근접 이웃 모델 생성
nn = NearestNeighbors(n_neighbors=2, metric='euclidean').fit(x_scaled)

# 새로운 샘플 생성
new_observation = [1, 1, 1, 1]

distance, index = nn.kneighbors([new_observation])
print('distince :', distance)
print('indeices :', index)

# 최근접 이웃 확인
print('\n최근접 이웃:', x_scaled[index])

distince : [[0.49140089 0.74294782]]
indeices : [[124 110]]

최근접 이웃: [[[1.03800476 0.55861082 1.10378283 1.18556721]
  [0.79566902 0.32841405 0.76275827 1.05393502]]]


`distance` 변수는 가장 가까운 두 개의 이웃까지 실제 거릿값이 들어 있음

위 `new_observation`에 가장 가까운 두 개의 샘플은, 가장 가까운 두 개의 꽃임

거리는 어떻게 측정할까?

1. 맨해튼 거리 (manhattan distance)

> $d_{ manhattan} = \displaystyle \sum_{i=1}^n \left| x_i - y_i \right|$



2. 유클리드 거리 (Euclidean)

> $d_{ euclidean} = \sqrt{ \displaystyle \sum_{i=1}^n \left( x_i - y_i \right)^2 }$


`NearestNeighbors` 의 기본값은 민코프스키 거리임

$d_{minkowski} = \left( \displaystyle \sum_{i=1}^n | x_i - y_i |^p \right)^{1/p}$

민코프스키 거리에는 하이퍼파라미터 `p`가 있음
- p=1 : 맨해튼 거리
- p=2 : 유클리드 거리 (default)

`kneighbors_graph` 메서드를 이용하여 샘플의 최근접 이웃을 나타내는 행렬을 만들수도 있

In [5]:
knn_euclidean = NearestNeighbors(n_neighbors=3, metric='euclidean').fit(x_scaled)

knn_with_self = knn_euclidean.kneighbors_graph(x_scaled).toarray()

# 최근접 이웃 중에서 1로 표시된 자기 자신을 제외
for i, x in enumerate(knn_with_self) :
    x[i] = 0

# 첫 번째 샘플에 대한 두 개의 최근접 이웃을 확인합니다.
knn_with_self[0]

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

`kneighbors` 메서드에서 `n_neighbors` 매개변수를 다르게 지정할 수 있습니다. `return_distance`를 `False`로 지정하면 최근접 이웃의 인덱스만 반환합니다.

In [6]:
# 이 샘플과 가장 가까운 이웃의 다섯 개의 인덱스를 찾습니다.
indices = nn.kneighbors([new_observation], n_neighbors=5, return_distance=False)

# 최근접 이웃 확인
x_scaled[indices]

array([[[1.03800476, 0.55861082, 1.10378283, 1.18556721],
        [0.79566902, 0.32841405, 0.76275827, 1.05393502],
        [0.4321654 , 0.78880759, 0.93327055, 1.44883158],
        [0.55333328, 0.78880759, 1.0469454 , 1.58046376],
        [1.03800476, 0.55861082, 1.10378283, 1.71209594]]])

In [None]:
# p.381