## 샘플의 최근접 이웃 찾기
### 가장 가까운 k개의 샘플에서 다수의 클래스를 그 샘플의 클래스로 예측

In [1]:
from sklearn import datasets
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import StandardScaler

In [2]:
# 데이터 로드

iris=datasets.load_iris()
features=iris.data
target=iris.target

In [3]:
# 표준화 객체 생성

scaler=StandardScaler()

In [4]:
# 특성 표준화

features_scaled=scaler.fit_transform(features)

In [5]:
# k=2 인 최근접 이웃 모델 생성

knn=NearestNeighbors(n_neighbors=2).fit(features_scaled)

In [6]:
# 새로운 샘플 생성

new_observation=[1,1,1,1]

In [8]:
# 이 샘플과 가장 가까운 이웃의 인덱스와 거리 찾기

distances, indices= knn.kneighbors([new_observation])
print(distances)
print(indices)

[[0.49140089 0.74294782]]
[[124 110]]


In [10]:
# 최근접 이웃 확인

features_scaled[indices]

array([[[1.03800476, 0.55861082, 1.10378283, 1.18556721],
        [0.79566902, 0.32841405, 0.76275827, 1.05393502]]])

KNN 의 거리측정에는 다양한 방법을 제공한다.

기본값으로는 민코우스키 거리 방식을 제공한다. 민코우스키 거리에는 하이퍼파라미터 p가 있다.

p=1 일때, 맨해튼 거리이고 p=2 일때, 유클리드 거리이다. 사이킷런의 기본값은 p=2 (유클리드) 이다.

In [12]:
# metric 을 사용하여 거리 측정 방법을 지정할 수 있다.

nn_euclidean=NearestNeighbors(n_neighbors=2, metric='euclidean').fit(features_scaled)

In [13]:
''' kneighbors_graph 메소드를 사용하여 샘플의 최근접 이웃을 나타내는 행렬을 만들 수 있다.'''

nn_euclidean=NearestNeighbors(n_neighbors=3, metric='euclidean').fit(features_scaled)

In [14]:
# 각 샘플의 (자기 자신을 포함한) 3개의 최근집 이웃을 나타내는 리스트의 행렬

nn_with_self=nn_euclidean.kneighbors_graph(features_scaled).toarray()

In [16]:
# 최근접 이웃중에서 1로 표시된 자기 자신 제외

for i,x in enumerate(nn_with_self):
    x[i]=0

In [17]:
# 첫 번째 샘플에 대한 두 개의 최근접 이웃 확인

nn_with_self[0]

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

최근접 이웃을 찾거나 거리 기반의 학습 알고리즘을 사용할 때 특성을 같은 스케일을 갖도록 변환하는 것이 중요하다.

이런 이유는 거리 측정 방법이 모든 특성을 같은 스케일로 다루기 때문이다.

In [20]:
''' kneighbors 메소드에서 n_neighbors 매개변수를 다르게 지정할 수 있고,
return_distance 를 False로 지정하면 최근접 이웃의 인덱스만 반환한다'''

indices=knn.kneighbors([new_observation], n_neighbors=5, return_distance=False)

In [19]:
# 최근접 이웃 확인

features_scaled[indices]

array([[[1.03800476, 0.55861082, 1.10378283, 1.18556721],
        [0.79566902, 0.32841405, 0.76275827, 1.05393502],
        [0.4321654 , 0.78880759, 0.93327055, 1.44883158],
        [0.55333328, 0.78880759, 1.0469454 , 1.58046376],
        [1.03800476, 0.55861082, 1.10378283, 1.71209594]]])

radius_neighbors 메소드는 주어진 반경 내의 이웃을 모두 찾아준다.

반경은 NearestNeighbors 클래스의 radius 에서 지정할 수 있다. 기본값은 1.0 이다.

In [22]:
# 반경 0.5 안에 있는 모든 샘플의 인덱스를 찾는다.

indices=knn.radius_neighbors([new_observation], radius=0.5, return_distance=False)

In [27]:
# 반경 내의 이웃확인

features_scaled[indices[0]]

array([[1.03800476, 0.55861082, 1.10378283, 1.18556721]])

kneighbors_graph 메소드와 마찬가지로 radius_neighbors_graph를 사용하여 반경 내의 이웃을 나타내는 행렬을 만들 수 있다.

이 메소드도 희소행렬을 반환하기 때문에 toarray 메소드를 사용하여 밀집 배열로 바꾼다.

In [28]:
# 반경 내의 이웃을 나타내는 리스트의 행렬

nn_with_self=knn.radius_neighbors_graph([new_observation], radius=0.5).toarray()

In [29]:
# 첫번째 샘플에 대한 반경 내의 이웃 확인

nn_with_self[0]

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

## k-최근접 이웃 분류기 만들기
### 클래스를 모르는 샘플이 주어졌을 때 이웃한 샘플의 클래스를 기반으로 이 샘플의 클래스 예측

In [30]:
# 데이터셋이 아주 크지 않다면 KNeighborsClassifier 사용

from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn import datasets

In [33]:
# 데이터로드

iris=datasets.load_iris()
X=iris.data
y=iris.target

In [34]:
# 표준화 객체 생성

standardizer=StandardScaler()

In [35]:
# 특성 표준화

X_std=standardizer.fit_transform(X)

In [37]:
# 5개의 이웃을 사용한 KNN 분류기 훈련

knn=KNeighborsClassifier(n_neighbors=5, n_jobs=-1).fit(X_std, y)

In [38]:
# 두개의 샘플 생성

new_observations=[[0.75, 0.75, 0.75, 0.75],
                 [1, 1, 1, 1]]

In [39]:
# 두 샘플의 클래스 예측

knn.predict(new_observations)

array([1, 2])

In [40]:
# 각 샘플이 세 클래스에 속할 확률 확인

knn.predict_proba(new_observations)

array([[0. , 0.6, 0.4],
       [0. , 0. , 1. ]])

KNeighborsClassifier 에는 중요한 매개변수가 많이 있다.


- metric : 사용할 거리 측정 방법을 지정
- n_jobs : 얼마나 많은 컴퓨터 코어를 사용할지 결정
- algorithm : 가장 가까운 이웃을 계산하기 위한 방법 지정(알고리즘마다 차이가 있지만 KNeighborsClassifier 는 자동으로 최선의 알고리즘을 찾음)
- weights : 값을 distances 로 지정하면 멀리떨어진 샘플보다 가까운 이웃의 투표에 가중치가 더 부여된다.

In [46]:
# 회귀문제에는 KNeighborsRegressor 클래스를 사용할 수 있다.

from sklearn.neighbors import KNeighborsRegressor
from sklearn import datasets

In [48]:
# 데이터셋 로드

boston=datasets.load_boston()
X=boston.data[:,0:2]
y=boston.target

In [49]:
# 최근접 회귀모델 생성

knn_regressor=KNeighborsRegressor(n_neighbors=10)

In [51]:
# 모델 훈련

model=knn_regressor.fit(X,y)

In [52]:
# 첫번째 샘플의 타깃값을 예측하고 1000을 곱한다

model.predict(X)[0]*1000

32440.000000000004

In [53]:
# 첫번째 샘플에 대한 이웃의 타깃값을 평균하여 predict 메소드와 결과 비교

import numpy as np

indices=model.kneighbors(X[0:1], return_distance=False)
np.mean(y[indices])*1000

32440.000000000004

## 최선의 이웃 개수 결정하기

In [54]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline,FeatureUnion
from sklearn.model_selection import GridSearchCV

In [55]:
# 데이터로드

iris=datasets.load_iris()
X=iris.data
y=iris.target

In [56]:
#  표준화객체 생성

standardizer=StandardScaler()

In [57]:
# KNN 분류기 생성

knn=KNeighborsClassifier(n_neighbors=5, n_jobs=-1)

In [58]:
# 파이프라인 생성

pipe=Pipeline([("standardizer",standardizer),("knn",knn)])

In [59]:
# 탐색 영역 후보 생성

search_space=[{"knn__n_neighbors":[1,2,3,4,5,6,7,8,9,10]}]

In [60]:
# 그리드 서치 생성

classifier=GridSearchCV(pipe, search_space, cv=5, verbose=1).fit(X,y)

Fitting 5 folds for each of 10 candidates, totalling 50 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done  50 out of  50 | elapsed:    3.0s finished


k 값의 크기는 KNN 분류기에 큰 영향을 미친다.

편햐과 분산 사이에 균형점을 찾아야하는 머신러닝에서 K 값만큼 명확한 경우가 많지 않다.

n이 샘플의 개수 있때 k=n 이면 편향이 높고 분산이 낮다. k=1 이면 편향이 낮고 분산이 높다.

이 편향-분산 트레이드오프의 균형을 맞추는 k값을 찾으면 최선의 모델을 만들 수 있다.

In [61]:
# 최선의 이웃 개수(k)

classifier.best_estimator_.get_params()["knn__n_neighbors"]

6

## 반지름 기반의 최근접 이웃 분류기 만들기
### 클래스를 모르는 샘플이 주어졌을 때 일정 거리 내의 모든 샘플의 클래스를 기반으로 이 샘플의 클래스 예측

In [62]:
from sklearn.neighbors import RadiusNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn import datasets

In [63]:
# 데이터로드

iris=datasets.load_iris()
X=iris.data
y=iris.target

In [64]:
# 표준화객체

standardizer=StandardScaler()

In [65]:
# 특성 표준화

X_std=standardizer.fit_transform(X)

In [66]:
# 반지름 이웃 분류기 훈련

rnn=RadiusNeighborsClassifier(radius=0.5, n_jobs=-1).fit(X_std, y)

In [67]:
# 새로운 샘플 생성

new_observation=[[1,1,1,1]]

In [68]:
# 새로운 샘플의 클래스 예측

rnn.predict(new_observation)

array([2])

KNN 분류에서 샘플의 클래스는 k개 이웃의 클래스로부터 예측된다.

반지름 기반(RNN) 분류기는 이보다는 덜 사용되는 분류 방법이다.

여기에서는 샘플의 클래스가 주어진 반지름  r 이내에 있는 모든 샘플의 클래스로부터 예측된다.

사이킷런의 RadiusNeighborsClassifier 클래스는 두 개의 매개변수를 제외하고 KNeighborsClassifier 와 매우 비슷하다.


첫번째로, RadiusNeighborsClassifier 는 radius 매개변수로 고정 영역의 반지름을 지정하여 이웃 샘플을 결정한다.
radius 값을 지정할 확실한 근거가 있지 않다면 다른 하이퍼파라미터 처럼 모델 선택 과정으로 튜닝하는 것이 최선이다.

두번째로 유용한 매개변수는 outlier_label 이다. 반지름 내에 다른 샘플이 하나도 없는 샘플에 부여할 레이블을 지정한다.

이 기능을 이상치를 구별하는 데 종종 유용하게 사용할 수 있다.

In [72]:
'''
outlier_label 의 기본값은 None 으로 이웃한 샘플을 찾지 못할 경우 예외를 발생시킨다.
예외를 일으키는 대신 이상치로 표시하려면 일반적으로 클래스 레이블로 사용하지 않는 -1 을 지정할 수 있다.
'''

# 반지름 이웃 분류기 훈련

rnn=RadiusNeighborsClassifier(radius=0.5, n_jobs=-1, outlier_label=-1).fit(X_std, y)

In [71]:
rnn.predict([[100,100,100,100]])

  ''.format(self.outlier_label_[k]))


array([-1])