# 15.0 소개

---

# 15.1 샘플의 최근접 이웃 찾기

In [2]:
# 라이브러리를 임포트합니다
from sklearn import datasets
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import StandardScaler

In [3]:
# 데이터를 로드합니다
iris = datasets.load_iris()
features = iris.data

In [4]:
# 표준화 객체를 만듭니다
standardizer = StandardScaler()

In [5]:
# 특성을 표준화합니다
features_standardized = standardizer.fit_transform(features)

In [6]:
# k=2인 최근접 이웃 모델을 만듭니다
nearest_neighbors = NearestNeighbors(n_neighbors=2).fit(features_standardized)

In [7]:
# 새로운 샘플을 만듭니다
new_observation = [1,1,1,1]

In [8]:
# 이 샘플과 가장 가까운 이웃의 인덱스와 거리를 찾습니다
distances, indices = nearest_neighbors.kneighbors([new_observation])

In [9]:
# 최근접 이웃을 확인합니다
features_standardized[indices]

array([[[1.03800476, 0.55861082, 1.10378283, 1.18556721],
        [0.79566902, 0.32841405, 0.76275827, 1.05393502]]])

- metric 매개변수를 사용한 거리측정방법 지정

In [10]:
# 유클리드 거리 기반으로 가장 가까운 두 개의 최근접 이웃을 찾습니다
nearestneighbors_euclidean = NearestNeighbors(n_neighbors=2, metric='euclidean').fit(features_standardized)

In [11]:
# 거리를 확인합니다
distances

array([[0.49140089, 0.74294782]])

- kneighbors_graph 메서드를 사용하여 샘플의 최근접 이웃을 나타내는 행렬 만들기

In [12]:
# 유클리드 거리를 기반으로 각 샘플에 대해 (자기 자신을 포함한)
# 세 개의 최근접 이웃을 찾습니다
nearestneighbors_euclidean = NearestNeighbors(n_neighbors=3, metric='euclidean').fit(features_standardized)

In [14]:
# 각 샘플의 (자기 자신을 포함한) 3개의 최근접 이웃을 나타내는 리스트의 리스트
nearest_neighbors_with_self = nearestneighbors_euclidean.kneighbors_graph(features_standardized).toarray()

In [17]:
# 최근접 이웃 중에서 1로 표시된 자기 자신을 제외시킵니다
for i, x in enumerate(nearest_neighbors_with_self):
    x[i]=0

In [18]:
# 첫 번째 샘플에 대한 두 개의 최근접 이웃을 확인합니다
nearest_neighbors_with_self[0]

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

- StandardScaler 클래스를 사용하여 특성 표준화

In [19]:
# 이 샘플과 가장 가까운 이웃의 다섯 개의 인덱스를 찾습니다
indices = nearest_neighbors.kneighbors([new_observation], n_neighbors=5, return_distance=False)

In [20]:
# 최근접 이웃을 확인합니다
features_standardized[indices]

array([[[1.03800476, 0.55861082, 1.10378283, 1.18556721],
        [0.79566902, 0.32841405, 0.76275827, 1.05393502],
        [0.4321654 , 0.78880759, 0.93327055, 1.44883158],
        [0.55333328, 0.78880759, 1.0469454 , 1.58046376],
        [1.03800476, 0.55861082, 1.10378283, 1.71209594]]])

- radius_neighbors 메서드는 주어진 반경 내의 이웃을 모두 찾아줌

In [21]:
# 반경 0.5 안에 있는 모든 샘플의 인덱스를 찾습니다
indices = nearest_neighbors.radius_neighbors([new_observation], radius=0.5, return_distance=False)

In [22]:
# 반경 내의 이웃을 확인합니다
features_standardized[indices[0]]

array([[1.03800476, 0.55861082, 1.10378283, 1.18556721]])

- kneighbors_graph 메서드와 마찬가지로, raduis_neighbors_graph를 사용하여 반경 내의 이웃을 나타내는 행렬 만들기

In [23]:
# 반경 내의 이웃을 나타내는 리스트의 리스트
nearest_neighbors_with_self = nearest_neighbors.radius_neighbors_graph([new_observation], radius=0.5).toarray()

In [24]:
# 첫 번째 샘플에 대한 반경 내의 이웃을 확인합니다
nearest_neighbors_with_self[0]

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

---

# 15.2 k-최근접 이웃 분류기 만들기

In [25]:
# 라이브ㅓ리를 임포트합니다
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn import datasets

In [26]:
# 데이터를 로드합니다
iris = datasets.load_iris()
x = iris.data
y = iris.target

In [27]:
# 표준화 객체를 만듭니다
standardizer = StandardScaler()

In [28]:
# 특성을 표준화합니다
X_std = standardizer.fit_transform(x)

In [29]:
# 5개의 이웃을 사용한 KNN 분류기를 훈련합니다
knn = KNeighborsClassifier(n_neighbors=5, n_jobs=-1).fit(X_std, y)

In [30]:
# 두 개의 샘플을 만듭니다
new_observations = [[0.75, 0.75, 0.75, 0.75], [1,1,1,1]]

In [31]:
# 두 샘플의 클래스를 예측합니다
knn.predict(new_observations)

array([1, 2])

- predict_proba 메서드를 사용하여 확률 출력

In [33]:
# 각 샘플이 세 클래스에 속할 확률을 확인합니다
knn.predict_proba(new_observations)

array([[0. , 0.6, 0.4],
       [0. , 0. , 1. ]])

- predict 메서드로 얻은 것과 동일

In [34]:
knn.predict(new_observations)

array([1, 2])

- 회귀 문제에는 KNeighborsRegressor 클래스 사용 가능

In [37]:
# 라이브러리를 임포트합니다
from sklearn.neighbors import KNeighborsRegressor
from sklearn import datasets
from sklearn.datasets import fetch_california_housing

In [38]:
# 데이터를 로드하고 두 개의 특성만 선택합니다
housing = fetch_california_housing()
features = housing.data[:,0:2]
target = housing.target

In [40]:
# 최근접 회귀 모델을 만듭니다
knn_regressor = KNeighborsRegressor(n_neighbors=10)

In [41]:
# 모델을 훈련합니다
model = knn_regressor.fit(features, target)

In [42]:
# 첫 번째 샘플의 타겟값을 예측하고 1000을 곱합니다
model.predict(features[0:1])[0]*1000

4936.307999999999

- 첫번째 샘플에 대한 이웃의 타겟값을 평균하여 predict 메서드의 결과와 비교

In [43]:
import numpy as np

indices = model.kneighbors(features[0:1], return_distance=False)
np.mean(target[indices]) * 1000

4936.307999999999

---

# 15.3 최선의 이웃 개수 결정하기

In [52]:
# 라이브러리를 임포트합니다.
from sklearn.neighbors import KNeighborsClassifier
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.model_selection import GridSearchCV

In [53]:
# 데이터를 로드합니다
iris = datasets.load_iris()
features = iris.data
target   = iris.target

In [54]:
# 표준화 객체를 만듭니다.
standardizer = StandardScaler()

In [55]:
# KNN 분류기를 만듭니다.
knn = KNeighborsClassifier(n_neighbors=5, n_jobs=-1)

In [56]:
# 파이프라인을 만듭니다.
pipe = Pipeline([("standardizer", standardizer), ("knn", knn)])

In [57]:
# 탐색 영역의 후보를 만듭니다
search_space = [{'knn__n_neighbors':[1,2,3,4,5,6,7,8,9,10]}]

In [58]:
# 그리드 서치를 만듭니다
classifier = GridSearchCV(pipe, search_space, cv=5, verbose=0).fit(features, target)

In [60]:
# 최선의 이웃 개수 (k)
classifier.best_estimator_.get_params()['knn__n_neighbors']

6

# 15.4 반지름 기반의 최근접 이웃 분류기 만들기

In [62]:
# 라이브러리를 임포트합니다
from sklearn.neighbors import RadiusNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn import datasets

In [63]:
# 데이터를 로드합니다
iris = datasets.load_iris()
features = iris.data
target   = iris.target

In [64]:
# 표준화 객체를 만듭니다
standardizer = StandardScaler()

In [65]:
# 특성을 표준화합니다
features_standardized = standardizer.fit_transform(features)

In [66]:
# 반지름 이웃 분류기를 훈련합니다
rnn = RadiusNeighborsClassifier(radius=.5, n_jobs=-1).fit(features_standardized, target)

In [67]:
# 두 개의 샘플을 만듭니다
new_observations = [[1,1,1,1]]

In [68]:
# 두 샘플의 클래스를 예측합니다
rnn.predict(new_observations)

array([2])

- 이웃한 샘플을 찾지 못랄 경우 예외를 일으키는 대신 이상치로 표시

In [70]:
# 반지름 이웃 분류기를 훈련합니다
rnn = RadiusNeighborsClassifier(radius=.5, outlier_label=-1, n_jobs=-1).fit(features_standardized, target)

In [72]:
# 두 개의 샘플을 만듭니다
new_observations = [[100,100,100,100]]

In [73]:
# 두 샘플의 클래스를 예측합니다
rnn.predict(new_observations)



array([-1])