In [8]:
### 1. NearestNeighbors : 특정한 샘플의 최근접 이웃 찾기
from sklearn import datasets
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import StandardScaler

# 데이터를 로드
iris=datasets.load_iris()
features=iris.data

# 표준화 객체
standardizer=StandardScaler()

# 특성을 표준화
features_standardized=standardizer.fit_transform(features)

# k=2인 최근접 이웃 모델
# NearestNeighbors : 입력데이터와 가장 가까운 이웃 샘플을 구하는 클래스
nearest_neighbors=NearestNeighbors(n_neighbors=2).fit(features_standardized)

# 새로운 샘플
new_observation=[1,1,1,1]

# 이 샘플과 가장 가까운 이웃의 인덱스와 거리
distances, indices=nearest_neighbors.kneighbors([new_observation])
distances, indices

(array([[0.49140089, 0.74294782]]), array([[124, 110]], dtype=int64))

In [9]:
# 최근접 이웃을 확인
features_standardized[indices]

array([[[1.03800476, 0.55861082, 1.10378283, 1.18556721],
        [0.79566902, 0.32841405, 0.76275827, 1.05393502]]])

In [10]:
# 이 샘플과 가장 가까운 이웃의 3개의 인덱스
indices=nearest_neighbors.kneighbors([new_observation], n_neighbors=3, return_distance=False)
print(indices)

[[124 110 148]]


In [11]:
# 최근접 이웃을 확인(자기 자신 제외)
features_standardized[indices]

array([[[1.03800476, 0.55861082, 1.10378283, 1.18556721],
        [0.79566902, 0.32841405, 0.76275827, 1.05393502],
        [0.4321654 , 0.78880759, 0.93327055, 1.44883158]]])

In [12]:
# 반경 0.5 안에 있는 모든 샘플의 인덱스
indices=nearest_neighbors.radius_neighbors([new_observation], radius=0.5, return_distance=False)
print(indices)
# 반경 내의 이웃을 확인
features_standardized[indices[0]]

[array([124], dtype=int64)]


array([[1.03800476, 0.55861082, 1.10378283, 1.18556721]])

In [15]:
### 2. KNeighborsClassifier : 최선의 이웃 개수 결정하기
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

# 데이터를 로드
iris=datasets.load_iris()
features=iris.data
target=iris.target

# 표준화 객체
standardizer=StandardScaler()

# KNN 분류기
# KNeighborsClassifier : 입력된 데이터의 클래스를 분류
knn=KNeighborsClassifier(n_jobs=-1)

# 파이프라인
pipe=Pipeline([("standardizer", standardizer), ("knn", knn)])

# 탐색 영역의 후보
search_space=[{"knn__n_neighbors": range(1,11)}]

# 그리드 서치
classifier=GridSearchCV(pipe, search_space, cv=5, verbose=0).fit(features, target)

In [14]:
# 최선의 이웃 개수(k)
classifier.best_estimator_.get_params()["knn__n_neighbors"]

6

In [16]:
### 3. RadiusNeighborsClassifier : 반지름 기반의 최근접 이웃 분류기 만들기,
# 이웃의 개수가 아닌 반지름 기반으로 가장 가까운 이웃으로 분류
from sklearn import datasets
from sklearn.neighbors import RadiusNeighborsClassifier
from sklearn.preprocessing import StandardScaler

# 데이터를 로드
iris=datasets.load_iris()
features=iris.data
target=iris.target

# 표준화 객체
standardizer=StandardScaler()

# 특성을 표준화
features_standardized=standardizer.fit_transform(features)

# 반지름 이웃 분류기를 훈련
rnn=RadiusNeighborsClassifier(radius=0.5, n_jobs=-1).fit(features_standardized, target)

# 분류할 샘플
new_observation=[[1,1,1,1]]

# 샘플의 클래스를 예측
rnn.predict(new_observation)

array([2])

In [17]:
# 반지름 이웃 분류기를 훈련
rnn=RadiusNeighborsClassifier(radius=0.5, outlier_label=-1, n_jobs=-1).fit(features_standardized, target)

rnn.predict([[100,100,100,100]])
# 분류하지 못할 경우 -1 리턴



array([-1])