In [11]:
## KNN에 대해서 배워보자 


'''
KNN(K-Nearest Neighbors)
k-최근접 이웃 알고리즘은 특정 공간 내에서 입력과 제일 근접한(가까운) k개의 요소를 찾아
더 많이 일치하는 클래스로 분류하는 알고리즘
가장 단순한 지도 학습 알고리즘
가까운 멤버에는 가중치를 높게 주고, 멀리 떨어진 멤버에는 가중치를 낮게 주어 처리하는 것이 좋습니다.
'''

# 샘플 데이터로부터 가장 가까운 K개의 이웃 찾기 

from sklearn.datasets import load_iris
from sklearn.neighbors import  NearestNeighbors
from sklearn.preprocessing import StandardScaler

iris = load_iris()
features = iris.data
#특성 정규화
features_standard = StandardScaler().fit_transform(features)

nearest_neighbors = NearestNeighbors(n_neighbors=2).fit(features_standard)
new_observation = [1,1,1,1]
#새로운 샘플 데이터의 최근접 이웃의 인덱스와 거리 반환
distances, indices = nearest_neighbors.kneighbors([new_observation]) 
features_standard [indices]   #최근접 이웃 확인 
distances

array([[0.49140089, 0.74294782]])

In [12]:
#nearest_neighbors_euclidean= NearestNeighbors(n_neighbors=2,  metric='euclidean' ).fit(features_standard)
nearest_neighbors_euclidean= NearestNeighbors(n_neighbors=2,  metric='euclidean' ).fit(features_standard)
distances

array([[0.49140089, 0.74294782]])

In [27]:
nn_euclidean = NearestNeighbors(n_neighbors=3, metric='euclidean').fit(features_standard) 
distances

array([[0.49140089, 0.74294782]])

In [28]:
nn_with_self = nn_euclidean.kneighbors_graph(features_standard).toarray()
#최근접 이웃 중에서 1로 표시된 자기 자신을 제외시킵니다.
for i, x in enumerate(nn_with_self) :
    x[i] = 0

print(nn_with_self[0]) #첫번째 샘플에 대한 최근접 이웃 확인


[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0.]


In [29]:
#샘플과 가까운 최근접 이웃 5개 인덱스 찾기
indices = nn_euclidean.kneighbors([new_observation], n_neighbors=5, return_distance=False)
features_standard[indices]   #최근접 이웃 확인 (5개)

array([[[1.03800476, 0.55861082, 1.10378283, 1.18556721],
        [0.79566902, 0.32841405, 0.76275827, 1.05393502],
        [0.4321654 , 0.78880759, 0.93327055, 1.44883158],
        [0.55333328, 0.78880759, 1.0469454 , 1.58046376],
        [1.03800476, 0.55861082, 1.10378283, 1.71209594]]])

In [36]:
# 반경 0.5 안에 있는 모든 샘플의 인덱스를 찾습니다.(radius)
indices = nn_euclidean.radius_neighbors([new_observation], radius = 0.5 , return_distance=False)
features_standard[indices[0]] # 1개

array([[1.03800476, 0.55861082, 1.10378283, 1.18556721]])

In [42]:
#또는 이렇게 표기 
nn_with_self = nn_euclidean.radius_neighbors_graph([new_observation], 
                                                   radius = 0.5).toarray()
nn_with_self # 첫번째 샘플 확인 


array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0.]])