### NearestNeighbors

In [36]:
from sklearn import datasets
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import StandardScaler

In [37]:
iris = datasets.load_iris()
features=iris.data

In [38]:
standardizer=StandardScaler()

In [39]:
#특성 표준화
features_standardized=standardizer.fit_transform(features)

In [44]:
#k=2 인 최근접 이웃모델 만들기
nearest_neighbors = NearestNeighbors(n_neighbors=3).fit(features_standardized)

In [45]:
#새로운 샘플
new_observation=[1,1,1,1]

In [46]:
#이 샘플과 가장 가까운 이웃의 인덱스 거리찾기
distances, indices = nearest_neighbors.kneighbors([new_observation])

In [47]:
#최근접 이웃
features_standardized[indices]

array([[[1.03800476, 0.55861082, 1.10378283, 1.18556721],
        [0.79566902, 0.32841405, 0.76275827, 1.05393502],
        [0.4321654 , 0.78880759, 0.93327055, 1.44883158]]])

#### 거리측정법에는 유클리드(euclidean), 맨해튼(manhattan), 민코프스키(minkowski)

In [48]:
#유클리드 거리기반으로 가장 가까운 2개의 최근접 이웃 찾기
nearestneighbors_euclidean = NearestNeighbors(n_neighbors=3, metric='euclidean').fit(features_standardized)

In [49]:
# 가장 가까운 두개의 이웃까지 실제 거리값
distances 

array([[0.49140089, 0.74294782, 0.75692864]])

In [51]:
#샘플의 최근접 이웃을 나타내는 행렬
nearestneighbors_euclidean = NearestNeighbors(n_neighbors=3, metric='euclidean').fit(features_standardized)

In [16]:
#각샘플(자기자신포함) 3개의 최근접 이웃을 나타내는 리스트의 리스트
nearest_neighbors_with_self=nearestneighbors_euclidean.kneighbors_graph(features_standardized).toarray()

In [17]:
#최근접 이웃 중에서 1로 표기된 자기 자신 제외
for i,x, in enumerate(nearest_neighbors_with_self):
    x[i]=0

In [20]:
nearest_neighbors_with_self[1]

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [18]:
#첫번째 샘플에 대한 두개의 최근접 이웃 확인
nearest_neighbors_with_self[0]

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

### K 최근접 이웃 분류기

In [4]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn import datasets

In [5]:
iris = datasets.load_iris()
X = iris.data
y=iris.target

In [6]:
standardizer = StandardScaler()

In [7]:
X_std=standardizer.fit_transform(X)

In [8]:
knn = KNeighborsClassifier(n_neighbors=5, n_jobs=-1).fit(X_std,y)

In [9]:
new_observation = [[0.75, 0.75, 0.75, 0.75], [1,1,1,1]]

In [10]:
knn.predict(new_observation)

array([1, 2])

In [14]:
knn.predict_proba(new_observation)

array([[0. , 0.6, 0.4],
       [0. , 0. , 1. ]])

### GridSearchCV

In [15]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.model_selection import GridSearchCV

In [16]:
iris = datasets.load_iris()
features=iris.data
target=iris.target

In [17]:
standardizer=StandardScaler()

In [18]:
knn = KNeighborsClassifier(n_neighbors=5, n_jobs=-1)

In [19]:
pipe= Pipeline([('standardizer', standardizer), ('knn',knn)])

In [20]:
search_space = ({'knn__n_neighbors':[1,2,3,4,5,6,7,8,9,10]})

In [21]:
classifier = GridSearchCV(pipe,search_space, cv=5,verbose=0).fit(features,target)

In [22]:
classifier.best_estimator_.get_params()["knn__n_neighbors"]

6

### RadiusNeighborsClassifier

In [23]:
from sklearn.neighbors import RadiusNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn import datasets

In [25]:
iris = datasets.load_iris()
features =iris.data
target=iris.target

In [26]:
standardizer=StandardScaler()

In [27]:
features_standardized = standardizer.fit_transform(features)

In [35]:
# 반지름 이웃 분류기를 훈련
rnn = RadiusNeighborsClassifier(radius=.5, n_jobs=-1).fit(features_standardized, target)

In [29]:
new_observations=[[1,1,1,1]]

In [30]:
rnn.predict(new_observations)

array([2])

In [32]:
rnn = RadiusNeighborsClassifier(radius=.5,outlier_label=-1, n_jobs=-1).fit(features_standardized, target)

In [33]:
new_observations=[[1,1,1,1]]

In [34]:
rnn.predict(new_observations)

array([2])