# KNN (K-Nearest Neighbor)

- Classification model
- 어떤 data가 주어지면 K개의 최근접 이웃을 찾고 ***다수결***을 통해 레이블 예측
- 최근접 이웃은 ***거리 측정***을 통해 찾음 (data ***표준화*** 필요)
  - minkowski 거리 (p=1 맨해튼, p=2 유클리디안)
- ***lazy learner*** : it doesn’t learn a discriminative function from the training data but “memorizes” the training dataset instead.
- ***Curse of dimensionality***
- 동점인 경우 가장가까운 이웃을 예측으로 선택, 거리도 같다면 datasets에서 먼저 나타난 샘플의 label 선택

## Implementation

In [2]:
# 라이브러리 import
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

In [10]:
# iris data 불러오기
iris = load_iris()

# train data와 test data로 구별
x_train = iris['data'][:-1]
y_train = iris['target'][:-1]
x_test = iris['data'][-1:]    # iris data의 제일 마지막 sample을 예측하겠음

K = 5
# KNN 모델 생성
knn = KNeighborsClassifier(n_neighbors=K)   # default값은 K=5, p=2, metric=minkowski,
knn.fit(x_train, y_train)                   

# test data의 target 추정
y_pred = knn.predict(x_test)
print('prediction: ', y_pred[0])
print('label:', iris['target'][-1])


# optimal K: K 값을 조절하면서 optimal K을 찾는 과정도 필요
# weighted KNN: weights= 'uniform'(각각 이웃들이 동일한 가중치), 'distance'(거리가 가까울 수록 큰 가중치)

prediction:  2
label: 2


In [17]:
# KNN 직접 구현

# iris data 불러오기
iris = load_iris()

# train data와 test data로 구별
x_train = iris['data'][:-1]
y_train = iris['target'][:-1]
x_test = iris['data'][-1:]    # iris data의 제일 마지막 sample을 예측하겠음

# train data와 test data의 거리 계산
distance = np.sqrt(((x_train - x_test)**2).sum(axis=1))

# dataframe으로 저장
df = pd.DataFrame(data=np.c_[distance, y_train], columns= ['distance', 'target'])

# distance를 오름차순으로 정렬
df.sort_values(by='distance', inplace=True)  # inplace=True 원본 df를 변경해주겠다

# distance가 큰 상위 K개를 선택하고, target의 majority를 찾는다
K = 10
candidate = df[:K]['target'].to_numpy().astype('int')
counts = np.bincount(candidate)
majority = np.argmax(counts)
print(candidate)
print(counts)
print('prediction:', majority)

# 정답과 비교
print('real:',iris['target'][-1])

[2 2 2 2 1 1 2 2 2 2]
[0 2 8]
prediction: 2
real: 2


In [19]:
# KNN Regression 모델
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsRegressor

# KNN regressor 생성
knn = KNeighborsRegressor(n_neighbors=5, weights='distance')
knn.fit(x_train, y_train)

y_pred = knn.predict(x_test)
print(y_pred)

# 1.821
# Regression 모델은 연속적인 값을 예측

[1.82108222]
