# k-최근접 이웃 알고리즘
## 개념
- 비교 대상이 되는 데이터 포인트 주변에 가장 가까이 존재하는 k개의 데이터와 비교하여 가장 가까운 클래스로 분류
- k가 3일 경우 테스트 데이터 주변 반경 원 내부의 가장 가까운 3개의 데이터를 보고 가장 많이 존재하는 클래스로 해당 테스트 데이터를 분류
- 타깃이 연속형 숫자인 경우, 주변 k 개 데이터의 평균값으로 예측
> 게으른 학습 (lazy learning):
> 트레이닝 데이터 전체를 메모리상에 보관하면서 테스트 데이터가 새로 들어왔을 때 바로 학습
- kNN은 게으른 학습을 이용하여, 데이터 용량은 많이 차지하지만 빠르게 학습 가능

## 실습
### 데이터 불러오기

In [1]:
from sklearn import datasets
raw_iris = datasets.load_iris()

### 피처, 타깃 데이터 지정

In [2]:
X = raw_iris.data
y = raw_iris.target

### 트레이닝/테스트 데이터 분할

In [3]:
from sklearn.model_selection import train_test_split
X_tn, X_te, y_tn, y_te = train_test_split(X, y, random_state=0) # 매번 같은 결과 나오도록 랜덤 시드 0 으로

### 데이터 표준화

In [4]:
from sklearn.preprocessing import StandardScaler
std_scale = StandardScaler()
std_scale.fit(X_tn)
X_tn_std = std_scale.transform(X_tn)
X_te_std = std_scale.transform(X_te)

### 데이터 학습

In [5]:
from sklearn.neighbors import KNeighborsClassifier
clf_knn = KNeighborsClassifier(n_neighbors=2)
clf_knn.fit(X_tn_std, y_tn)

KNeighborsClassifier(n_neighbors=2)

### 데이터 예측

In [6]:
knn_pred = clf_knn.predict(X_te_std)
print(knn_pred)

[2 1 0 2 0 2 0 1 1 1 1 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]


### 정확도 평가

In [8]:
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_te, knn_pred)
print(accuracy)

0.9473684210526315


### confusion matrix 확인

In [9]:
from sklearn.metrics import confusion_matrix
import pandas as pd
conf_matrix = confusion_matrix(y_te, knn_pred)
df = pd.DataFrame(conf_matrix)
df

Unnamed: 0,0,1,2
0,13,0,0
1,0,15,1
2,0,1,8


### 분류 리포트 확인

In [11]:
from sklearn.metrics import classification_report
class_report = classification_report(y_te, knn_pred)
print(class_report)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        13
           1       0.94      0.94      0.94        16
           2       0.89      0.89      0.89         9

    accuracy                           0.95        38
   macro avg       0.94      0.94      0.94        38
weighted avg       0.95      0.95      0.95        38

