# K-최근접 이웃 (K-Nearest Neighbors, KNN)
- 분류(Classification)와 회귀(Regression) 를 모두 지원한다.
- 예측하려는 데이터와 input 데이터들 간의 거리를 측정해 가장 가까운 K개의 데이터셋의 레이블을 참조해 분류/예측한다.
- 학습시 단순히 input 데이터들을 저장만 하며 예측 시점에 거리를 계산한다.
    - 학습은 빠르지만 예측시 시간이 많이 걸린다.


## 분류
![knn1](images/knn-1.png)

- K-NN에서 **K**는 새로운 데이터포인트를 분류할때 확인할 데이터 포인트의 개수를 지정하는 **하이퍼파라미터**

![knn-2](images/knn-2.png)

- K를 1로 하면 <font color='blue'>파란색</font>, K를 3으로 하면 <font color='orange'>주황색</font> 으로 분류한다.
- K가 너무 작으면 Overfitting이 일어날 수 있고 K가 너무 크면 Underfitting이 발생할 수 있다.
    - Overfitting: K값을 더 크게 잡는다.
    - Underfitting: K값을 더 작게 잡는다.

## 주요 하이퍼 파라미터
- **sklearn.neighbors.KNeighborsClassifier** 사용
- 이웃 수 
    - n_neighbors = K
    - **K가 작을 수록 모델이 복잡해져 과적합이 일어나고 너무 크면 단순해져 성능이 나빠진다.**
    - n_neighbors는 Feature수의 제곱근 정도를 지정할 때 성능이 좋은 것으로 알려져 있다.
- 거리 재는 방법 
    - p=2: 유클리디안 거리(Euclidean distance - 기본값)
    - p=1: 맨하탄 거리(Manhattan distance)
    

> ### 유클리디안 거리(Euclidean_distance)
![image.png](attachment:image.png)

$$
distance = \sqrt{(a_1 - b_1)^2 + (a_2-b_2)^2}\\
n차원 벡터간의 거리 = \sqrt{(a_1 - b_1)^2 + (a_2-b_2)^2 +...+(a_n-b_n)^2}
$$

> ### 맨하탄 거리 (Manhattan distance)
![image.png](attachment:image.png)

$$
distance = |a_1 - b_1| + |a_2 - b_2| \\
𝑛차원벡터간의거리= |a_1 - b_1| + |a_2 - b_2| + ... + |a_n - b_n|
$$

## 요약
- K-NN은 이해하기 쉬운 모델이며 튜닝할 하이퍼파라미터의 수가 적어 빠르게 만들 수있다.

- K-NN은 서비스할 모델을 구현할때 보다는 **복잡한 알고리즘을 적용해 보기 전에 확인용 또는 base line을 잡기 위한 모델로 사용한다.**

- 훈련세트가 너무 큰 경우(Feature나 관측치의 개수가 많은 경우) 거리를 계산하는 양이 늘어나 예측이 느려진다.
    - 추론에 시간이 많이 걸린다.

- Feature간의 값의 단위가 다르면 작은 단위의 Feature에 영향을 많이 받게 되므로 **전처리로 Feature Scaling작업**이 필요하다.

- Feature가 너무 많은 경우와 대부분의 값이 0으로 구성된(희소-sparse) 데이터셋에서 성능이 아주 나쁘다

## 위스콘신 유방암 데이터를 이용한 암환자분류
### K값 변화에 따른 성능 변화 확인

##### 데이터셋 로드, train/test set 분리

In [None]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=1)

In [None]:
np.unique(y, return_counts=True)

##### Feature scaling

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

##### 학습
- k값 변화에 따른 accuracy의 변화 확인

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

train_acc = []
test_acc = []

k_params = range(1,11) # 1 ~ 10
for k in k_params:
    # 모델 생성
    knn = KNeighborsClassifier(n_neighbors = k)
    
    # 학습
    knn.fit(X_train_scaled, y_train)

    #추론 및 평가
    pred_train = knn.predict(X_train_scaled)
    pred_test = knn.predict(X_test_scaled)
    
    #평가
    train_acc.append(accuracy_score(y_train, pred_train))
    test_acc.append(accuracy_score(y_test, pred_test))

##### 결과확인

In [None]:
train_acc, test_acc

In [None]:
df = pd.DataFrame({
    "K":k_params,
    "Train":train_acc,
    "Test": test_acc   
})
df.set_index('K', inplace=True)

In [None]:
df

In [None]:
import matplotlib.pyplot as plt
df.plot(figsize=(8,6))
plt.show()

In [None]:
best_model = KNeighborsClassifier(n_neighbors=4)
best_model.fit(X_train_scaled, y_train)
#예측
pred_train = best_model.predict(X_train_scaled)
pred_test = best_model.predict(X_test_scaled)
#평가
print('Train 정확도: ',accuracy_score(y_train, pred_train))
print('Test 정확도: ',accuracy_score(y_test, pred_test))

## GridSearch/Pipline 을 이용해 구현
- Pipeline을 이용해 전처리기와 모델을 연결한다.
- GridSearchCV를 이용해 최적의 하이퍼파라미터를 검색한다.

##### 데이터셋 로드 및 train/test set 나누기

In [None]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, classification_report

X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X,y, stratify=y, random_state=0)

##### Pipeline/GridSearchCV 생성 및 학습

In [None]:
order = [
    ('scaler', StandardScaler()),
    ('knn', KNeighborsClassifier())
]
pipeline = Pipeline(order, verbose=True)

param = {
    "knn__n_neighbors":range(1,11), 
    "knn__p":[1,2]
}
gs = GridSearchCV(pipeline, param, scoring='accuracy', cv=5, n_jobs=-1)

gs.fit(X_train, y_train)

##### 결과확인

In [None]:
result_df = pd.DataFrame(gs.cv_results_)
result_df[result_df.columns[6:]].sort_values('rank_test_score').head()

In [None]:
gs.best_params_

##### 최종평가

In [None]:
best_model = gs.best_estimator_
accuracy_score(y_test, best_model.predict(X_test))

In [None]:
pred_test = gs.predict(X_test)
accuracy_score(y_test, pred_test)

In [None]:
print(classification_report(y_test, pred_test))

# TODO: iris dataset 분류
- model: KNN 사용
- gridsearch를 이용해서 최적의 K값 찾는다.

##### 데이터셋 로드 및 분리

##### Pipeline 생성

##### GridSearchCV 생성 및 학습

##### 결과 확인