# k-Nearest Neighbor Algorithm_k 최근접 이웃 알고리즘


### Definition) k-NN Algorithm

In pattern recognition, the k-nearest neighbors algorithm (k-NN) is a non-parametric method used for classification and regression.In both cases, the input consists of the k closest training examples in the feature space. The output depends on whether k-NN is used for classification or regression

패턴 인식에서, k-최근접 이웃 알고리즘(또는 줄여서 k-NN)은 분류나 회귀에 사용되는 비모수 방식이다. 두 경우 모두 입력이 특징 공간 내 k개의 가장 가까운 훈련 데이터로 구성되어 있다. 출력은 k-NN이 분류로 사용되었는지 또는 회귀로 사용되었는지에 따라 다르다.


- classification: the output is a class membership. An object is classified by a majority __vote__ of its neighbors, with the object being assigned to the class most common among its k nearest neighbors (k is a positive integer, typically small).
- regression: the output is the property value for the object. This value is the __average__ of the values of its k nearest neighbors.

### Note) parametric vs Non-parametric

통계학의 분석기법들은 크게 모수적 분석과 비모수적 분석 방법으로 분류됨
<br>모수적 분석(Parametric Analysis) : 입력데이터의 특정한 특성(정규분포 등)을 가정함
<br>비모수적 분석(Nonparametric Analysis) : 입력데이터의 특성을 가정하지 않음
- 자료가 정규분포로 적절히 변환되지 못할 때 사용한다.

## Remark) k-NN 분류
예를 들어, $R^n$상의 N개의 학습 데이터가 주어져있다고 하자. 이 때 새로운 데이터 x가 어떤 클래스에 들어가는지 찾아보자.(k는 미리 주어진 값이다.)

1. x와 N개의 데이터 사이의 거리를 모두 구한다.
2. N개의 데이터 중 X와 가까운 k개의 데이터를 찾는다.
3. k개의 데이터 중 가장 많은 데이터가 많은 클래스로 새로운 데이터 x를 분류한다. 


- Figure1.
![](./image/03/03_01.png)
이미지 출저:https://helloacm.com/a-short-introduction-to-k-nearest-neighbors-algorithm/

## Remark) k-NN 회귀
k-NN 분류와 같은 상태라 가정하자. 다만 주어진 데이터의 클래스가 아닌 주어진 독립변수에 대한 종속변수의 값을 추정해야 한다. 분류 문제와 마찬가지로 주어진 데이터로 부터 미리 설정한 k값에 따라 가까운 k개의 다른 데이터들을 찾는다. 

그리고 k개의 학습 데이터에 대해 k개의 종속변수 값의 평균값을 주어진 데이터의 종속변수로 추정한다.

- Figure2.
![](./image/03/03_02.gif)
이미지 출저:https://gerardnico.com/wiki/data_mining/knn


## 거리지표
- Euclidean Distance : 보통 유클리드 거리($L_2$-norm) 사용 ->  $L_p$-norm 으로 확장 가능
- Manhattan Distance
$$ d_{Manhattan}(X,Y)=\sum_{i=1}^N|x_i-y_i| $$
![](./image/03/03_03.png)
- Mahalanobis Distance

$$ d_{Mahalanobis}(X,Y)=\sqrt{(X-Y)^T\sum^{-1}(X-Y)} $$
$$\sum:covariance \ matrix$$
## 적절한 k 찾기

k값에 따른 accuracy를 보고 적절한 k를 정해야한다.



## Combining Rule 결정
1. Majority Vote
2. Weighted Vote
    - 일반적으로 1/d 가중치를 많이 사용한다.
    
## Cut-off 기준 설정
이진분류 문제에서 새로운 데이터 x 주변의 클래스 분포가 A:0.6, B:0.4 인경우 대부분 x를 A에 분류한다. 그러나 원래 데이터의 분포가 A:0.9, B:0.1이라고 하면 x데이터는 B로 분류하는게 합리적이다. 즉, kNN 알고리즘을 학습할 때에는 학습데이터의 분포를 고려해야한다.


## kNN 장단점
장점
- 가장 단순한 모델: 정해줘야할 매개변수는 거리를 어떻게 측정할건지와 k값 2개 밖에 없다.
- 데이터의 분포를 고려할 필요가 없다(Non-parametric)
- 모델의 매개변수를 학습하는 과정이 필요 없음

단점
- 비교적 느린 분류
- 차원이 큰 데이터(Feature가 많은 데이터)에 대해서는 잘 작동하지 않는 경향
- Feature의 변동성에 따라 거리의 영향을 많이 받음


## 참고자료
- https://helloacm.com/a-short-introduction-to-k-nearest-neighbors-algorithm/
- http://chapter5k.blogspot.kr/2016/01/knnk-nearest-neighbors-r.html
- https://proinlab.com/archives/2125
- http://kkokkilkon.tistory.com/14
- https://ratsgo.github.io/machine%20learning/2017/04/17/KNN/
- http://ai-times.tistory.com/472
- O'Reilly Media.(2017). Introduction to Machine Learning with Python(박해선 역). 서울:한빛미디어(주). 