# 지도학습 - K-Nearest Neighbors (KNN)

지도 학습 (Supervised Learning)
- 데이터에 대한 Label(명시적인 답)이 주어진 상태에서 컴퓨터를 학습시키는 방법. 

비지도 학습 (Unsupervised Learning)
- 데이터에 대한 Label(명시적인 답)이 없는 상태에서 컴퓨터를 학습시키는 방법.
- 데이터의 숨겨진 특성이나 구조를 파악하는데 사용.


분류 (Classification)
- 미리 정의된 여러 클래스 레이블 중 하나를 예측하는 것.
- 속성 값을 입력, 클래스 값을 출력으로 하는 모델
- 붓꽃(iris)의 세 품종 중 하나로 분류, 암 분류 등. 
- 이진분류, 다중 분류 등이 있다.


회귀 (Regression)
- 연속적인 숫자를 예측하는 것.
- 속성 값을 입력, 연속적인 실수 값을 출력으로 하는 모델
- 어떤 사람의 교육수준, 나이, 주거지를 바탕으로 연간 소득 예측. 
- 예측 값의 미묘한 차이가 크게 중요하지 않다.

일반화, 과대적합, 과소적합

일반화 (Generalization)
- 모델이 처음보는 데이터에 대해 정확하게 예측할 수 있는 것.
- 훈련 세트로 학습한 모델이 테스트 세트에 대해 정확히 예측 하도록 하는 것.

과대적합 (Overfitting)
- 훈련 세트에 너무 맞추어져 있어 테스트 세트의 성능 저하.

과소적합 (Underfitting)
- 훈련 세트를 충분히 반영하지 못해 훈련 세트, 테스트 세트에서 모두 성능이 저하.


***일반화 성능이 최대화 되는 모델을 찾는 것이 목표***

과대적합 (Overfitting)
- 모델이 훈련 세트의 각 샘플에 너무 가깝게 맞춰져서 새로운 데이터에 일반화되기 어려울 때.
- 가진 정보를 모두 사용해서 너무 복잡한 모델을 만드는 것.

과소적합 (Underfitting)
- 모델링을 너무 간단하게 하여 성능이 제대로 나오지 않을 때.
- 데이터의 다양성을 잡아내지 못하고, 훈련 세트에도 잘 맞지 않는 너무 간단한 모델을 만드는 것.


해결방법

- 주어진 훈련데이터의 다양성이 보장되어야 한다 (다양한 데이터 포인트를 골고루 나타내야 한다)
- 일반적으로 데이터 양이 많으면 일반화에 도움이 된다.
- 그러나 편중된 데이터를 많이 모으는 것은 도움이 되지 않는다.
- 규제([Regularization](https://developers.google.com/machine-learning/glossary#L1_regularization))을 통해 모델의 복잡도를 적정선으로 설정한다.


## K-Nearest Neighbors (KNN)


k-최근접 이웃 알고리즘

- 새로운 데이터 포인트와 가장 가까운 훈련 데이터세트의 데이터 포인트를 찾아 예측
- k 값에 따라 가까운 이웃의 수가 결정
- 분류와 회귀에 모두 사용 가능


- 입력 값과 k개의 가까운 점이 있다고 가정할 때 그 점들이 어떤 라벨과 가장 비슷한지 (최근접 이웃)
판단하는 알고리즘

- 매개 변수 : 데이터 포인트 사이의 거리를 재는 방법 (일반적으로 유클리디안 거리를 이용), 이웃의 수
 - 장점 : 이해하기 쉬운 모델, 약간의 조정으로 좋은 성능
 - 단점 : 훈련 세트가 크면 속도가 느림, 많은 특성을 처리하기 힘듬.

- k 값이 작을 수록 모델의 복잡도가 상대적으로 증가. (이웃을 적게 사용하면)
- 반대로 k 값이 커질수록 모델의 복잡도가 낮아진다. (이웃을 많이 사용하면)
- 100개의 데이터를 학습하고, k를 100개로 설정하여 예측하면 빈도가 가장 많은 클래스 레이블로 분류
 (훈련 데이터 전체 개수를 이웃의 수로 지정하는 극단적인 경우)
 
 [KNeighborsClassifier 분석](ml_02_%EC%A7%80%EB%8F%84%ED%95%99%EC%8A%B5_KNN.ipynb#KNeighborsClassifier-%EB%B6%84%EC%84%9D) 참고


유클리디안 거리 (Euclidean distance) : 두 점사이의 거리를 계산할 때 쓰이는 방법
- 두 점 (p1, p2, ...)와 (q1, q2, ....)의 거리

<center>
 <img src="https://img1.daumcdn.net/thumb/R800x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F242971445236215901" alt="유클리디안 거리 공식" width="60%" />

유클리디안 거리 공식

</center>

KNeighborsClassifier()
```
KNeighborsClassifier(n_neighbors, weights, algorithm, leaf_size, p, metric, metric_params, n_jobs)
```
- n_neighbors : 이웃의 수 (default : 5)
- weights : 예측에 사용된 가중 함수 (uniform, distance) (default : uniform)
- algorithm : 가까운 이웃을 계산하는데 사용되는 알고리즘 (auto, ball_tree, kd_tree, brute)
- leaf_size : BallTree 또는 KDTree에 전달 된 리프 크기
- p : (1 : minkowski_distance, 2: manhattan_distance 및 euclidean_distance)
- metric : 트리에 사용하는 거리 메트릭스
- metric_params : 메트릭 함수에 대한 추가 키워드 인수
- n_jobs : 이웃 검색을 위해 실행할 병렬 작업 수

KNeighborsClassifier 모델은 k-최근접 이웃 분류 또는 KNN이라고 합니다. <br>
k-NN 알고리즘은 가장 가까운 훈련 데이터 포인트 K개를 최근접 이웃으로 찾아 예측에 사용합니다. <br>
n_neighbors=1 는 1개를 최근접 이웃으로 하겠다는 것입니다.

주요 매개변수(Hyperparameter)
- 거리측정 방법, 이웃의 수, 가중치 함수 

scikit-learn의 경우
- metric  :  유클리디언 거리 방식
- k : 이웃의 수
- weight  : 가중치 함수
     -  uniform : 가중치를 동등하게 설정.
     -  distance :  가중치를 거리에 반비례하도록 설정


장단점
- 이해하기 매우 쉬운 모델
- 훈련 데이터 세트가 크면(특성,샘플의 수) 예측이 느려진다
- 수백 개 이상의 많은 특성을 가진 데이터 세트와 특성 값 대부분이 0인 희소(sparse)한 데이터 세트에는 잘 동작하지 않는다
- 거리를 측정하기 때문에 같은 scale을 같도록 정규화 필요


#### iris 데이터를 이용한 KNN 분류 실습

붓꽃 데이터 셋
- 클래스 (class) : 출력될 수 있는 값 (붓꽃의 종류)
- 레이블 (label) : 특정 데이터 포인트에 대한 출력


붓꽃 (Iris)의 품종 분류

<center>
 <img src="https://thegoodpython.com/assets/images/iris-species.png" alt="붓꽃 품종" width="60%" />

</center>

##### 사이킷 런 이용

In [1]:
# 데이터 가져오기
from sklearn.datasets import load_iris

iris_dataset = load_iris()
iris_dataset
type(iris_dataset)  # sklearn.utils.Bunch -> 파이썬의 딕셔너리와 유사한 키와 값으로 구성

iris_dataset.keys() # 'data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'
# print( iris_dataset['DESCR'] )  # 데이터셋 간략 설명
print( iris_dataset.target_names ) # 예측하려는 붓꽃 품종 이름 리스트
print( iris_dataset.feature_names) # 각 특성을 설명하는 문자열 리스트
print( iris_dataset.data.shape )   # 꽃잎의 길이와 폭, 꽃받침의 길이와 폭 값을 갖는 ndarray
                                   # 머신러닝에서 각 아이템은 샘플, 속성은 특성
print( iris_dataset.data[:5] )     # 처음 5개만 출력
print( iris_dataset.target.shape ) # 샘플 붓꽃의 품종을 담은 ndarray, 1차원 배열
print( iris_dataset.target )       # 붓꽃 종류 0~2 정수로 기록 (0은 setosa)

['setosa' 'versicolor' 'virginica']
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
(150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
(150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


##### seaborn 이용



In [None]:
# 데이터 가져오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# iris data loading

In [None]:
# 데이터 확인

훈련 세트(training set) <br>
테스트 세트(test set), 홀드아웃 세트(hold-out set)

In [None]:
# data
# label

In [None]:
# 훈련 데이터와 테스트 데이터 준비
from sklearn.model_selection import train_test_split

# 2차원 배열(행렬)의 수학 표기방식 대문자 X
# 1차원 배열(벡터)의 수학 표기방식 소문자 y
# 데이터 섞음

# 75% : 25%
X_train.shape, X_test.shape, y_train.shape, y_test.shape

In [None]:
# 데이터 조사
# 산점도 행렬 : 3개 이상의 특성을 표현
# 4개의 특성을 갖는 붓꽃
# 대각원소 자리에 각 변수별 히스토그램


In [None]:
# Scatterplot matrix with different color by group and kde

# 각 변수별 커널밀도추정곡선
# 'species' 종(setosa, versicolor, virginica) 별로 색깔을 다르게 표시
# pastel, bright, deep, muted, colorblind, dark


##### 공통

In [None]:
# 머신러닝 모델
# k-최근접 이웃 알고리즘
# 훈련 데이터에서 새로운 데이터 포인트에 가장 가까운 'k개'의 이웃을 찾는다.


In [None]:
# 예측하기


In [None]:
# 모델 평가
# 테스트 세트 이용


### KNeighborsClassifier 분석

#### 결정경계([descision boundary](https://developers.google.com/machine-learning/glossary#%EA%B2%B0%EC%A0%95-%EA%B2%BD%EA%B3%84decision-boundary))

이웃의 수를 늘릴수록 결정경계는 더 부드러워진다.

이웃을 적게 사용하면 모델의 복잡도가 높아지고, 
많이 사용하면 복잡도는 낮아진다.