## ML overview

1. 지도학습은 답이 있는 문제를 대상으로 하는 학습 방식이다.
    - 비지도학습은 답이 없는 데이터들의 특성을 파악하는 학습 방식이다.
2. 지도학습에는 회귀와 분류가 있다.
3. 회귀 regression 는 선형적인 함수 관계를 찾아내는 것이 목표다.
    - 예) 보스턴 집 값 예측
4. 분류 classification 는 데이터가 분류된 집합 (label) 을 찾아내는 것이 목표다.
    - 예) 붓꽃 품종 분류
5. 일반화 generalization 는 train dataset으로 학습한 모델이 test set (일반 데이터의 예시) 를 잘 예측하도록 하는 과정이다. ($\approxeq$ 훈련)
6. 과(대)적합 overfitting 은 train dataset를 지나치게 학습하여 발생하는 문제다.
    - accuracy : train dataset $\uparrow$, test dataset $\downarrow$
    - 너무 상세하게 모델링 했을 때에도 발생한다.
7. 과소적합 underfitting 은 학습이 충분하지 않을 때 발생한다. 
    - accuracy : train dataset $\downarrow$, test dataset $\downarrow$
8. Machine Learning의 목표는 과대적합과 과소적합의 사이에서 가장 일반화가 잘 된 모델을 찾는 것이다.
    <details>
    <summary>일반화 곡선 (모델 복잡도 곡선)</summary>
    <img src="https://tensorflowkorea.files.wordpress.com/2017/06/fig2-01.png" alt="모델 복잡도 곡선" width="60%" />

    </details>

9. 과적합을 피하기 위한 방법은 아래와 같다. (예시)
    1. 훈련데이터의 다양성 보장 (특정 데이터의 개수가 과하게 많거나 적어서는 안 된다.)
    2. 9-1이 충족되었을 때 데이터의 양은 많을수록 좋다. (일반적)
    3. 규제 Regularization 을 통해 모델 복잡도를 적절하게 설정한다. (너무 복잡하면 과대적합의 가능성이 커지고 너무 간단하면 과소적합의 가능성이 커진다.)

---

# KNN
> K-NearestNeighbors model

데이터 포인트(알고자 하는 값, 입력값)와 가장 근접한 k개의 이웃을 기준으로 예측값을 결정하는 모델이다.

### k의 개수에 따른 변화

||**k $\uparrow$ **|**k $\downarrow$ **|
|-|-|-|
|모델 복잡도 | $\uparrow$ | $\downarrow$ |
|k의 개수| 최대 N개 | 최소 1개 |
|결정경계| 부드러운 | 거친 |
|이상치| 영향 $\downarrow$ | 영향 $\uparrow$|
- 이웃의 개수가 작아질 수록 부분집합의 개수가 많아지므로 모델 복잡도가 커진다
- 분류KNN (kNN classification) 의 이진분류에서 k의 개수는 홀수개여야 한다. 짝수개로 만들면 첫번째 분류로 답이 결정되기 때문이다.

<br>

||예측 방법|
|-|-|
|분류| 다수결로 결정|
|회귀| k개의 평균으로 결정|


### params

- n_neighbors : 이웃의 수 (default : 5)
- weights : 예측에 사용된 가중 함수 (uniform, distance) (default : uniform)
    - 회귀로 쓸 때만 필요. 분류에서는 많이 필요하지 않다.
- algorithm : 가까운 이웃을 계산하는데 사용되는 알고리즘 (auto, ball_tree, kd_tree, brute)
- leaf_size : BallTree 또는 KDTree에 전달 된 리프 크기
- p : (1 : minkowski_distance, 2: manhattan_distance 및 euclidean_distance)
- metric : 트리에 사용하는 거리 메트릭스
- metric_params : 메트릭 함수에 대한 추가 키워드 인수
- n_jobs : 이웃 검색을 위해 실행할 병렬 작업 수
    - CPU -> GPU처럼 병렬처리하기 때문에 속도가 빨라지긴 한다. 

### 주요 매개변수(Hyperparameter)
- 거리측정 방법, 이웃의 수, 가중치 함수 

scikit-learn의 params name
- metric  :  유클리디언 거리 방식
- k : 이웃의 수
- weight  : 가중치 함수
     -  uniform : 가중치를 동등하게 설정.
     -  distance :  가중치를 거리에 반비례하도록 설정


### K-NN 분류 vs K-NN 회귀
