# k-means

__k-means__는 __clustering__의 한 방법으로   
데이터 중 유사한 패턴을 가진 개체들을 `k`개 만드는 방식입니다.    

비지도학습에 속하기 때문에 정답 값(`target`혹은 `label`)을 알 필요가 없습니다. 

## 모델 생성 방식
1. 2 이상의 `k` 값 지정
2. 임의의 중심 `k`개 생성
3. 모든 관측치들을 각 중심과 거리를 계산하여 가장 가까운 중심에 할당
4. 생성된 군집의 중심값을 갱신
5. 중심값이 변하지 않을 때 까지 3, 4번의 과정을 반복

![kmeans](http://stanford.edu/~cpiech/cs221/img/kmeansViz.png)

## 한계점
- 서로 다른 크기의 군집을 잘 구분하지 못함.
> 현실의 데이터들은 정답값이 불균형인 경우가 많습니다.  
> 한 공장에서의 불량품의 개수가 예중 하나 입니다.
>
> 위와 같은 데이터가 있다고 가정했을 때 __k-means__ 성능이 좋지 못합니다.  
>
> 정답값을 알 수 없기 때문에 각 중심의 거리만으로 군집을 할당하게 되므로  
> 잘못된 군집을 생성하게 됩니다.  

![size](./image/k-means/size.png)

- 서로 다른 밀도의 군집을 잘 구분하지 못함.
> 밀도가 서로 다른 군집이 존재 할 때,  
> 거리를 기준으로 하는 __k-means__는 군집간의 밀도는 상관 없이 한 그룹으로 묶어 잘못된 군집을 할당하게 됩니다.  

![density](./image/k-means/density.png)

- 지역적 패턴을 갖고 있는 군집을 잘 구분하지 못함.
> 데이터의 군집이 원형 모형이 아닌 곡선 모형등과 같은 국소적 패턴을 갖는 경우에는 잘못된 군집을 생성합니다.

![curved](./image/k-means/curved.png)

## `k`값 설정
__k-menas__ 알고리즘은 데이터를 패턴에 따라 군집화 하기 위해서  
사전에 `k`개의 개수를 정해줘야 합니다.  

일부 현장에서는 경험적으로 `k`개의 군집이 만들어진다 알고 있어  
정해진 `k`를 이용하여 구하는 경우도 있습니다.  

하지만, 아무런 정보를 갖고 있지 않은 데이터에 대해선 그룹의 수를 어떻게 정해줘야 할까요?  

일반적으로 데이터들이 어떤 패턴을 갖고 있는 정도를     
데이터들이 '어느 포인트에서 서로 오밀조밀 하게 뭉쳐져 있는 가?'를 갖고 판단합니다.   

즉, 데이터들 간의 퍼져있는 정도를 파악하여 그룹을 나누게 됩니다.  
이때, 퍼진 정도를 `inertia`라고 하며,  
한 군집의 중심과 각 데이터간의 거리가 얼마나 떨어져 잇는지를 나타냅니다.  

`inertia`가 낮을 수록 중심으로부터 각 데이터의 값들의 거리가 좁기 때문에  
서로의 데이터들이 오미조밀 모여있다는 의미이며  

`inertia`가 높을 수록 중심으로부터 각 데이터의 값들이 거리가 넓기 때문에
서로의 데이터들이 멀리멀리 퍼져 있다는 의미로 해석 할 수 있습니다.  

즉, 적당한 `k`값을 찾기 위해선 `inertia` 값을 작게 만들면서 너무 크지 않은 `k`를 선택해야 합니다. 

## `k`값 설정 방법
1. `k`값의 범위를 설정 합니다.
2. 주어진 범위에서 `k` 값들의 `inertia`를 구합니다.  
3. 각 값을 plot에 표현
4. `inertia` 값이 낮아지는 정도가 적으면서 최소인 `k`값을 구한다. (elbow point) 

![elbow](./image/k-means/elbow.png)


## Reference
- [kmeansViz]( http://stanford.edu/~cpiech/cs221/img/kmeansViz.png)
- [[핵심 머신러닝] 군집분석](https://www.youtube.com/watch?v=8zB-_LrAraw)
- [K-Means Clustering](https://eunsukim.me/K-Means/)
- [https://ratsgo.github.io/machine%20learning/2017/04/19/KC/](https://ratsgo.github.io/machine%20learning/2017/04/19/KC/)