# kMeans Algorithm

KC는 EM 알고리즘을 기반으로 작동합니다. EM알고리즘은 크게 Expectation 스텝과 Maximization 스텝으로 나뉘는데요. 이를 수렴할 때까지 반복하는 방식입니다. 동시에 해를 찾기 어려운 문제를 풀 때 많이 사용되는 방법론입니다. KC의 경우 (1) 각 군집 중심의 위치 (2)각 개체가 어떤 군집에 속해야 하는지 멤버십, 이 두 가지를 동시에 찾아야 하기 때문에 EM 알고리즘을 적용합니다.


### EM Algorithm

1. 우선 군집의 중심(빨간색 점)을 랜덤 초기화합니다.

2. 모든 개체들(파란색 점)을 아래 그림처럼 가장 가까운 중심에 군집(녹색 박스)으로 할당합니다. 이것이 Expectation 스텝입니다.

3. 이번엔 중심을 군집 경계에 맞게 업데이트해 줍니다. 이것이 Maximization 스텝입니다.

4. 다시 Expectation 스텝을 적용합니다. 바꿔 말해 모든 개체들을 가장 가까운 중심에 군집(보라색 박스)으로 할당해주는 작업입니다.

5. Maximization 스텝을 또 적용해 중심을 업데이트합니다. Expectation과 Maximization 스텝을 반복 적용해도 결과가 바뀌지 않거나(=해가 수렴), 사용자가 정한 반복수를 채우게 되면 학습이 끝납니다.

In [88]:
import kMeans

In [19]:
from numpy import *

In [20]:
datMat = mat(kMeans.loadDataSet('testSet.txt'))

In [21]:
datMat[:5]

matrix([[ 1.658985,  4.285136],
        [-3.453687,  3.424321],
        [ 4.838138, -1.151539],
        [-5.379713, -3.362104],
        [ 0.972564,  2.924086]])

In [22]:
type

type

In [23]:
min(datMat[:,0])

matrix([[-5.379713]])

In [24]:
min(datMat[:,1])

matrix([[-4.232586]])

In [37]:
import numpy as np
np.min(datMat,axis=0)

matrix([[-5.379713, -4.232586]])

In [39]:
np.max(datMat, axis=0)

matrix([[4.838138, 5.1904  ]])

In [41]:
np.max(datMat,0) - np.min(datMat,0)

matrix([[10.217851,  9.422986]])

In [87]:
kMeans.randCent(datMat,2)

matrix([[-4.54887758,  4.02874997],
        [ 4.22836458,  5.12008049]])

### Euclide distance
##### sqrt(sum(power(vecA - vecB, 2)))

##### Hyper Parameter : 튜닝변수, generally, var k

In [50]:
kMeans.distEclud(datMat[0],datMat[1])

5.184632816681332

In [52]:
import matplotlib.pyplot as plt
%matplotlib notebook

In [77]:
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(datMat.A[:,0], datMat.A[:,1])

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x7d66470>

In [58]:
datMat = mat(kMeans.loadDataSet('testSet.txt'))

In [59]:
myCentroids, clustAssign = kMeans.kMeans(datMat,4)

[[ 2.3611209   0.47332447]
 [-1.67506023 -0.04185892]
 [-4.7515576  -4.16422421]
 [-0.18644196  0.54527534]]
[[ 2.93117572  0.34512467]
 [-2.66198739  1.19600906]
 [-3.65056025 -3.06854812]
 [-0.7486646   1.9488215 ]]
[[ 2.99405094 -0.1605263 ]
 [-3.17006745  2.60393509]
 [-3.01169468 -3.01238673]
 [-0.42605093  3.37647757]]
[[ 3.09181665 -1.14418992]
 [-2.84017553  2.6309902 ]
 [-3.01169468 -3.01238673]
 [ 1.18727212  3.58239347]]
[[ 2.8692781  -2.54779119]
 [-2.54951105  2.75812458]
 [-3.38237045 -2.9473363 ]
 [ 2.3772111   3.2195035 ]]
[[ 2.80293085 -2.7315146 ]
 [-2.46154315  2.78737555]
 [-3.38237045 -2.9473363 ]
 [ 2.6265299   3.10868015]]


In [83]:
#아래 점은 kMeans.kMeans 함수 수행 시 출력 결과를 복사-붙여넣기로 직접 입력한 것입니다.
pt = [[ 2.3611209,0.47332447],
 [-1.67506023, -0.04185892],
 [-4.7515576,-4.16422421],
 [-0.18644196 ,0.54527534]]

In [84]:
pt

[[2.3611209, 0.47332447],
 [-1.67506023, -0.04185892],
 [-4.7515576, -4.16422421],
 [-0.18644196, 0.54527534]]

In [85]:
ax.scatter([x for (x,y) in pt],[y for (x,y) in pt], color='red')

<matplotlib.collections.PathCollection at 0x7d94e80>

In [86]:
#최종 중심점
pt = [[ 2.80293085, -2.7315146 ],
 [-2.46154315,  2.78737555],
 [-3.38237045, -2.9473363 ],
 [ 2.6265299,   3.10868015]]
pt
ax.scatter([x for (x,y) in pt],[y for (x,y) in pt], color='black')

<matplotlib.collections.PathCollection at 0x9495e10>

In [80]:
pt

[[2.80293085, -2.7315146],
 [-2.46154315, 2.78737555],
 [-3.38237045, -2.9473363],
 [2.6265299, 3.10868015]]