# K-means


无监督学习算法, 通过计算与种子点的距离来将一系列点划分为种子点个数个簇

### 经典K-means算法(随机初始点)

* 随机选取$k$个初始点, 分别计算样本数据点与这些初始点之间的欧氏距离.
* 对于每一个样本, 将所得的$k$个距离相比较, 将并将该样本点划归到距离最小的对应的初始点的簇中.
* 对于每一个初始点, 现在都有多个不同的样本簇围绕其, 再计算同一簇内样本点的坐标均值作为新的初始点.
* 迭代上述过程直到初始点不移动.

欧式距离算法:
$$D(X, Y) = \sqrt{\sum_{i = k}^n(x_i - y_i)^2}
$$
其中, $X$表示样本点的坐标向量, 是$n$维向量. $Y$是初始点的坐标向量, 是$n$维向量.

### K-means++

* 核心思想:
  
  对于初始化初始点情况, 任选一个样本点作为$k$个初始点之一的初始点, 再计算各个样本点到该初始点的距离, 选取距离最远的点作为下一个初始点, 再将已经选择的初始点的中心点作为新的计算距离初始点, 再计算剩下未选择的初始点距离该中心的距离, 选取距离最大者作为新的初始点. 直到选择$k$个初始点作为初始轮. 

  其后算法与K-means同

* 计算距离最大值可用概率计算
  $$P(x) = \frac{D^2(x)}{\sum_{i = 0}^n D^2(x_i)}
  $$
  $x$为任取的样本点$D(x)$为样本点到需要计算的中心点的距离

## 经典Kmeans实现

In [1]:
import numpy as np

def distance_squre(sample, kernels):
    disList = []
    for kernel in kernels:
        xx = kernel[0] - sample[0]
        yy = kernel[1] - sample[1]
        dis = xx**2 + yy**2
        disList.append(dis)
    return disList

def kmeans(samples, kernels):
    samples_kind = []
    next_kernels = []
    for sample in samples:
        disList = np.array(distance_squre(sample, kernels))
        kind = np.argmin(disList)
        samples_kind.append(kind)
    for k, kernel in enumerate(kernels):
        sumx = 0
        sumy = 0
        num = 0
        for i, sample in enumerate(samples):         
            if samples_kind[i] == k:
                sumx += sample[0]
                sumy += sample[1]
                num += 1
        avgx = sumx / num
        avgy = sumy / num
        next_kernels.append((avgx, avgy))
    if next_kernels == kernels:
        return kernels
    else:
        kernels = kmeans(samples, next_kernels)
        return kernels

if __name__ == '__main__':
    samples = [(1,1),(1,2),(2,1),(2,2),(4,3),(5,3),(4,4),(5,4)]
    kernels = [(1,1),(3,4)]

    k1 = kmeans(samples, kernels)
    print(k1)

        

[(1.5, 1.5), (4.5, 3.5)]
