# K-Means算法

K-Means是最普及的**聚类算法**之一，算法接受一个未标记的数据集，然后将数据聚类成不同的组。

## 算法
K-Means是一个**迭代算法**，假设我们想要将数据聚类成**n**个组，其方法为:

1. 首先选择$K$个随机的点，称为聚类中心（cluster centroids）;
2. 对于数据集中的每一个数据，按照距离$K$个中心点的距离，将其与距离最近的中心点关联起来，与同一个中心点关联的所有点聚成一类;
3. 计算每一个组的平均值，将该组所关联的中心点移动到平均值的位置;

> 重复2,3步骤直到聚类中心不再变化

```python
Repeat {
    for i = 1 to m:  # 计算每一个数据属于哪个聚类中心
        c(i) := index (form 1 to K) of cluster centroid closest to x(i)
    for k = 1 to K:  # 调整聚类中心
        μk := average (mean) of points assigned to cluster k
}
```

## 优化目标
K-均值的最小化目标，是要**最小化所有的数据点与其所关联的聚类中心点之间的距离之和**。假设用$μ^1$,$μ^2$,...,$μ^k$ 来表示聚类中心，用$c^{(1)}$,$c^{(2)}$,...,$c^{(m)}$来存储与第$i$个实例数据最近的聚类中心的索引，因此 K-均值的代价函数（又称畸变函数 Distortion function）为：$J(c^{(1)},...,c^{(m)},μ_1,...,μ_K)=\dfrac {1}{m}\sum^{m}_{i=1}|| X^{(i)}-\mu_{c^{(i)}}||^2$，其中${{\mu }_{{{c}^{(i)}}}}$代表与${{x}^{(i)}}$最近的聚类中心点。

## 初始化问题
K-均值的一个问题在于，它**有可能会停留在一个局部最小值处**，而这取决于初始化的情况，为了解决这个问题，我们通常需要多次运行K-均值算法，每一次都重新进行随机初始化，最后再比较多次运行K-均值的结果，选择代价函数最小的结果。初始化方式可用如下方法：

1. 我们应该选择$K<m$，即聚类中心点的个数要小于所有训练集实例的数量
2. 随机选择$K$个训练实例，然后令$K$个聚类中心分别与这$K$个训练实例相等

## 选择聚类数
可以计算多个不同$K$最终的Cost函数，然后使用“肘部法则”选择最优$K$（如果存在Elbow现象）；否则根据上游需求选择$K$值。

## 代码实现

In [29]:
# 待补充