# K-Means算法

K-Means是最普及的**聚类算法**之一，算法接受一个未标记的数据集，然后将数据聚类成不同的类别。

## 算法
K-Means是一个**迭代算法**，假设我们想要将数据聚类成**n**个组，其方法为:

1. 首先选择$K$个随机的点，称为聚类中心（cluster centroids）;
2. 对于数据集中的每一个数据，按照距离$K$个中心点的距离，将其与距离最近的中心点关联起来，与同一个中心点关联的所有点聚成一类;
3. 计算每一个组的平均值，将该组所关联的中心点移动到平均值的位置;

> 重复2,3步骤直到聚类中心不再变化

```python
Repeat {
    for i = 1 to m:  # 计算每一个数据属于哪个聚类中心
        c(i) := index (form 1 to K) of cluster centroid closest to x(i)
    for k = 1 to K:  # 调整聚类中心
        u(k) := average (mean) of points assigned to cluster k
}
```

## 优化目标
K-Means的最小化目标，是要**最小化所有的数据点与其所关联的聚类中心点之间的距离之和**。假设用$u_1$,$u_2$,...,$u_k$ 来表示聚类中心，用$c^{(1)}$,$c^{(2)}$,...,$c^{(m)}$来存储与第$i$个实例数据到最近的聚类中心的索引，因此K-Means的代价函数（又称畸变函数 Distortion function）为：$J(c^{(1)},...,c^{(m)},u_1,...,u_k)=\dfrac {1}{m}\sum^{m}_{i=1}|| X^{(i)}-u_{c^{(i)}}||^2$，其中${u_{{{c}^{(i)}}}}$代表与${{x}^{(i)}}$最近的聚类中心点。

## 两个缺陷

- K值需要预先给定，属于预先知识，很多情况下K值的估计是非常困难的
- K-Means算法对初始选取的聚类中心点是敏感的，不同的随机种子点得到的聚类结果完全不同

### 解决缺陷1：选择聚类数
可以计算多个不同$K$最终的Cost函数，然后使用“肘部法则”选择最优$K$（如果存在Elbow现象）；否则根据上游需求选择$K$值。

### 解决缺陷2：初始化问题
K-Means的一个问题在于，它**有可能会停留在一个局部最小值处**，而这取决于初始化的情况，为了解决这个问题，我们通常需要多次运行K-Means算法，每一次都重新进行随机初始化，最后再比较多次运行K-Means的结果，选择其中代价函数最小的结果，初始化方式可用如下方法：

1. 我们应该选择$K<m$，即聚类中心点的个数要小于所有训练集实例的数量
2. 随机选择$K$个训练实例，然后令$K$个聚类中心分别与这$K$个训练实例相等

## 代码实现(sklearn)

In [34]:
import numpy as np
from sklearn.cluster import KMeans

# 生成随机样本数据，样本数目为100, 特征数为3
data = np.random.rand(100, 3)

estimator = KMeans(n_clusters=3)  # 构造聚类器
estimator.fit(data)  # 聚类

label_pred = estimator.labels_  # 获取聚类结果标签
centroids = estimator.cluster_centers_  # 获取聚类中心

print("Samples label:")
print(label_pred)
print("Clusters center:")
print(centroids)

Samples label:
[1 2 2 2 2 0 1 1 0 2 1 1 2 1 2 0 1 0 1 1 1 1 2 1 0 2 1 0 0 0 2 2 0 1 2 1 1
 2 2 0 1 2 0 0 1 2 1 1 1 1 1 2 2 2 1 0 0 0 0 1 0 1 2 1 1 2 1 0 1 2 0 0 2 0
 1 1 0 0 1 1 1 0 1 1 1 2 2 2 1 1 1 0 1 2 1 2 2 0 1 2]
Clusters center:
[[0.76050258 0.64683115 0.66041855]
 [0.44052842 0.2314768  0.41970675]
 [0.29759137 0.7479569  0.44254984]]
