# K均值 K-means

聚类算法与分类和回归不同，聚类算法的数据集没有标记，是一种无监督算法，目的是将数据按照相似度聚成不同类别。动态聚类算法是一种通过反复修改分类来达到最满意的聚类结果的迭代算法。

K-means是一种典型的动态聚类算法，使用距离来衡量样本之间的相似度，距离的度量方法一般可以使用`欧几里得距离`或`余弦相似度`进行计算，最终**优化目标**是获得`最小误差平方和`。

> 欧式距离体现的是样本数值上的差异（偏好），余弦距离体现的是样本方向上的差异。

## K-means算法

K-means算法的基本流程：
1. 确定K值，即聚类的数量，并且对数据集进行标准化；
2. 随机选择K点作为初始聚类的中心点，一般以数据集中最初的K个值作为初始中心点；
3. 按照距离度量准则，分配样本类别；
4. 按照各类样本，使用均值重新计算聚类中心点；
5. 重复步骤3、4，直至算法收敛。


### k-means 特点

在K-means算法中，`聚类数目K`的选择、`聚类中心`的初始分布、模式样本的`几何性质`等因素都会对k-means算法的结果产生影响。

* 优点：
  1. 算法快速、简单
  2. 时间复杂度近于线性，而且适合挖掘大规模数据集。
* 缺点:
  1. k值必须是事先给定的，但事先并不知道给定的数据集聚为几类最合适；
  2. 初始聚类中心的选择是随机的，一旦初始值选择得不合理，就可能无法得到有效的聚类结果；
  3. 样本的几何性质对算法的聚类结果也具有较大的影响；
  4. 算法需要不断地进行样本分类调整，因此当数据量非常大时，算法需要的时间是非常多的。
  
> 改善K值选取方式：取k值的上限，一般在$[2,\sqrt{n}]$，运行K-means得到初始聚类，通过判断边界距离决定是否合并一些相似的类别，重新获得聚类数目K，重新聚类，直至划分合理。
> 
> 改进初始聚类中心：仅考虑距离因素会导致取到离群点作为初始聚类中心，还应考虑密度因素进行调整。

In [1]:
import matplotlib.pyplot as plt
import numpy as np
from mpl_toolkits.mplot3d import Axes3D
from sklearn import datasets
from sklearn.cluster import KMeans

%matplotlib widget
plt.rcParams["font.sans-serif"] = 'SimHei'  # 中文问题
plt.rcParams["axes.unicode_minus"] = False  # 负号问题
%config InlineBackend.figure_format = 'svg'

In [2]:
np.random.seed(5)
iris = datasets.load_iris()
X = iris.data
y = iris.target

estimators = [('k_means_iris_8', KMeans(n_clusters=8)),
              ('k_means_iris_3', KMeans(n_clusters=3)),
              ('k_means_iris_bad_init', KMeans(n_clusters=3, n_init=1, init='random'))]
fignum = 1
titles = ['8 clusters', '3 clusters', '3 clusters, bad initialization']
for name, est in estimators:
    fig = plt.figure(fignum, figsize=(4, 3))
    ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)
    est.fit(X)
    labels = est.labels_

    ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=labels.astype(np.float), edgecolor='k')

    ax.w_xaxis.set_ticklabels([])
    ax.w_yaxis.set_ticklabels([])
    ax.w_zaxis.set_ticklabels([])
    ax.set_xlabel('Petal width')
    ax.set_ylabel('Sepal length')
    ax.set_zlabel('Petal length')
    ax.set_title(titles[fignum - 1])
    ax.dist = 12
    fignum = fignum + 1

fig = plt.figure(fignum, figsize=(4, 3))
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)
# 有明确初始中心点的聚类结果
for name, label in [('Setosa', 0), ('Versicolour', 1), ('Virginica', 2)]:
    ax.text3D(X[y == label, 3].mean(),
              X[y == label, 0].mean(),
              X[y == label, 2].mean() + 2, name,
              horizontalalignment='center',
              bbox=dict(alpha=.2, edgecolor='w', facecolor='w'))
# Reorder the labels to have colors matching the cluster results
y = np.choose(y, [1, 2, 0]).astype(np.float)
ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=y, edgecolor='k')

ax.w_xaxis.set_ticklabels([])
ax.w_yaxis.set_ticklabels([])
ax.w_zaxis.set_ticklabels([])
ax.set_xlabel('Petal width')
ax.set_ylabel('Sepal length')
ax.set_zlabel('Petal length')
ax.set_title('Ground Truth')
ax.dist = 12

fig.show()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …