# 聚类：深度探索K-Means

今天我们要探索**K means**算法，这是一个无监督学习的聚类算法。

我们首先进行基本的设置：

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# use seaborn plotting defaults
import seaborn as sns; sns.set()

## 介绍K-Means

K-means是一个无监督聚类的算法，也就是它根据数据本身的属性来将数据划分成不同的类别（而不是根据给定的标签）。

K-means是一个相对来说比较容易理解的算法。它每次都会根据数据的分布去寻找聚类中心。每一个点都被划分为不同的分类，每一个点与自己类别的中心在距离上都是最近的。

我们来看一看KMeans在简单的数据分布中是如何运作的。我们将用不同颜色去给不同类别的点上色。

In [None]:
from sklearn.datasets.samples_generator import make_blobs

X, y = make_blobs(n_samples=300, centers=4,
                  random_state=0, cluster_std=0.60)
plt.scatter(X[:, 0], X[:, 1], s=50);

我们肉眼就可以看出这个数据集合的四个分类。如果您需要对这些数据做一个十分详尽的划分的话，需要的搜索空间将会是指数级别的。幸运的是，scikit-learn实现了一个众所周知的*最大期望 (Expectation Maximization)*过程，以至于上述问题可以非常快的解决。

In [None]:
from sklearn.cluster import KMeans

est = KMeans(4)  # 4个聚类
est.fit(X)
y_kmeans = est.predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='rainbow');

从图中，我们可以看到这个算法划分出的数据集合和我们肉眼划分的几乎一模一样！

### 关于KMeans的警告

KMeans并不能保证最后的结果一定是收敛的。所以，scikit-learn初始化了很多随机值，去寻找最优的结果。

同时，需要进行的分类类别个数必须事先确定。对于一些其他的聚类算法，类别的个数可以事先确定。

## KMeans 在手写数字识别上的应用

我们来看一个更贴近生活的例子，也就是我们在前几章都有提及过的手写数字的识别。在这里，我们运用Kmeans算法将64维的手写数字数据自动的分成10类，我们接下来看一看Kmeans算法有怎样的效果。

In [None]:
from sklearn.datasets import load_digits

digits = load_digits()

In [None]:
est = KMeans(n_clusters=10)
clusters = est.fit_predict(digits.data)
est.cluster_centers_.shape

我们可以看到现在64维的数据已经被分为了10类。我们来看一看这10个中心分别代表着什么。

In [None]:
fig = plt.figure(figsize=(8, 3))
for i in range(10):
    ax = fig.add_subplot(2, 5, 1 + i, xticks=[], yticks=[])
    ax.imshow(est.cluster_centers_[i].reshape((8, 8)), cmap=plt.cm.binary)

我们看到，即使*没有之前给定的标签*。KMeans算法也可以很好的找到数字的分类的中心。

