## 聚类的流程
1. 任意选择k个对象作为初始的聚类中心
2. 对每个点确定它的聚类中心点（实际上就是计算距离, 一般采用均方差 作为标准测度函数）
3. 计算每个新聚类的聚类中心，直到收敛（确定的中心点不再改变）
4. 保证各聚类本身尽可能紧凑，而各聚类之间尽可能分开

### 实际例子：在几组成绩内寻找潜在学霸

#### 方法1：使用scipy

In [4]:
import numpy as np

In [5]:
from scipy.cluster.vq import vq, kmeans, whiten

In [8]:
# 所有人的成绩
p1 = [88.0, 74.0, 96.0, 85.0]
p2 = [92.0, 99.0, 95.0, 94.0]
p3 = [91.0, 87.0, 99.0, 95.0]
p4 = [78.0, 99.0, 97.0, 81.0]
p5 = [88.0, 78.0, 98.0, 84.0]
p6 = [100.0, 95.0, 100.0, 92.0]
p7 = [100.0, 99.0, 100.0, 94.0]
p8 = [99.0, 91.0, 99.0, 99.0]

In [9]:
data = np.array([p1,p2,p3,p4,p5,p6,p7,p8])

In [10]:
whiten = whiten(data) # whiten()算出各类元素的标准差

In [12]:
centroids,_ = kmeans(whiten, 2) 
# kmeas()对数据进行聚类，这里选择聚成2类，返回结果是一个元组，我们只需要用到第一个值

In [13]:
result,_ = vq(whiten, centroids) # vq()矢量量化函数，对每一个人进行归类

In [14]:
print(result) # 结果中0代表学霸，1代表非学霸

[0 0 1 0 0 1 1 1]


#### 方法2：使用sklearn

In [20]:
from sklearn.cluster import KMeans

In [21]:
p1 = [88.0, 74.0, 96.0, 85.0]
p2 = [92.0, 99.0, 95.0, 94.0]
p3 = [91.0, 87.0, 99.0, 95.0]
p4 = [78.0, 99.0, 97.0, 81.0]
p5 = [88.0, 78.0, 98.0, 84.0]
p6 = [100.0, 95.0, 100.0, 92.0]
p7 = [100.0, 99.0, 100.0, 94.0]
p8 = [99.0, 91.0, 99.0, 99.0]

In [22]:
X = np.array([p1,p2,p3,p4,p5,p6,p7,p8])

In [23]:
kmeans = KMeans(n_clusters = 2).fit(X) # fit()进行对数据集X的聚类

In [26]:
pred = kmeans.predict(X) # predict()根据聚类的结果确定数据所属类别

In [27]:
print(pred) # 0代表学霸，1代表非学霸

[1 0 0 1 1 0 0 0]
