In [1]:
import numpy as np
import sklearn

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

### make_blobs 参数

#### 作用：
生成服从高斯分布的用于聚类的样本

#### 参数说明
- n_samples: int or array,默认100；如果是整型，它是簇之间平均分配的总点数，如果是数组，序列的每个元素表示每个簇的样本量
- n_features: int,默认2；样本的特征量
- centers: int or array,默认None，簇中心的数量，和n_samples有关
- cluster_std: float,默认1.0；簇的标准偏差
- center_box: 一对float,默认(-10.0, 10.0)，簇中心随机生成时，每个簇的边界框
- shuffle: bool,默认True，是否洗混样本
- random_state:

#### 返回值
- X: 样本数组，由样本量和特征量组成
- Y: 每个样本聚类簇的标签


### KMmeans 参数

#### 作用
K-means 的聚类

#### 参数说明
- n_cluters: int,默认8，要聚类的簇的数量
- init: {‘k-means++’, ‘random’ or an ndarray}，默认‘k-means++’，初始簇心的收敛方法
- n_init: int,默认10，用不同簇心运行K-means算法的时间
- max_iter: int,默认300，最大迭代次数
- tol: int,默认1^-4，声明收敛的相对误差
- precompute_distances:  {‘auto’, True, False}，预先计算距离
- verbose: int,默认0，详细模式
- random_state:
- copy_x:bool,默认Ture，是否修改原始数据
- algorithm: “auto”, “full” or “elkan”, default=”auto”，算法选择：full，稀疏矩阵，elkan，稠密矩阵

#### 属性
- cluster_centers_: 簇中心坐标
- labels_: 每个点的标签
- inertia_: 所有样本到最近簇中心距离的平方和
- n_iter_: 迭代次数

#### 方法
- fit: 计算K-means 聚类
- fit_predict: 计算聚类中心，并预测每个样本
- fit_transform: 训练并转换
- get_params: 获取估计器的参数
- predict: 预测样本
- score: 模型评估
- set_params: 设置估计器的参数
- transform: 将X转换为簇距离空间


### 生成聚类样本

In [18]:
# 产生模拟数据，总数2000，特征数4，簇数4，簇标准偏差 0.8
X, Y = make_blobs(n_samples=2000, n_features=4, centers=4, cluster_std=0.8)

### 模型构建

In [19]:
# 构建模型
kmeans = KMeans(n_clusters=4, init='k-means++', random_state=9)
# 训练模型
kmeans.fit(X)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=4, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=9, tol=0.0001, verbose=0)

In [20]:
# 模型相关参数
print('簇中心坐标:\n', kmeans.cluster_centers_)
print('每个样本的标签：\n', kmeans.labels_[:10])
print('所有样本到簇心的距离和：\n',kmeans.inertia_)
print('迭代次数：\n', kmeans.n_iter_)

簇中心坐标:
 [[ 8.70663775 -2.65076795  2.96211703 -1.68545036]
 [-9.2009252  -7.46771949 -9.5685856   3.10856332]
 [-5.78058174 -9.41680735  7.66694153  5.51052304]
 [-5.6007533  -2.89340803 -9.66737399  3.29007476]]
每个样本的标签：
 [2 0 0 0 1 0 0 2 1 1]
所有样本到簇心的距离和：
 5147.677668983144
迭代次数：
 2


### 结果预测

In [24]:
y_predict = kmeans.predict(X[-10:])

In [26]:
# 与标签值无关，聚类正确
print('预测结果\n', y_predict)
print('实际结果\n', Y[-10:])

预测结果
 [1 1 1 3 0 2 0 2 1 0]
实际结果
 [2 2 2 3 1 0 1 0 2 1]
