In [2]:
# 导入包
import numpy as np
import sklearn
from sklearn.datasets import make_blobs # 导入产生模拟数据的方法
from sklearn.cluster import KMeans # 导入kmeans 类

In [3]:
# 1. 产生模拟数据
N = 1000
centers = 4
# 产生N个样本，样本具有2个特征，N个样本分为centers个中心
X, Y = make_blobs(n_samples=N, n_features=2, centers=centers, random_state=28)

In [4]:
# 2. 模型构建
km = KMeans(n_clusters=centers,   # 簇数目
            init='random',        # 初始化聚类方式
            random_state=28)      # 随机数种子
km.fit(X)  # 模型构建

KMeans(algorithm='auto', copy_x=True, init='random', max_iter=300,
    n_clusters=4, n_init=10, n_jobs=1, precompute_distances='auto',
    random_state=28, tol=0.0001, verbose=0)

In [5]:
# 实际的y值
Y[:5]

array([2, 0, 2, 0, 3])

In [6]:
# 模型的预测
y_hat = km.predict(X[:5])
y_hat

array([2, 3, 2, 2, 0])

In [7]:
# 模型评判
print("所有样本距离所属簇中心点的总距离和为:%.5f" % km.inertia_)
print("所有样本距离所属簇中心点的平均距离为:%.5f" % (km.inertia_ / N))

所有样本距离所属簇中心点的总距离和为:1764.19457
所有样本距离所属簇中心点的平均距离为:1.76419


In [8]:
print("score其实就是所有样本点离所属簇中心点距离和的相反数:")
print(km.score(X))

score其实就是所有样本点离所属簇中心点距离和的相反数:
-1764.19457007324


In [9]:
print("所有的中心点聚类中心坐标:")
cluter_centers = km.cluster_centers_
print(cluter_centers)

所有的中心点聚类中心坐标:
[[-6.32351035  7.09545595]
 [-7.51888142 -2.01003574]
 [ 6.0528514   0.24636947]
 [ 4.26881816  1.08317321]]


In [10]:
# 绘制一下产生的X形状
import numpy as np
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 6), facecolor='w')

unique_lables = set(Y)
colors = plt.cm.Spectral(np.linspace(0,1,len(unique_lables)))
for k,col in zip(unique_lables,colors):
    x_k = X[Y==k]
    plt.plot(x_k[:,0], x_k[:,1], 'o', markerfacecolor=col,markeredgecolor="k",
             markersize=14)
plt.title('data by make_blob()')
plt.show()

<Figure size 800x600 with 1 Axes>