# 非监督学习k-means
- (1) 随机取k个点，计算每个点与这k个点之间的距离，按“最近划分为一类”的原则，分为k组
- (2) 每一组求mean，重新选取中心点，重复(1)，直到中心点不变 or 到达指定迭代次数为止

In [None]:
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import calinski_harabasz_score

In [None]:
# 1.创建数据集
# X为样本特征，y为样本簇类别，共1000个样本，每个样本2个特征，共4个簇
# 簇中心在[-1, -1], [0, 0], [1, 1], [2, 2], 簇方差分别为[0.4, 0.2, 0.2, 0.2]
X, y = make_blobs(n_samples=1000, n_features=2, centers=[(-1, -1), (0, 0), (1, 1), (2, 2)],
                 cluster_std=[0.4, 0.2, 0.2, 0.2],
                 random_state=9)

# 2.使用k-means进行聚类
y_pred = KMeans(n_clusters=4, random_state=9).fit_predict(X)


# 3.数据可视化
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

# 4.使用CH方法评估
print(calinski_harabasz_score(X, y_pred))