In [None]:
import numpy as np


# 距离计算 欧式距离
def distEclud(vecA, vecB):
    """
    计算两个向量的欧氏距离

    参数:
    vecA - 向量A
    vecB - 向量B

    返回:
    两个向量之间的欧氏距离
    """
    return np.sqrt(np.sum(np.power(vecA - vecB, 2)))


def kMeans(dataSet, k, distMeas=distEclud):
    """
    K-means聚类算法

    参数:
    dataSet - 数据集，每行是一个样本，每列是一个特征
    k - 聚类的数目
    distMeas - 距离度量函数，默认为欧氏距离

    返回:
    centroids - 聚类中心的坐标
    clusterAssment - 每个样本的聚类结果，包括所属的簇和到簇中心的距离的平方
    """
    m = np.shape(dataSet)[0]  # 获取数据集样本数
    clusterAssment = np.mat(np.zeros((m, 2)))  # 初始化每个点的簇分配结果
    n = np.shape(dataSet)[1]  # 获取数据集特征数

    # 随机初始化聚类中心
    centroids = np.mat(np.zeros((k, n)))  # 初始化k个聚类中心
    for x in range(n):  # 遍历每个特征
        min_data = np.min(dataSet[:, x])  # 找到特征的最小值
        max_data = np.max(dataSet[:, x])  # 找到特征的最大值
        range_data = float(max_data - min_data)  # 计算范围
        centroids[:, x] = np.mat(
            min_data + range_data * np.random.rand(k, 1)
        )  # 生成随机聚类中心

    clusterChanged = True  # 聚类是否继续变化的标志
    while clusterChanged:
        clusterChanged = False
        for i in range(m):  # 对每个样本
            minDist = np.inf  # 初始化最小距离为无穷大
            minIndex = -1  # 初始化最小距离的簇索引
            for j in range(k):  # 对每个聚类中心
                distJI = distMeas(centroids[j, :], dataSet[i, :])  # 计算距离
                if distJI < minDist:  # 更新最小距离和簇索引
                    minDist = distJI
                    minIndex = j
            if clusterAssment[i, 0] != minIndex:  # 检查簇分配是否改变
                clusterChanged = True
            clusterAssment[i, :] = minIndex, minDist**2  # 更新簇分配结果

        # 更新聚类中心
        for cent in range(k):  # 对每个簇
            ptsInClust = dataSet[
                np.nonzero(clusterAssment[:, 0].A == cent)[0]
            ]  # 获取当前簇的所有点
            if len(ptsInClust) > 0:
                centroids[cent, :] = np.mean(ptsInClust, axis=0)  # 计算簇中所有点的均值，更新聚类中心

    return centroids, clusterAssment