In [2]:
import numpy as np
from sklearn.datasets import load_iris

class KMeans:
    def __init__(self, n_clusters = 3, max_iters = 100, random_state=42):

        #n_clusters 聚类数量（K）     max_iters 最大迭代次数    random_state 随机种子
        self.n_clusters = n_clusters
        self.max_iters = max_iters
        self.random_state = random_state
        self.centroids = None   # 聚类中心
        self.labels = None      # 每个样本的聚类标签

    def initialize_centroids(self,X):

        #初始化聚类中心
        np.random.seed(self.random_state)
        #X.shape[0]返回数据集的样本数量   X 是输入数据集，通常是一个二维数组，形状为 (n_samples, n_features)
        #np.random.choice 用于从给定的一维数组中随机选择元素。
        # X.shape 所选取的数组    self.n_clusters 输出的数组大小 replace = False 不允许重复
        random_indices = np.random.choice(X.shape[0], self.n_clusters, replace = False)
        #X[random_indices] 使用 random_indices 从数据集 X 中提取对应的样本。提取的样本将作为初始聚类中心。self.centroids 是一个二维数组，形状为 (self.n_clusters, n_features)，表示每个聚类中心的特征值。
        self.centroids = X[random_indices]

    def compute_distances(self,X):

        #np.zeros 是 NumPy 提供的一个函数，用于创建一个全零数组。语法：np.zeros(shape, dtype=float)shape：数组的形状。dtype：数组的数据类型（默认为 float）。
        distances = np.zeros((X.shape[0], self.n_clusters))
        #distances[i, j] 表示第 i 个样本到第 j 个聚类中心的距离？deepseek如是说，不知道正确还是错误
        for i, centroid in enumerate(self.centroids):
            distances[:, i] = np.linalg.norm(X - centroid, axis=1)
        return distances
        #for循环完全没有看懂

    def assign_clusters(self,distances):

        return np.argmin(distances, axis=1)

    def update_centroids(self, X, labels):

        new_centroids = np.zeros((self.n_clusters, X.shape[1]))
        for i in range(self.n_clusters):
            new_centroids[i] = np.mean(X[labels == i], axis=0)
        self.centroids = new_centroids

    def fit(self,X):

        self.initialize_centroids(X)

        for _ in range(self.max_iters):

            distances = self.compute_distances(X)
            self.labels = self.assign_clusters(distances)
            old_centroids = self.centroids.copy()
            self.update_centroids(X, self.labels)

            if np.allclose(old_centroids, self.centroids):
                break

    def predict(self, X):

        distances = self.compute_distances(X)
        return self.assign_clusters(distances)

iris = load_iris()
X = iris.data
y = iris.target

kmeans = KMeans(n_clusters=3, max_iters=100, random_state=42)
kmeans.fit(X)

print("聚类中心：\n",kmeans.centroids)
print("聚类标签：\n",kmeans.labels)

new_data = np.array([[5.1,3.5,1.4,0.2],[6.7,3.0,5.2,2.3]])
predicted_labels = kmeans.predict(new_data)
print("新数据的聚类标签：",predicted_labels)




聚类中心：
 [[5.9016129  2.7483871  4.39354839 1.43387097]
 [5.006      3.428      1.462      0.246     ]
 [6.85       3.07368421 5.74210526 2.07105263]]
聚类标签：
 [1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 2 2 2 2 0 2 2 2 2
 2 2 0 0 2 2 2 2 0 2 0 2 0 2 2 0 0 2 2 2 2 2 0 2 2 2 2 0 2 2 2 0 2 2 2 0 2
 2 0]
新数据的聚类标签： [1 2]
