# K-means算法步骤：
1. 初始化簇中心点（即质心），通常是随机选择数据集中的K个点作为初始质心。
2. 分配每个数据点到离其最近的质心。
3. 更新质心，新的质心是分配给该簇的所有数据点的平均值。
4. 重复步骤2和步骤3，直到质心不再发生显著变化（即收敛）。

In [None]:
import numpy as np

def initialize_centroids(X, k):
    # 随机选择k个数据点作为初始质心
    return X[np.random.choice(X.shape[0], k, replace=False)]

def assign_clusters(X, centroids):
    # 将每个数据点分配到最近的质心
    distances = np.linalg.norm(X[:, np.newaxis] - centroids, axis=2)
    return np.argmin(distances, axis=1)

def update_centroids(X, labels, k):
    # 计算每个簇的平均值作为新的质心
    return np.array([X[labels == i].mean(axis=0) for i in range(k)])

def kmeans(X, k, max_iters=100, tolerance=1e-4):
    # 初始化质心
    centroids = initialize_centroids(X, k)
    
    for i in range(max_iters):
        # 分配每个数据点到最近的质心
        labels = assign_clusters(X, centroids)
        
        # 计算新的质心
        new_centroids = update_centroids(X, labels, k)
        
        # 检查质心是否收敛
        if np.all(np.abs(new_centroids - centroids) < tolerance):
            break
        
        centroids = new_centroids
    
    return centroids, labels

# 示例数据
X = np.vstack([
    np.random.randn(50, 2) + np.array([1, 1]),
    np.random.randn(50, 2) + np.array([5, 5]),
    np.random.randn(50, 2) + np.array([8, 1]),
])

# 使用手动实现的KMeans
k = 3
centroids, labels = kmeans(X, k)

# 可视化结果
import matplotlib.pyplot as plt

plt.scatter(X[:, 0], X[:, 1], c=labels, s=50, cmap='viridis')
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', s=200, alpha=0.75)
plt.show()
