# 【实验】第11.4节从零实现kmeans算法

## 实验介绍

在本节内容中，我们将会详细介绍如何从零实现Kmeans聚类算法，包括簇中心初始化、簇中心划分、簇中心更新以及完整的聚类迭代过程。

### 知识点

- 从零实现Kmeans聚类

## 1. 载入数据集

In [2]:
import numpy as np
import random
from sklearn.datasets import load_iris
from sklearn.metrics.cluster import adjusted_rand_score
from sklearn.cluster import KMeans

# random.seed(12)

def load_data():
    data = load_iris()
    x, y = data.data, data.target
    return x, y

## 2. 初始化簇中心

In [4]:
def InitCentroids(X, K):
    n = X.shape[0]
    rands_index = np.array(random.sample(range(0, n), K))
    centriod = X[rands_index, :]
    return centriod

## 3. 寻找最近簇中心

In [7]:
def findClostestCentroids(X, centroid):
    n = X.shape[0]  # n 表示样本个数
    idx = np.zeros(n, dtype=int)
    for i in range(n):
        subs = centroid - X[i, :]
        dimension2 = np.power(subs, 2)
        dimension_s = np.sum(dimension2, axis=1)  # sum of each row
        idx[i] = np.where(dimension_s == dimension_s.min())[0][0]
    return idx

## 4. 更新簇中心

In [8]:
def computeCentroids(X, idx, K):
    n, m = X.shape
    centriod = np.zeros((K, m), dtype=float)
    for k in range(K):
        index = np.where(idx == k)[0]  # 一个簇一个簇的分开来计算
        temp = X[index, :]  # ? by m # 每次先取出一个簇中的所有样本
        s = np.sum(temp, axis=0)
        centriod[k, :] = s / index.shape[0]
    return centriod

## 5. kmeans迭代过程

In [9]:
def kmeans(X, K, max_iter=200):
    centroids = InitCentroids(X, K)
    idx = None
    for i in range(max_iter):
        idx = findClostestCentroids(X, centroids)
        centroids = computeCentroids(X, idx, K)
    return idx

## 6. 运行结果

In [11]:
if __name__ == '__main__':
    x, y = load_data()
    K = len(np.unique(y))
    y_pred = kmeans(x, K)
    ari = adjusted_rand_score(y, y_pred)
    print("ARI by ours: ", ari)

    model = KMeans(n_clusters=K)
    model.fit(x)
    y_pred = model.predict(x)
    ari = adjusted_rand_score(y, y_pred)
    print("ARI by sklearn: ", ari)


ARI by ours:  0.7163421126838476
ARI by sklearn:  0.7163421126838476


## 实验总结

在本节内容中，我们详细介绍了如何从零实现Kmeans聚类算法，包括簇中心初始化、簇中心划分、簇中心更新以及完整的聚类迭代过程；同时还将实现的聚类算法同sklearn中的实现进行了对比。从在鸢尾花上的聚类结果看，两者并没有明显的差别。