In [18]:
import numpy as np

def init_centroid(X, n_data, k):
    # 各データ点の中からクラスタの重心となる点をk個ランダムに選択
    idx = np.random.permutation(n_data)[:k]
    centroids = X[idx]
    return centroids


def compute_distances(X, k, n_data, centroids):
    print(centroids)
    distances = np.zeros((n_data, k))
    for idx_centroids in range(k):
        print('')
        print(centroids[idx_centroids])
        print(np.sum((X - centroids[idx_centroids]) ** 2, axis=0))
        print('')        
        dist = np.sqrt(np.sum((X - centroids[idx_centroids]) ** 2, axis=1))
        distances[:, idx_centroids] = dist
    return distances


def k_means(k, X, max_iter=300):
    """
    X.shape = (データ数, 次元数)
    k = クラスタ数
    """
    n_data, n_features = X.shape

    # 重心の初期値
    centroids = init_centroid(X, n_data, k)

    # 新しいクラスタを格納するための配列
    new_cluster = np.zeros(n_data)

    # 各データの所属クラスタを保存する配列
    cluster = np.zeros(n_data)

    for epoch in range(max_iter):
        # 各データ点と重心との距離を計算
        distances = compute_distances(X, k, n_data, centroids)

        # 新たな所属クラスタを計算
        new_cluster = np.argmin(distances, axis=1)

        # すべてのクラスタに対して重心を再計算
        for idx_centroids in range(k):
            centroids[idx_centroids] = X[new_cluster == idx_centroids].mean(axis=0)

        # クラスタによるグループ分けに変化がなかったら終了
        if (new_cluster == cluster).all():
            break

        cluster = new_cluster

    return cluster

    
    
    
    
    

In [19]:
    X = np.arange(10*5).reshape(10, 5)
    print("X\n", X)
    k = 3 
    print("k=",k)

    cluster = k_means(k, X, max_iter=300)
    print("cluster", cluster)

X
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]
 [30 31 32 33 34]
 [35 36 37 38 39]
 [40 41 42 43 44]
 [45 46 47 48 49]]
k= 3
[[45 46 47 48 49]
 [35 36 37 38 39]
 [40 41 42 43 44]]

[45 46 47 48 49]
[7125 7125 7125 7125 7125]


[35 36 37 38 39]
[3625 3625 3625 3625 3625]


[40 41 42 43 44]
[5125 5125 5125 5125 5125]

[[45 46 47 48 49]
 [17 18 19 20 21]
 [40 41 42 43 44]]

[45 46 47 48 49]
[7125 7125 7125 7125 7125]


[17 18 19 20 21]
[2365 2365 2365 2365 2365]


[40 41 42 43 44]
[5125 5125 5125 5125 5125]

[[45 46 47 48 49]
 [12 13 14 15 16]
 [35 36 37 38 39]]

[45 46 47 48 49]
[7125 7125 7125 7125 7125]


[12 13 14 15 16]
[3165 3165 3165 3165 3165]


[35 36 37 38 39]
[3625 3625 3625 3625 3625]

[[42 43 44 45 46]
 [10 11 12 13 14]
 [30 31 32 33 34]]

[42 43 44 45 46]
[5865 5865 5865 5865 5865]


[10 11 12 13 14]
[3625 3625 3625 3625 3625]


[30 31 32 33 34]
[2625 2625 2625 2625 2625]

cluster [1 1 1 1 1 2 2 2 0 0]
