## モジュールのインポートとデータのロード

In [1]:
import numpy as np
from sklearn.datasets import load_iris
iris_dataset = load_iris()
X = iris_dataset["data"]
y = iris_dataset["target"]

print(X.shape)
print(y.shape)

(150, 4)
(150,)


## k-meansによるクラスタリングを行う関数

In [2]:
def k_means(X_list, k=3, max_repetition=100):
    """""""""
    k-meansによる非階層的クラスタリングを行う関数
    
    Params
    ---------
    X_list : np.array
        特徴量の配列
    k : int
        クラスタ数
    max_repetition : int
        繰り返しの最大数
        
    Returns
    ---------
    cluster_list : np.array
        クラスタリング結果
    """""""""    
    # クラスタの初期化
    cluster_list = np.random.randint(0, k, len(X_list))
    
    for i in range(max_repetition):
        # クラスタ毎の特徴量の合計値を計算
        cluster_sum = np.array([[0] * len(X_list[0])] * k)
        for X, cluster in zip(X_list, cluster_list):
            cluster_sum[cluster] = cluster_sum[cluster] + X
        
        # クラスタのweightを計算
        cluster_weight = []
        for j in range(k):
            cluster_weight.append(cluster_sum[j] / sum([1 for cluster in cluster_list if cluster == j]))
        cluster_weight = np.array(cluster_weight)

        # 各点を割り当て直す
        new_cluster_list = []
        for j in range(len(cluster_list)):
            min_mse = 999999
            min_cluster = -1
            for cluster, weight in enumerate(cluster_weight):
                mse = sum((X_list[j] - weight) ** 2) / len(X_list[j])
                if mse < min_mse:
                    min_mse = mse
                    min_cluster = cluster
            new_cluster_list.append(min_cluster)
        new_cluster_list = np.array(new_cluster_list)
        
        # クラスタが変化しなければ終了
        if False not in (cluster_list == new_cluster_list):
            break
        else:
            cluster_list = new_cluster_list
            
    return cluster_list

## 結果の確認

In [3]:
k_means(X)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 2, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])