<a href="https://colab.research.google.com/github/chonholee/tutorial/blob/main/ml/ML03_1_kmeans.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from google.colab import drive
drive.mount('/content/drive')
%cd /content/drive/MyDrive/xxx

# 演習をPythonで計算してみる

In [None]:
import numpy as np

# 演習２で利用したユークリッド距離を計算する関数
# 「複数データが入力されたときの対処」を追加

def euclidean(x, y):
  if len(x.shape) == 1:
    dist = np.sqrt(np.sum((x-y)**2))
  else:
    dist = np.sqrt(np.sum((x-y)**2, 1))  
  return dist

データセット：データとクラスラベル

In [None]:
data = np.array([[5,1], [4,2], [2,2], [5,4], [5,5]])
label = np.array([0,0,1,1,1])

Centroidを計算

In [None]:
c1 = np.array( here )
print("Centroid of C1:", c1)

c2 = np.array( here )
print("Centroid of C2:", c2)

データと各Centroidまでの距離を計算して出力する

In [None]:
print("distance between data to c1 and c2")
for i in range(5):
  print("data", i, euclidean(data[i], c1), euclidean(data[i], c2))

複数のデータを一気に計算して、distにアサインする

In [None]:
dist = np.array( here )
dist = dist.T
print(dist)

距離が近い方のクラスラベルを付与する

In [None]:
np.argmin(dist, 1)

# KMeans

In [None]:
import numpy as np
import itertools 

class KMeans:
    def __init__(self, n_clusters, max_iter = 1000, random_seed = 0):
        self.n_clusters = n_clusters
        self.max_iter = max_iter
        self.random_state = np.random.RandomState(random_seed)

    def fit(self, X):
        #指定したクラスター数分のラベルを繰り返し作成するジェネレータを生成（0,1,2,0,1,2,0,1,2...みたいな感じ）
        cycle = itertools.cycle(range(self.n_clusters))
        #各データポイントに対してクラスタのラベルをランダムに割り振る
        self.labels_ = np.fromiter(itertools.islice(cycle, X.shape[0]), dtype = np.int)
        self.random_state.shuffle(self.labels_)
        labels_prev = np.zeros(X.shape[0])
        count = 0
        self.cluster_centers_ = np.zeros((self.n_clusters, X.shape[1]))

        #各データポイントが属しているクラスターが変化しなくなった、又は一定回数の繰り返しを越した場合は終了
        while (not (self.labels_ == labels_prev).all() and count < self.max_iter):
            #その時点での各クラスターの重心を計算する
            for i in range(self.n_clusters):
                XX = X[self.labels_ == i, :]
                self.cluster_centers_[i, :] = XX.mean(axis = 0)
            #各データポイントと各クラスターの重心間の距離を総当たりで計算する
            dist = ((X[:, :, np.newaxis] - self.cluster_centers_.T[np.newaxis, :, :]) ** 2).sum(axis = 1)
            #1つ前のクラスターラベルを覚えておく。1つ前のラベルとラベルが変化しなければプログラムは終了する。
            labels_prev = self.labels_
            #再計算した結果、最も距離の近いクラスターのラベルを割り振る
            self.labels_ = dist.argmin(axis = 1)
            count += 1

    def predict(self, X):
        dist = ((X[:, :, np.newaxis] - self.cluster_centers_.T[np.newaxis, :, :]) ** 2).sum(axis = 1)
        labels = dist.argmin(axis = 1)
        return labels

In [None]:
import matplotlib.pyplot as plt

#適当なデータセットを作成する
np.random.seed(7)
points1 = np.random.randn(80, 2)
points2 = np.random.randn(80, 2) + np.array([4,0])
points3 = np.random.randn(80, 2) + np.array([5,8])

points = np.r_[points1, points2, points3]
np.random.shuffle(points)

#3つのクラスタに分けるモデルを作成
model =  KMeans(3)
model.fit(points)

#print(points)
print(model.labels_)

In [None]:
markers = ["+", "*", "o"]
color = ['r', 'b', 'g']
for i in range(3):
    p = points[model.labels_ == i, :]
    plt.scatter(p[:, 0], p[:, 1], marker = markers[i], color = color[i])

plt.show()