# データサイエンス(Python)勉強会用 2021/12/03 (金)

### k-meansという手法をPythonで実装しながらアルゴリズムを理解する。
k-means(k平均法)は教師なし学習の中でもとても有名なアルゴリズムの一つです。<br>
例えば、顧客のデータから顧客を購買傾向によってグループ分けしたり、<br>
商品の特性からいくつかのグループに分けたりと使用法は様々です。

- 使用するライブラリをimport
- グラフ描画する際のカラーコードを指定

In [None]:
import numpy as np
import matplotlib.pyplot as plt

colorlist = [
    '#E41A1C',
    '#377EB8',
    '#4DAF4A',
    '#984EA3',
    '#FF7F00',
    '#FFFF33',
    '#A65628',
    '#F781BF',
    '#FF2277',
    '#6666FF'
]

fig = plt.figure()
fig.patch.set_facecolor('white')

x = np.arange(1, len(colorlist)+1)
height = [1]*len(colorlist)
plt.barh(x, height, color=colorlist, tick_label=colorlist, align="center")
plt.show()

### ランダムで数値(x, y)の生成
- -100〜100の間でランダムに整数を生成し、要素数100件分、2次元配列(x, y)を生成する。
- 生成した値を(x, y)座標上に散布図プロットする。

In [None]:
#<< データの生成 >>
np.random.seed(10) # 乱数生成時のシードを固定
x = np.random.randint(-100, 100, 100) # -100 〜 100 までの 100件の整数を乱数生成
y = np.random.randint(-100, 100, 100) # -100 〜 100 までの 100件の整数を乱数生成
xy = np.c_[x, y] # 多次元配列の結合

#<< 可視化 >>
plt.figure(figsize=(8, 8)) #グラフの描画領域サイズを指定する
plt.scatter(xy[:,0], xy[:,1], c="k", s=10, alpha=0.5) # ランダムで生成した値を散布図プロットする。
plt.xlim(-110, 110) #グラフの描画範囲を指定 (x軸の表示範囲)
plt.ylim(-110, 110) #グラフの描画範囲を指定 (y軸の表示範囲)
plt.grid(linestyle='dotted') #グリッド線を描画(dotted=点線)
plt.show()

## k-meansの実装
- 分割するグループ数(K)を決める
- ランダムに(K)個、点を生成して、中心座標T1~T4にする

In [None]:
#<< データの生成 >>
np.random.seed(10)
x = np.random.randint(-100, 100, 100)
y = np.random.randint(-100, 100, 100)
xy = np.c_[x, y]

#----(追加)
K = 3 # (2 - 10までの値を指定する)
centers = np.random.randint(-100, 100, (K, 2)) # -100 〜 100までの数値を用いて K件の2次元配列を生成

#<< 可視化 >>
plt.figure(figsize=(8, 8))
plt.scatter(xy[:,0], xy[:,1], c="k", s=10, alpha=0.5)
#----(追加)
plt.scatter(centers[:,0], centers[:,1], s=70, color=colorlist[0:K]) # k-meansによるグループ分けの初期地点を指定
plt.xlim(-110, 110)
plt.ylim(-110, 110)
plt.grid(linestyle='dotted')
plt.show()

### k-meansによるグループ分け
- 全ての点に対して、最も近い中心座標Tのグループラベルを付けて色分けを行う
- (x, y)座標軸の中で、最も近い座標を求める際にはユークリッド距離を用いる。

In [None]:
#<< データの生成 >>
np.random.seed(10)
x = np.random.randint(-100, 100, 100)
y = np.random.randint(-100, 100, 100)
xy = np.c_[x, y]

# (2 - 10までの値を指定する)
K = 3
centers = np.random.randint(-100, 100, (K, 2))

#----(追加)
idx = np.zeros(xy.shape[0]) #Xのサンプル数だけ空のラベルを作る

#距離の二乗が一番近い中心点のインデックスを返す。
for i in range(xy.shape[0]):
    idx[i] = np.argmin(np.sum((xy[i,:] - centers)**2, axis=1))

#<< 可視化 >>
plt.figure(figsize=(8, 8))
for i in np.arange(K):
    plt.scatter(xy[idx==i,0], xy[idx==i,1], c=colorlist[i], s=10)
    plt.scatter(centers[i,0], centers[i,1], s=70, c=colorlist[i])
plt.xlim(-110, 110)
plt.ylim(-110, 110)
plt.grid(linestyle='dotted')
plt.show()

### それぞれのグループ毎に、新しい中心点を求める
- グループ内の座標の平均値を求めて、その座標を新たな中心点とする。
- 中心点を新たな中心点へ移動させる。

In [None]:
#<< データの生成 >>
np.random.seed(5)
x = np.random.randint(-100, 100, 100)
y = np.random.randint(-100, 100, 100)
xy = np.c_[x, y]

# (2 - 10までの値を指定する)
K = 4
centers = np.random.randint(-100, 100, (K, 2))

idx = np.zeros(xy.shape[0])

#距離の二乗が一番近い中心点のインデックスを返す。
for k in range(xy.shape[0]):
    idx[k] = np.argmin(np.sum((xy[k,:] - centers)**2, axis=1))

#<< 可視化 Before >>
plt.figure(figsize=(17, 5))
plt.subplot(1, 3, 1)
for k in np.arange(K):
    plt.scatter(xy[idx==k,0], xy[idx==k,1], c=colorlist[k], s=10)
    plt.scatter(centers[k,0], centers[k,1], s=70, c=colorlist[k])
plt.title('Before')
plt.xlim(-110, 110)
plt.ylim(-110, 110)
plt.grid(linestyle='dotted')

#<< 可視化 After 1 >>
#グループ中心点の移動
for k in range(K):
    centers[k,:] = xy[idx==k,:].mean(axis=0)
    
plt.subplot(1, 3, 2)
for k in np.arange(K):
    plt.scatter(xy[idx==k,0], xy[idx==k,1], c=colorlist[k], s=10)
    plt.scatter(centers[k,0], centers[k,1], s=70, c=colorlist[k])
plt.title('After 1')
plt.xlim(-110, 110)
plt.ylim(-110, 110)
plt.grid(linestyle='dotted')

#<< 可視化 After 2 >>
#距離の二乗が一番近い中心点のインデックスを返す。
for k in range(xy.shape[0]):
    idx[k] = np.argmin(np.sum((xy[k,:] - centers)**2, axis=1))

plt.subplot(1, 3, 3)
for k in np.arange(K):
    plt.scatter(xy[idx==k,0], xy[idx==k,1], c=colorlist[k], s=10)
    plt.scatter(centers[k,0], centers[k,1], s=70, c=colorlist[k])
plt.title('After 2')
plt.xlim(-110, 110)
plt.ylim(-110, 110)
plt.grid(linestyle='dotted')

plt.show()

## k-means法の一連の流れを可視化

In [None]:
np.random.seed(5)
x = np.random.randint(-100, 100, 100)
y = np.random.randint(-100, 100, 100)
xy = np.c_[x, y]

K = 4
centers = np.random.randint(-100, 100, (K, 2))

plt.figure(figsize=(17, 17))
plt.subplot(3, 3, 1)
for j in np.arange(0, 9):
    for i in range(xy.shape[0]):
        idx[i] = np.argmin(np.sum((xy[i,:] - centers)**2,axis=1))

    for k in range(K):
        centers[k,:] = xy[idx==k,:].mean(axis=0)

    plt.subplot(3, 3, j+1)
    for k in np.arange(K):
        plt.scatter(xy[idx==k,0], xy[idx==k,1], c=colorlist[k], s=10)
        plt.scatter(centers[k,0], centers[k,1], s=70, c=colorlist[k])
    plt.text(x=0, y=0, s=str(j+1), size=20)
    plt.scatter(centers[:,0], centers[:,1], c=colorlist[0:K])
    plt.grid(linestyle='dotted')

plt.show()

## scikit-learnを用いた k-meansのシンプルな実装

In [None]:
from sklearn.cluster import KMeans

K=4

kmeans_mod = KMeans(n_clusters=K, # クラスター数
            init='k-means++',       # 中心の設定
            n_init=10,               # 異なる初期値を用いたk-meansの実行回数 
            max_iter=10,            # 最大イテレーション回数  default: '300'
            tol=1e-04,              # 収束と判定するための相対的な許容誤差 default: '1e-04'
            random_state=0) 

In [None]:
idx = kmeans_mod.fit_predict(xy)
plt.figure(figsize=(8, 8))
for k in np.arange(K):
    plt.scatter(xy[idx==k,0], xy[idx==k,1], c=colorlist[k], s=10)
plt.grid(linestyle='dotted')
plt.show()