## 6-4 クラスタリング（k-means）

### ライブラリのインポート

In [None]:
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
%matplotlib inline

- sklearn.cluster.KMeans
  - KMeans：K平均法（k-means）クラスタリングのライブラリ

### データの生成

In [None]:
data_x = np.arange(0, 1, 1 / 100).reshape(-1, 1) 
data_y = np.random.rand(len(data_x), 1) 

- **data_x**：X軸のデータ（配列）
  - np.arange(0, 1, 1 / 100)).reshape(-1, 1) 
  - 0から1まで1/100間隔でデータ100個を生成し、データを縦に並べる（列ベクトルへ変換）。
- **data_y**：Y軸のデータ（配列）
  - np.random.rand(len(data_x), 1)
  - data_xの個数（100個）の乱数を列ベクトルの形式で生成する。

### データの可視化

In [None]:
plt.figure(figsize=(6, 5))
plt.scatter(data_x, data_y)
plt.show()

- figsize(6, 5)で散布図を描画する。

### クラスタリングの実行

In [None]:
# x, y データを結合
data = np.c_[data_x, data_y]
# ３つのクラスタに分類
model = KMeans(n_clusters=3)
model.fit(data)
# データの分類結果（0 ～ (n_clusters - 1) の番号が付けられている）
labels = model.labels_
labels

- data = np.c_[data_x, data_y]
  - data_xとdata_yを結合する（100行×2列の配列となる）。
- model = KMeans(n_clusters=3)
  - クラスター数を3とするk-meansのインスタンスを生成する。
- model.fit(data)
  - 結合したデータ（data）を使ってクラスタリングを実行する。
- label = model.labels_
  - 実行結果（ラベル＝クラスターの番号：0, 1, 2）を取得する。

### 実行結果の確認

In [None]:
plt.figure(figsize=(6, 5))
# クラスタ毎にマークを変えてプロット
plt.scatter(data_x[labels == 0], data_y[labels == 0], 
            marker='v', label='cluster 0')
plt.scatter(data_x[labels == 1], data_y[labels == 1],
            marker='x', label='cluster 1')
plt.scatter(data_x[labels == 2], data_y[labels == 2],
            marker='o', label='cluster 2')
# 凡例の表示位置を指定して表示
plt.legend(bbox_to_anchor=(1, 1), loc='upper left')
plt.show()

- data_x[labels == n], data_y[labels == n]
  - data_xとdata_yのクラスタ番号（n）の配列を取得する。
- ランダムなデータのため、実行するたびに結果は変化する