# クラスタリング

## k-meansクラスタリング  
合成データセットにこのアルゴリズムを適用した例

In [9]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import mglearn
from IPython.display import display
%matplotlib notebook



In [10]:
mglearn.plots.plot_kmeans_algorithm()

<IPython.core.display.Javascript object>

学習して得られたクラスタセンタの境界

In [11]:
mglearn.plots.plot_kmeans_boundaries()

In [12]:
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
# 合成2次元データを作る。
X, y = make_blobs(random_state=1)
# クラスタリングモデルを作る
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)

KMeans(n_clusters=3)

In [16]:
kmeans.labels_

array([1, 0, 0, 0, 2, 2, 2, 0, 1, 1, 0, 0, 2, 1, 2, 2, 2, 1, 0, 0, 2, 0,
       2, 1, 0, 2, 2, 1, 1, 2, 1, 1, 2, 1, 0, 2, 0, 0, 0, 2, 2, 0, 1, 0,
       0, 2, 1, 1, 1, 1, 0, 2, 2, 2, 1, 2, 0, 0, 1, 1, 0, 2, 2, 0, 0, 2,
       1, 2, 1, 0, 0, 0, 2, 1, 1, 0, 2, 2, 1, 0, 1, 0, 0, 2, 1, 1, 1, 1,
       0, 1, 2, 1, 1, 0, 0, 2, 2, 1, 2, 1])

↑アルゴリズムの実行過程で、Xに格納された個々の訓練データポイントに対して、クラスタラベル
が割り当てられる

In [14]:
print(kmeans.predict(X))

[1 0 0 0 2 2 2 0 1 1 0 0 2 1 2 2 2 1 0 0 2 0 2 1 0 2 2 1 1 2 1 1 2 1 0 2 0
 0 0 2 2 0 1 0 0 2 1 1 1 1 0 2 2 2 1 2 0 0 1 1 0 2 2 0 0 2 1 2 1 0 0 0 2 1
 1 0 2 2 1 0 1 0 0 2 1 1 1 1 0 1 2 1 1 0 0 2 2 1 2 1]


既存のデータ点に対しては、同じモデルであれば、同じクラスタに割り当てられる

In [17]:
mglearn.discrete_scatter(X[:, 0], X[:, 1], kmeans.labels_, markers='o')
mglearn.discrete_scatter(
kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], [0, 1, 2],
markers='^', markeredgewidth=2)

[<matplotlib.lines.Line2D at 0x2cab89366a0>,
 <matplotlib.lines.Line2D at 0x2cab8936970>,
 <matplotlib.lines.Line2D at 0x2cab8936c40>]

？

In [18]:
fig, axes = plt.subplots(1, 2, figsize=(10, 5))
# クラスタセンタを2つに指定
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
assignments = kmeans.labels_
mglearn.discrete_scatter(X[:, 0], X[:, 1], assignments, ax=axes[0])
# クラスタセンタを5つに指定
kmeans = KMeans(n_clusters=5)
kmeans.fit(X)
assignments = kmeans.labels_
mglearn.discrete_scatter(X[:, 0], X[:, 1], assignments, ax=axes[1])

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x2cab908a970>,
 <matplotlib.lines.Line2D at 0x2cab908ac40>,
 <matplotlib.lines.Line2D at 0x2cab908af10>,
 <matplotlib.lines.Line2D at 0x2cab909d220>,
 <matplotlib.lines.Line2D at 0x2cab909d4f0>]

2クラスタ(左)、5クラスタ(右)

## k-meansがうまくいかない場合

In [19]:
X_varied, y_varied = make_blobs(n_samples=200,
cluster_std=[1.0, 2.5, 0.5],
random_state=170)
y_pred = KMeans(n_clusters=3, random_state=0).fit_predict(X_varied)
mglearn.discrete_scatter(X_varied[:, 0], X_varied[:, 1], y_pred)
plt.legend(["cluster 0", "cluster 1", "cluster 2"], loc='best')
plt.xlabel("Feature 0")
plt.ylabel("Feature 1")

Text(489.8244949494949, 0.5, 'Feature 1')

In [21]:
# ランダムにクラスタデータを作成
X, y = make_blobs(random_state=170, n_samples=600)
rng = np.random.RandomState(74)
# 対角線方向に引き伸ばす
transformation = rng.normal(size=(2, 2))
X = np.dot(X, transformation)
# データポイントを3つにクラスタリング
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)
y_pred = kmeans.predict(X)
# クラスタ割り当てとクラスタセンタをプロット
plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap=mglearn.cm3)
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1],
marker='^', c=[0, 1, 2], s=100, linewidth=2, cmap=mglearn.cm3)
plt.xlabel("Feature 0")
plt.ylabel("Feature 1")


Text(489.8244949494949, 0.5, 'Feature 1')

mglearnが使えない;;