## K-means

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.cluster import KMeans
import seaborn as sns
from sklearn.datasets import make_blobs

### データを生成

In [None]:
# そのまま実行します
X, y = make_blobs(n_samples=200, centers=3, n_features=2,
                  cluster_std=2.0, random_state=2010)
df_data = pd.DataFrame(X, columns=["x1","x2"])
df_data["label"] = y
display(df_data.head())
sns.lmplot(x="x1", y="x2", hue="label", data=df_data,fit_reg=False)

一部「外れ値」があり、別クラスタの領域に入り込んでいるデータも含まれている。

### K=2

In [None]:
# クラスタ数を2設定
k = 2
clf = KMeans(n_clusters=k)
clf.fit(X)
y_pred = clf.predict(X)
print(y_pred)

# クラスタリング結果の描画, 赤×は中心点
df_data["label_pred"] = y_pred
sns.lmplot(x="x1", y="x2", hue="label_pred", data=df_data,fit_reg=False)
plt.plot(clf.cluster_centers_[:,0],clf.cluster_centers_[:,1], marker="x",ls="",color="r")

### K=3

In [None]:
# クラスタ数を3に
k = 3
clf = KMeans(n_clusters=k)
clf.fit(X)
y_pred = clf.predict(X)
print(y_pred)

# クラスタリング結果の描画, 赤×は中心点
df_data["label_pred"] = y_pred
sns.lmplot(x="x1", y="x2", hue="label_pred", data=df_data,fit_reg=False)
plt.plot(clf.cluster_centers_[:,0],clf.cluster_centers_[:,1], marker="x",ls="",color="r")

### K=4

In [None]:
# クラスタ数を4に
k = 4
clf = KMeans(n_clusters=k)
clf.fit(X)
y_pred = clf.predict(X)
print(y_pred)

# クラスタリング結果の描画, 赤×は中心点
df_data["label_pred"] = y_pred
sns.lmplot(x="x1", y="x2", hue="label_pred", data=df_data,fit_reg=False)
plt.plot(clf.cluster_centers_[:,0],clf.cluster_centers_[:,1], marker="x",ls="",color="r")

### K=2-10 でエルボー図

* 2から4 までだと少ないため、K=10まで試行し、エルボー図を描く。  
* 今回は、KMeans のモデルが内部で計算して格納する、`inertia_` の値を利用する。  
* `inertia_` は、データポイントとそれが属するクラスタ重心とのユークリッド距離の2乗の合計を示す値。  
* K が増えるほど値が少なくなるのは当然ですが、急激に合計値の減少が緩やかになるポイントが重要。

In [None]:
def plot_elbow(X, sta_k, end_k):
    sse = []
    for i in range(sta_k, end_k+1):
        clf = KMeans(n_clusters=i,random_state=1234)
        clf.fit(X)
        sse.append(clf.inertia_)

    plt.plot(range(sta_k, end_k+1), sse, marker="o")
    plt.xlabel("Number of clusters")
    plt.ylabel("SSE")
    plt.show()

In [None]:
plot_elbow(X, sta_k=1, end_k=11)

* この例では、きれいに「ひじ」が表れている。

### クラスタ内誤差平方和(SSE)とは

$SSE=\displaystyle \sum^n_{i=1}\displaystyle \sum^k_{j=1}w^{(i,j)}||x^{(i)}-\mu^{(j)}||^2_2$  

$n:$データ数  
$k:$クラスタ数  
$w:$サンプル点$x^{(i)}$がクラスタ$j$内に存在する場合は$w^{(i,j)}=1$、存在しない場合は、$w^{(i,j)}=0$  