# Kmeans

Kmeans法はクラスタリングを行う機械学習モデルである。教師なし学習の1つにクラスタリングがあるが、これはデータ集合をいくつかのクラスタに分割することを目標としている。クラスタリングによって類似した性質をもつデータ集合を見つけることができる。

Kmeans法ではクラスタの数をハイパーパラメータ$k$として決めた上でアルゴリズムを実行する。この$k$は後で述べるエルボー法などの手法で決めることが多い。

クラスタが$K$個あると仮定して、その$K$個のクラスタを見つけることを考える。

Kmeans法ではクラスタを代表するクラスタ中心というものを利用する。$K$個のクラスタ中心が定まれば、各データ点は最も近いクラスタ中心と同じクラスに属するとしてクラスタを形成することができる。逆に$K$個のクラスタが存在すれば、そこからクラスタ中心を求めることができる。これを繰り返し行うことで$k$個のクラスタ(およびクラスタ中心)を見つけることができる。

クラスタを$C_1, \dots, C_K$とし、各クラスタ中心を$\{ {\bf \mu_k} \}$とする。データ集合$\{ {\bf x_n} \}$に対して、クラスタへの割り当て$r$を

\begin{eqnarray*}
r_{nk} \equiv 
\begin{cases}
1 & \text{ if } {\bf x_n \in C_k } \\
0 & \text{ otherwise }
\end{cases}
\end{eqnarray*}

と定義する。このとき、クラスタリングはクラスタ中心と各データ点の(クラスタへの)割り当てを決める問題となる。

データ点${\bf x}$がクラスタ$k$に属するとき、この${\bf x}$と${\bf \mu_k}$の距離が小さいことが望ましい。よって、損失関数を次のように定義する。

$$
E \equiv \Sigma_{n=1}^N \Sigma_{k=1}^K r_{nk} || {\bf x_n} - {\bf \mu_k} ||^2
$$

このとき、クラスタリングは上の損失関数を最小化するような$\{ \bf \mu_k \}$および$\{ r_{nk} \}$を求める問題となる。

各$n$について、損失関数を最小化するような$r_{nk}$は明らかに

\begin{eqnarray*}
r_{nk} = 
\begin{cases}
1 & \text{ if } k = argmin_j || {\bf x_n} - {\bf \mu_j} ||^2 \\
0 & \text{ otherwise }
\end{cases}
\end{eqnarray*}

となる。損失関数を最小化するような${\bf \mu_k}$については、微分を0とおいて

$$
\frac{\partial}{\partial {\bf \mu_k}} E = {\bf 0}
\Leftrightarrow - 2 \Sigma_{n=1}^N r_{nk} ({\bf x_n} - {\bf \mu_k}) {\bf x_n} = {\bf 0} \\
\Leftrightarrow \mu_k = \frac{\Sigma_{n=1}^N r_{nk} {\bf x_n}}{\Sigma_{n=1}^N {\bf x_n}}
$$

を得る。これはクラスタ$k$に属するデータ点の平均値を表している。

互いに依存する2変数の最適化問題では、2変数をそれぞれ交互に最適化すれば良い。すなわち、次に示すEステップとMステップを交互に実行し、収束する(か最大反復回数に達する)まで繰り返せば良い。

- E step  
各データ点について、最も近いクラスタ中心のクラスタを割り当てる。

\begin{eqnarray*}
r_{nk} = 
\begin{cases}
1 & \text{ if } k = argmin_j || {\bf x_n} - {\bf \mu_j} ||^2 \\
0 & \text{ otherwise }
\end{cases}
\end{eqnarray*}


- M step  
各クラスタについて、それに属しているデータ点すべての平均をとり、新しいクラスタ中心とする。

$$
\mu_k = \frac{\Sigma_{n=1}^N r_{nk} {\bf x_n}}{\Sigma_{n=1}^N {\bf x_n}}
$$

なお、クラスタ中心の初期値によっては収束に時間がかかることがあるため、それを改善する方法としてKmeans++などが開発されている。

# 混合ガウスモデル

混合ガウスモデルは、与えられたデータ集合$\{ {\bf x_n} \}$の分布を混合ガウス分布によって近似する教師なし学習のモデルである。このモデルでは、各データ点${\bf x_n}$は暗に$K$個のクラス$C_1, \dots, C_K$のいずれかに属するとし、それぞれが異なるガウス分布に従って生成されると仮定している。モデルの学習では、混合ガウス分布の混合係数および各ガウス分布のパラメータを推定することが目標となる。

一般に混合モデルとは、複数の確率分布$\{ p_k \}$の重み付き和をとったもので

$$
p({\bf x}) = \sum_k \pi_k p_k({\bf x})
$$

と表される。ここで重み$\pi_i$は混合係数と呼ばれ、$\forall k. \pi_k \ge 0, \sum_k \pi_k = 1$を満たすとする。ここでは混合分布として

$$
p({\bf x}) \equiv \sum_{k=1}^K \pi_k \mathcal{N}({\bf x} | {\bf \mu_k}, \Sigma_k) 
$$

の形を仮定する。この式では、データ点${\bf x}$は確率$\pi_k$でクラス$C_k$に(暗に)属しており、クラス$C_k$に属するデータはガウス分布$\mathcal{N}({\bf x} | {\bf \mu_k}, Sigma_k)$に従うとしている。それを陽に表すために、潜在変数${\bf z}$を導入する。
${\bf z}$は${\bf x}$がどのクラスに属するかを表すOneHotベクトルである。すなわち、

\begin{eqnarray*}
z_k =
\begin{cases}
1 \text{ if } {\bf x} \in C_k \\
0 \text{ otherwise }
\end{cases}
\end{eqnarray*}

を満たすものとする。この${\bf z}$を用いて

\begin{eqnarray*}
\pi_k &=& p(z_k = 1) \\
p({\bf x} | z_k = 1) &=& \mathcal{N}({\bf x} | {\bf \mu_k}, \Sigma_k)
\end{eqnarray*}

のように書くことができる。よって

\begin{eqnarray*}
p({\bf z}) &=& \prod_{k=1}^K \pi_k^{z_k} \\
p({\bf x} | {\bf z}) &=& \prod_{k=1}^K \mathcal{N}({\bf x} | {\bf \mu_k}, \Sigma_k)^{z_k}
\end{eqnarray*}

となることがわかる。確率の乗法定理から

\begin{eqnarray*}
p({\bf x}) &=& \sum_{\bf z} p({\bf x} | {\bf z}) p({\bf z}) \\
&=& \sum_{\bf z} \prod_{k=1}^K \pi_k^{z_k} \mathcal{N}({\bf x} | {\bf \mu_k}, \Sigma_k)^{z_k} \\
&=& \sum_{k=1}^K \pi_k \mathcal{N}({\bf x} | {\bf \mu_k}, \Sigma_k)
\end{eqnarray*}

が成立する。これは上で仮定したモデルの表式と同じになっていることがわかる。

混合ガウスモデルの学習では、混合係数および各ガウス分布のパラメータを(データ集合に対して)最適化させる。
今、与えられたデータ集合を$X \equiv \{ {\bf x_n} \}_{n=1}^N$とする。データ集合の生成確率(尤度)は

$$
p(X) = \prod_{n=1}^N p({\bf x_n}) = \prod_{n=1}^N \sum_{k=1}^K \pi_k \mathcal{N}({\bf x_n} | {\bf \mu_k}, \Sigma_k)
$$

であるから、負の対数尤度は

$$
- \log p(X) = - \sum_{n=1}^N \log p({\bf x_n})
$$

となる。この問題は制約付き最適化問題である。具体的には

$$
\sum_{k=1}^K \pi_k = 1
$$

という等式制約が課されている。これを解くためにラグランジュの未定乗数法を用いる。
パラメータ集合を$\theta \equiv \{ \pi_1, \dots, \pi_K, {\bf \mu_1}, \dots, {\bf \mu_K}, \Sigma_1, \dots, \Sigma_K \}$として、ラグランジュ関数$L$を

$$
L(\theta) \equiv - \log p(X) + \lambda (1 - \sum_{k=1}^K \pi_k)
$$

とする。ここで$\lambda$はラグランジュ乗数である。$L$を各パラメータで偏微分すれば

\begin{eqnarray*}
\frac{\partial}{\partial \lambda} L &=& 1 - \sum_{k=1}^K \pi_k \\
\frac{\partial}{\partial \pi_k} L &=& \lambda - \sum_{n=1}^N \frac{\mathcal{N}({\bf x_n} | {\bf \mu_k}, \Sigma_k)}{\sum_{j=1}^K \pi_j \mathcal{N}({\bf x_n} | {\bf \mu_j}, \Sigma_j)} \\
\frac{\partial}{\partial \mu_k} L
&=& \sum_{n=1}^N \frac{\pi_k \mathcal{N}({\bf x_n} | {\bf \mu_k}, \Sigma_k)}{\sum_{k=1}^K \mathcal{N}({\bf x_n} | {\bf \mu_k}, \Sigma_k)} \Sigma_k^{-1} ({\bf x_n} - {\bf \mu_k}) \\
\frac{\partial}{\partial \Sigma_k} L
&=& \sum_{n=1}^N \frac{\pi_k \mathcal{N}({\bf x_n} | {\bf \mu_k}, \Sigma_k)}{\sum_{k=1}^K \pi_k \mathcal{N}({\bf x_n} | {\bf \mu_k}, \Sigma_k)} (- \frac{1}{2} \Sigma_k^{-1} + \frac{1}{2} \Sigma_k^{-1} ({\bf x_n} - {\bf \mu_k}) ({\bf x_n} - {\bf \mu_k})^T \Sigma_k^{-1})
\end{eqnarray*}

となる。ここで

\begin{eqnarray*}
\gamma_{nk} = \frac{\pi_k \mathcal{N}({\bf x_n} | {\bf \mu_k}, \Sigma_k)}{\sum_{k=1}^K \pi_k \mathcal{N}({\bf x_n} | {\bf \mu_k}, \Sigma_k)}
\end{eqnarray*}

と定義することで下の2式については

\begin{eqnarray*}
\frac{\partial}{\partial \mu_k} L
&=& \sum_{n=1}^N \gamma_{nk} \Sigma_k^{-1} ({\bf x_n} - {\bf \mu_k}) \\
\frac{\partial}{\partial \Sigma_k} L
&=& \sum_{n=1}^N \gamma_{nk} (- \frac{1}{2} \Sigma_k^{-1} + \frac{1}{2} \Sigma_k^{-1} ({\bf x_n} - {\bf \mu_k}) ({\bf x_n} - {\bf \mu_k})^T \Sigma_k^{-1})
\end{eqnarray*}

と書くことができる。これらを0とおくと

\begin{eqnarray*}
\frac{\partial}{\partial \lambda} L = 0
&\Leftrightarrow& \sum_{k=1}^K \pi_k = 1 \\
\frac{\partial}{\partial \pi_k} L = 0
&\Leftrightarrow& \lambda = \sum_{n=1}^N \frac{\mathcal{N}({\bf x_n} | {\bf \mu_k}, \Sigma_k)}{\sum_{j=1}^K \pi_j \mathcal{N}({\bf x_n} | {\bf \mu_j}, \Sigma_j)} \\
&\Leftrightarrow& \lambda = \frac{1}{\pi_k} \sum_{n=1}^N \gamma_{nk} \\
\frac{\partial}{\partial \mu_k} L = 0
&\Leftrightarrow& \sum_{n=1}^N \gamma_{nk} \Sigma_k^{-1} {\bf x_n} = \sum_{n=1}^N \gamma_{nk} \Sigma_k^{-1} {\bf \mu_k} \\
&\Leftrightarrow& \mu_k = \frac{\sum_{n=1}^N \gamma_{nk} {\bf x_n}}{\sum_{n=1}^N \gamma_{nk}} \\
\frac{\partial}{\partial \Sigma_k} L = 0
&\Leftrightarrow& \Sigma_k \sum_{n=1}^N \gamma_{nk} = \Sigma_k^{-1} ({\bf x_n} - {\bf \mu_k}) ({\bf x_n} - {\bf \mu_k})^T \Sigma_k^{-1} \\
&\Leftrightarrow& \Sigma_k = \frac{\sum_{n=1}^N \gamma_{nk} ({\bf x_n} - {\bf \mu_k}) ({\bf x_n} - {\bf \mu_k})^T}{\sum_{n=1}^N \gamma_{nk}}
\end{eqnarray*}

となる。第2式の両辺に$\pi_j$をかけた式を$j$について和をとれば

\begin{eqnarray*}
\sum_{j=1}^K \lambda \pi_j = \sum_{n=1}^N \frac{\sum_{j=1}^K \pi_j \mathcal{N}({\bf x_n} | {\bf \mu_k}, \Sigma_k)}{\sum_{j=1}^K \pi_j \mathcal{N}({\bf x_n} | {\bf \mu_j}, \Sigma_j)}
&\Leftrightarrow& \lambda \sum_{j=1} \pi_j = \sum_{n=1}^N 1 \\
&\Leftrightarrow& \lambda = N
\end{eqnarray*}

となることが第1式からわかる。これを再び第2式に代入すれば

$$
\pi_k = \frac{N_k}{N}
$$

が成立する。ただし、$N_k \equiv \sum_{n=1}^N \gamma_{nk}$とした。

パラメータ$\pi_k, {\bf \mu_k}, \Sigma_k$は途中で定義した$\gamma_{nk}$に依存しており、逆に$\gamma_{nk}$はパラメータを用いて計算される。よって、以下のアルゴリズムを収束するまで繰り返すことによって最適化することができる。

- E step  
$\gamma_{nk}$を更新前のパラメータを用いて計算する。

$$
\gamma_{nk} = \frac{\pi_k \mathcal{N}({\bf x_n} | {\bf \mu_k}, \Sigma_k)}{\sum_{k=1}^K \pi_k \mathcal{N}({\bf x_n} | {\bf \mu_k}, \Sigma_k)}
$$

- M step  
E stepで求めた$\gamma_{nk}$を利用してパラメータを最適化する。

\begin{eqnarray*}
\pi_k &=& \frac{N_k}{N} \\
\mu_k &=& \frac{\sum_{n=1}^N \gamma_{nk} {\bf x_n}}{\sum_{n=1}^N \gamma_{nk}} \\
\Sigma_k &=& \frac{\sum_{n=1}^N \gamma_{nk} ({\bf x_n} - {\bf \mu_k}) ({\bf x_n} - {\bf \mu_k})^T}{\sum_{n=1}^N \gamma_{nk}}
\end{eqnarray*}

上の$\gamma_{nk}$は負担率と呼ばれているが、この式の意味について考える。最初に潜在変数${\bf z}$を導入し、

\begin{eqnarray*}
\pi_k &=& p(z_k = 1) \\
p({\bf x} | z_k = 1) &=& \mathcal{N}({\bf x} | {\bf \mu_k}, \Sigma_k)
\end{eqnarray*}

としたことを思い出せば、ベイズの定理より

\begin{eqnarray*}
\gamma_{nk} &=& \frac{\pi_k \mathcal{N}({\bf x_n} | {\bf \mu_k}, \Sigma_k)}{\sum_{k=1}^K \pi_k \mathcal{N}({\bf x_n} | {\bf \mu_k}, \Sigma_k)} \\
&=& \frac{p(z_k = 1) p({\bf x_n} | z_k = 1)}{\sum_{k=1}^K p(z_k = 1) p({\bf x_n} | z_k = 1)} \\
&=& p(z_k = 1 | {\bf x_n})
\end{eqnarray*}

と書くことができる。$\pi_k$が$z_k$の事前確率であったのに対して、$\gamma_{nk}$はデータ${\bf x_n}$を観測した後の$z_k$の事後確率であると解釈できる。