# 階層的クラスタリング

### 定義
２つのクラスタ集合があるとき、そのクラスタ間距離$dist(A, B)$は、
$$
dist(A, B) = \mathop{min}\limits_{a \in A, b \in B} d(a, b)
$$
ここで、  
$d(a,b)$：$a、b$の距離関数$D$の対応する要素で求める。  
$D$：各要素間の距離を成分とする行列($N×N$の対象行列で対角成分は0)  
例えば要素$i, j$を統合してクラスタを作成したとき、それ以外の要素$h$の距離は以下で求める。  
$$
dist[\{i, j\}, h] = \mathop{min}\limits_{a \in \{i, j\}, b \in h}d(a, b) = min\{d(i, h) , d(j, h)\}
$$
ここでクラスタ$A$と$B$を統合したクラスタを$A \cup B$で表現すると、このクラスタ以外のクラスタ$C$との距離は、
$$
dist(A \cup B, C) = min\{dist(A, C), dist(B, C)\}
$$  

### デンドログラム

### 距離関数
$m$次元上で定義された距離関数$d： \mathbb{R}^m × \mathbb{R}^m \mapsto \mathbb{R}$は以下を満たす。
- $\forall \pmb{x}, \pmb{y} \in \mathbb{R}^m：d(\pmb{x}, \pmb{y}) \geqq 0$
- $\forall \pmb{x}, \pmb{y} \in \mathbb{R}^m：\pmb{x} = \pmb{y} \Rightarrow d(\pmb{x}, \pmb{y}) = 0$
- $\forall \pmb{x}, \pmb{y} \in \mathbb{R}^m：d(\pmb{x}, \pmb{y}) = d(\pmb{y}, \pmb{x})$
- $\forall \pmb{x}, \pmb{y}, \pmb{z} \in \mathbb{R}^m：d(\pmb{x}, \pmb{y}) + d(\pmb{y}, \pmb{z}) \geqq d(\pmb{x}, \pmb{z})$   

ベクトル$\pmb{x}, \pmb{y} \in \mathbb{R}$に対し距離関数には以下のようなものがある。  
- ユーグリッド距離
$$
d(\pmb{x}, \pmb{y}) = \| \pmb{x} - \pmb{y} \|^2 = \sqrt{\sum^{m}_{i=1} (x_i - y_i)^2}
$$
- マンハッタン距離
$$
d(\pmb{x}, \pmb{y}) = \| \pmb{x} - \pmb{y} \| = \sum^{m}_{i=1}| x_i - y_i |
$$
- コサイン類似度
$$
cos\theta = \frac{\pmb{x} \cdot \pmb{y}}{\|\pmb{x}\| \|\pmb{y}\|}
$$



### 凝集型クラスタリング

- #### 最短距離法（単連続法）
$m$次元の事例ベクトル$\pmb{x}, \pmb{y} \in \mathbb{R}^m$の任意の距離関数を$d(\pmb{x}, \pmb{y})$とすると２つクラスタ$C_a, C_b$があるときそのクラスタ間距離関数は
$$
dist(C_a, C_b) = \mathop{min} \limits_{\pmb{x} \in C_a, \pmb{y} \in C_b} d(\pmb{x}, \pmb{y})
$$
これは$C_a, C_b$に所属する事例同氏の距離を総当たりで求めた際の最小値である。この方法はクラスタが最も近い点をけいゆうして連結していくため鎖状に連結されやすい(連鎖)。結果距離がだいぶ離れていても１つのクラスタにまとめられることがある。よってクラスタ内要素間距離の最大値が大きいくらすたが生成されることがある。

- #### 最長距離砲（完全連結法）
最短距離法の考え方を持つ手法で、２つのクラスタ$C_a, C_b$のクラスタ間距離関数は、
$$
dist(C_a, C_b) = \mathop{max} \limits_{\pmb{x} \in C_a, \pmb{y} \in C_b} d(\pmb{x}, \pmb{y})
$$
これは$C_a, C_b$に所属する事例同士の距離を総当たりで求めた際の最大値である。クラスタ内要素間距離の小さいクラスタが短い２つのクラスタを併合していく傾向にあるため、クラスタ内要素間距離の小さいクラスタが生成されやすいが、距離が近い要素同士を含む２つのクラスタがなかなか併合されないことがある。

- #### 群平均法
最短距離法と最長距離法をハイブリッドしたような手法で、２つのクラスタ$C_a, C_b$のクラスタ間距離関数は、
$$
dist(C_a, C_b) = \frac{1}{|C_a||C_b|} \sum^{}_{\pmb{x} \in C_a, \pmb{y} \in C_b} d(\pmb{x}, \pmb{y})
$$
最短距離法、最長距離法では２つのクラスタに属する事例１組の距離でクラスタ間距離を定義されていたが、この方法ではクラスタ間の全事例組の距離の平均をとる。

- #### 重心法
各クラスタを属する事例ベクトルの重心を求め、その重心間の距離をクラスタ間の距離とする。
$$
dist(C_a, C_b) = \| \pmb{\mu}_{C_a} - \pmb{\mu}_{C_b} \|
$$
ただし、
$$
\pmb{\mu}_{C_a} = \frac{1}{|C_a|} \sum^{}_{\pmb{x} \in C_a} \pmb{x}、\pmb{\mu}_{C_b} = \frac{1}{|C_b|} \sum^{}_{\pmb{y} \in C_b} \pmb{y}
$$

- #### ウォード法
クラスタ間距離ではなくクラスタ内平方和に基づいた手法。まずクラスタ$C$のクラスタ内変動$V(C)$を以下で定義する。
$$
V(C) = \sum^{}_{\pmb{x} \in C} \|\pmb{x} - \pmb{\mu_C} \|^2 \\
$$
ただし、
$$
\pmb{\mu_C} = \frac{1}{|C|} \sum^{}_{\pmb{x} \in C} \pmb{x}
$$
データが$K$個のクラスタに属しているとき、全てのクラスタ内変動の和（クラスタ内平方和）は、
$$
S_k = \sum^{K}_{k=1} V(C_k) = \sum^{K}_{k=1} \sum^{}_{\pmb{x} \in C_k} \| \pmb{x} - \pmb{\mu}_C \|^2
$$
これはk-meansの目的関数と同じ式だが、この手法は凝集型クラスタリングの手順でクラスタ内兵法輪の最小化することを目的としている。  
凝集型クラスタリングでは最初に各事例が１つのクラスタに属し（このときクラスタ内平方和は0）、クラスタを併合していくにつれて平方和が上昇していく。上昇が少ないクラスタを２つ選び併合する。$C_a$と$C_b$で$C_a \cup C_b$を作成したとき、クラスタ内平方和の上昇量$d_{C_a, C_b}$は、
$$
\begin{align}
d_{C_a, C_b} &= V(C_a \cup C_b) - V(C_a) - V(C_b)  \notag \\
&= \sum^{}_{\bm{x} \in C_{A \cup B}} \| \bm{x} - \mu_{A \cup B} \|^2 - \sum^{}_{\bm{x} \in C_A} \| \bm{x} - \mu_{C_A} \|^2 - \sum^{}_{\bm{x} \in C_B} \| \bm{x} - \mu_{C_B} \|^2 \notag \\
&= \sum^{}_{\bm{x} \in C_{A}} \| \bm{x} - \mu_{A \cup B} \|^2 + \sum^{}_{\bm{x} \in C_{B}} \| \bm{x} - \mu_{A \cup B} \|^2 - \sum^{}_{\bm{x} \in C_A} \| \bm{x} - \mu_{C_A} \|^2 - \sum^{}_{\bm{x} \in C_B} \| \bm{x} - \mu_{C_B} \|^2 \notag \\
&= \sum^{}_{\bm{x} \in C_A} (\| \bm{x} - \bm{\mu}_{A \cup B} \|^2 - \| \bm{x} - \bm{\mu}_A \|^2) - \sum^{}_{\bm{x} \in C_B} (\| \bm{x} - \bm{\mu}_{A \cup B} \|^2 - \| \bm{x} - \bm{\mu}_B \|^2) \notag \\
&= \sum^{}_{\bm{x} \in C_A} (\|\bm{x}\|^2 - 2\bm{x} \cdot \bm{\mu}_{C_{A \cup B}} + \|\bm{\mu}_{C_{A \cup B}}\|^2 - \|\bm{x}\|^2 + 2\bm{x} \cdot \bm{\mu}_{C_A} + \bm{\mu}_{C_A}) - \sum^{}_{\bm{x} \in B} (\|\bm{x}\|^2 - 2\bm{x} \cdot \bm{\mu}_{C_{A \cup B}} + \|\bm{\mu}_{C_{A \cup B}}\|^2 - \|\bm{x}\|^2 + 2\bm{x} \cdot \bm{\mu}_{C_B} - \|\bm{\mu}_{C_B}\|) \notag \\
&= \sum^{}_{\bm{x} \in C_A} (-2\bm{x} \cdot \bm{\mu}_{C_{A \cup B}} + \| \bm{\mu}_{A \cup B} \|^2 + 2 \bm{x} \cdot \bm{\mu}_{C_A} - \|\bm{\mu}_{C_A}\|^2) - \sum^{}_{\bm{x} \in C_B} (-2\bm{x} \cdot \bm{\mu}_{C_{A \cup B}} + \| \bm{\mu}_{A \cup B} \|^2 + 2 \bm{x} \cdot \bm{\mu}_{C_B} - \|\bm{\mu}_{C_B}\|^2) \notag \\
&= -2|A|\bm{\mu}_{C_A} \cdot \bm{\mu}_{C_{A \cup B}} + |A| \|\bm{\mu}_{A \cup B} \|^2 + 2|A| \bm{\mu}_{C_A} \cdot \bm{\mu}_{C_A} - |A| \|\bm{\mu}_{C_A}\|^2 - (2|B| \bm{\mu}_{C_B} \cdot \bm{\mu}_{A \cup B} - |B| \|\bm{\mu}_{A \cup B} \|^2 -2|B| \bm{\mu}_{C_B} \cdot \bm{\mu}_{C_B} + |B| \|\bm{\mu}_{C_B}\|^2) \notag \\
&= -2|A| \bm{\mu}_{C_A} \cdot \bm{\mu}_{C_{A \cup B}} + |A| \|\bm{\mu}_{C_{A \cup B}}\|^2 + |A| \|\bm{\mu}_{C_A}\|^2 - (-2|B| \bm{\mu}_{C_B} \cdot \bm{\mu}_{C_{A \cup B}} + |B| \|\bm{\mu}_{C_{A \cup B}}\|^2 + |B| \|\bm{\mu}_{C_B}\|^2) \notag \\
&= |A| \|\bm{\mu}_{C_A} - \bm{\mu}_{C_{A \cup B}}\|^2 - |B| \|\bm{\mu}_{C_B} - \bm{\mu}_{C_{A \cup B}}\|^2 \notag \\
\end{align}
$$
ここで$\bm{\mu}_{C_{A \cup B}}$は、
$$
\begin{align} 
\bm{\mu}_{C_{A \cup B}} &= \frac{1}{|C_{A \cup B}|} \sum^{}_{\bm{x} \in C_{A \cup B}} \bm{x} \notag \\
&= \frac{1}{|A| + |B|} (\sum^{}_{\bm{x} \in C_A} \bm{x} + \sum^{}_{\bm{x} \in C_B} \bm{x}) \notag \\
&= \frac{1}{|A| + |B|} (|A| \bm{\mu}_{C_A} + |B| \bm{\mu}_{C_B}) \notag \\
\end{align}
$$
なので、
$$
\begin{align}
d_{C_a, C_b} &= |A| \|\bm{\mu}_{C_A} - \bm{\mu}_{C_{A \cup B}}\|^2 - |B| \|\bm{\mu}_{C_B} - \bm{\mu}_{C_{A \cup B}}\|^2 \notag \\
&= |A| \|\bm{\mu}_{C_A} - \frac{1}{|A| + |B|} (|A| \bm{\mu}_{C_A} + |B| \bm{\mu}_{C_B})\|^2 + |B| \|\bm{\mu}_{C_B} - \frac{1}{|A| + |B|} (|A| \bm{\mu}_{C_A} + |B| \bm{\mu}_{C_B})\|^2 \notag \\
&= |A| \|\frac{|B|}{|A| + |B|} \bm{\mu}_{C_A} + \frac{|B|}{|A| + |B|} \bm{\mu}_{C_B} \|^2 - |B| \|\frac{|A|}{|A| + |B|} \bm{\mu}_{C_A} + \frac{|A|}{|A| + |B|} \bm{\mu}_{C_B} \|^2 \notag \\
&= |A| (\frac{|B|}{|A| + |B|})^2 \|\bm{\mu}_{C_A} + \bm{\mu}_{C_B}\|^2 - |B| (\frac{|A|}{|A| + |B|})^2 \|\bm{\mu}_{C_A} + \bm{\mu}_{C_B}\|^2 \notag \\
&= \frac{|A||B|}{|A| + |B|} \|\bm{\mu}_{C_A} + \bm{\mu}_{C_B}\|^2 \notag \\
\end{align}
$$
ウォード法はこの上昇量$d$が最小となるクラスタ同氏を併合させる。クラスタ間距離をユークリッド距離に相当させる場合、クラスタ間距離は以下となる。
$$
dist(C_a, C_b) = \sqrt{2d(C_a, C_b)} = \sqrt{\frac{2|C_a||C_b|}{|C_a||C_b|}\|\bm{\mu}_{C_a} - \bm{\mu}_{C_b}\|^2}
$$
