# 主成分分析

主成分分析は、高次元データを低次元データに圧縮するための手法である。次元削減によって適切に元データを近似したり、有用な特徴を抽出したり、データを可視化したりするのに用いることがある。これは教師なし学習の1つである。

主成分分析の導出方法は大きく分けて2種類ある。1つは「射影誤差の最小化」による導出であり、もう1つは「射影先データの分散最大化」による導出である。どちらの導出でも同じ解が得られることを示す。

### 射影誤差の最小化

${\mathbf R}^D$に属するデータ集合$\{ {\bf x_n} \}$を${\mathbf R}^M(M < D)$次元空間に射影することを考える。高次元空間から低次元空間に射影しているため、元データを完全には表すことはできないが、できるだけ良い近似になるように射影したい。すなわち、射影先のデータと元データの誤差が小さくなるように射影を定めたい。

${\mathbf R}^D$の(正規直交)基底を$\{ {\bf u_i} \}_{i=1}^D$とし、その中から$M$個選び出したものを$\{ {\bf v_i} \}_{i=1}^M$とする。
縦ベクトル${\bf v_i}_{i=1}^M$を並べたものを$V \equiv ({\bf v_1} \dots {\bf v_M})$とすれば、これは${\mathbf R}^D$から${\mathbf R}^M$への変換行列(射影行列)$V$になる。(${\bf x}$に対応する)射影先のデータを${\bf \tilde{x}}$とすると、任意のベクトル${\bf \tilde{x}} \in {\mathbf R}^M$に対し、ある実数$a_1, \dots, a_M$が存在して

$$
{\bf \tilde{x}} = \sum_{i=1}^M a_i {\bf v_i}
$$

と表すことができる。${\bf v_i}$との(標準)内積を考えれば、線形独立性から

$$
a_i = {\bf v_i}^T {\bf x}
$$

であることがわかる。上の式に代入すれば

$$
{\bf \tilde{x}} = \sum_{i=1}^M ({\bf v_i}^T {\bf x}) {\bf v_i}
$$

となる。このベクトルの第$k$成分を考えると、

$$
\tilde{x}_k = \sum_{i=1}^M \sum_{j=1}^D v_{ji} x_j v_{ki}
$$

であるから、

$$
{\bf \tilde{x}} = V V^T {\bf x}
$$

となる。よって、($N$個のデータ点の)射影誤差は

$$
E = \sum_{n=1}^N || {\bf \tilde{x_n}} - {\bf x_n} ||^2 = \sum_{n=1}^N || V V^T {\bf x_n} - {\bf x_n}||^2
$$

で与えられる。これを最小化するような変換$V$を求めれば良い。

いま、$\{ {\bf v_i} \}_{i=1}^M$は正規直交基底としているので、

\begin{eqnarray*}
{\bf v_i}^T {\bf v_j} = 
\begin{cases}
1 \text{ if } i = j \\
0 \text{ if } i \neq j
\end{cases}
\end{eqnarray*}

である。行列で表せば

$$
V^T V = I_m
$$

となる。この等式制約の下で射影誤差を最小化するため、最適性条件を求めるにはラグランジュの未定乗数法を用いる。
ラグランジュ関数を

\begin{eqnarray*}
L = \sum_{n=1}^N || V V^T {\bf x_n} - {\bf x_n} ||^2 + \sum_{i=1}^M \lambda_{i} (1 - {\bf v_i}^T {\bf v_i})
\end{eqnarray*}

とおく。ここで$\lambda_{ij}$はラグランジュ乗数である。$C \equiv \sum_{n=1}^N {\bf x_n} {\bf x_n}^T$とすると

\begin{eqnarray*}
L &=& \sum_{n=1}^N {\bf x_n}^T V V^T V V^T {\bf x_n} - 2 \sum_{n=1}^N {\bf x_n}^T V V^T {\bf x_n} + \sum_{n=1}^N {\bf x_n}^T {\bf x_n} + \sum_{i=1}^M \lambda_{i} (1 - {\bf v_i}^T {\bf v_i}) \\
&=& \sum_{n=1}^N {\bf x_n}^T V V^T {\bf x_n} - 2 \sum_{n=1}^N {\bf x_n}^T V V^T {\bf x_n} + \sum_{n=1}^N {\bf x_n}^T {\bf x_n} + \sum_{i=1}^M \lambda_{i} (1 - {\bf v_i}^T {\bf v_i}) \\
&=& - \sum_{n=1}^N {\bf x_n}^T V V^T {\bf x_n} + \sum_{n=1}^N {\bf x_n}^T {\bf x_n} + \sum_{i=1}^M \lambda_{i} (1 - {\bf v_i}^T {\bf v_i}) \\
&=& - \sum_{n=1}^N \text{Tr}({\bf x_n}^T V V^T {\bf x_n}) + \sum_{n=1}^N \text{Tr}({\bf x_n}^T {\bf x_n}) + \sum_{i=1}^M \lambda_{i} (1 - {\bf v_i}^T {\bf v_i}) \\
&=& - \sum_{n=1}^N \text{Tr}(V^T {\bf x_n} {\bf x_n}^T V) + \sum_{n=1}^N \text{Tr}({\bf x_n} {\bf x_n}^T) + \sum_{i=1}^M \lambda_{i} (1 - {\bf v_i}^T {\bf v_i}) \\
&=& \text{Tr}(V^T C V) + \text{Tr}(C) + \sum_{i=1}^M \lambda_{i} (1 - {\bf v_i}^T {\bf v_i})
\end{eqnarray*}

となる。第1項の$V^T C V$について、第$(i,j)$成分は$\sum_{k=1}^M \sum_{l=1}^M v_{ki} c_{kl} v_{lj}$であることに注意すると

$$
L = \sum_{m=1}^M \sum_{k=1}^M \sum_{l=1}^M v_{km} c_{kl} v_{lm} + \text{Tr}(C) + \sum_{k=1}^M \lambda_{k} (1 - \sum_{m=1}^M v_{mk}^2)
$$

となる。これを$v_{ij}$で微分すると

\begin{eqnarray*}
\frac{\partial}{\partial v_{ij}} L
&=& \sum_{l=1}^M c_{il} v_{lj} + \sum_{k=1}^M v_{kj} c_{ki} - 2 \lambda_{j} v_{ij} \\
&=& 2 \sum_{k=1}^M c_{ik} v_{kj} - 2 \lambda_{j} v_{ij}
\end{eqnarray*}

が得られる。これを0とおけば

$$
\sum_{k=1}^M c_{ik} v_{kj} = \lambda_{j} v_{ij}
$$

が成立する。左辺は$C V$の第$(i, j)$成分、右辺は$V \Lambda$の第$(i,j)$成分であるから、結局

$$
C V = V \Lambda \Leftrightarrow V^T C V = \Lambda
$$

が成立する。ここで$\Lambda$は$\lambda_i$を対角成分とする対角行列である。よって、$\lambda_i$は$C$の固有値、$v_{i}$は対応する固有ベクトルになっていることがわかる。
$C \in M_{D}({\mathbf R})$なので、$C$の固有値は重複を含めて$D$個ある。M個の$\lambda_i$は${\bf v_i}$の選び方によって決まるが、$Tr(\Lambda)$を最大にするためには$C$の固有値のうち最も大きい$M$個に対応する固有ベクトルを選べば良い。このとき$L$の値は、$\lambda_1 \ge \dots \ge \lambda_D$として

$$
L = - \sum_{i=1}^M \lambda_i + \sum_{i=1}^D \lambda_i = \sum_{i=M+1}^D \lambda_i
$$

となる。

**より一般には正規直交条件を満たすようにすれば良い。その解の1つとして$\Lambda$が対角行列になるものがある。
(正規直交条件を満たすものはVCV=Lとなる場合で、特殊ケースとしてLが対角になる場合が考えられる)**

### 射影先データの分散最大化

別のアプローチとして、射影先データの分散ができるだけ大きくなるように射影平面を選ぶことが考えられる。これは、分散が大きい軸を基準に座標変換することで、より重要度の高い成分(主成分)を抽出することを目標にしている。

${\mathbf R}^D$に属するデータ集合$\{ {\bf x_n} \}$を${\mathbf R}^M(M < D)$次元空間に射影することを考える。このとき、分散が最も大きい軸を見つけて(1次元的に)射影する、というステップを繰り返すことで多次元の射影を実現する。

分散が最も大きい軸に平行な単位ベクトルを${\bf v} \in {\mathbf R}^D$とする。${\bf x} \in {\mathbf R}^D$を射影したものを$\tilde{x} \in {\mathbf R}^M$と書くことにすれば

$$
\tilde{x} = {\bf v}^T {\bf x}
$$

である。元データ集合の平均${\bf m}$および分散$S$は

\begin{eqnarray*}
{\bf m} &=& \frac{1}{N} \sum_{n=1}^N {\bf x_n} \\
S &=& \frac{1}{N} \sum_{n=1}^N ({\bf x_n} - {\bf m})^T ({\bf x_n} - {\bf m})
\end{eqnarray*}

と表される。射影先データ集合の平均$\tilde{m}$および分散$\tilde{S}$は

\begin{eqnarray*}
{\bf \tilde{m}}
&=&\frac{1}{N} \sum_{n=1}^N \tilde{x_n} \\
&=& \frac{1}{N} \sum_{n=1}^N {\bf v}^T {\bf x_n} \\
&=& {\bf v}^T {\bf m} \\
\tilde{S}
&=& \frac{1}{N} \sum_{n=1}^N (\tilde{x_n} - \tilde{m})^2 \\
&=& \frac{1}{N} \sum_{n=1}^N ({\bf v}^T {\bf x} - {\bf v}^T {\bf m})^2 \\
&=& \frac{1}{N} \sum_{n=1}^N {\bf v}^T ({\bf x} - {\bf m})^T ({\bf x} - {\bf m}) {\bf v} \\
&=& {\bf v}^T S {\bf v}
\end{eqnarray*}

と表される。この$\tilde{S}$を最大化するような方向${\bf v}$を求めれば良い。
ここで${\bf v}$が単位ベクトルであったことを考えると、これは制約付き最適化となっている。よって、ラグランジュ関数$L$を

$$
L \equiv {\bf v}^T S {\bf v} + \lambda (1 - {\bf v}^T {\bf v})
$$

とおき、${\bf v}, \lambda$で微分したものを0とおくと

\begin{eqnarray*}
\frac{\partial}{\partial {\bf v}} L = 0
&\Leftrightarrow& 2 S {\bf v} - 2 \lambda {\bf v} = 0 \\
&\Leftrightarrow& S {\bf v} = \lambda {\bf v} \\
\frac{\partial}{\partial \lambda} L = 0
&\Leftrightarrow& 1 - {\bf v}^T {\bf v} = 0 \\
&\Leftrightarrow& {\bf v}^T {\bf v} = 1
\end{eqnarray*}

が得られる。よって$\lambda$は$S$の固有値、${\bf v}$は対応する固有ベクトルになることがわかる。このとき、

\begin{eqnarray*}
L = {\bf v}^T S {\bf v} = {\bf v}^T \lambda {\bf v} = \lambda
\end{eqnarray*}

となる。よって、$S$の固有値のうち最大のものを$\lambda$とすることで$S$を最大化できる。

$M$次元空間への射影が定義できているとして、$M+1$次元空間への射影を定義することを考える。すなわち、ある$M$個の単位ベクトル${\bf v_1}, \dots, {\bf v_M}$を(正規直交)基底とするとき、この空間に単位ベクトル${\bf v_{M+1}}$を1個加えることで$M+1$次元空間の基底をつくる。
以下では$M$次元空間に射影されたデータを

$$
{\bf x} \equiv \sum_{i=1}^M a_i {\bf v_i}
$$

と書くことにする。これを${\bf v_{M+1}}$が定義する軸に射影したものを$\tilde{x}$とすれば

$$
\tilde{x} = {\bf v_{M+1}}^T {\bf x}
$$

となる。先と同様の議論を行うことで、射影先データの分散$\tilde{S}$が元データの分散$S$を用いて

$$
\tilde{S} = {\bf v}^T S {\bf v}
$$

と表せることがわかる。よって、ラグランジュ関数は

$$
L \equiv {\bf v_{M+1}}^T S {\bf v_{M+1}} + \sum_{i=1}^M \lambda_M {\bf v_i}^T {\bf v_{M+1}} + \lambda_{M+1} (1 - {\bf v_{M+1}}^T {\bf v_{M+1}})
$$

で与えられる。先の議論と異なるのは制約条件で、「追加する軸の方向は$M$次元空間(にある基底すべて)と直交する」という条件を加えている。微分を0とおけば

$$
S {\bf v_{M+1}} - \lambda_{M+1} {\bf v_{M+1}} = \sum_{i=1}^M \lambda_i {\bf v_i} \\
{\bf v_i}^T {\bf v_{M+1}} = 0 (i = 1, \dots, M)\\
{\bf v_{M+1}}^T {\bf v_{M+1}} = 1
$$

が得られる。第2式から${\bf v_{M+1}}$は${\bf v_1}, \dots, {\bf v_M}$と直交するので、第1式の両辺がともに${\bf 0}$となることがわかる。したがって、

$$
S {\bf v_{M+1}} = \lambda_{M+1} {\bf v_{M+1}} \\
\sum_{i=1}^M \lambda_i {\bf v_i} = 0
$$

が成立する。帰納法の仮定より、$M$個の主成分はすでに抽出されているので、$\lambda_{M+1}$として$S$の固有値のうち$M+1$番目に大きいものをとると$\tilde{S}$は最大となる。