# PCA
-> [2d_example.ipynb](2d_example.ipynb)

$n$個の$d$次元のデータ $X$ を、$d'$次元に圧縮するための線形変換行列$W$を求める。

$$
X
= \begin{bmatrix}
x_{1,1} & x_{1,2} & \cdots & x_{1,d} \\
x_{2,1} & x_{2,2} & \cdots & x_{2,d} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n,1} & x_{n,2} & \cdots & x_{n,d}
\end{bmatrix}
\in \mathbb{R}^{n \times d}
$$

$$
W
= \begin{bmatrix}
w_{1,1} & w_{1,2} & \cdots & w_{1,d'} \\
w_{2,1} & w_{2,2} & \cdots & w_{2,d'} \\
\vdots & \vdots & \ddots & \vdots \\
w_{d,1} & w_{d,2} & \cdots & w_{d,d'}
\end{bmatrix}
\in \mathbb{R}^{d \times d'}
$$

変換後のデータ $Y$ は次のように表される。
$$
Y = X W \in \mathbb{R}^{n \times d'}
$$

PCAは、圧縮後の各次元の分散を最大化することを考える。  
次元 $j$ の分散は、定義より以下で表せる
$$
\begin{align*}
s_j^2 
&= \frac{1}{n}\sum_{i=1}^{n}(y_{ij}-\bar{y_j})^2\\
&= \frac{1}{n}\sum_{i=1}^{n}\left(
    X_i W_j - \frac{1}{n}\sum_{k=1}^{n}(X_k W_j)
\right)^2 \\
&= \frac{1}{n}\sum_{i=1}^{n}\left(
    X_i W_j - \frac{1}{n}\sum_{k=1}^{n}(X_k) W_j
\right)^2 \\
&= \frac{1}{n}\sum_{i=1}^{n}\left(
    \left(X_i - \frac{1}{n}\sum_{k=1}^{n}X_k\right) W_j
\right)^2 \\
\end{align*}
$$

ここで、中心化されたデータを $X^c$ とすると、
$$
\begin{align*}
s_j^2 
&= \frac{1}{n}\sum_{i=1}^{n}(X_i^c W_j)^2 \\
&= \frac{1}{n}\sum_{i=1}^{n}(X_i^cW_j)^\top(X_i^cW_j) \\
&= \frac{1}{n}\sum_{i=1}^{n}W_j^\top(X_i^c)^\top(X_i^c)W_j \\
&= W_j^\top\left(\frac{1}{n}\sum_{i=1}^{n}(X_i^c)^\top(X_i^c)\right)W_j\\
&= W_j^\top\left(\frac{1}{n}X^{c\top}X^c\right)W_j \\
&= W_j^\top S W_j \\
\end{align*}
$$

ここで、$S$ はデータの共分散行列である。

PCAでは、$s_j^2$ を最大化する $W_j$ を求める。
なお、ここで$W_j$を大きくすれば$s_j^2$も大きくなるため、$W_j$は単位ベクトル、つまり $$ \|W_j\|^2 = W_j^\top W_j = 1 $$ とする。


結果、解きたい問題は
$$
\underset{W_j}{\text{argmax}}\quad W_j^\top S W_j \quad \text{subject to}\quad  W_j^\top W_j = 1
$$

これをラグランジュの未定乗数法を用いて解くことを考える。ラグランジュ関数は以下のようになる。
$$
\begin{align*}
\mathcal{L}(W_j, \lambda) &= W_j^\top S W_j - \lambda (W_j^\top W_j - 1) \\
\end{align*}
$$

これを$W_j$で微分すれば、
$$
\begin{align*}
\frac{\partial \mathcal{L}}{\partial W_j} &= 2 S W_j - 2 \lambda W_j
\end{align*}

したがって、以下を満たすときに極値をとる。
$$
S W_j = \lambda W_j
$$

したがって、$W_j$は$S$の固有ベクトルであり、$\lambda$は対応する固有値である。  
また、$s_j^2$は、以下のように書き換えられる。
$$
\begin{align*}
s_j^2 &= W_j^\top S W_j \\
&= W_j^\top \lambda W_j \\
&= \lambda W_j^\top W_j \\
&= \lambda
\end{align*}
$$

結果、PCAで$d'$次元の次元圧縮を行う場合は、固有値が大きい$d'$個の$S$の固有ベクトルを並べれば良い。

## (参考) 固有ベクトルは固有値分解で求められる



行列 $A \in \mathbb{R}^{d\times d}$ の固有値分解は、直交行列$V$を用いて以下のように表される。
$$
A = V \Lambda V^\top
$$


ここで、
$$
\Lambda = \text{diag}(\lambda_1, \lambda_2, \ldots, \lambda_d)
$$
$$
V = \begin{bmatrix}
v_1 & v_2 & \cdots & v_d
\end{bmatrix}
$$
と表すと、以下のように変形できる。
$$
\begin{align*}
A &= V \Lambda V^\top\\
&= 
\begin{bmatrix}
v_1 & v_2 & \cdots & v_d
\end{bmatrix}
\begin{bmatrix}
\lambda_1 v_1 \\
\lambda_2 v_2 \\
\vdots \\
\lambda_d v_d
\end{bmatrix} \\
&= \sum_{i=1}^{d} \lambda_i v_i v_i^\top
\end{align*}
$$


両辺に右から$v_j$を掛けると、
$$
\begin{align*}
A v_j &= \sum_{i=1}^{d} \lambda_i v_i v_i^\top v_j \\
\end{align*}
$$
$V$の直交性より、$v_i^\top v_j = 0$ ($i \neq j$) であるため、
$$
\begin{align*}
A v_j &= \lambda_j v_j \\
\end{align*}
$$

したがって、$v_j$は$A$の固有ベクトルであり、$\lambda_j$は対応する固有値である。

## $X$の特異値分解 (SVD) で求める
-> [10d_example.ipynb](10d_example.ipynb), [torch_svd.ipynb](torch_svd.ipynb)

$S$ は $d\times d$ の行列である。  
以下が成り立つため、実装上は$X$の右特異ベクトルを求めれば良い。


$$
\begin{align*}
S &= \frac{1}{n} X^{c\top} X^c \\
&= \frac{1}{n} \left(U\Sigma V^{\top}\right)^\top \left(U\Sigma V^{\top}\right) \\
&= \frac{1}{n} V\Sigma U^{\top} U\Sigma V^{\top} \\
&= \frac{1}{n} V\Sigma^{2} V^{\top} \\
&= V \left(\frac{\Sigma^{2}}{n} \right) V^{\top} \\
\end{align*}
$$

# サンプリング確率 + 重複なしサンプリング
-> [weighted_pca.ipynb](weighted_pca.ipynb)


### 中心化

通常のPCAでは、平均を引くことで中心化が行われる。
$$
X^c_i = X_i - \frac{1}{n} \sum_{k=1}^{n} X_k
$$
ここで、データの重複を考えて、$n'$ 種類のデータが観測されたとする。
また、$Z_i$ は $c_i$ 回観測されたとする。
結果、以下のように中心化すれば良い。
$$
\begin{align*}
X^c_i 
&= X_i - \frac{1}{n} \sum_{k=1}^{n'} c_k Z_k\\
&= X_i - \sum_{k=1}^{n'} \frac{c_k}{n} Z_k
\end{align*}
$$

### 分散

$$
\begin{align*}
s_j^2 
&= W_j^\top\left(\frac{1}{n}\sum_{i=1}^{n}(X_i^c)^\top(X_i^c)\right)W_j\\
&= W_j^\top\left(\sum_{i=1}^{n}\frac{1}{n}(X_i^c)^\top(X_i^c)\right)W_j\\
&= W_j^\top\left(\sum_{i=k}^{n'}\frac{c_k}{n}(Z_k^c)^\top(Z_k^c)\right)W_j\\
&= W_j^\top\left(\sum_{i=k}^{n'}\left(\sqrt{\frac{c_k}{n}}Z_k^c\right)^\top\left(\sqrt{\frac{c_k}{n}}Z_k^c\right)\right)W_j\\
&= W_j^\top S W_j \\
\end{align*}
$$

通常のPCAと同様に考えれば、$\sqrt{\frac{c_k}{n}}Z_k^c$の右特異ベクトルを求めれば良いことがわかる。

## Randomized SVD

大きな行列をSVDするときに効率の良い確率的な手法。
-> [randomized_svd.ipynb](randomized_svd.ipynb)