# 次元削除

## PCA
`PCA`(主成分分析)は群を抜いてよく使われる次元削除アルゴリズムである。

In [2]:
import numpy as np
import matplotlib.pyplot as plt

## 主成分
PCAは訓練セットの分散を最大限に維持する軸を見つける。訓練セットから主成分を見つけるにはどうすればいいのか。
訓練セット行列$X$を$U \cdot \sum \cdot V^t$の３行列のドット積に分解出来る`特異値分解`という行列分解テクニックがある

$
\mathbf{V} =
\begin{pmatrix}
  \mid & \mid & & \mid \\
  \mathbf{c_1} & \mathbf{c_2} & \cdots & \mathbf{c_n} \\
  \mid & \mid & & \mid
\end{pmatrix}
$

In [3]:
# 三次元のデータを作成する
np.random.seed(4)
m = 60
w1, w2 = 0.1, 0.3
noise = 0.1

angles = np.random.rand(m) * 3 * np.pi / 2 - 0.5
X = np.empty((m, 3))
X[:, 0] = np.cos(angles) + np.sin(angles)/2 + noise * np.random.randn(m) / 2
X[:, 1] = np.sin(angles) * 0.7 + noise * np.random.randn(m) / 2
X[:, 2] = X[:, 0] * w1 + X[:, 1] * w2 + noise * np.random.randn(m)

In [4]:
X[0]

array([-1.01570027, -0.55091331, -0.26132626])

In [5]:
X_cesntered = X - X.mean(axis=0)
U, s, Vt = np.linalg.svd(X_cesntered)

c1 = Vt.T[:, 0]
c2 = Vt.T[:, 1]

### 低次のd次元への射影
全ての主成分が見つかったら、最初のd次元の成分が定義する平面に射影すれば、データセットをd次元に削減できる。  
訓練セットを平面に射影するには、訓練セット行列$X$と最初のd個の主成分によって定義される行列$W_d$のドット積を計算すれば良い。

In [7]:
w2 = Vt.T[:, :2]
X2D = X_cesntered.dot(w2)

In [9]:
X2D[0]

array([-1.26203346, -0.42067648])