# 次元削除

## PCA
`PCA`(主成分分析)は群を抜いてよく使われる次元削除アルゴリズムである。

In [15]:
import numpy as np
import matplotlib.pyplot as plt

## 主成分
PCAは訓練セットの分散を最大限に維持する軸を見つける。訓練セットから主成分を見つけるにはどうすればいいのか。
訓練セット行列$X$を$U \cdot \sum \cdot V^t$の３行列のドット積に分解出来る`特異値分解`という行列分解テクニックがある

$
\mathbf{V} =
\begin{pmatrix}
  \mid & \mid & & \mid \\
  \mathbf{c_1} & \mathbf{c_2} & \cdots & \mathbf{c_n} \\
  \mid & \mid & & \mid
\end{pmatrix}
$

In [16]:
# 三次元のデータを作成する
np.random.seed(4)
m = 60
w1, w2 = 0.1, 0.3
noise = 0.1

angles = np.random.rand(m) * 3 * np.pi / 2 - 0.5
X = np.empty((m, 3))
X[:, 0] = np.cos(angles) + np.sin(angles)/2 + noise * np.random.randn(m) / 2
X[:, 1] = np.sin(angles) * 0.7 + noise * np.random.randn(m) / 2
X[:, 2] = X[:, 0] * w1 + X[:, 1] * w2 + noise * np.random.randn(m)

In [17]:
X[0]

array([-1.01570027, -0.55091331, -0.26132626])

In [18]:
X_cesntered = X - X.mean(axis=0)
U, s, Vt = np.linalg.svd(X_cesntered)

c1 = Vt.T[:, 0]
c2 = Vt.T[:, 1]

### 低次のd次元への射影
全ての主成分が見つかったら、最初のd次元の成分が定義する平面に射影すれば、データセットをd次元に削減できる。  
訓練セットを平面に射影するには、訓練セット行列$X$と最初のd個の主成分によって定義される行列$W_d$のドット積を計算すれば良い。

In [19]:
w2 = Vt.T[:, :2]
X2D = X_cesntered.dot(w2)

In [20]:
X2D[:3]

array([[-1.26203346, -0.42067648],
       [ 0.08001485,  0.35272239],
       [-1.17545763, -0.36085729]])

### scikit-learnの使い方
scikit-learnを使用して次元を削減する

In [21]:
from sklearn.decomposition import PCA

In [22]:
pca = PCA(n_components=2)
X2D = pca.fit_transform(X)

In [23]:
X2D[:3]

array([[ 1.26203346,  0.42067648],
       [-0.08001485, -0.35272239],
       [ 1.17545763,  0.36085729]])

### 因子寄与率
`explained_varianced_variance_rate_`変数から得られる個々の主成分の因子寄与率も重要な情報である。

In [24]:
pca.explained_variance_ratio_

array([0.84248607, 0.14631839])

この値はデータセットの84.2%が第1軸に沿ったものであり、14.6%が第2軸にそったものだと表している。

### 適切な次数の選択
次数をいくつまで削減するかは、無作為に選ぶのではなく、各次元に沿った因子寄与率の合計が十分な割合になるような形を選ぶようにする。

In [25]:
from sklearn.datasets import fetch_mldata

In [26]:
mnist = fetch_mldata('MNIST original')

In [27]:
mnist

{'DESCR': 'mldata.org dataset: mnist-original',
 'COL_NAMES': ['label', 'data'],
 'target': array([0., 0., 0., ..., 9., 9., 9.]),
 'data': array([[0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        ...,
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 0, 0, 0]], dtype=uint8)}