# 次元削減でデータを圧縮する
- 特徴選択に代わる次元削減のもう一つの方法は、特徴抽出である。
- 特徴抽出では、データを変換し、元の次元よりも低い次元の新しい特徴部分空間を作成するものである。
- 紹介されるの以下の３つ

１．教師なしデータ圧縮での主成分分析
２．クラスの分離を最大化する教師あり次元削減法としての線形判別分析
３．カーネル主成分分析による非線形次元削減

# 5.1 主成分分析(PCA)による教師なし削減
- 特徴抽出では、データが新しい特徴空間に変換または射影される。次元削減では、データに含まれる情報の大部分を維持することを目標としたデータ圧縮の手段として捉えられる。
- 一般に特徴抽出は計算効率を改善するために使用される。
- PCAは特徴量同士の相関関係に基づいてデータからパターンを抽出するのに役立つ。
- PCAの目的は、高次元データにおいて分散が最大となる方向を見つけ出し、元の次元と同じか低い次元の新しい部分空間へ射影することである。
- 新しい特徴量軸が互いに直行するという制約があるとすれば、新しい部分空間の直行軸（主成分）を分散が最大となる方向とみなすことができる。
- PCAを次元削減に使用する場合はd×k次元の変換行列$\vec{W}$を作成する。これにより、サンプルベクトル$\vec{x}$を、新しいk次元の特徴部分空間に写像できる
$$ \vec{x} = [x_{1},x_{2},\cdots,x_{d}], \, \vec{x} \in \mathbb{R}^{d}$$
$$↓\vec{x} \vec{W} , \, \vec{W} \in \mathbb{R}^{d \times k}$$
$$\vec{z} = [z_{1},z_{2},\cdots,z_{k}], \, \vec{z} \in \mathbb{R}^{k}$$

- 元のd次元のデータを新しいk次元の部分空間に変換すると、最初の主成分の分散は最大となる
- PCAの方向はデータセットのスケーリングに対して非常に敏感であるので、標準化すること。
- PCAアルゴリズムのスッテプは以下の通り。

１．d次元のデータ・セットを標準化する

２．標準化したデータセットの共分散行列を作成する

３．共分散行列を固有ベクトルと固有値に分解する

４．最っとも大きいk個の固有値に対応するk個の固有ベクトルを選択する。この場合のkは新しい特徴部分空間の次元数を表す($k \le d$)

５．上位k個の固有ベクトルから射影行列Wを作成する

６．射影行列$\vec{W}$を使ってd次元の入力データ・セット$\vec{X}$を変換し、新しいk次元の特徴部分空間を取得する。

# 5.1.1 共分散行列の固有対を求める。
- はじめの4ステップを実行する

In [2]:
import pandas as pd
df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data',header=None)

from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import StandardScaler

#2列目以降のデータをXに、１列目のデータをyに格納
X,y = df_wine.iloc[:,1:].values,df_wine.iloc[:,0].values
#トレーニングデータとテストデータに分割
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=0)
#標準化
sc = StandardScaler()
X_train_std = sc.fit_transform(X_train)
X_test_std = sc.transform(X_test)

- d×d次元の共分散行列は、特徴量のペアごとの共分散を保持する。
$$\sigma_{jk} = \frac{1}{n} \sum^{n}_{i=1} (x^{(i)}_{j} - \mu_{j})(x^{(i)}_{k} - \mu_{k})$$
- ２つの特徴量の間の共分散が正の場合は、それらの特徴量がともに増加または減少することを表し、負の場合は、それらの特徴量が反対方向に変化することを表す。
$$\Sigma = \begin{bmatrix} \sigma^{2}_{1} & \sigma^{2}_{12} & \sigma^{2}_{13} \\ \sigma^{2}_{21} & \sigma^{2}_{2} & \sigma^{2}_{23} \\ \sigma^{2}_{31} & \sigma^{2}_{32} & \sigma^{2}_{3} \end{bmatrix} $$

- 共分散行列の固有ベクトルが主成分（分散が最大となる方向を表すのに対して、対応する固有値はそれらの大きさを定義する。
- wineデータセットの場合は、13×13の共分散行列から13個の固有値ベクトルと固有値が得られる
- 固有ベクトル$\vec{\nu}$は以下の条件を満たす
$$\Sigma \vec{\nu} = \lambda \vec{\nu}$$

- $\lambda$はスカラー（固有値）である。

In [4]:
import numpy as np
#共分散行列を作成
cov_mat = np.cov(X_train_std.T)
eigen_vals,eigen_vecs = np.linalg.eig(cov_mat)
print '\nEigenvalues \n%s' %eigen_vals


Eigenvalues 
[ 4.8923083   2.46635032  1.42809973  1.01233462  0.84906459  0.60181514
  0.52251546  0.33051429  0.08414846  0.29595018  0.16831254  0.21432212
  0.2399553 ]
