# 第5章　次元削減でデータを圧縮する
***

## ※前章までの復習（過学習と次元削減について）

**過学習**：モデルがトレーニングデータに適合されすぎて、テストデータに適合しない現象（＝バリアンスが高い）  
　 ※原因→モデルが複雑すぎる  
  これを解消する方法の一つが**次元削減**（特徴量の個数を減らすこと）である。
  
次元削減は、**特徴選択**と**特徴選択**の2つのカテゴリに分けられる。
- 特徴選択：元の特徴量の一部を選択する（第4章で学習）  
- 特徴抽出：いくつかの特徴量から新しい特徴部分空間を生成する（今回の内容）

## 5.1 主成分分析による教師なし次元削減
***

### 準備

In [2]:
#基本モジュールのインポート
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [3]:
#ワインのデータセットを読み込む
df_wine = pd.read_csv('wine.data', header=None)
df_wine.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


In [4]:
#トレーニングデータとテストデータに分割する
from sklearn.model_selection import train_test_split

X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=0)

In [5]:
#分割の確認
print("X_train:", X_train.shape)
print("X_test:", X_test.shape)
print("y_train:", y_train.shape)
print("y_test:", y_test.shape)

X_train: (124, 13)
X_test: (54, 13)
y_train: (124,)
y_test: (54,)


In [6]:
#標準化
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train_std = sc.fit_transform(X_train)
X_test_std = sc.transform(X_test)

In [7]:
#標準化の確認
print("X_train_stdの平均:", X_train_std.mean())
print("X_train_stdの分散:", X_train_std.var())
print("X_test_stdの平均値:", X_test_std.mean())
print("X_test_stdの平均値:", X_test_std.var())

X_train_stdの平均: 9.124215031162576e-16
X_train_stdの分散: 1.0
X_test_stdの平均値: -0.1069546160401124
X_test_stdの平均値: 0.9748057724164034


### ※scikit-learnでやると超一瞬！！
何次元に落とすかを決めるだけ

In [8]:
#モジュールのインポート
from sklearn.decomposition import PCA

#インスタンス化
pca = PCA(n_components = 2)  #引数に主成分数（落としたい次元）を入力

#PCAの実行
X_train_pca = pca.fit_transform(X_train_std)
X_test_pca = pca.transform(X_test_std)

#次元が下がっていることの確認
print("X_train_pca:", X_train_pca.shape)
print("X_test_pca:", X_test_pca.shape)

X_train_pca: (124, 2)
X_test_pca: (54, 2)


13列が2列に、即ち13次元の特徴量が2次元に下がったことが確認できた。

#### ※.fit_transform()と.transform()の違いは？？ 
- `.fit()`では計算のみが行われる（変換するための行列の値が決まる）`.transfom()`で実際に変換される（新しい空間に変わる）`.fit_transform()`はそれを連続で行うもの。  
- テストデータで`.fit_transform()`を行ってしまうと、テストデータをもとに得られた行列をもとに変換が行われてしまう（トレーニングデータの変換とは異なってしまう）ため、`.transfom()`で行っている。  
参照：https://twdlab.hatenablog.com/entry/2019/04/11/181329  

In [9]:
#ペアプロットで確認
#sns.pairplot(df_wine.iloc[:, 1:])

### ここから、どのように次元の方向を決めているかの話

#### Step.1 共分散行列を求める  
特徴量がn個ならば、共分散行列はn×nの正方行列になる。  

In [16]:
#共分散行列を作成
cov_mat = np.cov(X_train_std.T)
print(cov_mat)

[[ 1.008  0.067  0.174 -0.354  0.264  0.291  0.218 -0.081  0.104  0.543
   0.059 -0.018  0.642]
 [ 0.067  1.008  0.083  0.264 -0.113 -0.337 -0.41   0.337 -0.216  0.175
  -0.552 -0.406 -0.241]
 [ 0.174  0.083  1.008  0.464  0.291  0.18   0.155  0.159 -0.007  0.205
   0.007  0.02   0.223]
 [-0.354  0.264  0.464  1.008 -0.074 -0.281 -0.314  0.316 -0.246 -0.089
  -0.226 -0.168 -0.464]
 [ 0.264 -0.113  0.291 -0.074  1.008  0.257  0.21  -0.26   0.196  0.206
   0.134  0.066  0.418]
 [ 0.291 -0.337  0.18  -0.281  0.257  1.008  0.871 -0.45   0.623 -0.057
   0.507  0.72   0.53 ]
 [ 0.218 -0.41   0.155 -0.314  0.21   0.871  1.008 -0.548  0.648 -0.159
   0.604  0.793  0.528]
 [-0.081  0.337  0.159  0.316 -0.26  -0.45  -0.548  1.008 -0.4    0.198
  -0.366 -0.576 -0.341]
 [ 0.104 -0.216 -0.007 -0.246  0.196  0.623  0.648 -0.4    1.008 -0.003
   0.32   0.506  0.33 ]
 [ 0.543  0.175  0.205 -0.089  0.206 -0.057 -0.159  0.198 -0.003  1.008
  -0.458 -0.467  0.322]
 [ 0.059 -0.552  0.007 -0.226  0.134  0.

※事前に標準化を行っているため、この共分散行列は実は相関係数行列になっている。

In [11]:
#共分散行列の固有値・固有ベクトルを求める
eigen_vals, eigen_vecs = np.linalg.eig(cov_mat)
eigen_vals

array([4.84274532, 2.41602459, 1.54845825, 0.96120438, 0.84166161,
       0.6620634 , 0.51828472, 0.34650377, 0.3131368 , 0.10754642,
       0.21357215, 0.15362835, 0.1808613 ])

In [12]:
#(固有値,固有ベクトル)のタプルのリストを作る
eigen_pairs = [(np.abs(eigen_vals[i]), eigen_vecs[:, i]) for i in range(len(eigen_vals))]

#大きいものから順に並び変え
eigen_pairs.sort(key=lambda k: k[0], reverse=True)
#eigen_pairs

※`np.abs()`は引数の絶対値をとるメソッド

In [13]:
#射影行列ｗを求める
w = np.hstack((eigen_pairs[0][1][:, np.newaxis], eigen_pairs[1][1][:, np.newaxis]))
w.shape

(13, 2)

※`np.newaxis`は新たな軸を生成する定数

In [14]:
#PCA部分空間に変換する
X_train_pca2 = X_train_std.dot(w)
X_train_pca2

array([[ 2.38299011,  0.45458499],
       [-1.96578183,  1.65376939],
       [-2.53907598,  1.02909066],
       [-1.43010776,  0.6024011 ],
       [ 3.14147227,  0.66214979],
       [ 0.50253552, -2.08907131],
       [ 0.04867722, -2.27536044],
       [ 2.47888989, -0.08603318],
       [ 2.01900259, -1.3538719 ],
       [ 0.75156583, -2.55367947],
       [ 0.72268915, -1.18404391],
       [-3.00366211,  0.94626934],
       [ 2.57518878, -1.0697549 ],
       [ 3.73151104,  1.01968876],
       [-1.12276518,  0.13877   ],
       [ 2.85996853,  2.28819559],
       [-0.74717125, -3.21746061],
       [-1.58427878,  0.16048055],
       [ 3.38887101,  2.11550689],
       [ 3.15405473,  0.54233966],
       [-1.28036506, -1.72926871],
       [-1.71438911,  0.71745249],
       [-1.55040291, -1.7580591 ],
       [ 1.10984489, -1.20480693],
       [-0.69108418, -1.71385374],
       [-2.086036  , -1.68453671],
       [ 2.90393456,  1.95258805],
       [-2.07635784,  1.47183304],
       [-1.74756185,

In [15]:
X_train_pca

array([[ 2.38299011,  0.45458499],
       [-1.96578183,  1.65376939],
       [-2.53907598,  1.02909066],
       [-1.43010776,  0.6024011 ],
       [ 3.14147227,  0.66214979],
       [ 0.50253552, -2.08907131],
       [ 0.04867722, -2.27536044],
       [ 2.47888989, -0.08603318],
       [ 2.01900259, -1.3538719 ],
       [ 0.75156583, -2.55367947],
       [ 0.72268915, -1.18404391],
       [-3.00366211,  0.94626934],
       [ 2.57518878, -1.0697549 ],
       [ 3.73151104,  1.01968876],
       [-1.12276518,  0.13877   ],
       [ 2.85996853,  2.28819559],
       [-0.74717125, -3.21746061],
       [-1.58427878,  0.16048055],
       [ 3.38887101,  2.11550689],
       [ 3.15405473,  0.54233966],
       [-1.28036506, -1.72926871],
       [-1.71438911,  0.71745249],
       [-1.55040291, -1.7580591 ],
       [ 1.10984489, -1.20480693],
       [-0.69108418, -1.71385374],
       [-2.086036  , -1.68453671],
       [ 2.90393456,  1.95258805],
       [-2.07635784,  1.47183304],
       [-1.74756185,

scikit-learnで求めた値（X_train_pca）と一致した。

## 5.2 線形判別分析による教師ありデータ圧縮
***