#### 第５章　次元削減でデータ圧縮
主成分分析による`教師なし次元削減`

In [2]:
import pandas as pd
df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None)
df_wine


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,1,14.23,1.71,2.43,15.6,127,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.20,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050
2,1,13.16,2.36,2.67,18.6,101,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.50,16.8,113,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,3,13.71,5.65,2.45,20.5,95,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740
174,3,13.40,3.91,2.48,23.0,102,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750
175,3,13.27,4.28,2.26,20.0,120,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835
176,3,13.17,2.59,2.37,20.0,120,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840


In [3]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
# 1-13列目をXに、1列目をyに格納
X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 1].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

sc = StandardScaler()
X_train_std = sc.fit_transform(X_train) # 訓練データの標準化
X_test_std = sc.transform(X_test) # テストデータの標準化


####  主成分分析
ここから主成分分析に入っていく。主成分分析は、高次元データにおいて、`データの分散が最大となる方向`を見つけ出し、その方向にデータを射影することで、データの次元を削減する手法である。1つめの主成分は最大の分散を持ち、２つ目の主成分は1つ目の主成分と直交し、最大の分散を持つ方向を見つけ出す。これを繰り返していくことで、データの次元を削減することができる。分散が最大になる方向を見つけるのは、より多くの情報を保持することができるからである。このような手法を`教師なし次元削減`と呼ぶ。

これを見つけるには、`共分散行列`を作成する必要がある。共分散行列は、全通りの特徴量の組み合わせで共分散を作成した行列である。１３個の特徴量であれば13x13の行列になる。

この共分散行列の固有ベクトルと固有値を求める。固有ベクトルは、その行列が表す線形変換において、方向を変えずに拡大または縮小される方向を表す。つまり、固有ベクトルはデータをよく表す方向を表す。この固有ベクトルに対してデータを射影することで、データがその方向にどれだけ広がっているかがわかる。`固有値が大きいほど、その方向にデータが広がっている`ことを意味する。この固有ベクトルと固有値を求めることで、`データの分散が最大となる方向`を見つけることができる。

一般に主成分分析では、固有値が大きいものが主成分として選ばれることが多い。

In [4]:
import numpy as np
cov_mat = np.cov(X_train_std.T) # 共分散行列 .Tは転置 転置は行列の行と列を入れ替える
eigen_vals, eigen_vecs = np.linalg.eig(cov_mat) # 固有値と固有ベクトルを計算
print('\nEigenvalues \n%s' % eigen_vals)


Eigenvalues 
[4.8923083  2.46635032 1.42809973 1.01233462 0.84906459 0.60181514
 0.52251546 0.08414846 0.33051429 0.29595018 0.16831254 0.21432212
 0.2399553 ]
