In [2]:
import numpy as np

In [3]:
X_fea0 = np.array([1 for i in range(200)]).reshape(-1,1)
X_fea1 = np.array([1*i*np.random.normal(1,0.1) for i in range(200)]).reshape(-1,1)
X_fea2 = np.array([2*i*np.random.normal(0,5) for i in range(200)]).reshape(-1,1)
X_fea3 = np.array([3*i*np.random.normal(10,1) for i in range(200)]).reshape(-1,1)
X_fea4 = np.array([4*i*np.random.normal(2,0.01) for i in range(200)]).reshape(-1,1)
X_fea5 = np.array([5*i*np.random.normal(0,0.1) for i in range(200)]).reshape(-1,1)
X_fea6 = np.array([6*i*np.random.normal(50,5) for i in range(200)]).reshape(-1,1)
X_fea7 = np.array([7*i*np.random.normal(5,5) for i in range(200)]).reshape(-1,1)

# データセットを準備
X = np.concatenate([X_fea0,X_fea1,X_fea2,X_fea3,X_fea4,X_fea5,X_fea6,X_fea7],axis=1)
X_sklearn = np.concatenate([X_fea1,X_fea2,X_fea3,X_fea4,X_fea5,X_fea6,X_fea7],axis=1)

y = np.array([2*(i) for i in range(200)])

print(f'元のデータの特徴量数：{X_sklearn.shape[1]}')

元のデータの特徴量数：7


### PCAの理論




- PCAは元データの線形結合で得られる要約変数(=主成分, z)の分散を最大化する重みを算出する


$$
max \ \  \sigma_z^{2}\\
ただし、\sigma_z^{2} = \frac{1}{N} \sum_i^{n}{z_i^{2}} \ \ (zは標準化済み)
$$

$$
分散部分を式変形すると以下の形になる\\
\sigma_{z}^{2} = \textbf{u}^{T} \sigma^{2} \textbf{u}
$$

$$
ここで\\
\mathbf{\sum} = \sigma^{2},\ \ \  \mathbf{u^{T}u} = 1\\
と制約を与え、ラグランジュの未定乗数法で最適解を求める
$$

$$
\mathbf{L} = \mathbf{u^{T}\sum u} - \lambda(\mathbf{uu^{T}} - 1)\\
$$

$$
\frac{\partial{\mathbf{L}}}{\partial{\mathbf{u}}} = (\mathbf{\sum} + \mathbf{\sum}^{T})\mathbf{u} - 2\lambda\mathbf{u} = 0
$$

$$
\mathbf{\sum}は対称行列なので最終的に以下にまとめられる
$$

$$
\mathbf{\sum}\mathbf{u} = \lambda\mathbf{u}
$$

$$
上の式の形は、\mathbf{A}\mathbf{u} = \lambda\mathbf{u}であり、固有値問題と同じ形となる
$$

$$
つまりPCAは、\mathbf{\sum} \ (分散共分散行列)の固有値問題を解くことと同義である\\
また\mathbf{u}は固有ベクトルであり、各主成分のローディングである\\
そして\lambdaは各主成分の分散そのものであり、これを分散の総和で割ったものを寄与率と定義している
$$



In [4]:
# 1. データを標準化する

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

X_scale = scaler.fit_transform(X_sklearn)

In [5]:
# 2. 線形結合データ(主成分)の分散を最大化する重みを決定
# -> 線形結合で作成した軸に射影したデータの分散が最大となる重みを算出

# 分散共分散行列における固有値問題に帰結
VCM = (1/X_scale.shape[0])*(X_scale.T@X_scale)

# 固有値問題を解く
import numpy.linalg as LA
temp = LA.eig(VCM)

In [6]:
koyuti = temp[0]
koyuvector = temp[1]

In [7]:
# 寄与率 (各主成分の分散(固有値)を全主成分の分散の総和で除した値)
print(koyuti/koyuti.sum())

[0.61931277 0.16230742 0.12647368 0.07895635 0.00125031 0.00604229
 0.00565718]


In [8]:
print(koyuvector)

[[ 0.46932642 -0.05896343  0.06941437  0.13601069  0.3714657   0.63866715
  -0.45503436]
 [-0.11713737 -0.68533388  0.60521348 -0.38652358  0.00601296  0.0209294
  -0.0209354 ]
 [ 0.46816756 -0.08679644  0.08339896  0.1057887   0.18267948  0.11028305
   0.8423804 ]
 [ 0.47261574 -0.08794241  0.08170892  0.13476219 -0.85467788  0.02262643
  -0.11435499]
 [-0.01554773 -0.67800497 -0.73216727  0.06123999  0.00106693  0.01566739
   0.00129545]
 [ 0.46660867 -0.101213    0.07924899  0.14009802  0.31322875 -0.76063016
  -0.26354115]
 [ 0.32480712  0.20405513 -0.27003194 -0.88281976 -0.00419748 -0.01371918
  -0.01918417]]


In [9]:
# sklearnのPCAを実装

from sklearn.decomposition import PCA

pca = PCA()

results = pca.fit(X_scale)

print('各主成分のLoadingは以下')
print(pca.components_.T)

print()
print('主成分ごとの寄与率')
print(pca.explained_variance_ratio_)

# sklearnのPCAはSVDで行っているため、結果が少し異なる

各主成分のLoadingは以下
[[ 0.46932642 -0.05896343 -0.06941437  0.13601069  0.63866715  0.45503436
   0.3714657 ]
 [-0.11713737 -0.68533388 -0.60521348 -0.38652358  0.0209294   0.0209354
   0.00601296]
 [ 0.46816756 -0.08679644 -0.08339896  0.1057887   0.11028305 -0.8423804
   0.18267948]
 [ 0.47261574 -0.08794241 -0.08170892  0.13476219  0.02262643  0.11435499
  -0.85467788]
 [-0.01554773 -0.67800497  0.73216727  0.06123999  0.01566739 -0.00129545
   0.00106693]
 [ 0.46660867 -0.101213   -0.07924899  0.14009802 -0.76063016  0.26354115
   0.31322875]
 [ 0.32480712  0.20405513  0.27003194 -0.88281976 -0.01371918  0.01918417
  -0.00419748]]

主成分ごとの寄与率
[0.61931277 0.16230742 0.12647368 0.07895635 0.00604229 0.00565718
 0.00125031]
