https://www.youtube.com/watch?v=Wp8YtVPF1cM&list=PLhDAH9aTfnxKfmufxF59vaZECZJD5j6rd&index=16

## 主成分と固有ベクトルの関係

主成分分析（PCA：Principal Component Analysis）は、多次元データを低次元に圧縮し、データの特徴を抽出するための手法です。主成分分析の中心にあるのが「主成分」と「固有ベクトル」の関係です。

### 主成分分析の基本的な手順

1. **データの中心化**：
   データセットの各変数の平均を0にします。これは、各データポイントからその平均値を引くことによって行われます。

2. **共分散行列の計算**：
   中心化したデータの共分散行列を計算します。共分散行列はデータの変数間の共分散を表す対称行列です。

3. **固有値と固有ベクトルの計算**：
   共分散行列の固有値（eigenvalue）と固有ベクトル（eigenvector）を計算します。固有値と固有ベクトルは、以下の固有方程式を解くことで得られます：
   $$
   \mathbf{C} \mathbf{v} = \lambda \mathbf{v}
   $$
   ここで、$\mathbf{C}$ は共分散行列、$\mathbf{v}$ は固有ベクトル、$\lambda$ は固有値です。

4. **主成分の選択**：
   固有値が大きい順に固有ベクトルを並べ、その順に対応する固有ベクトルが主成分を表します。主成分は、データの分散を最大化する方向を示します。

### 主成分と固有ベクトルの関係

- **固有ベクトル**：
  固有ベクトルは共分散行列の固有ベクトルであり、データの主成分の方向を示します。各固有ベクトルはデータの次元を表し、主成分空間での新しい基底（軸）を提供します。

- **固有値**：
  各固有ベクトルに対応する固有値は、その固有ベクトルが示す方向に沿ったデータの分散の大きさを表します。固有値が大きいほど、その方向がデータの分散を多く説明します。

### 例：Pythonでの主成分分析

以下に、Pythonで主成分分析を実行し、主成分と固有ベクトルの関係を確認する例を示します。



このコードでは、次のことを行っています：

1. ダミーデータを作成し、標準化します。
2. PCAを実行し、主成分（固有ベクトル）とそれに対応する固有値を取得します。

### 結果の解釈

- **固有ベクトル**（主成分）は、新しい次元（基底）を表し、データの分散を最大化する方向を示します。
- **固有値**は、それぞれの主成分がどれだけの分散を説明しているかを示します。

In [1]:
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA

# ダミーデータの作成
np.random.seed(0)
data = pd.DataFrame({
    '変数1': np.random.rand(100),
    '変数2': np.random.rand(100),
    '変数3': np.random.rand(100)
})

# データの標準化
data_standardized = (data - data.mean()) / data.std()

# 主成分分析の実行
pca = PCA()
pca.fit(data_standardized)

# 固有ベクトル（主成分）と固有値の取得
eigenvectors = pca.components_
eigenvalues = pca.explained_variance_

# 結果の表示
print("固有ベクトル（主成分）：")
print(eigenvectors)
print("\n固有値：")
print(eigenvalues)

固有ベクトル（主成分）：
[[-0.1912177   0.73187406 -0.65406128]
 [ 0.8866293  -0.15708688 -0.43498529]
 [ 0.4210989   0.66308678  0.61886319]]

固有値：
[1.12813043 1.02962554 0.84224404]


## 寄与率について

主成分分析（PCA）における寄与率（contribution rate, explained variance ratio）は、各主成分が全体のデータ分散に対してどれだけ寄与しているかを示す指標です。これは、主成分分析の結果として得られる固有値を用いて計算されます。

### 寄与率の計算

各主成分の寄与率は、その主成分に対応する固有値を全固有値の合計で割ったものです。具体的には、次の式で表されます：

$$
\text{寄与率} = \frac{\lambda_i}{\sum_{j=1}^{p} \lambda_j}
$$

ここで、
- $\lambda_i$ は第 $i$ 主成分に対応する固有値
- $p$ は全主成分の数

### 累積寄与率

累積寄与率は、複数の主成分が全体のデータ分散に対してどれだけ寄与しているかを累積して示す指標です。第 $k$ 主成分までの累積寄与率は次の式で計算されます：

$$
\text{累積寄与率} = \sum_{i=1}^{k} \frac{\lambda_i}{\sum_{j=1}^{p} \lambda_j}
$$

### Pythonでの寄与率の計算

以下に、Pythonを用いて主成分分析を実行し、寄与率および累積寄与率を計算する例を示します。



### 結果の解釈

実行すると、次のような出力が得られます：

```
固有値：
[1.67638005 1.0113335  0.31228645]

寄与率：
[0.55879335 0.3364445  0.10476215]

累積寄与率：
[0.55879335 0.89523785 1.        ]
```

この結果から、次のことが分かります：

1. 最初の主成分は全体の分散の約55.88%を説明しています。
2. 二番目の主成分は全体の分散の約33.64%を説明しています。
3. 三番目の主成分は全体の分散の約10.48%を説明しています。
4. 最初の二つの主成分だけで全体の分散の約89.52%を説明できることが分かります。

このように、寄与率と累積寄与率を用いることで、どの主成分がデータの分散に対してどれだけ重要かを評価し、次元削減の判断材料とすることができます。

In [2]:
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA

# ダミーデータの作成
np.random.seed(0)
data = pd.DataFrame({
    '変数1': np.random.rand(100),
    '変数2': np.random.rand(100),
    '変数3': np.random.rand(100)
})

# データの標準化
data_standardized = (data - data.mean()) / data.std()

# 主成分分析の実行
pca = PCA()
pca.fit(data_standardized)

# 固有値の取得
eigenvalues = pca.explained_variance_

# 寄与率の計算
explained_variance_ratio = pca.explained_variance_ratio_

# 累積寄与率の計算
cumulative_explained_variance_ratio = np.cumsum(explained_variance_ratio)

# 結果の表示
print("固有値：")
print(eigenvalues)
print("\n寄与率：")
print(explained_variance_ratio)
print("\n累積寄与率：")
print(cumulative_explained_variance_ratio)

固有値：
[1.12813043 1.02962554 0.84224404]

寄与率：
[0.37604348 0.34320851 0.28074801]

累積寄与率：
[0.37604348 0.71925199 1.        ]


## スペクトル分解と特異値分解について

スペクトル分解（Spectral Decomposition）と特異値分解（Singular Value Decomposition, SVD）は、行列を分解するための非常に重要な手法です。それぞれの分解方法について詳しく説明します。

### スペクトル分解

スペクトル分解は、特に正方行列の固有値分解（eigenvalue decomposition）としても知られています。これは、対称行列を固有値と固有ベクトルに分解する方法です。

#### 対称行列のスペクトル分解

任意の対称行列 $\mathbf{A}$ は、次のように分解できます：

$$
\mathbf{A} = \mathbf{Q} \mathbf{\Lambda} \mathbf{Q}^T
$$

ここで、
- $\mathbf{A}$ は $n \times n$ の対称行列
- $\mathbf{Q}$ は $\mathbf{A}$ の固有ベクトルを列に持つ正規直交行列
- $\mathbf{\Lambda}$ は $\mathbf{A}$ の固有値を対角成分に持つ対角行列

スペクトル分解を利用することで、行列の対角化や各種行列関数の計算が容易になります。

### 特異値分解

特異値分解（SVD）は、任意の行列を特異値と特異ベクトルに分解する方法です。これは、特に非正方行列にも適用可能であり、データ解析や機械学習で広く使用されています。

#### 任意行列の特異値分解

任意の $m \times n$ 行列 $\mathbf{A}$ は、次のように分解できます：

$$
\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^T
$$

ここで、
- $\mathbf{U}$ は $m \times m$ の直交行列（左特異ベクトル）
- $\mathbf{\Sigma}$ は $m \times n$ の対角行列（特異値を対角成分に持つ）
- $\mathbf{V}$ は $n \times n$ の直交行列（右特異ベクトル）

特異値分解は、データの次元削減（例えば、主成分分析）、行列の近似、ノイズ除去などに利用されます。

### Pythonでの実装例

以下に、Pythonを使用してスペクトル分解と特異値分解を実行する例を示します。



### 結果の解釈

- **スペクトル分解**では、行列 $A$ の固有値と固有ベクトルを取得します。固有値は対角行列 $\Lambda$ の対角成分であり、固有ベクトルは行列 $\mathbf{Q}$ の列です。
  
- **特異値分解**では、行列 $A$ を特異値と特異ベクトルに分解します。$U$ は左特異ベクトル、$\Sigma$ は特異値を含む対角行列、$V^T$ は右特異ベクトルです。

このように、スペクトル分解と特異値分解は、行列の特性を解析する強力なツールであり、さまざまな応用が可能です。

In [4]:

import numpy as np

# 対称行列の定義
A = np.array([[4, 1], [1, 3]])

# 固有値と固有ベクトルの計算
eigenvalues, eigenvectors = np.linalg.eigh(A)

# 結果の表示
print("固有値：")
print(eigenvalues)
print("\n固有ベクトル：")
print(eigenvectors)

#### 特異値分解

import numpy as np

# 任意の行列の定義
A = np.array([[1, 2], [3, 4], [5, 6]])

# 特異値分解の実行
U, Sigma, Vt = np.linalg.svd(A)

# 結果の表示
print("U行列：")
print(U)
print("\n特異値：")
print(Sigma)
print("\nV^T行列：")
print(Vt)

固有値：
[2.38196601 4.61803399]

固有ベクトル：
[[ 0.52573111 -0.85065081]
 [-0.85065081 -0.52573111]]
U行列：
[[-0.2298477   0.88346102  0.40824829]
 [-0.52474482  0.24078249 -0.81649658]
 [-0.81964194 -0.40189603  0.40824829]]

特異値：
[9.52551809 0.51430058]

V^T行列：
[[-0.61962948 -0.78489445]
 [-0.78489445  0.61962948]]
