# 事例5：NumPyによる主成分分析（PCA）の実装と検証

## 目的

本事例では、NumPyのみを用いて主成分分析（PCA）を実装し、
主成分・主成分スコア・寄与率が線形代数の定義どおりに得られることを確認する。

## 目次

1. データ仕様

   1.1 生成モデル

   1.2 パラメータ設定

2. 手法

   2.1 中心化

   2.2 共分散行列

   2.3 固有値分解

3. 出力

4. スコープ外

## 1. データ仕様

本事例で用いる合成データの生成モデルと、そのパラメータ設定を示す。

### 1.1 生成モデル

本事例では、潜在因子を用いた線形生成モデルにより合成データを作成する。
まず、平均0・分散1の正規分布に従う潜在因子行列
$Z \in \mathbb{R}^{n \times k}$
を生成する。
次に、混合行列
$W \in \mathbb{R}^{k \times d}$
によって潜在因子を観測空間へ線形変換し、ノイズ行列
$E \in \mathbb{R}^{n \times d}$
を加算することで、観測データ
$X \in \mathbb{R}^{n \times d}$
を次式で定義する。

$$
X = ZW + E
$$




### 1.2 パラメータ設定

本事例で用いるパラメータは以下のとおりである。

- サンプル数：$n = 500$
- 観測次元：$d = 5$
- 潜在因子数：$k = 2$
- ノイズ強度：$\sigma = 0.3$
- 乱数シード：$42$


## 2. 手法

本事例では、主成分分析（PCA）を 定義に基づく数値計算手順として実装する。
可視化・解釈・既存ライブラリとの比較は行わず、
中心化 → 共分散行列 → 固有値分解、の各操作が 数式どおり NumPy 上で対応していることのみを目的とする。

以下では、各ステップを数式と実装単位で対応づけて記述する。

### 2.1中心化

$$
X \in \mathbb{R}^{n \times d}
$$

$$
\mu = \frac{1}{n} \sum_{i=1}^{n} X_i
$$

$$
X_c = X - \mu
$$

入力データを列方向に中心化し、
以降の共分散行列計算に用いる。

### 2.2共分散行列

$$
\Sigma = \frac{1}{n} X_c^{\top} X_c
$$


中心化データに基づき、
共分散行列を定義する。

### 2.3 固有値分解

$$
\Sigma v_j = \lambda_j v_j
$$

共分散行列を固有値分解し、
固有値と固有ベクトルの組を得る。

以降では、固有値の大きい順に並べた固有ベクトルを
主成分として用いる。

## 3.出力

本節では、前節で定義した各量が NumPy 実装の出力として
正しく対応していることを確認する。

以下では、出力の型・shape・対応関係のみを扱い、
数値の解釈や可視化は行わない。

pca(X) は、PCA における各定義量を辞書形式で返す。
各出力は前節の数式と一対一で対応している。

{
    "mean": μ,
    "eigvals": λ,
    "components": V,
    "scores": T,
    "explained_ratio": r
}


mean             : (1, d)
eigvals          : (d,)
components       : (d, d)
scores            : (n, d)
explained_ratio  : (d,)


対応関係は以下のとおり。

- `mean`
  中心化に用いた平均ベクトル

- `eigvals`
  共分散行列の固有値（主成分の分散）

- `components`
  固有ベクトルを列に並べた行列（主成分軸）

- `scores`
  中心化データを主成分軸へ射影した値

- `explained_ratio`
  固有値の正規化（寄与率）

以上により、PCA の定義量が NumPy 実装の出力として
過不足なく対応していることを確認できる。

## 4.スコープ外

本事例では、以下の内容は扱わない。

- 可視化（散布図、主成分空間での表示など）

- 主成分の解釈（寄与の意味づけ、特徴量重要度の議論など）

- scikit-learn 等の既存実装との比較・検証

- 前処理（標準化、欠損処理、外れ値処理など）

- 次元削減の適用判断やモデル選択（k の選択など）