## 正準判別分析について

正準判別分析（Canonical Discriminant Analysis, CDA）または線形判別分析（Linear Discriminant Analysis, LDA）は、多変量統計手法の一つで、複数のクラスにわたるデータセットを分類するために使用されます。LDAは、データセットを低次元の空間に変換し、異なるクラスを可能な限り分離することを目的としています。

### 基本的な考え方

正準判別分析の目標は、異なるクラス間の分離を最大化し、同じクラス内の分散を最小化することです。これにより、データを最適に分類する線形判別関数を見つけることができます。

### 手順

1. **クラスごとの平均ベクトルの計算**：
   各クラスの平均ベクトル $\mu_i$ を計算します。

2. **クラス内散布行列（Within-class scatter matrix）$S_W$ の計算**：
   各クラス内の散布行列を計算し、それらを合計してクラス内散布行列 $S_W$ を求めます。

3. **クラス間散布行列（Between-class scatter matrix）$S_B$ の計算**：
   クラス間の散布行列を計算します。

4. **判別関数の計算**：
   クラス内散布行列とクラス間散布行列を用いて一般固有値問題を解き、最大の固有値に対応する固有ベクトルを求めます。この固有ベクトルが判別関数の係数となります。

### 実装例

以下に、Pythonを用いて正準判別分析を実装する例を示します。ここでは、Irisデータセットを使用します。


このコードでは、LDAを使用してIrisデータセットを2次元に変換し、各クラスのデータ点をプロットしています。各クラスは異なる色で表示され、LDAによってうまく分離されていることがわかります。

### 計算過程の詳細

#### 1. クラスごとの平均ベクトルの計算
各クラスの平均ベクトルを計算します。例えば、クラス $i$ の平均ベクトル $\mu_i$ は以下のように計算されます：
$$
\mu_i = \frac{1}{N_i} \sum_{x_k \in \mathcal{X}_i} x_k
$$
ここで、$N_i$ はクラス $i$ に属するデータ点の数、$\mathcal{X}_i$ はクラス $i$ のデータ点の集合です。

#### 2. クラス内散布行列の計算
クラス内散布行列 $S_W$ は、各クラスの散布行列 $S_i$ の合計です：
$$
S_W = \sum_{i=1}^c S_i = \sum_{i=1}^c \sum_{x_k \in \mathcal{X}_i} (x_k - \mu_i)(x_k - \mu_i)^T
$$

#### 3. クラス間散布行列の計算
クラス間散布行列 $S_B$ は以下のように計算されます：
$$
S_B = \sum_{i=1}^c N_i (\mu_i - \mu)(\mu_i - \mu)^T
$$
ここで、$\mu$ は全データの平均ベクトルです。

#### 4. 判別関数の計算
クラス内散布行列 $S_W$ とクラス間散布行列 $S_B$ を用いて、次の一般固有値問題を解きます：
$$
S_W^{-1} S_B w = \lambda w
$$
最大の固有値 $\lambda$ に対応する固有ベクトル $w$ が判別関数の係数となります。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA

# データセットの読み込み
iris = load_iris()
X = iris.data
y = iris.target

# LDAの適用
lda = LDA(n_components=2)
X_r = lda.fit(X, y).transform(X)

# プロット
plt.figure()
colors = ['red', 'green', 'blue']
target_names = iris.target_names
for color, i, target_name in zip(colors, [0, 1, 2], target_names):
    plt.scatter(X_r[y == i, 0], X_r[y == i, 1], alpha=.8, color=color,
                label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('LDA of IRIS dataset')

plt.xlabel('LD1')
plt.ylabel('LD2')
plt.show()