<a href="https://colab.research.google.com/github/takatakamanbou/MVA/blob/2022/ex07notebookA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVA2022 ex07notebookA

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/MVA-logo.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?MVA/2022

In [None]:
# いつものいろいろインポート
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn
seaborn.set()

Python の科学技術計算ライブラリ [SciPy](https://scipy.org/) の統計関数群 [scipy.stats](https://docs.scipy.org/doc/scipy/reference/stats.html) から次のものをインポート
- 正規分布モジュール [scipy.stats.norm](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html) 
- 多変量正規分布モジュール [scipy.stats.multivariate_normal](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.multivariate_normal.html)

In [None]:
from scipy.stats import norm, multivariate_normal

----
## 多変量正規分布
----

これまで，データ分析や確率統計の様々な場面で，「正規分布」が登場してきました．
この正規分布は変数が1つの場合の（1変量/1次元の）ものでしたが，変数が2つ以上の（多変量の）場合にも正規分布を考えることができます．今回は，そのような「多変量の/多次元の」正規分布について考えます．



---
### 1変量（1次元）正規分布

まずは1変量（1次元）正規分布についての復習です．

#### 1変量正規分布の確率密度関数

ある連続型確率変数 $X$ が平均 $\mu$，分散 $\sigma^2$ の（1変量）**正規分布**に従うとき，$X$の確率密度関数は次式で表されます．

$$
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \qquad (1)
$$

平均 $\mu$，分散 $\sigma^2$ の正規分布を ${\cal N}(\mu, \sigma^2)$ と表して，このことを

$$
X \sim {\cal N}(\mu, \sigma^2)
$$

と書くこともあります．

特に，平均 $0$，分散 $1$ の正規分布 ${\cal N}(0, 1^2)$ を （1変量）**標準正規分布** と呼びます．その確率密度関数は次式で表されます．

$$
f(x) = \frac{1}{\sqrt{2\pi}}\exp\left(-\frac{x^2}{2}\right) \qquad (2)
$$

次のセルを実行すると，平均や分散の異なる3つの正規分布の確率密度関数を描画します．

In [None]:
# 3つの正規分布の確率密度関数を描く
x = np.linspace(-10, 10, 200)

muList = [0.0, 4.0, -5.0]
s2List = [1.0, 4.0, 0.5]

fig, ax = plt.subplots(figsize=(12, 6))

for mu, s2 in zip(muList, s2List):
    fx = norm.pdf(x, loc=mu, scale=np.sqrt(s2)) # N(mu, s2) の確率密度関数
    ax.plot(x, fx, label=f'N({mu}, {s2})')

ax.axvline(0, color='gray')
ax.set_xlim(np.min(x), np.max(x))
ax.legend()
plt.show()

#### なぜ正規分布？

確率統計の世界で正規分布がもてもてなのには理由があります．詳しいことは，「確率統計」などの授業や参考書等で学んでください．大雑把なことを言うと...

- なにか一定の値をとる物理量を測定したときなど，その値の分布が正規分布とみなせるケースが非常に多い
- 母集団の分布が正規分布でない場合でも，そこから得た標本値の和は，サンプルサイズを大きくしていくと近似的に正規分布に従うことが知られている（中心極限定理）．このように，正規分布でないデータを扱っていてもひょっこり正規分布が登場する．
- 正規分布は理論的な取り扱いがしやすい

---
### 2変量（2次元）正規分布



1変量（1次元）からいきなり一般の多変量（多次元）の話へ進むのはステップが大きいので，まずは2変量（2次元）の正規分布について考えることにします．

#### 2変量正規分布の確率密度関数

---
［2変量正規分布の確率密度関数］

連続型確率変数 $X$ が平均 $\mu_x$，分散 $\sigma_x^2$ の正規分布に従い，連続型確率変数 $Y$ が平均 $\mu_y$，分散 $\sigma_y^2$ の正規分布に従うとする．さらに，両者の間の相関係数を $\rho_{xy}$ とする．このとき，$X$ と $Y$ の同時確率密度関数を $f(x, y)$ とおくと，$f(x,y)$ は次式で表される（注）．

$$
f(x, y) =  \frac{1}{2\pi\sqrt{\sigma_x^2\sigma_y^2(1-\rho_{xy}^2)}}\exp\left(-\frac{1}{2}D^2\right) \qquad (3)
$$

ただし，

$$
D^2 = \frac{1}{1-\rho_{xy}^2}\left\{ \frac{(x-\mu_x)^2}{\sigma_x^2} -2\rho_{xy} \frac{(x-\mu_x)(y-\mu_y)}{\sigma_x\sigma_y} + \frac{(y-\mu_y)^2}{\sigma_y^2} \right\} \qquad (4)
$$

とする．

---

$X$ と $Y$ の同時確率密度関数がこのように表されるとき，「$(X,Y)$ は2次元正規分布に従う」といいます．
1次元正規分布が平均 $\mu$ と分散 $\sigma^2$ という2つのパラメータで定められるのに対して，2次元正規分布は，2つの平均 $\mu_x, \mu_y$，2つの分散 $\sigma_x^2,\sigma_y^2$ と相関係数 $\rho_{xy}$ の計5つのパラメータで定められます．

※注意: 後でベクトルと行列を使ってよりすっきりした形で定式化し直すので，この式をがんばって覚える必要はありません．

#### 2変量正規分布の性質

2変量正規分布の性質として述べられることはたくさんありますが，ここではごく一部だけ説明しておきます．

(1) 上の説明では，$X$ と $Y$ がそれぞれ正規分布に従うとして，式$(3),(4)$の同時分布を与えていますが，逆に，$(X, Y)$ が2次元正規分布に従うならば，$X$ と $Y$ もそれぞれ1次元正規分布に従います．

このことは，$f(x,y)$を $x$ または $y$ で積分することで示せます（計算過程は省略）．

$$
\begin{aligned}
f(x) &= \int_{-\infty}^{\infty}f(x,y)dy = \frac{1}{\sqrt{2\pi\sigma_x^2}}\exp\left( -\frac{(x-\mu_x)^2}{2\sigma_x^2}\right)\\
f(y) &= \int_{-\infty}^{\infty}f(x,y)dx = \frac{1}{\sqrt{2\pi\sigma_y^2}}\exp\left( -\frac{(y-\mu_y)^2}{2\sigma_y^2}\right)\\
\end{aligned}
$$

(2) 一般に，2つの確率変数 $X$ と $Y$ が無相関（相関がない，相関係数が $0$ である）であってもそれらが独立であるとは限りません．しかし，$(X,Y)$ が2変量正規分布に従っている場合，$X$ と $Y$ が無相関ならば $X$ と $Y$ は独立であると言えます．

このことは，式 $(3),(4)$ で $\rho_{xy} = 0$ とおくと次のように $f(x,y) = f(x)f(y)$ が成り立つことから示されます．

$$
\begin{aligned}
f(x,y) &= \frac{1}{2\pi\sqrt{\sigma_x^2\sigma_y^2}}\exp\left(-\frac{1}{2}\left(
\frac{(x-\mu_x)^2}{\sigma_x^2}  + \frac{(y-\mu_y)^2}{\sigma_y^2} \right) \right)\\
&= \frac{1}{\sqrt{2\pi\sigma_x^2}}\frac{1}{\sqrt{2\pi\sigma_y^2}}
\exp\left( -\frac{(x-\mu_x)^2}{2\sigma_x^2}\right)\exp\left( -\frac{(y-\mu_y)^2}{2\sigma_y^2}\right)\\
&= f(x)f(y)
\end{aligned}
$$

#### 確率密度関数を可視化してみよう

式(3)がどんなものかを理解するために，グラフを描いてみましょう．
次のセルを実行すると，$\mu_x = 3, \mu_y = 2, \sigma_x^2 = 2, \sigma_y^2 = 1, \rho_{xy} = 0.5$ のときの $f(x,y)$ などのグラフを描かせることができます．グラフの下のセルに説明がありますので，それを読みましょう．

In [None]:
# 平均と分散
mu_x = 3.0
mu_y = 2.0
s2_x = 2.0
s2_y = 1.0

# 相関係数
rho = 0.5


# 平均と分散共分散行列
mu = np.array([mu_x, mu_y])
cov = np.array([[s2_x, rho*np.sqrt(s2_x*s2_y)],
                [rho*np.sqrt(s2_x*s2_y), s2_y]])

xmin, xmax = -2, 8
ymin, ymax = -2, 8

fig = plt.figure(facecolor="white", figsize=(12, 12))

# 2次元正規分布の等高線プロット
xg, yg = np.mgrid[xmin:xmax:0.1, ymin:ymax:0.1]
X = np.dstack((xg, yg))
fxy = multivariate_normal.pdf(X, mean=mu, cov=cov)
ax01 = fig.add_subplot(222)
ax01.contourf(xg, yg, fxy)
ax01.contourf(xg, yg, fxy, cmap='viridis')
ax01.axhline(0, color='white')
ax01.axvline(0, color='white')
ax01.set_xlim(xmin, xmax)
ax01.set_ylim(ymin, ymax)
ax01.set_aspect('equal')
ax01.set_xlabel('$x$')
ax01.set_ylabel('$y$')

# X の確率密度
x = np.linspace(xmin, xmax, 100)
fx = norm.pdf(x, loc=mu_x, scale=np.sqrt(s2_x))
ax11 = fig.add_subplot(224)
ax11.plot(x, fx)
ax11.axhline(0, color='gray')
ax11.axvline(0, color='gray')
ax11.set_xlim(xmin,xmax)
ax11.set_ylim(-0.01, 0.5)
ax11.set_xlabel('$x$')
ax11.set_ylabel('$f(x)$')

# Y の確率密度
y = np.linspace(ymin, ymax, 100)
fy = norm.pdf(y, loc=mu_y, scale=np.sqrt(s2_y))
ax00 = fig.add_subplot(221)
ax00.plot(fy, y)
ax00.axhline(0, color='gray')
ax00.axvline(0, color='gray')
ax00.set_xlim(-0.01, 0.5)
ax00.set_ylim(ymin,ymax)
ax00.set_xlabel('$f(y)$')
ax00.set_ylabel('$y$')

# 2次元正規分布の3次元プロット
ax10 = fig.add_subplot(223, projection='3d')
ax10.plot_surface(xg, yg, fxy, cmap='viridis')
ax10.plot([xmin, xmax], [0, 0], [0, 0], color='gray')
ax10.plot([0, 0], [ymin, ymax], [0, 0], color='gray')
ax10.set_xlim(xmin, xmax)
ax10.set_ylim(ymin, ymax)
ax10.set_xlabel('$x$')
ax10.set_ylabel('$y$')
ax10.set_zlabel('$f(x,y)$')

plt.show()

上の4つのグラフのうち，左下が $f(x,y)$ を縦軸にとった3次元プロットです．右上は，$xy$ 平面上の各点における $f(x,y)$ の値を段階分けして色に対応させたプロットです．
右下と左上は，周辺確率密度関数 $f(x)$ および $f(y)$ を右上の図と軸を揃えて描いたものです．

次のことを確認しましょう：
- $f(x,y)$ は，$(x,y) = (\mu_x, \mu_y)$ で最大となっている．
- $\sigma_x^2$ が $x$ 軸方向の，$\sigma_y^2$ が $y$ 軸方向の $f(x,y)$ の広がりに対応している．
- $\rho_{xy}$ の値を $[-1,1]$ の範囲でいろいろ変えて，グラフがどのように変化するか観察しましょう．


####ベクトルと行列で表した確率密度関数

2変量正規分布の確率密度関数は式$(3)$と$(4)$で表せますが，ベクトルと行列を使うともっとすっきりした形で表すことができます．

---
［ベクトルと行列で表した2変量正規分布の確率密度関数］

2次元の連続型確率変数 $\mathbf{X} = \begin{pmatrix}X \\ Y \end{pmatrix}$ が平均 
$
\mathbf{\mu} = \begin{pmatrix} \mu_x\\ \mu_y \end{pmatrix}$，分散共分散行列
$
\Sigma = \begin{pmatrix}
\sigma_x^2 & \sigma_{xy}\\ \sigma_{xy} & \sigma_y^2
\end{pmatrix}
$
の2変量正規分布に従うとする．ただし，$\Sigma$ は正則な（逆行列を持つ）行列とする（注）．
このとき，$2\times 1$ 行列 $\mathbf{x}$ を
$\mathbf{x} = \begin{pmatrix} x\\ y \end{pmatrix}$
として，この分布の確率密度関数を $f(\mathbf{x})$ とおくと，$f(\mathbf{x})$ は次式で表される

$$
f(\mathbf{x}) = 
 \frac{1}{\sqrt{(2\pi)^2|\Sigma|}}\exp\left(-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\top}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu})\right) \qquad (5)
$$

ただし，$|\Sigma|$ は行列 $\Sigma$ の行列式を表す．

---

※注意: $\Sigma$ が正則でない場合については，この授業では扱わないことにします．

式$(5)$は式$(3),(4)$とは見た目がかなり異なりますが，等価な式となっています（**notebookBの方でそのことを確認します**）．

こちらの表記を用いる場合，2次元正規分布は，平均 $\mu$ の2つの要素と分散共分散行列 $\Sigma$ の3つの要素（注）の計5つのパラメータで定められます．
相関係数の定義 $\displaystyle\rho_{xy} = \frac{\sigma_{xy}}{\sigma_x\sigma_y}$ より$\sigma_{xy} = \rho_{xy}\sigma_x\sigma_y$ と表せますので，相関係数と共分散はどちらか一方を定めれば他方の値が自動的に決まります．

※注意: $\Sigma$ は $2\times 2$ 行列なので要素が4つありますが，対称行列なので，$\sigma_x^2, \sigma_{xy}, \sigma_y^2$ の3つだけですべての要素が決まります．

次のセルを実行すると，平均 $\mathbf{\mu} = \begin{pmatrix} 3\\2\end{pmatrix}$，分散共分散行列 $\Sigma = \begin{pmatrix} 2 & \sigma_{xy} \\ \sigma_{xy} & 1 \end{pmatrix}$ （$\sigma_{xy} \in \{1.2, 0, -0.5\}$）の3つの2変量正規分布を描画します．

In [None]:
# 平均
mu = np.array([3.0, 2.0])

# 共分散3通り
s_xy_list = [1.2, 0.0, -0.5]

# 複数の共分散行列を格納する3次元配列
cov = np.empty((len(s_xy_list), 2, 2))

# それぞれの s_xy の値で共分散行列をつくる
for i, s_xy in enumerate(s_xy_list):
    cov[i, :, :] = np.array([[2,    s_xy],
                             [s_xy, 1]])

xmin, xmax = -2, 8
ymin, ymax = -2, 8

# 2次元正規分布の等高線プロット
fig, ax = plt.subplots(1, 3, facecolor="white", figsize=(15, 5))
xg, yg = np.mgrid[xmin:xmax:0.1, ymin:ymax:0.1]
X = np.dstack((xg, yg))
for i in range(len(cov)):
    # 平均 mu 共分散行列 cov[i] の多変量正規分布の密度関数
    fxy = multivariate_normal.pdf(X, mean=mu, cov=cov[i])
    ax[i].contourf(xg, yg, fxy, cmap='viridis')
    ax[i].axhline(0, color='white')
    ax[i].axvline(0, color='white')
    ax[i].set_xlim(xmin, xmax)
    ax[i].set_ylim(ymin, ymax)
    ax[i].set_aspect('equal')
plt.show()

- 左： 平均 $\mathbf{\mu} = \begin{pmatrix} 3\\2\end{pmatrix}$，分散共分散行列 $\Sigma = \begin{pmatrix} 2 & 1.2 \\ 1.2 & 1 \end{pmatrix}$ （このとき相関係数は $1.2/\sqrt{2} \approx 0.85$）
- 真ん中： 平均 $\mathbf{\mu} = \begin{pmatrix} 3\\2\end{pmatrix}$，分散共分散行列 $\Sigma = \begin{pmatrix} 2 & 0 \\ 0 & 1 \end{pmatrix}$ （このとき相関係数は $0$） 
- 右： 平均 $\mathbf{\mu} = \begin{pmatrix} 3\\2\end{pmatrix}$，分散共分散行列 $\Sigma = \begin{pmatrix} 2 & -0.5 \\ -0.5 & 1 \end{pmatrix}$ （このとき相関係数は $-0.5/\sqrt{2}\approx -0.35$）


2変量正規分布の性質(2) で議論したことをこちらの定式化で

---
### 多変量（多次元）正規分布

2変量（2次元）正規分布の次元数を一般化して，$D$変量（$D$次元，$D=2,3,\ldots$）の正規分布を考えることができます．これを，**多変量正規分布**または（**多次元正規分布**）といいます．


#### 多変量正規分布の確率密度関数

---
［多変量正規分布の確率密度関数］

$D$次元の連続型確率変数 $\mathbf{X} = \begin{pmatrix}X_1 \\ X_2 \\ \vdots \\ X_D \end{pmatrix}$ が平均 
$
\mathbf{\mu} = \begin{pmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_D \end{pmatrix}$，分散共分散行列
$
\Sigma = \begin{pmatrix}
\sigma_1^2 & \sigma_{1,2} & \cdots & \sigma_{1,D}\\
\sigma_{2,1} & \sigma_{2}^2 & \cdots & \sigma_{2,D}\\
\vdots & \vdots & & \vdots \\
\sigma_{D,1} & \sigma_{D,2} & \cdots & \sigma_{D}^2\\
\end{pmatrix}
$
の多変量正規分布に従うとする．
ただし，$\sigma_{i,j}$ は $X_i$ と $X_j$ の共分散である（$\sigma_{i,j} = \sigma_{j,i}$であることに注意）．$\Sigma$ は正則な（逆行列を持つ）行列とする（注）

このとき，$D\times 1$ 行列 $\mathbf{x}$ を
$\mathbf{x} = \begin{pmatrix} x_1\\ x_2 \\ \vdots \\ x_D \end{pmatrix}$
として，この分布の確率密度関数を $f(\mathbf{x})$ とおくと，$f(\mathbf{x})$ は次式で表される

$$
f(\mathbf{x}) = 
 \frac{1}{\sqrt{(2\pi)^D|\Sigma|}}\exp\left(-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\top}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu})\right) \qquad (6)
$$

ただし，$|\Sigma|$ は行列 $\Sigma$ の行列式を表す．

---

※注意: $\Sigma$ が正則でない場合については，この授業では扱わないことにします．

2変量の式 $(5)$ では $(2\pi)^2$ だったところが $(2\pi)^D$ に変わっている以外，式(6)の見た目は式(5)と同じです．また，$D=1$ の場合を考えれば，この式は1変量の式$(1)$に一致します．


$D$次元の多変量正規分布は，平均 $\mathbf{\mu}$ と分散共分散行列 $\Sigma$ によって定まります．
平均 $\mathbf{\mu}$ は $D\times 1$ 行列ですので $D$ 個のパラメータを持ちます．
一方，分散共分散行列 $\Sigma$ は $D\times D$ 行列ですが，対称行列ですので，$\frac{1}{2}D(D+1)$ 個（注）のパラメータを持ちます．したがって，$D$次元多変量正規分布は，計 $D+\frac{1}{2}D(D+1)$ 個のパラメータで定められます．

※注意: $1+2+\cdots + D = \frac{1}{2}D(D+1)$

また，平均 $\mathbf{\mu}$，分散共分散行列 $\Sigma$ の多変量正規分布を ${\cal N}(\mathbf{\mu}, \Sigma)$ と表し，$D$次元の確率変数 $\mathbf{X}$ が ${\cal N}(\mathbf{\mu}, \Sigma)$ に従うことを，
$$
\mathbf{X} \sim {\cal N}(\mathbf{\mu}, \Sigma)
$$
と表記します．特に平均 $\mathbf{\mu} = \mathbf{0}$で分散共分散行列 $\Sigma = I$（$I$は単位行列）である場合，すなわち ${\cal N}(\mathbf{0}, I)$ を **標準正規分布** といいます．

#### 多変量正規分布の性質

多変量正規分布の性質として述べられることはたくさんありますが，ここではごく一部だけ説明しておきます．

(1) $D$次元確率変数が多変量正規分布に従うとき，$D$個の変数の中から一部の変数を抜き出してきたものも多変量正規分布に従います．特に，1つだけ抜き出した変数は1変量正規分布に従います．このことは，2変量正規分布の確率密度関数 $f(x,y)$ を $x$ または $y$ で積分したのと同様の議論で示せます．

(2) $D$次元確率変数が多変量正規分布に従うとき，どの2つの変数も無相関ならば，それらは独立であるといえます．
このことは，次のようにして示せます．

どの2つの変数も無相関であるということは，分散共分散行列の非対角要素がすべて $0$ であることと同値です．したがって，

$$
\Sigma = \textrm{diag}(\sigma_1^2, \sigma_2^2, \ldots, \sigma_D^2)
$$

と表せます．このとき，

$$
\Sigma^{-1} = \textrm{diag}\left(\frac{1}{\sigma_1^2}, \frac{1}{\sigma_2^2}, \ldots, \frac{1}{\sigma_D^2}\right)
$$

であることから，式$(6)$の $(\mathbf{x}-\mathbf{\mu})^{\top}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu})$ の部分は次のように変形できます．

$$
\begin{aligned}
(\mathbf{x}-\mathbf{\mu})^{\top}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) &=
(\mathbf{x}-\mathbf{\mu})^{\top}
\begin{pmatrix}
(x_1-\mu_1)/\sigma_1^2\\
(x_2-\mu_2)/\sigma_2^2\\
\vdots\\
(x_D-\mu_D)/\sigma_D^2\\
\end{pmatrix} = \frac{(x_1-\mu_1)^2}{\sigma_1^2} + \frac{(x_D-\mu_D)^2}{\sigma_D^2} + \frac{(x_D-\mu_D)^2}{\sigma_D^2} 
\end{aligned}
$$

また，$\Sigma = \textrm{diag}(\sigma_1^2, \sigma_2^2, \ldots, \sigma_D^2)$ より

$$
|\Sigma| = \sigma_1^2\sigma_2^2\cdots\sigma_D^2
$$

となるので，

$$
\sqrt{(2\pi)^D|\Sigma|} = \sqrt{2\pi\sigma_1^2}\sqrt{2\pi\sigma_2^2}\cdots\sqrt{2\pi\sigma_D^2}
$$

と変形できます．

以上をまとめると，$\Sigma = \textrm{diag}(\sigma_1^2, \sigma_2^2, \ldots, \sigma_D^2)$ のとき，

$$
\begin{aligned}
f(\mathbf{x}) &= 
 \frac{1}{\sqrt{(2\pi)^D|\Sigma|}}\exp\left(-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\top}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu})\right) \\
&= \frac{1}{\sqrt{2\pi\sigma_1^2}}\frac{1}{\sqrt{2\pi\sigma_2^2}}\cdots\frac{1}{\sqrt{2\pi\sigma_D^2}} \exp\left(
-\frac{1}{2}\left(
    \frac{(x_1-\mu_1)^2}{\sigma_1^2} + \frac{(x_D-\mu_D)^2}{\sigma_D^2} + \frac{(x_D-\mu_D)^2}{\sigma_D^2}  \right)
 \right) \\
 &= \frac{1}{\sqrt{2\pi\sigma_1^2}}\exp\left(-\frac{(x_1-\mu_1)^2}{2\sigma_1^2}\right)\cdot\frac{1}{\sqrt{2\pi\sigma_2^2}}\exp\left(-\frac{(x_2-\mu_2)^2}{2\sigma_2^2}\right) \cdot\cdots\cdot \frac{1}{\sqrt{2\pi\sigma_D^2}}\exp\left(-\frac{(x_D-\mu_D)^2}{2\sigma_D^2}\right)\\
\end{aligned}
$$

となります．すなわち，$f(\mathbf{x})$ が $D$ 個の変数ごとの1変量正規分布の確率密度関数の積 $f(x_1)f(x_2)\cdots f(x_D)$ に等しくなります．
したがって，どの2つの変数も無相関ならば（＝分散共分散行列が対角行列ならば）それらは独立であるといえます．


(3) ［発展］分散共分散行列をその固有値と固有ベクトルを用いて分解できることを利用して，任意の多変量正規分布に従う確率変数を平均が$\mathbf{0}$で分散共分散行列が対角行列となるように変換することができます．

$D$次元確率変数 $\mathbf{X}$ が平均 $\mathbf{\mu}$，分散共分散行列 $\Sigma$ の多変量正規分布に従うとします．$\Sigma$ の $D$ 個の固有値を $\lambda_1, \lambda_2, \ldots, \lambda_D$ とし，それぞれに対応する固有ベクトル $\mathbf{u}_1,\mathbf{u}_2,\ldots,\mathbf{u}_D$ とします．このとき，これらの固有ベクトルを並べた $D\times D$ 行列を 
$
U = \begin{pmatrix} \mathbf{u}_1 & \mathbf{u}_2 & \cdots & \mathbf{u}_D \end{pmatrix}
$
とおくと，$\Sigma$ は

$$
\Sigma = U\Lambda U^{\top}
$$

と表せます．ただし，$\Lambda = \textrm{diag}(\lambda_1, \lambda_2, \ldots, \lambda_D)$ です．

ここで，

$$
\mathbf{y} = U^{\top}(\mathbf{x}-\mathbf{\mu}) \qquad (*)
$$

という変数変換を考えてみます．この式の両辺に左から $U$ を掛けると $U\mathbf{y} = UU^{\top}(\mathbf{x}-\mathbf{\mu}) = \mathbf{x} - \mathbf{\mu}$ となります．
これを式$(6)$の
$(\mathbf{x}-\mathbf{\mu})^{\top}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu})$ に代入すると，

$$
\begin{aligned}
(\mathbf{x}-\mathbf{\mu})^{\top}\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) &= 
(U\mathbf{y})^{\top}\Sigma^{-1}(U\mathbf{y})\\
&= \mathbf{y}^{\top}U^{\top}U\Lambda^{-1}U^{\top}U\mathbf{y}\\
&= \mathbf{y}^{\top}\Lambda^{-1}\mathbf{y}
\end{aligned}
$$

と変形できます．ただし，途中で $\Sigma^{-1} = U\Lambda^{-1}U^{\top}$ という関係を用いました．

さらに，$|\Sigma| = |\Lambda| = \lambda_1\lambda_2\cdots\lambda_D$ となることも利用して，性質(2)の式変形と同様に考えると，

$$
\begin{aligned}
f(\mathbf{x}) &= f(\mathbf{y}) =  \frac{1}{\sqrt{(2\pi)^D|\Lambda|}}\exp\left(-\frac{1}{2}\mathbf{y}^{\top}\Lambda^{-1}\mathbf{y}\right) \\
 &= \frac{1}{\sqrt{2\pi\lambda_1}}\exp\left(-\frac{y_1^2}{2\lambda_1}\right)\cdot\frac{1}{\sqrt{2\pi\lambda_2}}\exp\left(-\frac{y_2^2}{2\lambda_2}\right) \cdot\cdots\cdot \frac{1}{\sqrt{2\pi\lambda_D}}\exp\left(-\frac{y_D^2}{2\lambda_D}\right)\\
\end{aligned}
$$

となることが分かります．

以上より，$\mathbf{X}$ が平均 $\mathbf{\mu}$，分散共分散行列 $\Sigma$ の多変量正規分布に従うとき，確率変数 $\mathbf{Y} = U^{\top}(\mathbf{X} - \mathbf{\mu})$ は，変数ごとに独立に ${\cal N}(0, \lambda_d)$ ($d=1,2,\ldots,D$) に従うことになります．

ここまでの議論はなんだか既視感がありますね（たぶん...）．これは，「主成分分析(2)」の「変換後のデータの性質」の議論と同じことです．実は，主成分分析は，確率変数が互いに無相関になるように変換する（そしてそのあとで分散の小さい変数を捨てる）手続きといえます．