# 第3章 多変量確率モデル

## 3.1 複数の確率変数の同時分布

### 3.1.1 共分散
2つの確率変数 $X$ と $Y$ の (線形な) 関連性を記述する量として、**共分散 (covariance)** がある。

$$
Cov[X, Y] \triangleq \mathbb{E} \Big[ \big(X - \mathbb{E}[X] \big) \big(Y - \mathbb{E}[Y] \big) \Big] = \mathbb{E}[XY] - \mathbb{E}[X] \mathbb{E}[Y]
$$

$\boldsymbol{x}$ を $D$ 次元の確率ベクトルとすると、その**共分散行列 (covariance matrix)** は次のような半正定値な対称行列として定義される。

$$
\begin{align}
Cov[\boldsymbol{x}] &\triangleq \mathbb{E} \Big[ \big(\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}] \big) \big(\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}] \big)^{\top} \Big] \triangleq \Sigma \\
&= \begin{pmatrix}
   \mathbb{V}[X_1] & Cov[X_1, X_2] & \cdots & Cov[X_1, X_D] \\
   Cov[X_2, X_1] & \mathbb{V}[X_2] & \cdots & Cov[X_2, X_D] \\
   \vdots & \vdots & \ddots & \vdots \\
   Cov[X_D, X_1] & Cov[X_D, X_2] & \cdots & \mathbb{V}[X_D]
\end{pmatrix}
\end{align}
$$

以上より、次のような関係も成り立つ。

$$
\mathbb{E}[\boldsymbol{x}\boldsymbol{x}^{\top}] = \Sigma + \boldsymbol{\mu}\boldsymbol{\mu}^{\top}
$$

確率変数を線形変換した場合の共分散行列は次式で表される。

$$
Cov [\boldsymbol{A}\boldsymbol{x} + \boldsymbol{b}] = \boldsymbol{A} Cov[\boldsymbol{x}] \boldsymbol{A}^{\top}
$$

2つの確率ベクトル間の**相互共分散 (cross-covariance)** は以下で定義される。

$$
Cov[\boldsymbol{x}, \boldsymbol{y}] = \mathbb{E} \Big[ \big(\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}] \big) \big(\boldsymbol{y} - \mathbb{E}[\boldsymbol{y}] \big)^{\top} \Big]
$$

### 3.1.2 相関
共分散は上下にいくらでも大きい値を取るが、有界な値の方が扱いやすい場合もある。
そこで、$X$ と $Y$ の共分散を正規化したピアソンの**相関係数 (correlation coefficient)** がよく用いられる。

$$
\rho \triangleq corr[X, Y] \triangleq \frac{Cov[X, Y]}{\sqrt{\mathbb{V}[X]\mathbb{V}[Y]}}
$$

相関係数は $-1 \leq \rho \leq 1$ であり、$a > 0$ と $b$ について $Y = aX + b$ を満たすことが $corr[X, Y] = 1$ の必要十分条件である。
また、明らかに $X$ と $Y$ の間に非線形な関係があっても相関係数が 0 となることもあり、相関係数は線形性の度合いであると言える。  
要素間に相関のある $D$ 次元のベクトル $\boldsymbol{x}$ の**相関行列 (correlation matrix)** は次のように定義される。

$$
corr(\boldsymbol{x}) = \begin{pmatrix}
   1 & \frac{\mathbb{E}[(X_1 - \mu_1)(X_2 - \mu_2)]}{\sigma_1 \sigma_2} & \cdots & \frac{\mathbb{E}[(X_1 - \mu_1)(X_D - \mu_D)]}{\sigma_1 \sigma_D} \\
   \frac{\mathbb{E}[(X_2 - \mu_2)(X_1 - \mu_1)]}{\sigma_2 \sigma_1} & 1 & \cdots & \frac{\mathbb{E}[(X_2 - \mu_2)(X_D - \mu_D)]}{\sigma_2 \sigma_D} \\
   \vdots & \vdots & \ddots & \vdots \\
   \frac{\mathbb{E}[(X_D - \mu_D)(X_1 - \mu_1)]}{\sigma_D \sigma_1} & \frac{\mathbb{E}[(X_D - \mu_D)(X_2 - \mu_2)]}{\sigma_D \sigma_2} & \cdots & 1
\end{pmatrix}
$$

この式は、**自己共分散行列 (auto-covariance matrix)** $\boldsymbol{K}_{xx}$ と**自己相関行列 (autocorrelation matrix)** $\boldsymbol{R}_{xx}$ を用いて、次のように書くこともできる。

$$
\begin{align}
\boldsymbol{R}_{xx} &= \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^{\top}] \\
\boldsymbol{K}_{xx} &= \Sigma = \mathbb{E} \Big[ \big(\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}] \big) \big(\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}] \big)^{\top} \Big] = \boldsymbol{R}_{xx} - \boldsymbol{\mu}\boldsymbol{\mu}^{\top} \\
corr(\boldsymbol{x}) &= \big(diag(\boldsymbol{K}_{xx}) \big)^{-\frac{1}{2}} \boldsymbol{K}_{xx} \big(diag(\boldsymbol{K}_{xx}) \big)^{-\frac{1}{2}}
\end{align}
$$

### 3.1.3 無相関と独立性
$X$ と $Y$ が互いに独立で $p(X, Y) = p(X) p(Y)$ であれば、$Cov[X,Y] = 0$ となり、従って $corr[X, Y] = 0$ である。
つまり、互いに独立な確率変数は、互いに無相関である。
ただし、互いに無相関でも、必ずしも課外に独立ではないことに注意する必要がある。

### 3.1.4 相関と因果
**隠れた共通の原因 (hidden common cause)** などによって、**相関があることは因果関係を意味しない**ことはよく知られている。
すなわち、予測可能性 (相関) と因果関係を混同してはならない。

### 3.1.5 シンプソンのパラドックス (Simpson's paradox)
複数の異なるデータ群のそれぞれで観察される統計的な傾向や関連性が、データ群を一つにまとめると消滅したり逆の傾向が現れたりする現象をシンプソンのパラドックスと呼ぶ。

## 3.2 多変量ガウス分布
単変量の場合と同様、連続確率変数の同時分布として**多変量ガウス分布 (multivariate Gaussian)** あるいは**多変量正規分布 (multivariate normal, MVN)** がよく用いられる。

### 3.2.1 定義
多変量ガウス分布の確率密度関数は以下で定義される。

$$
\mathcal{N} (\boldsymbol{y} | \boldsymbol{\mu}, \boldsymbol{\Sigma}) \triangleq \frac{1}{(2 \pi)^{D/2} |\Sigma|^{1/2}} \exp \Big[ -\frac{1}{2} (\boldsymbol{y} - \boldsymbol{\mu})^{\top} \Sigma^{-1} (\boldsymbol{y} - \boldsymbol{\mu}) \Big]
$$

ここで、$\boldsymbol{\mu} = \mathbb{E} [\boldsymbol{y}] \in \mathbb{R}^D$ は平均ベクトル、$\boldsymbol{\Sigma} = Cov[\boldsymbol{y}]$ は $D \times D$ の共分散行列である。  
2変数の場合の多変量ガウス分布は**二変量ガウス分布 (bivariate Gaussian)** と呼ばれ、共分散行列は以下の式で与えられる。

$$
\boldsymbol{\Sigma} = \begin{pmatrix}
   \sigma_1^2 & \rho \sigma_1 \sigma_2 \\
   \rho \sigma_2 \sigma_1 & \sigma_2^2
\end{pmatrix}
$$

ただし、$\rho = corr[Y_1, Y_2] = \sigma_{12}^2 / \sigma_1 \sigma_2$ は相関係数である。
これを多変量ガウス分布の確率密度関数に代入して展開すると、次のような式が得られる。

$$
p(y_1, y_2) = \frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp \Bigg( - \frac{1}{2 (1 - \rho^2)} \Big[ \frac{(y_1 - \mu_1)^2}{\sigma_1^2} + \frac{(y_2 - \mu_2)^2}{\sigma_2^2} - 2 \rho \frac{(y_1 - \mu_1)}{\sigma_1} \frac{(y_2 - \mu_2)}{\sigma_2} \Big] \Bigg)
$$

共分散行列には対称性があり、$D(D+1)/2$ 個の自由度がある。
非対角成分が0で、対角成分に $D$ 個の自由度がある共分散行列を、**対角共分散行列 (diagonal covariance matrix)** と呼ぶ。
また、自由度が $\sigma^2$ の1個のみであるような共分散行列を、**球面共分散行列 (spherical covariance matrix)**、あるいは**等方性共分散行列 (spherical covariance matrix)** と呼ばれ、$\boldsymbol{\Sigma} = \sigma^2 \boldsymbol{I}_D$ とも表記する。

### 3.2.2 マハラノビス距離
対数確率が一定になるような確率密度関数の**レベル集合 (level set)** の形状について考える。
ある点 $\boldsymbol{y}$ における確率値の対数は以下の式で与えられる。

$$
\log p(\boldsymbol{y} | \boldsymbol{\mu} \boldsymbol{\Sigma}) = -\frac{1}{2} (\boldsymbol{y} - \boldsymbol{\mu})^{\top} \Sigma^{-1} (\boldsymbol{y} - \boldsymbol{\mu}) + const
$$

この値は、次の式で定義される $\boldsymbol{y}$ と $\boldsymbol{\mu}$ の間の**マハラノビス距離 (Maharanobis distance)** $\Delta$ で表せる。

$$
\Delta \triangleq \sqrt{(\boldsymbol{y} - \boldsymbol{\mu})^{\top} \Sigma^{-1} (\boldsymbol{y} - \boldsymbol{\mu})}
$$

従って、確率密度関数の対数のレベル集合は、マハラノビス距離が一定となる等高線と一致する。　　
マハラノビス距離が一定となる等高線を、より具体的に記述するため、$\boldsymbol{\Sigma}$ と $\boldsymbol{\Lambda} = \boldsymbol{\Sigma}^{-1}$ が共に正定値行列であることから、その固有値分解を考える。

$$
\boldsymbol{\Sigma} = \sum_{d=1}^D \lambda_d \boldsymbol{u}_d \boldsymbol{u}_d^{\top},\ \boldsymbol{\Sigma}^{-1} = \sum_{d=1}^D \frac{1}{\lambda_d} \boldsymbol{u}_d \boldsymbol{u}_d^{\top}
$$

ここで、新たに $z_d \triangleq \boldsymbol{u}_d^{\top} (\boldsymbol{y} - \boldsymbol{\mu})$、行列で表すと $\boldsymbol{z} = \boldsymbol{U} (\boldsymbol{y} - \boldsymbol{\mu})$ という変数変換を行うと、マハラノビス距離は以下のように書き換えられる。

$$
\begin{align}
(\boldsymbol{y} - \boldsymbol{\mu})^{\top} \Sigma^{-1} (\boldsymbol{y} - \boldsymbol{\mu}) &= (\boldsymbol{y} - \boldsymbol{\mu})^{\top} \Bigg( \sum_{d=1}^D \frac{1}{\lambda_d} \boldsymbol{u}_d \boldsymbol{u}_d^{\top} \Bigg) (\boldsymbol{y} - \boldsymbol{\mu}) \\
&= \sum_{d=1}^D \frac{1}{\lambda_d} (\boldsymbol{y} - \boldsymbol{\mu})^{\top} \boldsymbol{u}_d \boldsymbol{u}_d^{\top} (\boldsymbol{y} - \boldsymbol{\mu}) \\
&= \sum_{d=1}^D \frac{z_d^2}{\lambda_d}
\end{align}
$$

つまり、マハラノビス距離は、$\boldsymbol{y}$ に対して回転行列 $\boldsymbol{U}$ を適用し、$\boldsymbol{\Lambda}$ で拡大・縮小を行なって得られた新しい座標系におけるユークリッド距離であると解釈できる。

### 3.2.3 多変量ガウス分布の周辺分布と条件付き分布
確率変数 $\boldsymbol{y} = (\boldsymbol{y}_1, \boldsymbol{y}_2)$ が以下のパラメータを持つ同時ガウス分布に従っているとする。

$$
\boldsymbol{\mu} = \begin{pmatrix}
   \boldsymbol{\mu_1} \\
   \boldsymbol{\mu_2}
\end{pmatrix},\ \boldsymbol{\Sigma} = 
\begin{pmatrix}
   \boldsymbol{\Sigma_{11}} & \boldsymbol{\Sigma_{12}} \\
   \boldsymbol{\Sigma_{21}} & \boldsymbol{\Sigma_{22}}
\end{pmatrix},\ \boldsymbol{\Lambda} = \boldsymbol{\Sigma}^{-1} =
\begin{pmatrix}
   \boldsymbol{\Lambda_{11}} & \boldsymbol{\Lambda_{12}} \\
   \boldsymbol{\Lambda_{21}} & \boldsymbol{\Lambda_{22}}
\end{pmatrix}
$$

ここで、$\boldsymbol{\Lambda}$ は**精度行列 (precision matrix)** と呼ばれる。
この時、周辺分布は以下で与えられる。

$$
\begin{align}
p(\boldsymbol{y}_1) = \mathcal{N} (\boldsymbol{y}_1 | \boldsymbol{\mu}_1, \boldsymbol{\Sigma}_{11}) \\
p(\boldsymbol{y}_2) = \mathcal{N} (\boldsymbol{y}_2 | \boldsymbol{\mu}_2, \boldsymbol{\Sigma}_{22})
\end{align}
$$

この場合の条件付き確率分布 $p(\boldsymbol{y}_1 | \boldsymbol{y}_2) = \mathcal{N} (\boldsymbol{y}_1 | \boldsymbol{\mu}_{1|2}, \boldsymbol{\Sigma}_{1|2})$ の $\boldsymbol{\mu}_{1|2}$ と $\boldsymbol{\Sigma}_{1|2}$ は以下の式で与えられる。

$$
\begin{align}
\boldsymbol{\mu}_{1|2} &= \boldsymbol{\mu}_{1} + \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} (\boldsymbol{y}_2 - \boldsymbol{\mu}_2) \\
&= \boldsymbol{\mu}_1 - \boldsymbol{\Lambda}_{11}^{-1} \boldsymbol{\Lambda}_{12} (\boldsymbol{y}_2 - \boldsymbol{\mu}_2) \\
&= \boldsymbol{\Sigma}_{1|2} (\boldsymbol{\Lambda}_{11} \boldsymbol{\mu}_1 - \boldsymbol{\Lambda}_{12} (\boldsymbol{y}_2 - \boldsymbol{\mu}_2)) \\
\boldsymbol{\Sigma}_{1|2} &= \boldsymbol{\Sigma}_{11} - \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} \boldsymbol{\Sigma}_{21} = \boldsymbol{\Lambda}_{11}^{-1}
\end{align}
$$

条件付き分布の平均ベクトルは $\boldsymbol{y}_2$ の線形関数であり、共分散行列は $\boldsymbol{y}_2$ に依存しない。

### 3.2.4 例：二変量ガウス分布の条件付き分布
$Y_2 = y_2$ を観測した下での条件付き分布 $p(y_1 | y_2)$ は以下の式で表される。

$$
p(y_1 | y_2) = \mathcal{N} \Bigg( y_1 \Bigg| \mu_1 +\frac{\rho \sigma_1 \sigma_2}{\sigma_2^2}(y_2 - \mu_2), \sigma_1^2 - \frac{(\rho \sigma_1 \sigma_2)^2}{\sigma_2^2} \Bigg)
$$

### 3.2.5 例：欠損値の補完
確率変数ベクトルの一部の値のみが観測された場合に、残りの次元を共分散行列によって定まる次元間の相関を利用して推論することができる。
このような問題設定を**欠損値補完 (missing value imputation)** と呼ぶ。
あるいは、事後分布から欠損地のサンプルを複数取得して、それらを元により頑健な推定を行う**多重補完法 (multiple imputation)** という手法もある。

## 3.3 線形ガウスシステム (linear Gaussian system)
観測データにノイズがある場合について考える。
$\boldsymbol{z} \in \mathbb{R}^L$ を未観測値のベクトル (潜在変数)、$\boldsymbol{y} \in \mathbb{R}^D$ を $\boldsymbol{z}$ から得られるノイズありの観測値として以下のように生成されるものとする。

$$
\begin{align}
p(\boldsymbol{z}) &= \mathcal{N}(\boldsymbol{z} | \boldsymbol{\mu}_z, \boldsymbol{\Sigma}_z) \\
p(\boldsymbol{y} | \boldsymbol{z}) &= \mathcal{N}(\boldsymbol{y} | \boldsymbol{W} \boldsymbol{z} + \boldsymbol{b}, \boldsymbol{\Sigma}_y)
\end{align}
$$

ここで、$\boldsymbol{W}$ は $D \times L$ 行列である。
対応する同時分布 $p(\boldsymbol{z}, \boldsymbol{y}) = p(\boldsymbol{z})p(\boldsymbol{y} | \boldsymbol{z})$ は $L + D$ 次元のガウス分布であり、その平均と共分散行列は以下のように与えられる。

$$
\begin{align}
\boldsymbol{\mu} &= \begin{pmatrix}
   \boldsymbol{\mu}_z \\
   \boldsymbol{W} \boldsymbol{\mu}_z + \boldsymbol{b}
\end{pmatrix} \\
\boldsymbol{\Sigma} &= \begin{pmatrix}
   \boldsymbol{\Sigma}_z & \boldsymbol{\Sigma}_z \boldsymbol{W}^{\top} \\
   \boldsymbol{W}\boldsymbol{\Sigma}_z & \boldsymbol{\Sigma}_y + \boldsymbol{W} \boldsymbol{\Sigma}_z \boldsymbol{W}^{\top}
\end{pmatrix}
\end{align}
$$