# 多変量確率分布

## 1. 多変量確率ベクトルと同時分布関数

### 定義 1.1 (離散型の同時分布)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

　$n$ 個の離散型の確率変数 $X = [X_1 \cdots X_n]'$ について, $x = [x_1 \dots x_n]'$ とし

$$
    {\rm P}(X = x) = f_X(x) =f_X(x_1, \dots, x_n)
$$

を **同時確率関数** (joint probability mass function) という. このとき関数 $f_X$ は

(multi-discrete-distribution)=
$$
    \begin{align}
        & f_X(x) = f_X(x_1, \dots, x_n) \geq 0 \\
        & \sum_{ x }{ f_X(x) } = \sum_{ i }{ \sum_{ j }{ \cdots \sum_{ k }{ f_X(x_{1i}, x_{2j}, \dots, x_{nk}) } } } = 1
    \end{align}
$$

を満たす.

</div>

(multi-discrete-distribution:example1)=

### 例 1.2 (2つのサイコロの出る目)

　2 つのサイコロの目 $P, Q$ の大きい方, 小さい方をそれぞれ $X_1 = \max{(P, Q)}$, $X_2 = \min{(P, Q)}$ とする. ただし $x \geq y$ のとき $\max{(x, y)} = x$, $\min{(x, y)} = y$ である. このとき $X_1 = x_1$ かつ $X_2 = x_2$ となる確率 $f_{X_1, X_2}(x_1, x_2)$ とする. このとき以下の確率表となる.

|       | $X_1$ | $1$    | $2$    | $3$    | $4$    | $5$    | $6$    |
| :---: | ----- | ------ | ------ | ------ | ------ | ------ | ------ |
| $X_2$ |       |        |        |        |        |        |        |
| $1$   |       | $1/36$ | $2/36$ | $2/36$ | $2/36$ | $2/36$ | $2/36$ |
| $2$   |       |        | $1/36$ | $2/36$ | $2/36$ | $2/36$ | $2/36$ |
| $3$   |       |        |        | $1/36$ | $2/36$ | $2/36$ | $2/36$ |
| $4$   |       |        |        |        | $1/36$ | $2/36$ | $2/36$ |
| $5$   |       |        |        |        |        | $1/36$ | $2/36$ |
| $6$   |       |        |        |        |        |        | $1/36$ |

よって $f(x_1, x_2) \geq 0$ であり,

$$
    \sum_{x_1=1}^{6}{ \sum_{x_2=1}^{6}{f_{X_1, X_2}(x_1, x_2)} } = 1.
$$

### 定義 1.3 (連続型の同時分布)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

　$n$ 個の連続型の確率変数 $X=[X_1 \cdots X_n]'$ について $X \in \mathbb{X}$ となる確率が以下で定義されるとする.

$$
    {\rm P}(X \in \mathbb{X}) = \int_{x \in \mathbb{X}}{f_X(x)dx} = \int_{x \in \mathbb{X}}{f_X(x_1, \dots, x_n)dx_1 \dots dx_n}
$$

このとき $f$ は **同時密度関数** (joint probability density function) といい

(multi-continuous-distribution)=
$$
    \begin{align}
        & f(x) = f_X(x_1, \dots, x_n) \geq 0 \\
        & \int_{x}{f_X(x)dx} = \int_{x_1}{ \cdots \int_{x_n}{ f_X(x_1, \dots, x_n)dx_n \dots dx_1 } } = 1 
    \end{align}
$$

である.

</div>

(multi-continuous-distribution:example1)=

### 例 1.4 (線形和によって表現される同時密度関数)

　以下の同時密度関数が与えられたとする.

$$
    \begin{align}
        f_{X, Y}(x, y) = \begin{cases}
            x + y &(0 \leq x, y \leq 1) \\
            0     &(\text{otherwise})
        \end{cases}
    \end{align}
$$

$0 \leq x \leq \dfrac{1}{2}$, $0 \leq y \leq \dfrac{1}{4}$ となる確率は

$$
    \begin{align}
        P \biggl(0 \leq x \leq \frac{1}{2}, 0 \leq y \leq \frac{1}{4} \biggr)
            &= \int_{0}^{1/4}{ \int_{0}^{1/2}{(x + y)dx}dy } \\
            &= \int_{0}^{1/4}{ \biggl[ \frac{1}{2}x^2 + xy \biggr]_{0}^{1/2} dy } \\
            &= \int_{0}^{1/4}{ \biggl( \frac{1}{8} + \frac{1}{2}y \biggr) dy } \\
            &= \biggl[ \frac{1}{8}y + \frac{1}{4}y^2 \biggr]_{0}^{1/4} \\
            &= \frac{3}{64}
    \end{align}
$$

となる.  
　もちろん $f(x, y) \geq 0$ で

$$
    \begin{align}
        \int_{0}^{1}{ \int_{0}^{1}{(x + y)dx}dy }
            &= \int_{0}^{1}{ \biggl[ \frac{1}{2}x^2 + xy \biggr]_{0}^{1} dy } \\
            &= \int_{0}^{1}{ \biggl( \frac{1}{2} + y \biggr) dy } \\
            &= \biggl[ \frac{1}{2}y + \frac{1}{2}y^2 \biggr]_{0}^{1} \\
            &= 1.
    \end{align}
$$

## 2. 期待値と分散

　以下では明示的に行列やベクトル作用の場合の期待値, 分散, 共分散を示すときはそれぞれ $\mathbb{E}, \mathbb{Var}, \mathbb{Cov}$, スカラーに作用する場合には ${\rm E}, {\rm Var}, {\rm Cov}$ とする.

### 定義 2.1 (期待値)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

(multi-expectation)=
　$n$ 個の確率変数 $X=[X_1 \cdots X_n]'$ について以下で期待値が定義できる.

$$
    \mathbb{E}(X) = \begin{bmatrix}
            {\rm E}(X_1) \\
            \vdots       \\
            {\rm E}(X_n) 
    \end{bmatrix}
$$

**平均ベクトル** (mean vector) といい, 各成分の期待値スカラー ${\rm E}(X_i)$ は[1変量の期待値の定義](expectation)の通り.  
　また一般に $p \times q$ 行列値関数 $\phi$ を用いて $\phi(X)$ についても同様に期待値は定義できる.

$$
    \mathbb{E}(\phi(X)) = \begin{bmatrix}
            \mathbb{E}(\phi_{11}(X)) & \cdots & \mathbb{E}(\phi_{1q}(X)) \\
            \vdots                & \ddots & \vdots                \\
            \mathbb{E}(\phi_{p1}(X)) & \cdots & \mathbb{E}(\phi_{pq}(X))
    \end{bmatrix}
$$

上記から分かる通り $np \times q$ 行列となる.

### 命題 2.2 (期待値の性質)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

　$X, X_1, X_2$ をそれぞれ $n$ 次元確率ベクトル, $A$ は $p \times n$ 行列, $a$ は $n$ 次元定数ベクトルとすると以下が成立する.

(multi-expectation-property)=
$$
    \begin{align}
        &\text{性質(1)} \quad \mathbb{E}(A) = A \\
        &\text{性質(2)} \quad \mathbb{E}(X + a) = \mathbb{E}(X) + a \\
        &\text{性質(3)} \quad \mathbb{E}(AX) = A\mathbb{E}(X)  \\
        &\text{性質(4)} \quad \mathbb{E}(X_1 + X_2) = \mathbb{E}(X_1) + \mathbb{E}(X_2)
    \end{align}
$$

</div>

### 定義 2.3 (分散共分散)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

(multi-variance)=

　$n$ 次元確率ベクトル $X=[X_1 \cdots X_n]'$ と $m$ 次元確率ベクトル $Y=[Y_1 \cdots Y_m]'$ の 2 つの確率ベクトルに対して, $X$ と $Y$ の **共分散行列** (covariance matrix) を以下のように定義する.

$$
    \mathbb{Cov}(X, Y) = \mathbb{E}[ (X - \mathbb{E}[X])(Y - \mathbb{E}[Y])' ]
$$

特に, $\mathbb{Var}(X) = \mathbb{Cov}(X, X)$ を $X$ の **分散共分散行列** (variance-covariance matrix) と呼ぶ. つまり,

$$
    \mathbb{Var}(X) = \mathbb{E}[ (X - \mathbb{E}[X])(X - \mathbb{E}[X])' ] = \begin{bmatrix}
            {\rm Cov}(X_1, X_1) & {\rm Cov}{X_1, X_2} & \cdots & {\rm Cov}(X_1, X_n) \\
            {\rm Cov}(X_2, X_1) & {\rm Cov}{X_2, X_2} & \cdots & {\rm Cov}(X_2, X_n) \\
            \vdots              & \vdots              & \ddots & \vdots              \\
            {\rm Cov}(X_n, X_1) & {\rm Cov}{X_n, X_2} & \cdots & {\rm Cov}(X_n, X_n)
    \end{bmatrix} = \Sigma
$$


### 命題 2.4 (共分散行列の性質)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

　$X, X_1, X_2$ をそれぞれ $n$ 次元確率ベクトル, $Y, Y_1, Y_2$ をそれぞれ $m$ 次元確率ベクトル, $A$ は $p \times n$ 行列, $B$ は $q \times m$ 行列, $a$ を $n$ 次元定数ベクトル, $b$ を $m$ 次元定数ベクトルとすると以下が成立する.

(multi-variance-property)=
$$
    \begin{align}
        &\text{性質(1)} \quad \mathbb{Cov}(X + a, Y + b) = \mathbb{Cov}(X, Y)                          \\
        &\text{性質(2)} \quad \mathbb{Cov}(AX, BY)       = A \mathbb{Cov}(X, Y) B'                     \\
        &\text{性質(3)} \quad \mathbb{Cov}(X_1 + X_2, Y) = \mathbb{Cov}(X_1, Y) + \mathbb{Cov}(X_2, Y) \\
        &\text{性質(4)} \quad \mathbb{Cov}(X, Y_1 + Y_2) = \mathbb{Cov}(X, Y_1) + \mathbb{Cov}(X, Y_2) \\
        &\text{性質(5)} \quad \mathbb{Var}(X + a)        = \mathbb{Var}(X)                             \\
        &\text{性質(6)} \quad \mathbb{Var}(AX)           = A \mathbb{Var}(X) A'
    \end{align}
$$

</div>

<u>証明</u>  
　性質(1)

$$
    \begin{align}
        \mathbb{Cov}(X + a, Y + b) &= \mathbb{E} [ (X + a - \mathbb{E}[X + a])(Y + b - \mathbb{E}[Y + b])' ] \\
                                   &= \mathbb{E} [ (X + a - \mathbb{E}[X] - a)(Y + b - \mathbb{E}[Y] - b)' ] &\quad (\text{期待値の性質(1)}) \\
                                   &= \mathbb{E} [ (X - \mathbb{E}[X])(Y - \mathbb{E}[Y])' ] \\
                                   &= \mathbb{Cov}(X, Y).
    \end{align}
$$

　性質(2)

$$
    \begin{align}
        \mathbb{Cov}(AX, BYb) &= \mathbb{E} [ (AX - \mathbb{E}[AX])(BY - \mathbb{E}[BY])' ] \\
                              &= \mathbb{E} [ AX - A\mathbb{E}[X])(BY - B\mathbb{E}[Y])' ] \quad (\text{期待値の性質(3)}) \\
                              &= \mathbb{E} [ A(X - \mathbb{E}[X]) (Y - \mathbb{E}[Y])' B' ] \quad (\text{転置行列について} (PQ)' = Q'P') \\
                              &= A \mathbb{E} [ (X - \mathbb{E}[X]) (Y - \mathbb{E}[Y])' ] B' \quad (\text{期待値の性質(3)}) \\
                              &= A \mathbb{Cov}(X, Y) B'.
    \end{align}
$$

　性質(3)

$$
    \begin{align}
        \mathbb{Cov}(X_1 + X_2, Y) &= \mathbb{E} [ (X_1 + X_2 - \mathbb{E}[X_1 + X_2])(Y - \mathbb{E}[Y])' ] \\
                                   &= \mathbb{E} [ \{(X_1 - \mathbb{E} (X_1) \} + \{ X_2 - \mathbb{E}[X_2] \} )(Y - \mathbb{E}[Y])' ] \\
                                   &= \mathbb{E} [ (X_1 - \mathbb{E} (X_1)) (Y - \mathbb{E}[Y])' + ( X_2 - \mathbb{E}[X_2] )(Y - \mathbb{E}[Y])' ] \\
                                   &= \mathbb{E} [ (X_1 - \mathbb{E} (X_1)) (Y - \mathbb{E}[Y])' ] + \mathbb{E} [ ( X_2 - \mathbb{E}[X_2] )(Y - \mathbb{E}[Y])' ] \quad (\text{期待値の性質(4)}) \\
                                   &= \mathbb{Cov}(X_1, Y) + \mathbb{Cov}(X_2, Y).
    \end{align}
$$

　性質(4)

$$
    \begin{align}
        \mathbb{Cov}(X, Y_1 + Y_2) &= \mathbb{E} [ (X - \mathbb{E}[X])(Y_1 + Y_2 - \mathbb{E}[Y_1 + Y_2])' ] \\
                                   &= \mathbb{E} [ (X - \mathbb{E}[X])\{(Y_1 - \mathbb{E} (Y_1) \} + \{ Y_2 - \mathbb{E}[Y_2] \} )' ] \\
                                   &= \mathbb{E} [ (X - \mathbb{E}[X]) (Y_1 - \mathbb{E}[Y_1])' + ( X - \mathbb{E}[X] )(Y_2 - \mathbb{E}[Y_2])' ] \\
                                   &= \mathbb{E} [ (X - \mathbb{E}[X]) (Y_1 - \mathbb{E}[Y_1])' ] + \mathbb{E} [ ( X - \mathbb{E}[X] )(Y_2 - \mathbb{E}[Y_2])' ] \quad (\text{期待値の性質(4)}) \\
                                   &= \mathbb{Cov}(X, Y_1) + \mathbb{Cov}(X, Y_2).
    \end{align}
$$

　性質(5) は 性質(1) を用いて

$$
    \begin{align}
        \mathbb{Var}(X + a) = \mathbb{Cov}[X + a, X + a] = \mathbb{Cov}[X, X] = \mathbb{Var}(X).
    \end{align}
$$

　性質(6) は 性質(2) を用いて

$$
    \begin{align}
        \mathbb{Var}(AX) = \mathbb{Cov}[AX, AX] = A \mathbb{Cov}[X, X] A' = A\mathbb{Var}(X)A'.
    \end{align}
$$

### 命題 2.5 (分散共分散行列の定値性)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

　分散行分散行列は半正定値行列である. すなわち, $n$ 次元確率ベクトル $X$, $n$ 次元定数実ベクトル $u$ を用いて

$$
    \langle u \mathbb{Var} (X), u \rangle = u' \mathbb{Var} (X) u \geq 0.
$$

</div>

<u>証明</u>  

$$
    \begin{align}
        u' \mathbb{Var} (X) u &= u' \mathbb{E}[ (X - \mathbb{E}[X])(X - \mathbb{E}[X])' ] u \\
                              &= \mathbb{E}[ u' (X - \mathbb{E}[X])(X - \mathbb{E}[X])' u ] \\
                              &= \mathbb{E}[ \langle u, X - \mathbb{E}[X] \rangle \langle X - \mathbb{E}[X], u \rangle ] \\
                              &= \mathbb{E}[ (\langle u, X - \mathbb{E}[X] \rangle)^2 ] \geq 0.
    \end{align}
$$

等号成立は $\langle u, X - \mathbb{E}[X] \rangle = 0 \Leftrightarrow u'X = u' \mathbb{E}[X]$ の時.

### 命題 2.6 (分散共分散行列のコレスキー分解)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

　$\mathbb{Var}$ が正則行列である時, **コレスキー分解** (Cholesky decomposition) により

$$
    \mathbb{Var}(X) = LL'
$$

を満たす正則な下三角行列 $L$ が一意に存在する.

</div>


### 例 2.7 (コレスキー分解を用いた多変数正規分布乱数の生成)

　分散共分散行列に対してコレスキー分解を行って算出された行列を用いて多変数正規分布に従った乱数を生成できる. 例えば, $X = (X_1 \cdots X_n)'$ は互いに独立した標準正規分布 $N(0, 1)$ に従っているものとする. すなわち, $i = 1, \cdots, n$ で $X_i \sim N(0,1)$ である. この時, $n$ 次元の平均ベクトル $\mu$, $n \times n$ 分散共分散行列 $V$ の多変数正規分布の乱数 $Z = (Z_1 \cdots Z_n)'$ を生成する. $V = LL'$ とコレスキー分解した時,  

$$
    Z = \mu + LX
$$

と表せる.
　ここでは

$$
    \mu = \begin{bmatrix}
        3.0 \\
        4.0 \\
        2.0
    \end{bmatrix} \quad
    V = \begin{bmatrix}
        3.0 & 1.2 & 1.5\\
        1.2 & 2.0 & 1.7 \\
        1.5 & 1.7 & 2.2
    \end{bmatrix}
$$

の多変数正規分布の擬似乱数を生成してみる.

In [53]:
import numpy as np

# n 変数正規分布の乱数を size だけ生成.
n = 3
size = 100000

# 平均ベクトル, 分散共分散行列を設定.
mu = np.matrix([[3.0], [4.0], [2.0]])
cov = np.matrix([[3.0, 1.2, 1.5], [1.2, 2.0, 1.7], [1.5, 1.7, 2.2]])

# N(0, 1) の擬似乱数を生成.
rng = np.random.default_rng(seed=12345)
x = rng.standard_normal(size=(n, size))

# 設定した分散共分散行列をコレスキー分解.
l = np.linalg.cholesky(cov)

# 多変量正規分布の擬似乱数 z を生成.
z = mu + l * x

In [54]:
# 生成した擬似乱数の平均, 分散共分散行列が設定したものになっているかの確認.
print(z.mean(axis=1))
print(np.cov(z))

[[3.00992411]
 [4.00137683]
 [2.00654081]]
[[2.994005   1.20354477 1.49936322]
 [1.20354477 1.99552296 1.69781946]
 [1.49936322 1.69781946 2.19759746]]


## 3. 周辺分布と条件付分布

(marginal_distribution)=

### 定義 3.1 (周辺分布関数)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

　2 つの確率ベクトル $X, Y$ の同時分布を $f_{X, Y}(x, y)$ とすれば, $X$ 単独の確率分布を $X$ の**周辺分布** (marginal distribution) と呼び, $X, Y$ が離散型の場合, その質量関数を $f_X(x)$ で表し $X$ の**周辺質量関数** (mariginal probability mass function) と呼ぶ.

$$
    f_X(x) = \sum_{y}{f_{X, Y}(x, y)}
$$

また $X, Y$ が連続型の場合, **周辺密度関数** (mariginal probability density function) と呼び以下のように書ける.

$$
    f_X(x) = \int {f_{X, Y}(x, y)dy}
$$

</div>

### 例 3.2 (2つのサイコロの出る目の周辺分布)

　[例 1.2 (2つのサイコロの出る目)](multi-discrete-distribution:example1) について再考する. 元の確率表に周辺分布を加えたものが以下になる. 

|                | $X_1$ | $1$    | $2$    | $3$    | $4$    | $5$    | $6$     || $f_{X_2}(x_2)$ |
| :------------: | ----- | ------ | ------ | ------ | ------ | ------ | ------- || -------------- |
| $X_2$          |       |        |        |        |        |        |         ||                |
| $1$            |       | $1/36$ | $2/36$ | $2/36$ | $2/36$ | $2/36$ | $2/36$  || $11/36$        |
| $2$            |       |        | $1/36$ | $2/36$ | $2/36$ | $2/36$ | $2/36$  || $9/36$         |
| $3$            |       |        |        | $1/36$ | $2/36$ | $2/36$ | $2/36$  || $7/36$         |
| $4$            |       |        |        |        | $1/36$ | $2/36$ | $2/36$  || $5/36$         |
| $5$            |       |        |        |        |        | $1/36$ | $2/36$  || $3/36$         |
| $6$            |       |        |        |        |        |        | $1/36$  || $1/36$         |
|                |       |        |        |        |        |        |         ||                |
| $f_{X_1}(x_1)$ |       | $1/36$ | $3/36$ | $5/36$ | $7/36$ | $9/36$ | $11/36$ || $1$            |

　この表から分かるように, それぞれの周辺分布において確率分布の性質を満たすことが分かる. つまり, $f_{X_1}(x_1) = \dfrac{2x_1 - 1}{36}$ より $f_{X_1}(x_1) \geq 0$. また,

$$
    \sum_{x_1 = 1}^{6}{f_{X_1}(x_1)} = \frac{1}{36}\sum_{x_1 = 1}^{6}{(2x_1 - 1)} = \frac{1 + 3 + 5 + 7 + 9 + 11}{36} = 1.
$$

### 例 3.3 (線形和によって表現される同時密度関数の周辺分布)

　[例 1.4 (線形和によって表現される同時密度関数)](multi-continuous-distribution:example1) について再考する. 同時密度関数

$$
    \begin{align}
        f_{X, Y}(x, y) = \begin{cases}
            x + y &(0 \leq x, y \leq 1) \\
            0     &(\text{otherwise})
        \end{cases}
    \end{align}
$$

において $X$ の周辺密度関数は

$$
    \begin{align}
        f_{X}(x) = \int_{0}^{1}{(x + y)dy} = x + \frac{1}{2}
    \end{align}
$$

となる. よって, $f_X(x) \geq 0$. また

$$
    \begin{align}
        \int_{0}^{1}{f_{X}(x)} = \int_{0}^{1}{\biggl(x + \frac{1}{2}\biggr)dy} = 1.
    \end{align}
$$

(conditional_distribution)=

### 定義 3.4 (条件付分布)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

　$Y = y$ が与えられた下での $X = x$ となる**条件付分布** (conditional distribution) を

$$
    f_{X|Y}(x|y) = \frac{f_{X, Y}(x, y)}{f_Y(y)}
$$

と書ける.

</div>

### 定義 3.5 (ベイズの定理)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

　以下の条件付分布の関係式を**ベイズの定理** (Bayes' theorem) という.

$$
    f_{Y|X}(y|x) = \frac{ f_{X|Y}(x|y) f_Y(y) }{ f_X(x) } = \dfrac{ f_{X|Y}(x|y) f_Y(y) }{\displaystyle \int {f_{X|Y}(x, y)f_Y(y) dy} }
$$

連続型についてはさらに下記のように表現できる.

$$
    f_{Y|X}(y|x) = \dfrac{ f_{X|Y}(x|y) f_Y(y) }{\displaystyle \int {f_{X|Y}(x, y)f_Y(y) dy} }
$$

</div>

<u>ベイズの定理の意味</u>  

　数式の意味について検討すると,

- $f_Y(y)$ は事象 $X$ が起きる前の事象 $Y$ の確率分布で**事前確率分布** (prior probability distribution) という.
- $f_{X|Y}(x|y)$ は事象 $X$ が確定する場合に, 前提条件として事象 $Y$ が成立する尤もらしさを表し, $X$ に対する $Y$ の**尤度** (likelihood) と解釈できる.
- $f_{Y|X}(y|x)$ は事象 $X$ が真の場合に事象 $Y$ の確率分布で**事後確率分布** (posterior probability distribution) という.

<u>証明</u>

　[条件付分布の定義](conditional_distribution)から

$$
    f_{Y|X}(y|x) = \frac{f_{X, Y}(x, y)}{f_X(x)} \Rightarrow f_{X, Y}(x, y) = f_{Y|X}(y|x) f_X(x)
$$

同様にして

$$
    f_{X, Y}(x, y) = f_{X|Y}(x|y) f_Y(y)
$$

ゆえに $f_{X, Y}(x, y)$ をもとに

$$
    \begin{align}
        f_{Y|X}(y|x) f_X(x) = f_{X|Y}(x|y) f_Y(y) \\
        \Leftrightarrow f_{Y|X}(y|x) = \frac{ f_{X|Y}(x|y) f_Y(y) }{ f_X(x) }
    \end{align}
$$

また連続型については[同時分布と周辺分布との関係](marginal_distribution) と [条件付分布の関係式](conditional_distribution) から

$$
    \begin{align}
        f_X(x) &= \int {f_{X, Y}(x, y)dy} \\
               &= \int {f_{X|Y}(x|y) f_Y(y)dy}
    \end{align}
$$

よって

$$
    f_{Y|X}(y|x) = \dfrac{ f_{X|Y}(x|y) f_Y(y) }{\displaystyle \int {f_{X|Y}(x, y)f_Y(y) dy} }.
$$

### 定義 3.6 条件付期待値

### 定義 3.7 条件付分散共分散

## 4. 多変量確率分布

### 例 4.1 (多項分布)

### 例 4.2 (多変量正規分布)

### 例 4.3 (ディリクレ分布)