# 多変量確率分布

## 1. 多変量確率ベクトルと同時分布関数

### 定義 1.1 (離散型の同時分布)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

　$n$ 個の離散型の確率変数 $X_1, \cdots, X_n$ について

$$
    {\rm P}(X_1 = x_1, \dots, X_n = x_n) = f(x_1, \dots, x_n)
$$

を **同時確率関数** (joint probability mass function) という. このとき関数 $f$ は

(multi-discrete-distribution)=
$$
    \begin{align}
        & f(x_1, \dots, x_n) \geq 0 \\
        & \sum_{ i }{ \sum_{ j }{ \cdots \sum_{ k }{ f(x_{1i}, x_{2j}, \dots, x_{nk}) } } } = 1
    \end{align}
$$

を満たす.

</div>

### 例 1.2 (2つのサイコロの目)

　2 つのサイコロの目 $P, Q$ の大きい方, 小さい方をそれぞれ $X_1 = \max{(P, Q)}$, $X_2 = \min{(P, Q)}$ とする. ただし $x \geq y$ のとき $\max{(x, y)} = x$, $\min{(x, y)} = y$ である. このとき $X_1 = x_1$ かつ $X_2 = x_2$ となる確率 $f(x_1, x_2)$ とする. このとき以下の確率表となる.

|       | $X_1$ | $1$    | $2$    | $3$    | $4$    | $5$    | $6$    |
| :---: | ----- | ------ | ------ | ------ | ------ | ------ | ------ |
| $X_2$ |       |        |        |        |        |        |        |
| $1$   |       | $1/36$ | $2/36$ | $2/36$ | $2/36$ | $2/36$ | $2/36$ |
| $2$   |       |        | $1/36$ | $2/36$ | $2/36$ | $2/36$ | $2/36$ |
| $3$   |       |        |        | $1/36$ | $2/36$ | $2/36$ | $2/36$ |
| $4$   |       |        |        |        | $1/36$ | $2/36$ | $2/36$ |
| $5$   |       |        |        |        |        | $1/36$ | $2/36$ |
| $6$   |       |        |        |        |        |        | $1/36$ |

よって $f(x_1, x_2) \geq 0$ であり,

$$
    \sum_{x_1=1}^{6}{ \sum_{x_2=1}^{6}{f(x_1, x_2)} } = 1.
$$

### 定義 1.3 (連続型の同時分布)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

　$n$ 個の連続型の確率変数 $X=[X_1 \cdots X_n]'$ について $X \in \mathbb{X}$ となる確率が以下で定義されるとする.

$$
    {\rm P}(X \in \mathbb{X}) = \int_{\mathbb{X}}{f(x_1, \dots, x_n)dx_1 \dots dx_n}
$$

このとき $f$ は **同時密度関数** (joint probability density function) といい

(multi-continuous-distribution)=
$$
    \begin{align}
        & f(x_1, \dots, x_n) \geq 0 \\
        & \int_{x_1}{ \cdots \int_{x_n}{ f(x_1, \dots, x_n)dx_n \dots dx_1 } } = 1 
    \end{align}
$$

である.

</div>

### 例 1.4 (線形和によって表現される同時密度関数)

　以下の同時密度関数が与えられたとする.

$$
    \begin{align}
        f(x, y) = \begin{cases}
            x + y &(0 \leq x, y \leq 1) \\
            0     &(\text{otherwise})
        \end{cases}
    \end{align}
$$

$0 \leq x \leq \dfrac{1}{2}$, $0 \leq y \leq \dfrac{1}{4}$ となる確率は

$$
    \begin{align}
        P \biggl(0 \leq x \leq \frac{1}{2}, 0 \leq y \leq \frac{1}{4} \biggr)
            &= \int_{0}^{1/4}{ \int_{0}^{1/2}{(x + y)dx}dy } \\
            &= \int_{0}^{1/4}{ \biggl[ \frac{1}{2}x^2 + xy \biggr]_{0}^{1/2} dy } \\
            &= \int_{0}^{1/4}{ \biggl( \frac{1}{8} + \frac{1}{2}y \biggr) dy } \\
            &= \biggl[ \frac{1}{8}y + \frac{1}{4}y^2 \biggr]_{0}^{1/4} \\
            &= \frac{3}{64}
    \end{align}
$$

となる.  
　もちろん $f(x, y) \geq 0$ で

$$
    \begin{align}
        \int_{0}^{1}{ \int_{0}^{1}{(x + y)dx}dy }
            &= \int_{0}^{1}{ \biggl[ \frac{1}{2}x^2 + xy \biggr]_{0}^{1} dy } \\
            &= \int_{0}^{1}{ \biggl( \frac{1}{2} + y \biggr) dy } \\
            &= \biggl[ \frac{1}{2}y + \frac{1}{2}y^2 \biggr]_{0}^{1} \\
            &= 1.
    \end{align}
$$

## 2. 期待値と分散

　以下では明示的に行列やベクトル作用の場合の期待値, 分散, 共分散を示すときはそれぞれ $\mathbb{E}, \mathbb{Var}, \mathbb{Cov}$, スカラーに作用する場合には ${\rm E}, {\rm Var}, {\rm Cov}$ とする.

### 定義 2.1 (期待値)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

(multi-expectation)=
　$n$ 個の確率変数 $X=[X_1 \cdots X_n]'$ について以下で期待値が定義できる.

$$
    \mathbb{E}(X) = \begin{bmatrix}
            {\rm E}(X_1) \\
            \vdots       \\
            {\rm E}(X_n) 
    \end{bmatrix}
$$

**平均ベクトル** (mean vector) といい, 各成分の期待値スカラー ${\rm E}(X_i)$ は[1変量の期待値の定義](expectation)の通り.  
　また一般に $p \times q$ 行列値関数 $\phi$ を用いて $\phi(X)$ についても同様に期待値は定義できる.

$$
    \mathbb{E}(\phi(X)) = \begin{bmatrix}
            \mathbb{E}(\phi_{11}(X)) & \cdots & \mathbb{E}(\phi_{1q}(X)) \\
            \vdots                & \ddots & \vdots                \\
            \mathbb{E}(\phi_{p1}(X)) & \cdots & \mathbb{E}(\phi_{pq}(X))
    \end{bmatrix}
$$

上記から分かる通り $np \times q$ 行列となる.

### 命題 2.2 (期待値の性質)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

　$X, X_1, X_2$ をそれぞれ $n$ 次元確率ベクトル, $A$ は $p \times n$ 行列, $a$ は $n$ 次元定数ベクトルとすると以下が成立する.

(multi-expectation-property)=
$$
    \begin{align}
        & \mathbb{E}(A) = A \\
        & \mathbb{E}(X + a) = \mathbb{E}(X) + a \\
        & \mathbb{E}(AX) = A\mathbb{E}(X)  \\
        & \mathbb{E}(X_1 + X_2) = \mathbb{E}(X_1) + \mathbb{E}(X_2)
    \end{align}
$$

</div>

### 定義 2.3 (分散共分散)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

(multi-variance)=

　$n$ 次元確率ベクトル $X=[X_1 \cdots X_n]'$ と $m$ 次元確率ベクトル $Y=[Y_1 \cdots Y_m]'$ の 2 つの確率ベクトルに対して, $X$ と $Y$ の **共分散行列** (covariance matrix) を以下のように定義する.

$$
    \mathbb{Cov}(X, Y) = \mathbb{E}[ (X - \mathbb{E}[X])'(Y - \mathbb{E}[Y]) ]
$$

特に, $\mathbb{Var}(X) = \mathbb{Cov}(X, X)$ を $X$ の **分散共分散行列** (variance-covariance matrix) と呼ぶ. つまり,

$$
    \mathbb{Var}(X) = \mathbb{E}[ (X - \mathbb{E}[X])'(X - \mathbb{E}[X]) ] = \begin{bmatrix}
            {\rm Cov}(X_1, X_1) & {\rm Cov}{X_1, X_2} & \cdots & {\rm Cov}(X_1, X_n) \\
            {\rm Cov}(X_2, X_1) & {\rm Cov}{X_2, X_2} & \cdots & {\rm Cov}(X_2, X_n) \\
            \vdots              & \vdots              & \ddots & \vdots              \\
            {\rm Cov}(X_n, X_1) & {\rm Cov}{X_n, X_2} & \cdots & {\rm Cov}(X_n, X_n)
    \end{bmatrix} = \Sigma
$$


### 命題 2.4 (共分散行列の性質)

<div style="padding: 10px; margin-bottom: 10px; border: 1px solid #333333; border-radius: 10px;">

　$X, X_1, X_2$ をそれぞれ $n$ 次元確率ベクトル, $Y, Y_1, Y_2$ をそれぞれ $m$ 次元確率ベクトル, $A$ は $p \times n$ 行列, $B$ は $q \times m$ 行列, $a$ を $n$ 次元定数ベクトル, $b$ を $m$ 次元定数ベクトルとすると以下が成立する.

(multi-variance-property)=
$$
    \begin{align}
        & \mathbb{Cov}(X + a, Y + b) = \mathbb{Cov}(X, Y)                          \\
        & \mathbb{Cov}(AX, BY)       = A \mathbb{Cov}(X, Y) B'                     \\
        & \mathbb{Cov}(X_1 + X_2, Y) = \mathbb{Cov}(X_1, Y) + \mathbb{Cov}(X_2, Y) \\
        & \mathbb{Cov}(X, Y_1 + Y_2) = \mathbb{Cov}(X, Y_1) + \mathbb{Cov}(X, Y_2) \\
        & \mathbb{Var}(X + a)        = \mathbb{Var}(X)                             \\
        & \mathbb{Var}(AX)           = A \mathbb{Var}(X) A'
    \end{align}
$$

</div>

## 2. 周辺分布と条件付確率

## 3. 多次元確率分布