# 確率と期待値・分散

## 確率

可測集合族$\mathcal{B}$の元である可測集合$A$に対して実数を対応させる関数$P(\cdot)$で、次の3つの性質を満たすものを**確率**（probability）という。

1. すべての$A \in \mathcal{B}$に対して$P(A) \geq 0$
2. $P(\Omega) = 1$ （$\Omega$は全事象もしくは標本空間といい、試行により起こりうるすべての結果）
3. $A_k \in \mathcal{B}, k=1,2,...,$が互いに排反でるとき、つまり $A_i \cap A_j = \emptyset, i \neq j$の場合、$P(\cup^\infty_{k=1} A_k) = \sum^\infty_{n=1} P(A_k)$

### 条件付き確率

$$
P(A|B) = \frac{P(A\cap B)}{P(B)}
$$

例：性別ごとにゲーム機の所持率を調査した結果、以下の表のようになったとする。

|            | 男性 | 女性 | 計   |
| ---------- | ---- | ---- | ---- |
| **所持**   | 2/6  | 1/4  | 7/12 |
| **未所持** | 1/6  | 1/4  | 5/12 |
| **計**     | 1/2  | 1/2  | 1    |

女性でゲーム機を所持している確率は

$$
P(所持|女性)= \frac{P(所持\cap 女性)}{P(女性)}
= \frac{1}{4} ÷ \frac{1}{2} = \frac{1}{2} 
$$

所持している場合に男性である確率は

$$
P(男性|所持)=\frac{P(男性\cap 所持)}{P(所持)}
= \frac{2}{6} ÷ \frac{7}{12} = \frac{4}{7}
$$

となる。

### 全確率の公式（Law of total probability）

$B_1, B_2, ...$を互いに排反な事象の列とし、$P(B_k)>0, P(U^\infty_{k=1} B_k) = \Omega$を満たすとき、事象$A$の確率は次のように分解できる

$$
P(A) = \sum^\infty_{k=1} P(A|B_k) P(B_k)
$$


### ベイズ（Bayes）の定理

$B_1, B_2, ...$を互いに排反な事象の列とし、$P(B_k)>0, P(U^\infty_{k=1} B_k) = \Omega$を満たすとする。このとき任意の事象Aに対してAを与えたときの$B_j$の条件付き確率$P(B_j|A)$は次のように表される。

$$
P(B_j|A)
= \frac{P(A|B_j)P(B_j)}{\sum^\infty_{k=1} P(A|B_k) P(B_k)}
$$

### 独立性

2つの事象AとBが
$$
P(A\cap B) = P(A)P(B)
$$
を満たすとき、AとBは**独立**であるという


## 確率変数と期待値

### 確率変数

$\Omega$を全事象、$\mathcal{B}$を$\Omega$の可測集合族、$P$を$(\Omega, \mathcal{B})$上の確率とするとき、$\omega \in \Omega$に対して実数値$X(\omega) \in \mathbb{R}$を対応させる関数$X$を**確率変数**（random variable）という。

任意の実数$x$に対して$X\leq x$である確率は

$$
P(X\leq x) = P(\{\omega \in \Omega| X(\omega) \leq x\})
$$

として、確率$P$を用いて与えることができる。


なお、$X(\omega)=x$の$x$を実現値という。実現値の全体を標本空間といい、$\mathcal{X} = \{X(\omega)|\omega\in\Omega\}$で表す。


### 累積分布関数

確率変数Xの**累積分布関数**（cumulative distribution function: cdf）を

$$
F_X(x) = P(X \leq x)
$$

と定義する。累積分布関数は単に**分布関数**とも呼ばれる。


分布関数$F_X(x)$が階段関数（step function）のとき、$X$は**離散型確率変数**（discrete random variable）といい、$F_X(x)$が連続関数のとき、$X$は**連続型確率変数**（continuous random variable）という。


### 確率関数

離散型確率変数$X$に対して

$$
f_X(x)=P(X=x)
$$

を**確率質量関数**（probability mass function: pmf）という。


連続型確率変数$X$に対して

$$
F_X(x) = \int^x_{-\infty} f_X(t) dt, -\infty < x < \infty
$$

となる関数$f_X(x)$が存在するとき、$f_X(x)$を**確率密度関数**（probability density function: pdf）という。


定義から、$f_X(x)$は$F_X(x)$を微分することで得られる。

$$
f_X(x) = \frac{d F_X(x)}{dx}
$$


## 期待値

確率変数$X$の関数$g(X)$の**期待値**（expected value）を$E[g(X)]$で表す。$E[g(X)]$は

$X$が離散型確率変数のとき、

$$
E[g(x)] = \int^{\infty}_{-\infty} g(x) f_X(x) dx
$$


$X$が連続型確率変数のとき、

$$
E[g(x)] = \sum_{x_i \in \mathcal{X}} g(x_i) f_X(x_i)
$$

と定義される。


$E[X]$を$X$の期待値もしくは**平均**（mean）という。

$E[(X- E[X])^2]$を$X$の**分散**（variance）という。



## 参考

- 久保川 達也（2017）『現代数理統計学の基礎』、共立出版。