# Chapter 6: 統計モデリング視点から確率分布の紹介

以下の表形式で、基本的な確率分布を紹介。統計モデリングにおいて、関数や階層モデルを用いて、これらの確率分布を組み合わせていくことになる。

| 確率質量関数または確率密度関数 | $p(y\|\theta)$の具体的な関数形                     |
| ------------------------------ | :------------------------------------------------- |
| 図                             | 関数形を図示したもの                               |
| 確率変数の値                   | y:yのとりうる値                                    |
| パラメータ                     | 0:0のとりうる値                                    |
| 平均                           | $p(y\|\theta)$の平均の理論値                       |
| 標準偏差(または分散共分散)     | $p(y\|\theta)$の標準偏差(または分散共分散)の理論値 |
| 登場する箇所                   | 本書において登場する箇所                           |

数学的には標準偏差より分散が取り扱いやすいが、Stanでの取り扱い、平均との単位の整合性から基本的には標準偏差を記載する。

$p(y|\theta)$の関数系では、正規化のため$\Gamma(x)$当関数がしばしば見られる。定義は以下となる。

$$
\Gamma(x) = \int_{0}^{\infty} t^{x-1}\exp^{-t}dt
$$



## 6.1 一様分布

| 確率質量関数 | $\text{ Uniform } (y \mid a,b)= \begin{cases}\dfrac{1}{b-a} & a \leq x \leq bの場合 \\ 0 & それ以外の場合 \end{cases}$ |
| ------------ | :--------------------------------------------------------------------------------------------------------------------- |
| 図           | ![Alt text](chap06/output/fig6-1.png) <br> 図 6.1 $a=-2, b=10の一様分布$                                               |
| 確率変数の値 | $y:[a, b]の範囲の実数$                                                                                                 |
| パラメータ   | $a, b : \text{実数. ただし, a < b}$                                                                                    |
| 平均         | $(a+b) / 2$                                                                                                            |
| 標準偏差     | $(b-a) / \sqrt{12}$                                                                                                    |
| 登場する箇所 | $多数$                                                                                                                 |

- 使用例
  
  無情報事前分布として使われる。Stanではパラメータの事前分布はデフォルトでこれ。


## 6.2 ベルヌーイ分布

| 確率質量関数 | $\text{ Bernoulli } (y \mid \theta)= \begin{cases}\theta & y=1の場合 \\ 1-\theta & y=0の場合 \end{cases}$ |
| ------------ | :-------------------------------------------------------------------------------------------------------- |
| 図           | ![Alt text](chap06/output/fig6-2.png) <br> 図 6.2 $\theta=0.2のベルヌーイ分布$                            |
| 確率変数の値 | $y:0か1のいずれかの整数値$                                                                                |
| パラメータ   | $\theta : [0, 1]の範囲の実数$                                                                             |
| 平均         | $\theta$                                                                                                  |
| 標準偏差     | $\sqrt{\theta(1-\theta)}$                                                                                 |
| 登場する箇所 | $5.3節, 8.4節, 11.1.2項, 11.3節$                                                                          |

この分布は1が出る確率が$\theta$で、0が出る確率は$1-\theta$と解釈できる。
- データ例
  
  コイン投げで表が出るかどうかなど結果が二値で表現できる場合に使われる。

- 使用例
  
  5.3節で扱ったようにパラメータ$\theta$は[0, 1]の範囲なのでロジスティック関数(inv_logit)と組み合わせて使うことが多い。



## 6.3 二項分布

| 確率質量関数 | $\text{ Binominal } (y \mid N, \theta)= \dfrac{N!}{y!(N - y)!} \theta^y (1 - \theta)^{N-y}$ |
| ------------ | :------------------------------------------------------------------------------------------ |
| 図           | ![Alt text](chap06/output/fig6-3.png) 図 6.3 $N = 10, \ \theta = 0.2 の二項分布$            |
| 確率変数の値 | $y:0, 1, ..., N のいずれかの整数値$                                                         |
| パラメータ   | $N:正の整数 \\ \theta : [0, 1]の範囲の実数$                                                 |
| 平均         | $N \theta$                                                                                  |
| 標準偏差     | $\sqrt{N \theta(1-\theta)}$                                                                 |
| 登場する箇所 | $5.2節, 11.1.2項, 11.1.3項$                                                                 |

パラメータ$\theta$のベルヌーイ分布に従うコイン投げをN回行った結果、表がy回出る確率を表していると解釈できる。このように二項分布の裏にはベルヌーイ分布がある。N=1のときはベルヌーイ分布に一致。

二項分布は再生性をもつ。再生性とは、確率変数が互いに独立でそれぞれが同じ確率分布に従う場合、その確率変数の和が同じ確率分布に従う性質。確率変数$y_1, y_2$が独立で、それぞれ異なる$N_1, N_2$であり、$\theta$は同じとき以下が言える。

$$
\begin{align}
&y_1 \sim Binominal(N_1, \theta) \ かつ \ y_2 \sim Binominal(N_2, \theta) のとき \nonumber\\
&y = y_1 + y_2 \sim Binominal(N_1 + N_2, \theta) \ が成り立つ \nonumber\\
&\nonumber
\end{align}
$$

Nが十分大きく、分布が左右対称に近い場合は正規分布(平均$N \theta$, 標準偏差$\sqrt{N \theta (1 - \theta)}$)で近似できる。確率的プログラミング言語では一般的に正規分布の計算のほうが速い。

- データ例
  
  10試合中で買った回数。兄弟姉妹のうち女性の人数。

- 使用例
  
  5.2節参照。ベルヌーイ分布同様ロジスティック関数を使って$\theta$を表す場合が多い。Nは既知のケースが多いだろう。



## 6.4 ベータ分布

| 確率質量関数 | $\text{ Beta } (\theta \mid \alpha, \beta)= \dfrac{1}{B(\alpha, \beta)} \theta^{\alpha - 1}(1 - \theta)^{\beta - 1}$ |
| ------------ | :------------------------------------------------------------------------------------------------------------------- |
| 図           | ![Alt text](chap06/output/fig6-4.png) <br> 図 6.4 $ベータ分布$                                                       |
| 確率変数の値 | $\theta : (0, 1)の範囲の実数$                                                                                        |
| パラメータ   | $\alpha, \beta : 正の実数$                                                                                           |
| 平均         | $\alpha / (\alpha + \beta)$                                                                                          |
| 標準偏差     | $\dfrac{\sqrt{\alpha \beta}}{(\alpha + \beta)\sqrt{\alpha + \beta + 1}}$                                             |
| 登場する箇所 | $10.2.3項$                                                                                                           |

$B(\alpha, \beta)$は積分を1にするための正規化定数であり定義は以下である。
$$
B(\alpha, \beta) = \frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha + \beta)}
$$

この分布は定義域が(0,1)の連続型分布なので確率を生成する分布とも解釈できる。例えば、1が出た回数$\alpha$, 0が出た回数$\beta$という試行において、1が出る確率$\theta$の確率分布を推定する場合に使用できる。もちろん、確率でなくても(0,1)と考えられる変数なら何でも使うことができる。例えば、2点間の内分点を算出する際の重みを生成する分布として使うことができる。

この確率分布を用いて、1の出る確率pの最頻値や、pが任意の範囲に収まっている確率の導出などの分析が可能。

平均が$\alpha / (\alpha + \beta)$であることからもわかるが、$\alpha$を小さくすると平均が0に近づき、$\beta$を小さくすると平均が1に近づく。

- データ例
  
  品目がN種類ある製品があり、それぞれの品目の故障率(故障確率)の分布を考えたい場合。

- 使用例
  
  ベルヌーイ分布もしくは二項分布のパラメータ$\theta$を生成するのに使われることが多い。上記データ例では、各品目の生産量$M[n]$に対し、故障個数$Y[n]$の場合に故障確率$\theta[n]を得る事ができる。平均を使っても良いが、サンプル数が小さい場合に推定が難しい。そこで品目それぞれの故障確率は一つのベータ関数から生成されたと考える。

  このときのモデル式は以下となる。
  ##### モデル式 6-1
  $$
  \begin{align}
  &\theta[n] \sim Beta(\alpha, \beta) &n = 1…...N \nonumber \\
  &Y[n] \sim Binomial(M[n], \theta(n]) &n = 1…...N\nonumber
  \end{align}
  $$

  $\theta[n]$だけでなく$\alpha, \beta$もデータから推定する。データが少ない場合や背景知識がある場合には、$\alpha, \beta$の事前分布に弱情報事前分布を設定することもある。
  
  ベータ分布は$\alpha$と$\beta$の値の組み合わせで柔軟に形状が変わる。
  - $\alpha = \beta = 1$の場合: 標準一様分布になる。平均値 = 最頻値になる。
  - $\alpha = \beta \gt 1$の場合: 正規分布になる。平均値 = 最頻値になる。
  - $\alpha \gt \beta$の場合: 左肩下がりのグラフになる。最頻値が平均値より右側になる。
  - $\alpha \lt \beta$の場合: 右肩下がりのグラフになる。平均値が最頻値より右側になる。

  ということでベイズ統計においては、この柔軟さを活かして変数の事前確率分布に用いられることが多い。


## 6.5 カテゴリカル分布

| 確率質量関数 | $\text{ Categorical } (y = k \mid \vec{\theta}) = \theta_k$                                                                 |
| ------------ | :-------------------------------------------------------------------------------------------------------------------------- |
| 図           | ![Alt text](chap06/output/fig6-5.png) <br> 図 6.5 $K = 5, \ \vec{\theta}  = (0.1, 0.2, 0.25, 0.35, 0.1) のカテゴリカル分布$ |
| 確率変数の値 | $y : 1, 2, ..., Kのいずれかの整数 (0は含まない)$                                                                            |
| パラメータ   | $K : 2以上の正の整数 \\ \theta : \text{長さKのベクトル. 各要素は[0, 1]の範囲の実数で合計すると1となる}$                     |
| 平均         | $I[y = k]$ の平均[<sup>1)</sup>](#fn1) $: \theta_k$                                                                                          |
| 分散共分散   | $I[y = k]の分散 : \theta_k(1 - \theta_k) \\ I[y = k]とI[y = k']の共分散(k \neq k'): -\theta_k \theta_{k'}$                  |
| 登場する箇所 | $9.4.2項, 10.1.4項, 11.4節$                                                                                                 |

[<sup id="fn1">1)</sup>](#fn1-back) $\text{I[y=k]はy=kとなる場合に1を返し, それ以外の場合は0を返す関数である.}$

この分布はカテゴリー変数のインデックスを確率的に生成する事ができると解釈できる。各パラメータの説明をすると、あるカテゴリー変数において、カテゴリーの種類がK個、各カテゴリーの出やすさ(生起確率)が$\vec{\theta}$(の各要素)になっている。サイコロを例にとると、kの目が出る確率が$\theta_k$であるようなK面サイコロでであるといえる。

- データ例
  
  購入した商品のカテゴリーをインデックスとして扱うデータの場合。

- 使用例
  
  ベルヌーイ分布のように説明変数とあわせて使う。

    - $Y (1 \sim Kの整数):$ 購入商品のカテゴリー
    - $Y[n] (n=1, ..., N):$ 購入者のデータ
    - $\overrightarrow{\theta[n]}:$購入者毎に各カテゴリーを選ぶ確率
    - $Y[n]$は$\overrightarrow{\theta[n]}$をパラメータとするカテゴリカル分布から確率的に生成
    - $\overrightarrow{\theta[1]}, \ldots, \overrightarrow{\theta[N]}$はそれぞれが長さKのベクトルで、各ベクトル$\overrightarrow{\theta[n]}$において要素の和は1である
    - 説明変数は$\text{年齢}Age[n], \text{性別}Sex[n], \text{年収}Income[n]$
  とすると、説明変数を線形結合して以下のモデル式が考えられる。

  ##### モデル式 6-2
  $$
  \begin{align}
  &\overrightarrow{\mu[n]} = \overrightarrow{b_1} + \overrightarrow{b_2}Age[n] + \overrightarrow{b_3}Sex[n] + \overrightarrow{b_4}Income[n] & n = 1, ..., N \nonumber \\
  &\overrightarrow{\theta[n]} = \text{softmax } (\overrightarrow{\mu[n]}) & n = 1, ..., N \nonumber \\
  &Y[n] \sim \text{Categorical } (\overrightarrow{\theta[n]}) & n = 1, ..., N \nonumber
  \end{align}
  $$

ここで、説明変数の線形結合である$\vec{\mu}$は長さKのベクトルであり、各カテゴリーの選ばれる「強さ」と言える量である。説明変数の影響はカテゴリーごとに異なるので、回帰係数$\vec{b_1} \sim \vec{b_4}$はそれぞれ長さKのベクトルとなる。データからこれらの回帰係数を推定する、このようなモデルを多項ロジスティック回帰(multinomial logistic regression) と呼び、10.1.4項で扱う。

ここでsoftmaxは以下の関数である。

$$
\vec{\theta} = \text{softmax } \left( \frac{\exp(x_1)}{\sum_{k'=1}^K \exp(x_{k'})} \cdots \frac{\exp(x_K)}{\sum_{k'=1}^K \exp(x_{k'})} \right)^T
$$

この関数は$(-\infty, \infty)$をとるこの各要素を、$\exp$で正の値にしてから合計が1になるように規格化している。つまり、この関数は各要素が$(-\infty, \infty)$の範囲をとる長さKのベクトル$\vec{x}$を、各要素が$(0, 1)$の範囲をとり合計1になる長さK
のベクトル$\vec{\theta}$(K-simplex またはK-単体と呼ぶ)に変換する関数の一つである。

このようにカテゴリカル分布と softmaxは組み合わせて使うことが多い。


## 6.6 多項分布

| 確率質量関数 | $\text{ Multinomial } (\vec{y} \mid N, \vec{\theta}) = \dfrac{N!}{\prod^K_{k=1} y_k!}\displaystyle{\prod^k_{k=1}} \theta^{y_k}_k$ |
| ------------ | :-------------------------------------------------------------------------------------------------------------------------------- |
| 図           | 略                                                                                                                                |
| 確率変数の値 | $\vec{y} : \text{長さKのベクトル. 各要素は0, 1, ..., N のいずれかの整数で合計するとNになる}$                                      |
| パラメータ   | $K : 2以上の正の整数 \\ N : 正の整数 \\ \vec{\theta} : 長さKのベクトル. 各要素は [0,1]の範囲の実数で合計すると1となる $           |
| 平均         | $y_kの平均: N \theta_k$                                                                                                           |
| 分散共分散   | $y_kの分散 : N \theta_k(1 - \theta) \\ y_kとy_{k'}の共分散(k \neq k' : -N \theta_k \theta_{k'})$                                  |
| 登場する箇所 | $9.4.2項$                                                                                                                         |

この分布は$\vec{y}$の各要素である$y_1, \ldots, y_k$が従う同時分布になっている。パラメータ$\vec{\theta}$のカテゴリカル分布に従うサイコロ投げをN回行い、各目が$y_1, \ldots, y_k$回出る確率を表していると解釈できる。$N=1$のとき、

- 多項分布: 各カテゴリーのカウント回数(0か1) を要素に持つベクトルを返す($\vec{y} = [y_1, \ldots, y_k]のうちy_2=1、ほかは0$)。
- カテゴリカル分布: カテゴリーのインデックス(例えば2)を一つ返す。

という違いがあることに注意。
イメージとしては[ベルヌーイ分布](#62-ベルヌーイ分布)と[二項分布](#63-二項分布)の関係を多変量版にしたもの。ただし、カテゴリー数が2個の時、

- 多項分布では$y_1$と$y_2$というニつのカテゴリーのカウント回数を生成
- 二項分布ではN回のうち事象(例えば1)が起きた回数だけをカウントした数である$y$の値を一つ生成する。

また、カテゴリーがK個の多項分布の作図はK次元の図となってしまうので図は省略する。

- データ例
  
  宝くじを1000枚買って、各カテゴリー(年末ジャンボなら1等～7等とハズレ)が何回ずつ出たか。

- 使用例
  
  カテゴリカル分布と同様で、説明変数を使う場合は$\text{softmax}$を使って$\vec{\theta}$を表すことが多い。Nは与えられている場合が多いだろう。



## 6.7 ディリクレ分布

| 確率質量関数 | $\text{ Dirichlet } (\vec{\theta} \mid \vec{\alpha})= \dfrac{1}{B(\vec{\alpha})} \displaystyle{\prod^K_{k=1}\theta_k^{a_k-1}}$                                                                                                                                                                                                                          |
| ------------ | :------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
| 図           | ![Alt text](chap06/output/fig6-6.png) <br> 図 6.6 $k=3のディリクレ分布. \\ 乱数として\vec{\theta} = (\theta_1 \theta_2 \theta_3)^Tを200個生成してプロットした. \\ パラメータ\vec{\alpha}は \\ (左上)(1, 1 ,1)^T, \\ (左下)(0.3, 0.3, 0.3)^T \\ (右上)(0.3, 1, 1)^T  \\ (右下)(3, 6, 6)^T \\ である.\\ 例えば右下の場合の平均は(0.2, 0.4, 0.4)^Tである.$ |
| 確率変数の値 | $\vec{\theta} :長さKのベクトル.各要素は(0, 1)の範囲の実数で合計すると1になる$                                                                                                                                                                                                                                                                           |
| パラメータ   | $K : 2以上の正の整数 \\  \vec{\alpha} : 各要素は正の実数$                                                                                                                                                                                                                                                                                               |
| 平均         | $\sum^K_{k=1} \alpha_k = \alpha_{sum}と表すとすると, \\ \theta_kの平均 : \alpha_k / \alpha_{sum}$                                                                                                                                                                                                                                                       |
| 分散共分散   | $\theta_kの分散 : \alpha_k (\alpha_{sum} - \alpha_k) / (\alpha_{sum}^2(\alpha_{sum} + 1)) \\ \theta_kと\theta_{k'}の共分散(k \neq k') : -\alpha_k\alpha_{k'} / (\alpha^2_{sum}(\alpha_{sum}+1))$                                                                                                                                                        |
| 登場する箇所 | $10.2.3項, 11.4節$                                                                                                                                                                                                                                                                                                                                      |

この分布は$\vec{\theta}$の各要素である$\theta_1, \ldots, \vec{\theta}_k$が従う同時分布になっている。$\text{B}(\alpha)$は積分を1にするための正規化定数であり、定義は以下である。

$$
\text{B}(\alpha) = \frac{\prod_{k=1}^K \Gamma(\alpha_k)}{\displaystyle \Gamma \left( \sum_{k=1}^K \alpha_k \right)}
$$

この分布は「合計すると1になる確率のベクトル」を生成する分布と解釈できる。イメージとしてはベータ分布の多変量版だ。ただしカテゴリー数が2個の時、以下の違いがある。
- ディリクレ分布: $\theta_1$,と$\theta_2$の二つの値を生成
- ベータ分布は$\theta$の値を一つ生成

ベータ分布の場合と同様に確率を生成するだけではなく、例えば3点間以上の内分点を算出する際の重みを生成する分布としても使える。

また、カテゴリーがK個のディリクレ分布について，$\vec{\theta}$のそれぞれの要素の値をK個の軸とするとK次元の図となり簡単には作図できない。しかし、$\vec{\theta}$の各要素の合計が1である条件から次元数を1次元落とすことができる。図6.6では$K=3$の場合について、1次元落として表現した2次元の確率密度関数から乱数を生成してプロットした。

- データ例
  
  多数のカテゴリーがあり、それぞれの選択確率の分布を考える場合、

- 使用例
  
  典型的にはカテゴリカル分布もしくは多項分布のパラメータ$\vec{\theta}$を生成するのに使う。例えば、以下のように使う。

  ##### モデル式 6-3
  $$
  \begin{align}
  &\vec{\theta} \sim \text{Dirichlet } (\vec{\alpha}) \nonumber \\
  &Y \sim \text{Categorical } (\vec{\theta}) \nonumber
  \end{align}
  $$
  
  $\vec{\theta}$をデータから推定する。$\vec{\alpha}$は固定値を与えることもあれば、データから推定することもある。他には11.4節のLatent Dirichlet Allocationで使う。
  
  サイコロ投げに関連付けると，ディリクレ分布はどんな形のサイコロを生成しやすいかを決める分布とも言える。このとき、パラメータ$\vec{\alpha}$の各要素 $\alpha_1, \ldots, \alpha_K$ は以下のような影響を生成されるサイコロに与える。
  
  - $\alpha_1, \ldots, \alpha_K$ がともに$\gt1$、かつ同等の値の場合: 公平なサイコロが生成されやすい。
  - $\alpha_1, \ldots, \alpha_K$ がともに$\lt1$: 一部の目が出やすく、その他の目は出にくいような極端なサイコロが生成されやすい。
  - $\alpha_1 = \alpha_2 = \ldots = \alpha_K = 1$ の場合: K次元で合計が1になる空間における一様分布に相当するものになり、どんな形のサイコロになりやすいか無情報になる。


## 6.8 指数分布

| 確率質量関数 | $\text{Exponential} (y \mid \beta) = \beta \exp(-\beta y)$    |
| ------------ | :------------------------------------------------------------ |
| 図           | ![Alt text](chap06/output/fig6-7.png) <br> 図 6.7 $ 指数分布$ |
| 確率変数の値 | $y : y \geq 0の実数$                                          |
| パラメータ   | $\beta : \text{正の実数. rateパラメータと呼ばれる}$           |
| 平均         | $1 / \beta$                                                   |
| 標準偏差     | $1 / \beta$                                                   |
| 登場する箇所 | $10.2.2項$                                                    |

無記憶性(memorylessness)を持つ唯一の連続型確率分布。無記憶性とは確率Pr、確率分布(ここでは指数分布に従う)yと任意の$s, t$について以下が成り立つこと。

$$
Pr(y \gt s + t|y \gt s) = Pr(y \gt t)
$$

例えば、ワイングラスを使いはじめてから壊れるまでの時間が指数分布に従うと考える。そのワイングラスを3年間使っても壊れなかったとして、この先さらに1年の間に壊れない確率は、使いはじめから1年の間に壊れない確率と同じ、という意味である。これを上の無記憶性の式に$s=3, s=1$として当てはめると以下になる。

$$
Pr(y \gt 3 + 1|y \gt 3) = Pr(y \gt 1)
$$

- 左辺: 3年経過時に壊れたという条件で、次の1年で壊れる確率
- 右辺: 事前条件なしで次の1年で壊れる確率

が等しいため、事前条件はその後の確率に影響しないということを表している。

$\exp$の中が$y$の1乗のマイナスなので正規分布に比べると確率密度が小さくなるスピードがかなり遅く、裾が長い分布と言える、また、$\beta$が小さくなると平均と標準偏差は同じスピードで大きくなる。

- データ例
  
  あるイベントが起こるまでの時間(故障するまでの時間、死ぬまでの時間、流れ星を観測するまでの時間など)。

- 使用例
  
  上記のデータのほか、ガンマ分布のパラメータなど、正の実数を持つパラメータを生成する分布として使うことがある(10.2.2項参照)



## 6.9 ポアソン分布

| 確率質量関数 | $\text{Poisson} (y \mid \lambda) = \dfrac{1}{y!} \lambda^y \exp(-\lambda)$      |
| ------------ | :------------------------------------------------------------------------------ |
| 図           | ![Alt text](chap06/output/fig6-8.png) <br> 図 6.8 $\lambda = 2.5のポアソン分布$ |
| 確率変数の値 | $y : 0, 1, 2, ...のいずれかの整数値$                                            |
| パラメータ   | $\lambda : 正の実数$                                                            |
| 平均         | $\lambda$                                                                       |
| 標準偏差     | $\sqrt{\lambda}$                                                                |
| 登場する箇所 | $5.4節, 11.1.2項, 11.1.3項, 11.3節, 11.2.6節$                                   |



## 6.10 ガンマ分布

| 確率質量関数 | $\text{Gamma} (y \mid \alpha, \beta) = \dfrac{\beta^{\alpha}}{\Gamma(\alpha)} y^{\alpha - 1} \exp(-\beta y)$ |
| ------------ | :----------------------------------------------------------------------------------------------------------- |
| 図           | ![Alt text](chap06/output/fig6-9.png) <br> 図 6.9 $ガンマ分布$                                               |
| 確率変数の値 | $y : 正の実数$                                                                                               |
| パラメータ   | $\alpha, \beta : \text{正の実数. αはshapeパラメータ, βはrateパラメータと呼ばれる}$                           |
| 平均         | $\alpha / \beta$                                                                                             |
| 標準偏差     | $\sqrt{\alpha} / \beta$                                                                                      |
| 登場する箇所 | $10.2.2項, 11.2節$                                                                                           |



## 6.11 正規分布

| 確率質量関数 | $\text{Normal} (y \mid \mu, \sigma) = \dfrac{1}{\sqrt{2\pi} \sigma} \exp\left(-\dfrac{1}{2} \left(\dfrac{y - \mu}{\sigma} \right)^2 \right)$ |
| ------------ | :------------------------------------------------------------------------------------------------------------------------------------------- |
| 図           | ![Alt text](chap06/output/fig6-10.png) <br> 図 6.10 $正規分布$                                                                               |
| 確率変数の値 | $y : 実数$                                                                                                                                   |
| パラメータ   | $\mu : 実数 \\  \sigma : 正の実数$                                                                                                           |
| 平均         | $\mu$                                                                                                                                        |
| 標準偏差     | $\sigma$                                                                                                                                     |
| 登場する箇所 | $多数$                                                                                                                                       |

このテキストではNormal(平均, 標準偏差)もしくはN(平均, 標準偏差)と書く。

正規分布は再生性を持つ。つまり
$$
\begin{align}
&確率変数y_1, y_2が独立で、 \nonumber \\
&y_1 \sim \text{ Normal } (\mu_1, \sigma_1) \ かつ \ y_2 \sim \text{ Normal } (\mu_2, \sigma_2) のときに \nonumber \\
&y = y_1 + y_2 \sim \text{ Normal } \left( \mu_1 + \mu_2, \sqrt{\sigma_1^2 + \sigma_2^2 } \right) \nonumber
\end{align}
$$
が成り立つ[<sup>2)</sup>](#fn2)。

正規分布は世の中で遭遇するデータの多くにあてはめられる。メカニズムが明確ではないデータや、モデリングではデータでなくても、潜在変数、グループ差や個人差、時間による変動分が正規分布に従うと仮定する。

正規分布の特徴は分布の範囲が$(-\infty, \infty)$であることと、対称性があること。また、$\exp$の中がマイナス2乗なので、$\mu$から$\pm 2\sigma$ぐらい離れると確率密度が小さくなる裾の狭い分布。なので外れ値に推定結果が引きずられやすい。これを避けるために[コーシー分布](#614-コーシー分布)や[Studentのt分布](#615-studentのt分布)を代わりに使う。

また、正規分布の$y \geq 0$の部分だけ取り出して正規化したものを半正規分布(half-Normal distribution)と呼び、$\text{Normal}^+ (0, \sigma)$と書く。+は0以上の部分のみ定義されることを示す。

- データ例
  
  センター試験の国語の点数、パン屋さんの食パンの重さなど。

- 使用例
  

  上記のデータのほか、標準偏差など正の実数値をとるパラメータの弱情報事前分布として使うことがある。(10.2.2節参照)

[<sup>2)</sup>](#fn2-back) 正規分布をN(平均, 分散)で表すと、$y_1 \sim \text{N} (\mu_1, \sigma_1^2)$ かつ $y_2 \sim \text{N} (\mu_2, \sigma_2^2)$の時、$y = y_1 + y_2 \sim \text{N} \left( \mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2 \right)$に従う。


## 6.12 対数正規分布

| 確率質量関数 | $\text{LogNormal} (y \mid \mu, \sigma) = \dfrac{1}{\sqrt{2\pi} \sigma} \dfrac{1}{y} \exp\left(-\dfrac{1}{2} \left(\dfrac{\log y - \mu}{\sigma} \right)^2 \right)$ |
| ------------ | :---------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| 図           | ![Alt text](chap06/output/fig6-11.png) <br> 図 6.11 $正規分布$                                                                                                    |
| 確率変数の値 | $y : 正の実数$                                                                                                                                                    |
| パラメータ   | $\mu : 実数 \\  \sigma : 正の実数$                                                                                                                                |
| 平均         | $\exp (\mu + \sigma^2 / 2)$                                                                                                                                       |
| 標準偏差     | $\exp (\mu + \sigma^2 / 2 \sqrt{\displaystyle{e^{a^2}} })$                                                                                                        |
| 登場する箇所 | $10.2.2項, 11.4.4項$                                                                                                                                              |



## 6.13 多変量正規分布

| 確率質量関数 | $\text{MultiNormal} (\vec{y} \mid \vec{\mu}, \Sigma) = \dfrac{1}{(2\pi)^{K/2}} \dfrac{1}{\sqrt{\Sigma}} \exp \left(-\dfrac{1}{2} (\vec{y} - \vec{\mu})^T \Sigma^{-1}(\vec{y} - \vec{\mu}) \right)$                                                                                                                                                                                                                                                                                            |
| ------------ | :-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| 図           | ![Alt text](chap06/output/fig6-12.png) <br> 図 6.12 $K=2の多変量正規分布. \\ 乱数として\vec{y} = (ab)^Tを200個プロットした. \\ パラメータは, \\ (左) \mu_a = 0, \mu_b = 1, \sigma_a = 1.5, \sigma_b = 1.5, \rho = 0.4, \\ (右) \mu_a = 1, \mu_b = 3, \sigma_a = 1.5, \sigma_b = 0.5, \rho = -0.7 \\ である. \sigma_a, \sigma_b, \rhoと\Sigmaの関係は本文を参照してほしい. \\ 上側の図はそれらのパラメータから求めた分布で, \\ 実線が周辺分布p(a)で, 点線が条件付き分布p(a \mid b = 4)である.$ |
| 確率変数の値 | $\vec{y} : 長さKのベクトルで各要素は実数$                                                                                                                                                                                                                                                                                                                                                                                                                                                     |
| パラメータ   | $K : 正の整数 \\  \vec{\mu} : 長さKのベクトルで各要素は実数 \\ \Sigma : K \times Kの対称な正定値行列.$[<sup>5)</sup>](#fn5) $分散共分散行列と呼ぶ$                                                                                                                                                                                                                                                                                                                                                             |
| 平均         | $y_kの平均: \mu_k$                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |
| 分散共分散   | $y_kの分散 : \Sigma_{k, k} \\ y_kとy_{k'}の共分散(k \neq k') : \Sigma_{k, k'}$                                                                                                                                                                                                                                                                                                                                                                                                                |
| 登場する箇所 | $9.3.1項, 10.2.4項$                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |

[<sup>5)</sup>](#fn5-back) 正定値行列の必要十分条件がずべ手の固有値が正の実数であること.



## 6.14 コーシー分布

| 確率質量関数 | $\text{Cauchy} (y \mid \mu, \sigma) = \dfrac{1}{\pi \sigma} \dfrac{1}{1 + ((y - \mu) / \sigma)^2}$ |
| ------------ | :------------------------------------------------------------------------------------------------- |
| 図           | ![Alt text](chap06/output/fig6-13.png) <br> 図 6.13 $ コーシー分布$                                |
| 確率変数の値 | $y : 実数$                                                                                         |
| パラメータ   | $\mu : 実数 \\  \sigma : 正の実数$                                                                 |
| 平均         | $存在しない$[<sup>6)</sup>](#fn6)                                                                                   |
| 標準偏差     | $存在しない$                                                                                       |
| 登場する箇所 | $7.9節, 12.3節$                                                                                    |

[<sup>6)</sup>](#fn6-back)平均の定義に従って$\int y\text{Cauchy } (y) dy$を計算するとどのような値もとる不定形になるためだ.「平均は分布の膨らんでいる真ん中あたりだ」という直感を持っていると, 不定形になることに違和感を変えるかもしれない. しかし, 平均はそうではない. 生成される値の大きさも重要であり,確密度関数の形状だけから利断されるものではない.


## 6.15 Studentのt分布

| 確率質量関数 | $\text{Student\_t} (y \mid \nu) = \dfrac{\Gamma((\nu + 1) / 2)}{\Gamma(\nu / 2)\sqrt{\pi \nu \sigma}} \left(1 + \dfrac{1}{\nu} \left( \dfrac{y - \mu}{\sigma} \right)^2 \right)^{-(\nu + 1) / 2}$ |
| ------------ | :------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
| 図           | ![Alt text](chap06/output/fig6-14.png) <br> 図 6.14 $ \text{Studentのt分布}$                                                                                                                      |
| 確率変数の値 | $y : 実数$                                                                                                                                                                                        |
| パラメータ   | $\nu : 正の実数. \ 自由度と呼ばれる \\ \mu : 実数 \\ \sigma : 正の実数$                                                                                                                           |
| 平均         | $\nu \gt 1の場合は\mu. \ それ以外の場合は存在しない$                                                                                                                                              |
| 標準偏差     | $\nu \gt 2の場合は\sigma \sqrt{\nu / (\nu - 2)}. \\1 \lt \nu \leq 2の場合は\infty. \\ それ以外の場合は存在しない$                                                                                 |
| 登場する箇所 | $7.9節, 10.2.1項, 10.2.2項, 10.2.4項, 12.7節$                                                                                                                                                     |



## 6.16 二重指数分布 (ラプラス分布)

| 確率質量関数 | $\text{DoubleExponential} (y \mid \mu, \sigma) = \dfrac{1}{2 \sigma} \exp \left(-\dfrac{\mid y - \mu \mid}{\sigma} \right)$ |
| ------------ | :-------------------------------------------------------------------------------------------------------------------------- |
| 図           | ![Alt text](chap06/output/fig6-15.png) <br> 図 6.15 $分布$                                                                  |
| 確率変数の値 | $y : 実数$                                                                                                                  |
| パラメータ   | $\mu : 実数 \\  \sigma : 正の実数$                                                                                          |
| 平均         | $\mu$                                                                                                                       |
| 分散共分散   | $\sqrt{2} \sigma$                                                                                                           |
| 登場する箇所 | $7.6節$                                                                                                                     |
