# 確率

ここでは確率についての基本的な考え方をいくつか解説します。

- 離散型確率分布
- 条件付き確率
- ベイズの定理
- ナイーブベイズ分類器

# 確率分布

$X$が起こる確率を$P(X)$とかく。
例えば
$$
P(\mbox{コインを投げて表が出る確率})=\dfrac{1}{2}
$$
のように書く。
これを省略して
$$
P(\mbox{表})=\dfrac{1}{2}
$$
などとも書く。

「コインを1回投げる」という操作に注目すると、起こりうる結果は表が出るか裏が出るかどちらか。
$P(\mbox{表})$と$P(\mbox{裏})$を決めればこの現象を記述できる、と考える。
この二つの値が0以上1以下で、合計が1になるように配分してやる。
例えば
$$
P(\mbox{表})=\dfrac{1}{2}, P(\mbox{裏})=\dfrac{1}{2}
$$
としてもよいし、
$$
P(\mbox{表})=\dfrac{1}{3}, P(\mbox{裏})=\dfrac{2}{3}
$$
としてもよい。
極端な場合には
$$
P(\mbox{表})=1, P(\mbox{裏})=0
$$
としてもよい。

「サイコロを1回投げる」という操作に注目すると、起こりうる結果は1,2,3,4,5,6のどれかが出るということ。
この場合は
$$
P(1), P(2), P(3), P(4), P(5), P(6)
$$
を決めてやる。
例えば
$$
P(1)=\dfrac{1}{6}, P(2)=\dfrac{1}{6}, P(3)=\dfrac{1}{6}, P(4)=\dfrac{1}{6}, P(5)=\dfrac{1}{6}, P(6)=\dfrac{1}{6}
$$
としてもよいし、
$$
P(1)=\dfrac{1}{10}, P(2)=\dfrac{2}{10}, P(3)=\dfrac{3}{10}, P(4)=\dfrac{1}{10}, P(5)=\dfrac{2}{10}, P(6)=\dfrac{1}{10}
$$
としてもよい。


このようにある限定された状況で起こりうる結果が$X_0, X_1, \ldots, X_n$となっている時に、
$P(X_1)$から$P(X_n)$にたいして0以上1以下の数を与えたものを（離散的な）$\textbf{確率分布}$という。
この時、合計が1にならないといけないことに注意する。

以下では確率分布の例について説明する。

## 二項分布
表と裏がそれぞれ$\dfrac{1}{2}$の確率で出るコイン、つまり$P(\mbox{表})=P(\mbox{裏})=\dfrac{1}{2}$であるようなコインを$N$回投げる、
という操作を考えよう。
$N=1$のとき、表が出るか裏が出るかどちらかで、表が$1$回出る確率、$0$回出る確率はどちらも$\dfrac{1}{2}$である。
$N=2$のとき、表表、表裏、裏表、裏裏の4パターンあり、
$$
P(\mbox{表表})=P(\mbox{表裏})=P(\mbox{裏表})=P(\mbox{裏裏})=\frac{1}{2}\times\frac{1}{2}=\frac{1}{4}
$$
と全て等しい。これは1回目の確率と2回目の確率をかけて計算できる。

出方のパターンではなく、表の出る回数$X$の分布を考えよう。
$N=2$の時は表の出る回数は0,1,2のいずれかなので$P(X=0), P(X=1), P(X=2)$という確率分布を与える。
上で計算したことから
$$
P(X=0)=\frac{1}{4}, P(X=1)=\frac{1}{4}+\frac{1}{4}, P(X=2)=\frac{1}{4}
$$
となることがわかる。
$X=1$となるのは2通りあって、それらの確率の和を考えればよい。

$N=3,4$などで、表裏の出るパターンを全て列挙し、表の出る回数の確率分布を計算しよう。

一般に$N$回コインを投げた時、表が$k$回出るパターンは
$$
\dfrac{N!}{k!(N-k)!}
$$通りある。
これを${}_NC_k$や$\begin{pmatrix}N\\k\end{pmatrix}$などと書く。
これは$N$文字の順列が$N$通りあり、そのうち$k$文字の並び替え$k!$通りと$(N-k)$文字の並び替え$(N-k)!$を同一視することから説明できる。
例えば
$$
\begin{pmatrix}2\\1\end{pmatrix}=\frac{2}{1}=2, \begin{pmatrix}4\\2\end{pmatrix}=\frac{4!}{2!\times2!}=6
$$
などとなる。

したがって$N$回コインを投げた時の、表が出る回数の確率分布は
$$
P(X=k)=\begin{pmatrix}N\\k\end{pmatrix}\left(\frac{1}{2}\right)^k\left(\frac{1}{2}\right)^{N-k}=\begin{pmatrix}N\\k\end{pmatrix}\left(\frac{1}{2}\right)^N
$$
となる。

より一般に1回コインを投げた時に表の出る確率$p$とする。
つまり$P(\mbox{表})=p, P(\mbox{裏})=1-p$とする。
この時$N$回コインを投げた時の、表が出る回数の確率分布は
$$
P(X=k)=\begin{pmatrix}N\\k\end{pmatrix}p^k(1-p)^{N-k}
$$
となる。
裏が$N-k$回であることを強調したければ
$$
P(X=k, Y=N-k)=\begin{pmatrix}N\\k\end{pmatrix}p^k(1-p)^{N-k}
$$
としてもよい。

サイコロを$10$回投げ、出た目が3の倍数である回数を表す確率変数を$X$とする。$P(X=2), P(X=4)$を求めよ。

## 多項分布
二項分布というのは、コイン投げのように二通り結果のある操作を繰り返した時の確率分布のこと。
サイコロ投げのようにより多数の結果のある操作を繰り返すことを次に考える。

サイコロを$N$回投げる。
はじめは簡単のため$P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=\dfrac{1}{6}$としよう。
$1$の目が出る回数を$X_1$, $2$の目が出る回数を$X_2$などとする。
目標は
$$
P(X_1=k_1,X_2=k_2,X_3=k_3,X_4=k_4,X_5=k_5,X_6=k_6)
$$
を計算すること。

サイコロを5回投げて1が2回3が1回4が2回出るパターンは何通りか

一般に$X_1=k_1,X_2=k_2,X_3=k_3,X_4=k_4,X_5=k_5,X_6=k_6$となるパターンの数は
$$
\frac{N!}{k_1!k_2!k_3!k_4!k_5!k_6!}
$$
となる。

したがって求める確率分布は
$$
P(X_1=k_1,X_2=k_2,X_3=k_3,X_4=k_4,X_5=k_5,X_6=k_6)=\frac{N!}{k_1!k_2!k_3!k_4!k_5!k_6!}\left(\frac{1}{6}\right)^N
$$
となる。

確率が均等でなく、それぞれ$p_i$ならば
$$
P(X_1=k_1,X_2=k_2,X_3=k_3,X_4=k_4,X_5=k_5,X_6=k_6)=\frac{N!}{k_1!k_2!k_3!k_4!k_5!k_6!}p_1^{k_1}p_2^{k_2}p_3^{k_3}p_4^{k_4}p_5^{k_5}p_6^{k_6}
$$
となる。
略記のため
$$
P(X_i=i)=\frac{N!}{\prod_i(k_i!)}\prod_ip_i^{k_i}
$$
などとも書く。
ここで$\prod$は$\sum$の掛け算バージョン。

# 条件付き確率とベイズの定理
ここでは次のような問題を考える。

見た目では区別のつかない二つの箱A, Bがあり、その中にはそれぞれ適当な個数の赤玉と白玉が入っていてその個数については知ることができる。
適当にどちらかの箱を選んで中身を一つ取った時白玉が出てきた。
このことから今選んだ箱がAなのかBなのか推測しよう。

例えば箱Aは白玉が5個、箱Bは赤玉が5個だとする。
この時は箱Aを選んだと言える。

では、箱Aは白玉10個で箱Bは白玉1個と赤玉9個が入っているとする。
この時にどちらの箱から取ったと推測するべきか。
それぞれの確率を計算しよう。

どちらの箱を選ぶか、赤玉か白玉か、という二つの異なった情報があることに注目する。
どちらの箱を選ぶかは均等として$P(A)=P(B)=\dfrac{1}{2}$とする。

条件付き確率
$$
P(X\mid Y)
$$
とは$Y$が起こったという条件のもとで$X$が起こる確率を表す。
Aの箱を選んだという条件のもとで赤玉が出る確率は
$$
P(\mbox{赤}\mid A)=\frac{0}{10}
$$
であり、Aの箱を選んだという条件のもとで白玉が出る確率は
$$
P(\mbox{白}\mid A)=\frac{10}{10}
$$
となる。
またBの箱から取ったという条件のもとでの赤白のそれぞれの確率は
$$
P(\mbox{赤}\mid B)=\frac{9}{10}, P(\mbox{白}\mid B)=\frac{1}{10}
$$
となる。

以上のことを合わせると
$$
P(A,\mbox{白})=\frac{10}{20}, P(A,\mbox{赤})=\frac{0}{20}, P(B,\mbox{白})=\frac{1}{20}, P(B,\mbox{赤})=\frac{9}{20}
$$
となり、さらに
$$
P(\mbox{白})=\frac{10}{20}+\frac{1}{20}=\frac{11}{20}, P(\mbox{赤})=\frac{0}{20}+\frac{9}{20}=\frac{9}{20}
$$
であることがわかる。

今知りたいのは、白玉が出た前提でどちらの箱の確率が高いか？
つまり$P(A\mid\mbox{白})$と$P(B\mid\mbox{白})$を比較する。

ベイズの定理
$$
P(X,Y)=P(X\mid Y)P(Y)=P(Y\mid X)P(X)
$$
を使うと
$$
P(A\mid\mbox{白})=\frac{P(\mbox{白}\mid A)P(A)}{P(\mbox{白})}=\frac{10}{11}\\
P(B\mid\mbox{白})=\frac{P(\mbox{白}\mid B)P(B)}{P(\mbox{白})}=\frac{1}{11}
$$
となる。
結局この場合は箱Aから取ったと考える方が尤もらしいと言える。

$P(A), P(B)$という確率分布を$\textbf{事前分布}$、$P(A\mid\mbox{白}), P(B\mid\mbox{白})$という確率分布を$\textbf{事後分布}$という。

次の確率をベイズの定理を使って考えよう。

- Aさんは二人の子供がおり、一人は男の子である。もう一人が女の子である確率は？

- 三つの箱がありそれぞれ赤玉2個、赤玉1個と白玉1個、白玉2個が入っている。この箱から一つ選び、ボールを取ったところ白玉だった。もう一つが赤である確率は？

- 100万人に1人患者がいる病気の検査をする。「病気なのに陰性と判定してしまう確率」は0.001で「病気でないのに陽性と判定してしまう確率」は0.01であるとする。検査で陽性と判定されたとき、本当に病気にかかっている確率は？

## パラメータの推定の練習問題

前回と今回説明したベイズの定理を用いたパラメータの推定について、いくつか練習問題を用意しました。
よければ解いてみてください。

箱Aには赤玉3個と白玉1個、箱Bには赤玉2個と白玉2個、箱Cには赤玉1個と白玉3個が入っており、中は見えず見た目では区別がつかない。
三つの箱の中からどれか一つを選ぶことができる。
この選んだ箱がどれであるか、予想しよう。

選んだ箱の中からボールを1個とって、色を見てから戻すという操作を繰り返すことで箱に関する情報を得ることができる。
 
- 5回操作を繰り返した結果赤玉が2回、白玉が3回出てきた。この時、自分が選んだ箱はA, B, Cのどれか？
- 5回操作を繰り返した結果赤玉が1回、白玉が4回出てきた。この時、自分が選んだ箱はA, B, Cのどれか？
- 100回操作を繰り返した結果赤玉が40回、白玉が60回出てきた。この時、自分が選んだ箱はA, B, Cのどれか？
- 100回操作を繰り返した結果赤玉が20回、白玉が80回出てきた。この時、自分が選んだ箱はA, B, Cのどれか？
 

次に3種類の同じ箱A, B, Cがそれぞれ複数ある状況を考えよう。

例えば箱Aが1個、箱Bが2個、箱Cが1個としよう。
 
- 5回操作を繰り返した結果赤玉が2回、白玉が3回出てきた。この時、自分が選んだ箱はA, B, Cのどれか？
- 5回操作を繰り返した結果赤玉が1回、白玉が4回出てきた。この時、自分が選んだ箱はA, B, Cのどれか？
- 100回操作を繰り返した結果赤玉が40回、白玉が60回出てきた。この時、自分が選んだ箱はA, B, Cのどれか？
- 100回操作を繰り返した結果赤玉が20回、白玉が80回出てきた。この時、自分が選んだ箱はA, B, Cのどれか？
 

次に箱Aが1個、箱Bが10個、箱Cが1個としよう。
 
- 5回操作を繰り返した結果赤玉が2回、白玉が3回出てきた。この時、自分が選んだ箱はA, B, Cのどれか？
- 5回操作を繰り返した結果赤玉が1回、白玉が4回出てきた。この時、自分が選んだ箱はA, B, Cのどれか？
- 100回操作を繰り返した結果赤玉が40回、白玉が60回出てきた。この時、自分が選んだ箱はA, B, Cのどれか？
- 100回操作を繰り返した結果赤玉が20回、白玉が80回出てきた。この時、自分が選んだ箱はA, B, Cのどれか？

# ナイーブベイズ分類器
ベイズの定理の応用としてナイーブベイズ分類器を作ろう。
例えば文章をカテゴリ$C_1,\ldots,C_n$に分けたいとする。
文章$D$を見たときにそれがカテゴリ$C_i$の文章である確率
$
P(C_i\mid D)
$
が最も大きくなる$C_i$はどれか？

これを直接計算するのではなくてベイズの定理を使って
$
P(D\mid C_i)P(C_i)
$
の大小を比較すればよい。
さらに、問題を単純化して文章を単語の集まりと解釈する。
つまり$D$という文章に$W_1,\ldots,W_N$が含まれているとし、しかもその単語の出現が独立であると仮定する。
すると
$
P(D\mid C_i)=\prod_jP(W_j\mid C_i)
$
と計算できる。
従って$P(W_j\mid C_i)$と$P(C_i)$を学習しておけばよい。

改めて考え方をまとめる。
あるカテゴリの文章に出てくる単語の確率分布を知っているとする。
（実際には知らないので学習によりこの分布を作っておく。）
で、新しい文章を見て、その単語の出現の分布を見て、どのカテゴリの分布に近いか？を調べる。

### 学習の方法
- $P(C_i)$は学習データの全文章数をそれらのうちでカテゴリ$C_i$に属する文章の数で割ればよい。
- $P(W_j\mid C_i)$の計算の仕方。
カテゴリ$C_i$に属する文章に出てきた全単語のべ出現数（同じ単語が複数回出てきたら重複して数える）で各単語$W_i$ののべ出現数を割る。

### 判別の方法
与えられた文章$X$を判別する。
$X$に含まれる単語を$X_1,\ldots,X_n$とする。
各カテゴリ$C_j$ごとに$P(C_j)\prod_iP(X_i\mid C_j)$を計算し、これが一番大きな$C_j$を答えてやればよい。
必要であれば、$P(C_j\mid X)$の分布を答えることもできる。

### 問題点
単語の出現頻度は基本的に低く、学習データの中で頻度0の単語が沢山ある。
つまり上の計算で$P(X_i\mid C_j)=0$がたくさん現れてしまうと、判断のしようがない。

安直にはこれをすごく小さな値とかにしておけば何らかの結果は出る。
実際には、多項分布のところで説明したように事前分布を設定する。
ディリクレ分布で一様分布と設定するとラプラススムージングと言われる。
スムージングパラメタをいじってみると何が起こるか？

実装する上での注意点。
確率の積$\prod_iP(w_i\mid c_j)$をとるのでどんどん小さい値になってしまう。
代わりに$\log(\prod_iP(w_i\mid c_j)=\sum_i\log(P(w_i\mid c_j)$を計算すればよい。
$\log$を取っても大小関係は変わらないことに注意しておく。