## 章節 2：計算統計學 (Computational Statistics)

### 2.1 分佈 (Distribution)

在統計中，分佈代表的是**一組數值跟他們對應的機率**。

例如，如果你擲一個六面的骰子，所有可能出現的數值是 1 到 6，並且每個數值對應的機率是 1/6。
另一個例子，你可能想知道在常用的英語中每個單字出現的次數。你可以建立一個對於每個單字出現次數的分佈。 （這裡的單字就是上述說的**一組數值**）

在 Python 中建立一個分佈，你可以用 dictionary 來將數值與其機率做對應（key 代表某一個數值，value 代表某數值的機率）。
作者寫了一個類別（class）**Pmf** 完全用 Python 的 dictionary，並且實作了很多有用的方法（method）。

Pmf 類別是一個作者為了搭配本書所寫的一個 Python 模組 thinkbayes.py<sup>1</sup>

要使用 Pmf 類別你可以用如下的方式引入：

In [7]:
from thinkbayes import Pmf

接下來的程式碼用 Pmf 來建立一個六面骰子的分佈：

In [11]:
pmf = Pmf()
for x in range(1, 7):
    pmf.Set(x, 1/6.0)
    
for k, v in pmf.GetDict().items():
    print(k, v)

1 0.16666666666666666
2 0.16666666666666666
3 0.16666666666666666
4 0.16666666666666666
5 0.16666666666666666
6 0.16666666666666666


Pmf 建立一個空的 Pmf 物件。用 Set 方法給定每個數值的機率為 1/6。

再來另一個例子計算每個字在一序列中出現的次數：

In [30]:
word_list = "I put probability in quotes because in this example, the probabilities are \
not normalized; that is, they do not add up to 1. So they are not true probabilities".split(" ")

pmf = Pmf()
for word in word_list:
    pmf.Incr(word, 1)
    
for k, v in pmf.GetDict().items():
    print(k, v)

I 1
put 1
probability 1
in 2
quotes 1
because 1
this 1
example, 1
the 1
probabilities 2
are 2
not 3
normalized; 1
that 1
is, 1
they 2
do 1
add 1
up 1
to 1
1. 1
So 1
true 1


Incr 為每個單字的「機率」加 1。如果一個單字沒有出現在 pmf 物件則加入此單字。

上面特別將「機率」用括號是因為在這個例子中，機率並沒有做**正規化**；所有機率加總不為 1。因此不能真的稱作為機率。

但以這個例子來說，單字的出現次數與機率成正比。所以在計算完所有的單字後，我們可以除以所有的單字次數的總和。Pmf 提供一個方法 Normalize。

In [34]:
pmf.Normalize()
after_norm = pmf.Prob('the')
print(after_norm, 1/29) # 29 是因為 word_list 中有 29 個字
assert after_norm - 1/29.0 < 1e-15 # 驗證是否為 the 出現在 word_list 中的比例

0.03448275862068967 0.034482758620689655


一但有了 Pmf 物件，你可以用 Prob 方法得到數值對應的機率（上方程式碼得到單字 **the** 的機率）
並且在執行 Normalize 方法後將會打印出單字 the 的字頻，便是 the 出現在 word_list 中的比例。

Pmf 類別用 Python dictionary 儲存數值跟機率，所以 Pmf 物件中的數值可以是任何可雜湊（hashable）的資料類別。機率可以是任何數值型態，但通常是浮點數（float 型態）

---

1. 在我的 github 中就有 thinkbayes.py，有興趣可以參考裡頭的實作，我已經利用 2to3 工作轉換成 python3 形式。