## 章節 3：估計 (Estimation)

### 3.3 這個先驗分佈好嗎？

為了要解決火車頭問題，我們需要做一些假設，並且有些假設還很隨性。尤其是我們選擇從1到1000的均勻分布的假設，並沒有太多的理由：

1. 選擇Ｎ最多只到1000
2. 1~N 服從均勻分佈

相信鐵路公司可能有1000台火車頭並不誇張，但是一個理性的人可能會猜更多或是更少台。

所以我們想知道後驗分佈對於這些假設的敏感度（sensitive）。在可能只有一個觀察數據的情況下。

回想一下

- 從 1 到 1000 的均勻先驗分佈，後驗分佈的期望值約等於 333。
- 從 1 到 500 的均勻先驗分佈，後驗分佈的期望值約等於 207。
- 從 1 到 2000 的均勻先驗分佈，後驗分佈的期望值約等於 552。

請參考下方程式碼：

In [11]:
from thinkbayes import Suite

class Train(Suite):
    
    def Likelihood(self, data, hypo):
        if data > hypo:
            return 0.0
        
        return 1.0/hypo
    
    
def expected_values(hypos, data):
    suite = Train(hypos)
    for datum in data:
        suite.Update(datum)
        
    print("假設範圍", hypos[0], "~", hypos[-1], "在看到編號", data,"後的期望值:", suite.Mean())
    
    
data = [60]
expected_values(range(1, 1001), data)
expected_values(range(1, 501), data)
expected_values(range(1, 2001), data)

假設範圍 1 ~ 1000 在看到編號 [60] 後的期望值: 333.41989326371095
假設範圍 1 ~ 500 在看到編號 [60] 後的期望值: 207.079227983409
假設範圍 1 ~ 2000 在看到編號 [60] 後的期望值: 552.179017164631


上述的情形並不好（因為期望值變異度大，對於不同的Ｎ值太敏感）。

我們有兩個方式處理它。

1. 拿到更多的資料
2. 用更多的背景資訊（定義更好符合真實情況的先驗分佈，3.4 小節會說明）

對於拿到更多資料，即使不同的先驗分佈，後驗分佈還是傾向於收斂。

例如，看到編號 60 的火車頭後，我們接著又看到 30 與 90 的火車頭。

請參考下方程式碼：

In [12]:
data = [60, 30, 90]
expected_values(range(1, 1001), data)
expected_values(range(1, 501), data)
expected_values(range(1, 2001), data)

假設範圍 1 ~ 1000 在看到編號 [60, 30, 90] 後的期望值: 164.3055864227336
假設範圍 1 ~ 500 在看到編號 [60, 30, 90] 後的期望值: 151.84958795903822
假設範圍 1 ~ 2000 在看到編號 [60, 30, 90] 後的期望值: 171.3381810915094


**看到更多資料後，他們期望值的變異度就小得多了。**