## 章節 7：預測（Prediction）

### 7.2 帕松過程（Poisson process）

在數學統計上，一個過程是一個物理系統的隨機模型（stochastic model）。「隨機」意味著模型中存在某種隨機性。

例如，伯努利過程（Bernoulli process）是一個一序列事件的模型，又稱試驗序列（trials）。每一次試驗只有兩種可能的結果，像是成功與失敗。所以伯努利過程對一連串投擲硬幣的事件，或是一連串的射門事件是很直覺的。

帕松過程是連續版本的伯努利過程，每個時間點都有可能發生事件，且每個時間點發生的機率是一樣的。帕松過程可以用於模擬顧客到達商店，公車到達公車站或是冰球比賽得分。在很多真實的系統中，

事件發生的機率是隨時間改變的。顧客較有可能在一天的某些時段來訪商店，公車應該以固定的區間到達，比賽中得分多寡會隨比賽情況而不同。

但所有模型都基於簡化，這個例子用帕松過程來模擬冰球比賽還算合理的選擇。Heuer, Müller 和 Rubner (2010)分析德國足球聯盟的得分情形得到相同的結論；參考 http://www.cimat.mx/Eventos/vpec10/img/poisson.pdf

用這個模型的好處是，我們可以有效率的計算每場比賽的得分分佈，如果每場比賽得分的平均是 lam ，則每場比賽得分的分佈可用帕松 Pmf：

<pre>
def EvalPoissonPmf(k, lam):
    return (lam)**k * math.exp(-lam) / math.factorial(k)
</pre>

兩次得分的時間間距分佈用冪次 PDF 表示：

<pre>
def EvalExponentialPdf(x, lam):
    return lam * math.exp(-lam * x)
</pre>


這邊用變數 lam 是因為 lambda 在 Python 中是一個保留字。上述兩個方法在 thinkbayes.py 都有提供。

---

### 補充：帕松分佈(Poisson)公式

用 λ 表示每場比賽得分的平均

$$  Poisson(k; \lambda)=\frac{\lambda^{k}}{k!} e^{-\lambda} $$

- k：事件發生的次數，為隨機變數
- λ：帕松分佈的參數

---


### 補充：帕松分佈(Poisson)與冪次(Exponential)分佈的關聯

這邊我參考此文章整理的：https://neurophysics.ucsd.edu/courses/physics_171/exponential.pdf

先說結論：如果在一固定時間區間內發生事件的次數可以很好的用帕松分佈表達的話，則事件之間發生的時間長度會服從冪次分佈。

我們從帕松分佈出發思考，帕松分佈中的 λ 表示每單位時間事件發生的次數，則 t 個單位時間的平均事件發生次數為 λt。將帕松分佈作為參數帶入 λt 。

$$ Poisson(k; \lambda t) = \frac{(\lambda t)^{k}}{k!} e^{-\lambda t}$$


若我們將隨機變數 k=0 帶入則得到在**t 個單位時間內沒有發生事件的機率**。：

$$ Poisson(0; \lambda t) = \frac{(\lambda t)^{0}}{0!} e^{-\lambda t} = e^{-\lambda t} $$

從另一個角度說，**第一次發生事件的時間 T 時間單位大於 t 時間單位的機率(因為在 <= t 的情況下沒有發生事件)**：

$$ P(T > t) = Poisson(0; \lambda t) = e^{-\lambda t} $$

若我們想知道有一事件在**t 時間單位（包含）內發生的機率** P(T <= t) ，用機率的互補原理得到：

$$ P(T \leq t) = 1 - P(T > t) = 1 - e^{-\lambda t} = Exponential\_CDF(t) $$

而這剛好也是冪次分佈的累積分佈函數（CDF），參考 https://en.wikipedia.org/wiki/Exponential_distribution

那如果我們想要知道在**某一時間單位 t 發生一事件的機率**，可以將此 CDF 做微分，便可以得到冪次分佈的機率密度函數（PDF）。


$$ \frac{d Exponential\_CDF(t)}{dt} = \frac{d(1 - e^{-\lambda t})}{dt} = \frac{d(1-e^{A})}{dA} \frac{d A}{d t} = -e^{-\lambda t} -\lambda = \lambda e^{-\lambda t} $$

冪次分佈的機率密度函數（PDF），參考 https://en.wikipedia.org/wiki/Exponential_distribution

因此，如果在一固定時間區間內發生事件的次數可以用帕松分佈表達的話，則事件之間發生的時間長度會服從冪次分佈。