# 确定概率的方法
在概率的公理化体系建立之前，概率可以用其他的定义方法：频率定义、古典定义、几何定义和主观定义。

```{prf:remark} 
:label: remark1.2

主观定义可以自行阅读《概率论与数理统计教程》P26。
```

我们将所感兴趣的事件记为 $A$ ，以下介绍三种计算事件 $A$ 的概率 $P(A)$ 的方法。

## 频率方法

在频率方法中，假定与事件 $A$ 有关的随机现象可大量重复进行。在 $n$ 次重复试验中，记 $n(A)$ 为事件 $A$ 出现的次数（也称频数），利用频率 $f_n(A) = \frac{n(A)}{n}$ 来确定事件 $A$ 的概率。

人们长期实践表明：随着试验次数 $n$ 增加，频率 $f_n(A)$ 会稳定在某一常数附近，称这个常数为频率的稳定值。**这个稳定值就是我们所想要求的概率**。

频率方法的**优点**是简单计算，当试验重复次数 $n$ 较大时，频率方法是**合理**的。同时，频率方法所得到的概率是满足概率的公理化定义的。但是它的**缺点**在于，在现实世界里，人们无法把一个试验无限次地重复下去。所以，频率方法只能得到“真实”概率的近似值。

```{prf:remark} 
:label: remark1.3

频率方法来确定概率是有理论保证的，感兴趣的同学可以阅读大数定律。
```

在实际生活中，频率是十分常用的，而且十分好用。

````{prf:example} 英文字母的频率
: label: ex01-d

在很早之前，人们有一种共识：英文字母的出现频率是不同的。某些字母的出现频率高于其他的字母，见表 {numref}`tab1.5`。

```{list-table} 英文字母的使用频率
:header-rows: 1
:name: tab1.5
* - 字母
   - 使用频率
   - 字母
   - 使用频率
   - 字母
   - 使用频率
* - E
   - 0.1268
   - L
   - 0.0394
   - P
   - 0.0186
* - T
   - 0.0978
   - D
   - 0.0389
   - B
   - 0.0156
* - A
   - 0.0788
   - U
   - 0.0280
   - V
   - 0.0102
* - O
   - 0.0.0776
   - C
   - 0.0268
   - K
   - 0.0060
* - I
   - 0.0707
   - F
   - 0.0256
   - X
   - 0.0016
* - N
   - 0.0706
   - M
   - 0.0244
   - J
   - 0.0010
* - S
   - 0.0638
   - W
   - 0.0214
   - Q
   - 0.0009
* - R
   - 0.0594
   - Y
   - 0.0202
   - Z
   - 0.0006
* - H
   - 0.0573
   - G
   - 0.0187
   - 
   -  
```

在侦探小说《福尔摩斯探案集》中《跳舞的小人》一篇故事中，福尔摩斯利用英文字母的频率表来破解芝加哥犯罪份子的密码，见图 {numref}`fig1.1`。

```{figure} /fig/Chap1DancingMen.png
:name: fig1.1

跳舞小人密码
```

感兴趣的同学可以利用课余时间看看能否破解跳舞小人背后的密码？

```{admonition} Hint
: class: note, dropdown
你看看你需要几条线索才能破译跳舞小人的密码？
- [x] 每一个小人表示一个英文字母。
- [ ] 旗帜表示一个单词的结束。
- [ ] 因为是非正式书写，部分字母需要补充意思才能完整。
- [ ] 接受信息对象的名字是埃尔西（Elsie）。
- [ ] 接受信息对象居住地点在埃尔里奇（Elriges）。
- [ ] 发出信息对象的名字是艾贝·斯莱尼（Abe·Slaney）。
```

````

## 古典方法

古典方法指的是在经验事实的基础上，对事件 $A$ 的可能性进行逻辑分析后得出该事件的概率。其基本思想为所设计的随机现象只有有限个样本点，设为 $n$ 个。每个样本点发生的可能性相等（称等可能性）。若事件 $A$ 含有 $k$ 个样本点，则事件 $A$ 的概率为：

$$
P(A) = \frac{k}{n}
$$

````{prf:example} 抛硬币
:label: ex01-e

 投掷两枚硬币，如何求出现一正一反的概率？

:::{dropdown} Solution 

样本空间为 $\Omega= \{\text{(正,正),(正,反),(反,正),(反,反)} \}$ 。于是，样本空间 $\Omega$ 共有 $4$ 个样本点。事件“出现一正一反”含有的样本点的个数为 $2$ 。因此，所求的概率为 $1/2$ 。
:::

````

古典方法是概率轮发展初期确定概率的常用方法，所得的概率又称为古典概率。在古典概率的计算中，经常使用排列组合工具。排列组合本质上都是计算“从 $n$ 个元素中任取 $r$ 个元素”的取法数量。组合不讲究取出元素间的次序，而排列讲究取出元素间的次序。常用的排列、组合有有以下四种：

排列
: 从 $n$ 个不同的元素中任取 $r(r\leq n)$ 个元素拍成一列（考虑元素先后出现次序）。这种排列数为：
```{math}       
 P_n^r = n\times (n-1)\times \cdots \times (n-r+1) = \frac{n!}{(n-r)!}.
```
   特别地， $r=n$ 时，称 $P_n^n = n!$ 为全排列。
   
重复排列
: 从 $n$ 个不同元素中每次去处一个，放回后在取下一个，如此连续取 $r$ 次所得的排列。这种重复排列数共有 $n^r$ 个。注意：这里允许 $r>n$ 。

组合
: 从 $n$ 个不同元素中任取 $r(r\leq n)$ 个元素并成一组（不考虑元素间的先后次序）。这种组合数为：

$$
C_n^r = \begin{pmatrix}n\\r\end{pmatrix}= \frac{n!}{r!(n-r)!}
$$

特别的组合数有：
- $0!=1$ ；
- $C_n^0 = 1$ ；
- $C_n^r= C_n^{n-r}$  


重复组合
: 从 $n$ 个不同元素中每次取出一个，然后放回后再取下一个。如此连续取 $r$ 次所得的组合。这种重复组合数为：

$$
\begin{pmatrix}n+r-1\\r\end{pmatrix}
$$

重复组合数的计算方式为：总共有 $n$ 个元素，设为共有 $n$ 个盒子，我们用 $n+1$ 根棒子做间隔。如果第 $i$ 个元素取到过一次，就标记一个“〇”。需要考虑重复组合数，除了不可动的头尾两根棒子之外，余下的棒子和盒子可以随意放置，于是，相当于在 $n+r-1$ 个位置上任取 $r$ 个放“〇”。因此，重复组合数为：

$$
\begin{pmatrix}n+r-1\\r\end{pmatrix} = \begin{pmatrix}n+r-1\\ n-1\end{pmatrix}
$$

````{prf:example} 不放回抽样
:label: ex01-f 

设有 $N$ 件产品，其中 $M$ 件不合格品和 $N-M$ 件合格品，从中不放回地抽出 $n$ 件。求事件 $A_m=$ "所抽出的产品中有 $m$ 件不合格品" 的概率。

:::{dropdown} Solution

从 $N$ 件产品中，不放回地抽取 $n$ 件产品，组合数为：

$$
C_N^n
$$

而抽到 $m$ 件不合格品，表示抽到 $n-m$ 件产品是合格品，组合数为：

$$
C_M^m \times C_{N-M}^{n-m}
$$

于是， $A_m$ 的概率为：

$$
P(A_m) = \frac{C_M^m \cdot C_{N-M}^{n-m}}
{C_N^n}, m = 0,1,\cdots,\min\{M,n\}
$$

:::
````


`````{prf:example} 有放回抽样
:label: ex01-g

设有 $N$ 件产品，其中 $M$ 件不合格品和 $N-M$ 件合格品，从中有放回地抽出 $n$ 件。求事件 $B_m=$ "所抽出的产品中有 $m$ 件不合格品" 的概率。

::::{dropdown} Solution

从 $N$ 件产品中，有放回地抽取 $n$ 件产品，重复排列数为：

$$
N^{n}
$$

所抽到的产品中有 $m$ 件不合格品，这就表示抽到 $n-m$ 件产品是合格品。从 $N-M$ 件合格品中，有放回地抽取了 $n-m$ 次；从 $M$ 件不合格品中，有放回地抽取了 $m$ 次。于是共有 $M^{m} (N-M)^{n-m}$ 种取法。再考虑所取到的 $m$ 件不合格品可能出现在 $n$ 次中的任何 $m$ 次抽取中得到，总共有 $C_n^m$ 种可能。所以事件 $B_m$ 含有：

$$
C_n^m M^{m} (N-M)^{n-m}
$$

个样本点。

于是， $B_m$ 的概率为：

$$
P(B_m) = \frac{C_n^m M^{m} (N-M)^{n-m}}
{N^n}, m = 0,1,\cdots,n
$$


::::

```{prf:remark} 
:label: remark1.4
:class: dropdown

注意到： $P(B_m)$ 可以改写为：

\begin{eqnarray*}
P(B_m) &=& \frac{C_n^m M^{m} (N-M)^{n-m}}
{N^n} \\
&=& C_n^m\left(\frac{M}{N}\right)^{m} \left(1-\frac{M}{N}\right)^{n-m}
\end{eqnarray*}

令 $M/N = p$ 。于是：

$$
P(B_m) = C_n^m \left(p\right)^{m} \left(1-p\right)^{n-m}
$$

```
`````

## 几何方法

在几何方法中，一个随机现象的样本空间 $\Omega$ 充满某个区域，其度量（长度、面积或提及）大小用 $S_{\Omega}$ 表示。任意一点落在度量相同的子区域内（可能位置不同）是等可能的。若事件 $A$ 为 $\Omega$ 中某个子区域，且其度量大小可用 $S_A$ 表示，则事件 $A$ 的概率为：

$$
P(A) = \frac{S_A}{S_{\Omega}}
$$

````{prf:example} 会面问题
:label: ex01-h

甲乙两人约定下午6点到7点之间在某处会面，并约定先到者应等候另一个人20分钟，过时即可离去。求两人能会面的概率。

:::{dropdown} Solution
设 $x$ 和 $y$ 分别表示甲和乙到达约会地点的时间点。甲乙两人到达的时间介于6点至7点间。令 $x$ 和 $y$ 都是在区间 $[0,60]$ 之间取值。
甲乙两人能会面，意味着甲乙到达时间差不超过20分钟，即 $|x-y| \leq 20$ 。
    
```{figure} /fig/Chap1Meeting.png
:name: fig1.2

甲乙两人会面的示意图
```    
    
根据题意，我们可以绘制一张图。图中蓝色区域是甲乙两人到达的时间的所有样本点，即样本空间 $\Omega$ ，而甲乙两人能够会面的时间点在红色斜线的区域，记为 $A$ 。 于是，计算图中对应的面积来得到概率，即：
    
\begin{eqnarray*}
S_{\Omega} &=& 60^2 = 3600\\
S_A &=& 3600 - 2 \times \frac{1}{2} \times 40^2= 2000\\
P(A) &=& \frac{S_A}{S_{\Omega}} = \frac{2000}{3600} = \frac{5}{9}
\end{eqnarray*}
:::

````

此外，可以观看专题精讲——“蒲丰投针”了解更多几何方法。

<video controls autoplay muted="true" loop="true" width="800">
    <source src="./Pufeng-puts-needle.mp4" type="video/mp4">
</video>

```{code-block} python3
:class: thebe
import numpy as np
import matplotlib.pyplot as plt


def prompt_positive_float(message: str) -> float:
    """Request a positive numeric value from stdin."""
    while True:
        try:
            value = float(input(message))
        except ValueError:
            print("Please enter a valid number.")
            continue
        if value <= 0:
            print("Value must be greater than zero.")
            continue
        return value


def read_parameters():
    print("Buffon's Needle Simulation (9 throws)")
    while True:
        l = prompt_positive_float("针的长度 l (比如5): ")
        d = prompt_positive_float("线的空间 d (最好大于线长度哦,比如8): ")
        if l >= d:
            print("Constraint violated: l must be smaller than d. Try again.\n")
            continue
        return l, d


def simulate_and_plot(l: float, d: float) -> None:
    x_min = 0.0
    x_max = d * 3
    y_min = -l
    y_max = l + d
    fig, axes = plt.subplots(3, 3, figsize=(15, 12))
    axes = axes.flatten()
    cross_count = 0

    for idx, ax in enumerate(axes, start=1):
        phi = np.random.uniform(0, np.pi)
        x_center = np.random.uniform(d, d * 2)
        y_center = np.random.uniform(0, d)

        half_len = l / 2
        x1 = x_center - half_len * np.cos(phi)
        y1 = y_center - half_len * np.sin(phi)
        x2 = x_center + half_len * np.cos(phi)
        y2 = y_center + half_len * np.sin(phi)

        hit = False
        for j in range(4):
            if min(y1, y2) <= j * d <= max(y1, y2):
                hit = True
                cross_count += 1
                break

        ax.set_title(f"Trial {idx}")
        ax.set_xlim(x_min, x_max)
        ax.set_ylim(y_min, y_max)
        ax.set_aspect("equal")
        ax.axis("on")

        for j in range(4):
            ax.axhline(y=j * d, color="black", linestyle="-", linewidth=1)

        color = "red" if hit else "blue"
        ax.plot([x1, x2], [y1, y2], color, linewidth=2)
        ax.plot(x_center, y_center, "bo", markersize=5)

        arc_radius = l / 4
        arc_angles = np.linspace(0, phi, 100)
        arc_x = x_center + arc_radius * np.cos(arc_angles)
        arc_y = y_center + arc_radius * np.sin(arc_angles)
        ax.plot(arc_x, arc_y, "g-", linewidth=1)
        ax.text(x_center + arc_radius * 1.1,
                y_center + arc_radius * 0.3,
                r"$\phi$",
                fontsize=12)

        status_y = y_min + 0.1 * (y_max - y_min)
        ax.text(x_min + 0.1 * (x_max - x_min),
                status_y,
                f"Status: {'hit' if hit else 'miss'}",
                fontsize=10,
                bbox=dict(facecolor="white", alpha=0.8))

    plt.tight_layout()
    plt.show()

    theoretical_probability = (2 * l) / (np.pi * d)
    empirical_ratio = cross_count / 9
    print(f"Theoretical probability P = {theoretical_probability:.4f}")
    print(f"Empirical hit ratio = {empirical_ratio:.4f} ({cross_count}/9)")
def main():
    l, d = read_parameters()
    simulate_and_plot(l, d)


if __name__ == "__main__":
    main()

```