# 概率分布

概率分布可以按照不同的标准进行分类，主要包括离散概率分布和连续概率分布两大类。根据具体的应用场景和性质，还有更多的细分类，如常见的特殊分布。以下是常见的分类方式。

按照变量类型分类
## 1.1 离散概率分布
离散概率分布描述的是离散随机变量（即可以取有限或可数无限多个值的随机变量）的分布情况。常见的离散概率分布包括：

- 伯努利分布：描述一次试验中成功的概率，取值为0或1。
- 二项分布：描述 𝑛 次独立的伯努利试验中成功次数的分布。
- 几何分布：描述第一次成功所需的试验次数。
- 负二项分布：描述直到第 𝑟 次成功所需的试验次数。
- 泊松分布：描述在固定时间或空间内，独立随机事件发生次数的分布。

## 1.2 连续概率分布
连续概率分布描述的是连续随机变量（即可以取任意实数值的随机变量）的分布情况。常见的连续概率分布包括：

- 均匀分布：描述在一定范围内，每个值出现的概率相等。
- 正态分布（高斯分布）：描述数据集中分布在均值附近，形成钟形曲线的分布。
- 指数分布：描述事件间隔时间的分布，常用于描述无记忆的随机过程。
- 卡方分布：广泛用于假设检验和置信区间估计，特别是方差分析中。
- t 分布：用于小样本统计推断，特别是均值的估计。
- F 分布：用于比较两个样本方差的分布。
- 伽玛分布：描述多次独立指数分布变量的和。


# 二项分布
二项分布用于描述在 `𝑛` 次独立重复试验中，某事件发生 `𝑘` 次的概率。假设每次试验事件发生的概率为 `𝑝`，不发生的概率为 `1−𝑝`，则二项分布的概率公式为：

二项分布用于描述在 $n$ 次独立重复试验中，某事件发生 $k$ 次的概率。假设每次试验事件发生的概率为 $p$，不发生的概率为 $1-p$，则二项分布的概率公式为：

$$
P(X = k) = \binom{n}{k} \cdot p^k \cdot (1-p)^{n-k}
$$

其中：
- $ P(X = k) $ 是在 $n$ 次试验中，恰好有 $k$ 次成功的概率。
- $ n $ 是试验的总次数。
- $ k $ 是成功的次数。
- $ p $ 是单次试验成功的概率。
- $ \binom{n}{k} $ 是组合数，表示从 $n$ 次试验中选出 $k$ 次成功的方法数，计算公式为：
  $$
  \binom{n}{k} = \frac{n!}{k! \cdot (n-k)!}
  $$
- $ p^k $ 表示成功 $k$ 次的概率。
- $ (1-p)^{n-k} $ 表示失败 $n-k$ 次的概率。

### 示例
假设你进行 10 次投币实验，投币为正面的概率为 $0.5$。那么计算恰好有 6 次出现正面的概率：
$$
P(X = 6) = \binom{10}{6} \cdot (0.5)^6 \cdot (0.5)^{4}
$$
$$
P(X = 6) = \frac{10!}{6! \cdot 4!} \cdot (0.5)^{10} = 210 \cdot 0.0009765625 = 0.205078125
$$
所以，恰好有 6 次出现正面的概率约为 0.205 或 20.5%。

### 应用
二项分布广泛应用于各种实际问题中，例如：

- **质量检验**：在产品批量中，检验合格产品的数量。
- **医学试验**：在临床试验中，计算某种药物或治疗方法的成功率。
- **市场调查**：在市场研究中，计算某种产品或服务的受欢迎程度。
- **金融**：在投资中，计算成功投资的比例。

### 测验
1. 假设你进行 5 次抛硬币实验，每次抛硬币正面朝上的概率为 0.3。那么计算恰好有 2 次出现正面的概率是多少？
回答：
```python
from math import comb

# 定义参数
n = 5  # 抛硬币次数
k = 2  # 正面朝上的次数
p = 0.3  # 正面朝上的概率

# 计算二项分布的概率
probability = comb(n, k) * (p ** k) * ((1 - p) ** (n - k))
probability
```

2. 在一个班级中，有 30 名学生，其中有 10 名学生参加了数学竞赛。如果每次竞赛成功的概率为 0.6，那么计算恰好有 4 名学生成功参加竞赛的概率是多少？

3. **某驾校规定，学员整体考试通过率不低于80%时，教练可获得奖金 ，某教练有5名学员参加考试，这5人通过考试的概率为2/3，则该教练获得奖金的概率为？**

要计算教练获得奖金的概率，即至少有 4 名学员通过考试的概率，我们可以使用 **二项分布** 来求解。
问题分析
- 每个学员通过考试的概率为 \frac{2}{3} 。
- 有 5 名学员参加考试。
- 至少 4 名学员通过考试时，教练才能获得奖金。
  
 二项分布公式
对于二项分布，给定 $n$ 次独立试验中发生 $k$ 次成功的概率公式为：
$$
P(X = k) = \binom{n}{k} \cdot p^k \cdot (1-p)^{n-k}
$$
其中：
- $ n $ 是试验次数（这里 $ n = 5 $）
- $ k $ 是成功的次数
- $ p $ 是单次试验成功的概率（这里 $ p = \frac{2}{3} $）

 求解步骤
我们要求的是至少 4 名学员通过考试的概率，也就是说 $ P(X \geq 4) $。
$$
P(X \geq 4) = P(X = 4) + P(X = 5)
$$

 计算 $ P(X = 4) $：
$$
P(X = 4) = \binom{5}{4} \cdot \left(\frac{2}{3}\right)^4 \cdot \left(\frac{1}{3}\right)^{1}
$$
$$
P(X = 4) = 5 \cdot \left(\frac{16}{81}\right) \cdot \left(\frac{1}{3}\right) = 5 \cdot \frac{16}{243} = \frac{80}{243}
$$

 计算 $ P(X = 5) $：
$$
P(X = 5) = \binom{5}{5} \cdot \left(\frac{2}{3}\right)^5 \cdot \left(\frac{1}{3}\right)^{0}
$$
$$
P(X = 5) = 1 \cdot \left(\frac{32}{243}\right) \cdot 1 = \frac{32}{243}
$$

 计算 $ P(X \geq 4) $：
$$
P(X \geq 4) = P(X = 4) + P(X = 5) = \frac{80}{243} + \frac{32}{243} = \frac{112}{243}
$$

 最终结果
该教练获得奖金的概率为 $ \frac{112}{243} $，约为 0.46 或 46.1%。


# 扩展

## 其他分布分类

### 2. 按照生成方式分类
2.1 参数分布
参数分布是可以通过某些参数（如均值、方差）来完全描述的分布。

- 正态分布：由均值和标准差两个参数决定。
- 指数分布：由一个参数 𝜆（事件发生率）决定。
2.2 非参数分布
非参数分布不依赖于特定的参数形式。

- 经验分布：根据样本数据直接构造的分布，用于描述数据的经验累积分布函数。
### 3. 按照分布的特性分类
3.1 对称分布
这些分布在其均值处对称。

- 正态分布：是典型的对称分布。
- 均匀分布：如果定义在对称区间内，也是对称的。
3.2 偏斜分布
这些分布不是对称的，可能向左或向右偏斜。

- 指数分布：通常是右偏的，意味着较小的值更可能出现。
- 卡方分布：也是典型的偏斜分布。
4. 特殊分布
一些概率分布在特定领域或问题中有特别重要的应用：

- 贝塔分布：常用于描述概率的分布，广泛应用于贝叶斯统计中。

- Dirichlet分布：是多项式分布的共轭先验分布，用于贝叶斯推理中。