## 概率论基础笔记

---

###  1. 条件概率（Conditional Probability）

---

####  定义

条件概率表示在事件 $B$ 已经发生的前提下，事件 $A$ 发生的概率：

$$
P(A \mid B) = \frac{P(A \cap B)}{P(B)} \quad \text{（前提：}P(B) > 0\text{）}
$$

---

####  理解举例

* 抽一张扑克牌，已知是红桃，问是 A 的概率：

$$
P(\text{A} \mid \text{红桃}) = \frac{1/52}{13/52} = \frac{1}{13}
$$

---

####  乘法法则（乘法公式）

$$
P(A \cap B) = P(A \mid B) \cdot P(B) = P(B \mid A) \cdot P(A)
$$

* 常用于联合概率计算，也用于贝叶斯公式推导。

---

####  全概率公式

设事件 $\{B_1, B_2, \dots, B_n\}$ 为一个划分，则：

$$
P(A) = \sum_{i=1}^{n} P(A \mid B_i) \cdot P(B_i)
$$

---

#### 贝叶斯公式（Bayes’ Rule）

条件概率的重要应用之一：

$$
P(B_i \mid A) = \frac{P(A \mid B_i) \cdot P(B_i)}{\sum_{j=1}^{n} P(A \mid B_j) \cdot P(B_j)}
$$

* 用于在观察结果 $A$ 后更新对潜在原因 $B_i$ 的信心。

---

####  应用场景

| 场景   | 说明         |
| ---- | ---------- |
| 医学诊断 | 已知阳性，问是否患病 |
| 机器学习 | 后验概率建模     |
| NLP  | 基于上下文词的预测  |

---

###  2. 常见随机分布（Common Distributions）

---

#### 1. **伯努利分布（Bernoulli）**

* 用于表示单次二项试验（0或1）：

$$
P(X = 1) = p,\quad P(X = 0) = 1 - p
$$

* 参数：$p \in [0,1]$，期望 $\mathbb{E}[X] = p$，方差 $\text{Var}[X] = p(1 - p)$

---

#### 2. **二项分布（Binomial）**

* 表示重复 $n$ 次伯努利试验成功的次数：

$$
P(X = k) = \binom{n}{k} p^k (1 - p)^{n-k}
$$

* 参数：$n, p$，期望 $np$，方差 $np(1-p)$

---

#### 3. **几何分布（Geometric）**

* 第一次成功所需的试验次数

$$
P(X = k) = (1 - p)^{k - 1} p
$$

---

#### 4. **泊松分布（Poisson）**

* 用于建模单位时间/空间内某事件发生的次数（稀疏事件）

$$
P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}
$$

* 参数 $\lambda$：平均次数，期望与方差均为 $\lambda$

---

#### 5. **均匀分布（Uniform）**

* 连续型均匀分布：

$$
f(x) = \frac{1}{b - a}, \quad x \in [a, b]
$$

---

#### 6. **正态分布（高斯分布，Normal）**

* 自然界最常见的分布，钟形曲线：

$$
f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)
$$

* 参数 $\mu$：均值，$\sigma^2$：方差

* 线性模型、神经网络的权重初始化常用正态分布

---

#### 7. **指数分布（Exponential）**

* 建模事件之间的时间间隔（如故障时间）：

$$
f(x) = \lambda e^{-\lambda x}, \quad x \ge 0
$$

---

#### 8. **卡方分布（Chi-Square）**

* 多个标准正态变量平方和的分布
* 在假设检验与协方差矩阵分析中常用

---

####  应用对照表

| 分布  | 场景            |
| --- | ------------- |
| 伯努利 | 单次二分类         |
| 二项  | 多次成功计数        |
| 泊松  | 稀疏事件建模（如点击率）  |
| 正态  | 连续变量、误差分布、初始化 |
| 指数  | 到下次事件时间建模     |
| 均匀  | 随机初始化，概率推理中先验 |
| 几何  | 成功前试验次数建模     |

---

###  3. 贝叶斯网络（Bayesian Network）

---

####  定义

贝叶斯网络是一种有向无环图（DAG），用于表示**变量之间的条件依赖关系**与联合分布结构。

* 每个节点表示一个随机变量
* 每条有向边表示直接的因果或依赖关系
* 每个变量都有一个条件概率表（CPT），给出在父节点给定时该变量的概率分布

---

####  联合概率的分解

若网络中有 $n$ 个变量 $X_1, X_2, ..., X_n$，贝叶斯网络将联合分布表示为：

$$
P(X_1, X_2, ..., X_n) = \prod_{i=1}^{n} P(X_i \mid \text{Pa}(X_i))
$$

其中 $\text{Pa}(X_i)$ 是 $X_i$ 的父节点集合。

---

####  条件独立性编码

* 贝叶斯网络天然表达变量之间的条件独立性。

* 若 $A \rightarrow B \rightarrow C$，则 $A \perp C \mid B$

* 使用\*\*d-separation（d-分离）\*\*判定图结构中的独立性关系。

---

#### 推理与学习

| 类型       | 方法                               |
| -------- | -------------------------------- |
| **推理**   | 给定部分变量，推断其他变量的后验概率（用贝叶斯公式、变量消除等） |
| **结构学习** | 从数据中学习网络结构（搜索+打分）                |
| **参数学习** | 给定结构，估计条件概率表（最大似然估计、EM算法）        |

---

####  应用场景

| 应用   | 示例            |
| ---- | ------------- |
| 医疗诊断 | 疾病 → 症状       |
| NLP  | 词性 → 单词       |
| 异常检测 | 传感器网络中异常事件传播  |
| 图模型  | 图神经网络中的因果推理扩展 |

---

####  示例图结构

```
    A → B → C
          ↓
          D
```

$$
P(A,B,C,D) = P(A) \cdot P(B \mid A) \cdot P(C \mid B) \cdot P(D \mid B)
$$

---

###  总结小结

| 模块    | 核心要点               |
| ----- | ------------------ |
| 条件概率  | 联合概率与推断的核心         |
| 常见分布  | 概率建模与采样的工具箱        |
| 贝叶斯网络 | 条件独立建模，表达联合概率的结构方法 |

---

###  可视化学习推荐（可选）

* 📘 书籍推荐：《概率导论》（Introduction to Probability）、《Pattern Recognition and Machine Learning》
* 📺 视频推荐：Stanford CS228 贝叶斯网络课程
* 🧮 工具推荐：Python 中 `pomegranate`、`pgmpy` 构建贝叶斯网络

