# 概率图模型 Graphical Models

概率图模型（Probabilistic Graphical Models, PGMs）是一种通过图来表示随机变量之间依赖关系的概率模型。它们是表示和处理不确定性信息的强大工具。在这类模型中，图的节点表示随机变量，而图的边表示变量之间的概率依赖关系。

贝叶斯网络（Bayesian Networks），也称为信念网络或有向无环图模型，是PGMs的一种，它通过有向无环图（Directed Acyclic Graph, DAG）来表示变量之间的条件依赖性。

### 贝叶斯网络的核心组成：

- **节点（Nodes）**：图中的每个节点代表一个随机变量，这些变量可以是可观测的数据，未知参数，潜在变量等。
- **边（Edges）**：有向边表示变量之间的条件依赖关系。如果有一个边从节点A指向节点B，那么我们说A是B的父节点，B是A的子节点。边定义了父节点对子节点的直接影响。
- **条件概率表（Conditional Probability Tables, CPTs）**：每个节点都有一个条件概率表，它给出了该节点在其父节点各种组合状态下的概率。

### 数学表示

假设有一组随机变量 $ X = \{X_1, X_2, ..., X_n\} $。贝叶斯网络表示联合概率分布 $ P(X_1, X_2, ..., X_n) $ 为：

$$ P(X_1, X_2, ..., X_n) = \prod_{i=1}^{n} P(X_i | Parents(X_i)) $$

其中 $ Parents(X_i) $ 是节点 $ X_i $ 的父节点集合。

### 贝叶斯网络的使用：

1. **推理（Inference）**：给定一些节点的观测值，贝叶斯网络可以用来计算一个或多个未观测节点的条件概率。例如，推理可以回答这样的问题：“如果我观察到某些症状，患某种疾病的概率是多少？”
   
2. **学习（Learning）**：如果网络结构已知，可以使用数据来估计CPTs中的概率。如果网络结构未知，学习还包括确定网络结构的问题。

### 示例

考虑一个简单的贝叶斯网络，它描述了草湿（Wet Grass，W）的情况与它是否下雨（Rain，R）以及是否开启了洒水系统（Sprinkler，S）之间的关系：

```
    Rain (R)        Sprinkler (S)
      \              /
       \            /
        v          v
       Wet Grass (W)
```

在这个网络中，草湿的概率依赖于是否下雨和洒水系统是否开启。这可以用以下条件概率表表示：

- $ P(R) $: 下雨的概率
- $ P(S) $: 洒水系统开启的概率
- $ P(W | R, S) $: 草湿的条件概率，依赖于是否下雨和洒水系统是否开启

使用这个网络，我们可以回答例如“如果草湿了，那么下雨的概率是多少？”这样的问题。

贝叶斯网络是一个非常广泛的主题，它包含很多理论和实践内容，上述内容仅仅是一个高层次的简介。在实际应用中，构建和使用贝叶斯网络需要精确的概率推理和数学工具，如贝叶斯推理算法（比如变量消去、Belief Propagation）、近似推理算法（如Monte Carlo方法），以及结构学习和参数学习算法。

### 贝叶斯网络：普适表达式

- 有向无环图
- 因子化形式


![image.png](attachment:image.png)

$$
\begin{aligned}
p(a, b, c) & =p(c \mid a, b) p(a, b) \\
& =p(c \mid a, b) p(b \mid a) p(a)
\end{aligned}
$$

![image-2.png](attachment:image-2.png)

$$
\begin{aligned}
& p\left(x_1, \ldots, x_7\right)= \quad p\left(x_1\right) p\left(x_2\right) p\left(x_3\right) p\left(x_4 \mid x_1, x_2, x_3\right) \\
& \quad p\left(x_5 \mid x_1, x_3\right) p\left(x_6 \mid x_4\right) p\left(x_7 \mid x_4, x_5\right)
\end{aligned}
$$

$$
p(\mathbf{x})=\prod_{k=1}^K p\left(x_k \mid \mathrm{p}a_k\right)
$$

### 贝叶斯多项式回归
$$
\begin{gathered}
y(x, \mathbf{w})=\sum_{j=0} w_j x^j \\
t_n=y\left(x_n, \mathbf{w}\right)+\epsilon_n \\
p(\mathbf{t}, \mathbf{w})=p(\mathbf{w}) \prod^N p\left(t_n \mid y\left(\mathbf{w}, x_n\right)\right)
\end{gathered}
$$

![image-3.png](attachment:image-3.png)