# 1.5 决策理论

假设我们的输入向量为 $\mathbf x$，目标向量为 $\mathbf t$，对于回归问题，$\mathbf t$ 是一个连续变量，对于分类问题，$\mathbf t$ 是一个离散变量。联合分布 $p(\mathbf{x, t})$ 反映了这些变量之间的不确定性关系，而使用训练数据求 $p(\mathbf{x, t})$ 作为一种统计推断的过程，通常是十分困难的。

考虑一个医学诊断的例子，假设我们对病人进行了 X 光检查，希望判断病人是否得了癌症。这里，输入 $\mathbf x$ 是 X 光检查的图像，输入是一个标签 $t\in \{0,1\}$，$t=0$ 表示 $\mathcal C_1$类，有癌症，$t=1$ 表示 $\mathcal C_2$类，没有癌症。

我们要计算的分布为 $p(\mathbf{x, t})$ 或者 $p(\mathbf{x}, \mathcal{C}_k)$。

给定一个输入 $\mathbf x$，我们需要判断它属于每一类的概率，即计算后验概率

$$
p(\mathcal C_k|\mathbf x)=\frac{p(\mathbf x|\mathcal C_k) p(\mathcal C_k)}{p(\mathbf x)}
$$

## 1.5.1 最小错误率决策 

假设我们的目标是最小化发生错误的概率。

我们需要决定一个准则来决定每个 $\mathbf x$ 所属的类别。这个准则将空间分成了很多个区域 $\mathcal R_k$，每个区域代表一类，表示落在这个区域的点都被标记成了第 $k$ 类。这些区域的边界被叫做决策面（`decision boundaries`）。注意，这些决策区域并不一定需要联系，可能是多个区域的组合成为一类的决策区域。

我们的例子中，错误发生有两种情况：属于 $\mathcal C_1$ 被分为 $\mathcal C_2$ 和属于 $\mathcal C_2$ 被分为 $\mathcal C_1$，因此错误率为

$$
p(mistake) = p(\mathbf x\in \mathcal R_1, \mathcal C_2) + p(\mathbf x\in \mathcal R_2, \mathcal C_1)
= \int_{\mathcal R_1} p(\mathbf x, \mathcal C_2) d\mathbf x + \int_{\mathcal R_2} p(\mathbf x, \mathcal C_1) d\mathbf x
$$

为了最小化错误率，我们需要将 $x$ 标记为概率最大的那个类，即如果 $p(\mathbf x, \mathcal C_1)>p(\mathbf x, \mathcal C_2)$，那么将 $\mathbf x$ 标记为 $\mathcal C_1$

从乘法法则我们知道 $p(\mathbf x, \mathcal C_k)=p(\mathcal C_k|\mathbf x)p(\mathbf x)$，而 $p(\mathbf x)$ 是公共项，因此我们相当于将 $\mathbf x$ 标记为 $p(\mathcal C_k|\mathbf x)$ 最大的类。

对于多类问题，最小化错误率决策可以看出最大化正确率决策，即

$$
p(correct) = \sum_{k=1}^K p(\mathbf x\in \mathcal R_k, \mathcal C_k) = \sum_{k=1}^K \int_{\mathcal R_k} p(\mathbf x, \mathcal C_k) d\mathbf x
$$

## 1.5.2 最小损失决策