### 贝叶斯分类器

在前面的例子中，我们可以把所有的样本以表格的形式列出来：

|箱子|球的类别|
|----|------|
|A|好|
|A|坏|
|A|好|
|A|好|
|A|好|
|B|好|
|B|坏|
|B|坏|

每一个样本都由两部分组成：特征和类别。可以看出这里只有一个特征（箱子编号），而且是二分类问题（好或坏）。

所以贝叶斯定理天生具有分类功能，我们不妨推广到多特征多分类的情况，譬如把 $A_i$ 当作类标记，也就是说样本空间被划分成 $A_1, A_2, ..., A_n$，可以理解为样本空间可以分成 n 类，我们可以把 $B$ 当作样本数据的特征向量。类标记集合 $\mathcal{Y} = \{c_1, c_2, \dots, c_K\}$，输入为特征向量 $x$，输出为类标记 $y$，那么贝叶斯公式可以改成下面的形式：

$$
P(Y=c_k|X=x) = \frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{i=1}^n P(X=x|Y=c_k)P(Y=c_k)}
$$

通过这个公式，可以计算出输入特征 $X$ 属于类别 $c_k$ 的概率，计算所有类别的概率，看看哪个类别的概率最大，就把输入特征归到这个类别，这就是**贝叶斯分类器**（Bayes classifier）的基本原理。

### 朴素贝叶斯分类器

我们再来看一个例子。假设某个医院早上来了8个门诊病人，如下表：

|症状|职业|疾病|
|---|----|----|
|打喷嚏|护士|感冒|
|打喷嚏|农夫|过敏|
|头痛|建筑工人|脑震荡|
|头痛|建筑工人|感冒|
|打喷嚏|建筑工人|过敏|
|打喷嚏|教师|感冒|
|头痛|教师|脑震荡|
|打喷嚏|教师|过敏|

现在来了第9个病人，是一个打喷嚏的建筑工人，那么他最可能得的疾病是什么？

很显然，从上表中的样本数据可以知道，这里的特征有两个（症状和职业），可能的疾病有：感冒、过敏、脑震荡，是个三分类问题。要想预测这个建筑工人的疾病，实际上就是求下面的三个条件概率，然后取概率值最大的那种情况：

* $P(cold|sneeze \cap builder)$
* $P(allergy|sneeze \cap builder)$
* $P(concussion|sneeze \cap builder)$

根据贝叶斯定理，我们有：

$$
\begin{align}
P(cold|sneeze \cap builder) = \frac{P(sneeze \cap builder|cold)P(cold)}{P(sneeze \cap builder)}
\end{align}
$$

这里的 $P(sneeze \cap builder|cold)$ 是个联合概率，当特征数非常多时，联合概率非常难求，所以我们在这里做了一个大胆的假设：**所有的特征是彼此独立的**。所以：

$$
\begin{align}
P(cold|sneeze \cap builder) &= \frac{P(sneeze \cap builder|cold)P(cold)}{P(sneeze \cap builder)} \\
&= \frac{P(sneeze|cold)P(builder|cold)P(cold)}{P(sneeze)P(builder)}
\end{align}
$$

根据这个假设得到的分类器，我们称之为**朴素贝叶斯分类器**（naive Bayes classifier）。英文 naive 的意思是天真的幼稚的，不过，尽管这个假设非常幼稚，但它在很多分类领域发挥着重要的作用。

根据上面的表格，我们有：

$$
\begin{align}
P(cold) &= \frac{3}{8} \\
P(sneeze) &= \frac{5}{8} \\
P(builder) &= \frac{3}{8} \\
P(sneeze|cold) &= \frac{2}{3} \\
P(builder|cold) &= \frac{1}{3}
\end{align}
$$

所以求得：

$$
P(cold|sneeze \cap builder) = \frac{16}{45}
$$

同理：

$$
P(allergy|sneeze \cap builder) = \frac{24}{45} \\
P(concussion|sneeze \cap builder) = 0
$$

可以推断出，这个建筑工人得过敏的可能性最大。

在上面的计算过程中，三个概率的分母都是 $P(sneeze \cap builder)$，而我们最后是要比较这三个概率的大小，所以这个值实际上可以不用算，这个值有时候又被为 **证据因子**（evidence）。