### 2.3 有监督学习算法
### 2.3.4 朴素贝叶斯分类器

朴素贝叶斯分类器基于「属性条件独立性假设」：对已知类别，假设所有属性相互独立，即每个属性独立地对分类结果产生影响。

其数学公式如下：其中 $d$ 为属性数目，$x_i$ 为$\mathbf{x}$在第$i$个属性上的取值
\begin{align*}
P(y|x_1,\cdots,x_n)=\frac{P(y)P(x_1,\cdots,x_n|y)}{P(x_1,\cdots,x_n)}=\frac{P(y)}{P(x_1,\cdots,x_n)}\prod_{i=1}^n P(x_i|y)
\end{align*}
因为$P(x_1,\cdots,x_n)$ 是常量，因此得到贝叶斯判定准则为：
\begin{align*}
P(y|x_1,\cdots,x_n)
    &\propto P(y)\prod_{i=1}^n P(x_i|y)\\
\hat{y}
    &=\arg\max_{y} P(y)\prod_{i=1}^n P(x_i|y)
\end{align*}
使用最大后验估计(MAP)方法估计 $P(y)$ 和 $P(x_i|y)$。

-   属于生成模型。训练速度更快，泛化能力稍差。
-   单独查看每个特征来学习参数，并且从每个特征中收集简单的类别统计数据。
-   Scikit-Learn 中实现了三种朴素 Bayes 分类器：不同的分类器的区别在于对 $P(x_i|y)$ 的分布的假设
    -   GaussianNB：应用于任意的高维的连续数据；
        -   保存每个类别中每个特征的平均值和标准差
    -   BernoulliNB：假定输入数据为稀疏的二分类数据；
        -   计算每个类别中每个特征不为 0 的元素个数
        -   主要用于文本数据分类
    -   MultinomialNB：假定输入数据为计数数据 ( 即每个特征代表某个对象的整数计数，例如：一个单词在句子中出现的次数 )
        -   计算每个类别中每个特征的平均值
        -   主要用于文本数据分类

似然函数为：
\begin{align*}
P(x_i|y)=\frac1{\sqrt{2\pi\sigma_y^2}}\exp\{-\frac{(x_i-\mu_y)^2}{2\sigma_y^2}\}
\end{align*}

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)

from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
y_pred = gnb.fit(X_train, y_train).predict(X_test)
print("Number of mislabeled points out of a total %d points : %d"
        % (X_test.shape[0], (y_test != y_pred).sum()))


Number of mislabeled points out of a total 75 points : 4


In [54]:
X = np.array([
    [0, 1, 0, 1],
    [1, 0, 1, 1],
    [0, 0, 0, 1],
    [1, 0, 1, 0]])
y = np.array([0, 1, 0, 1])

In [55]:
counts = {}
for label in np.unique(y):
    # iterate over each class
    # count (sum) entries of 1 per feature
    counts[label] = X[y == label].sum(axis=0)
print("Feature counts:\n", counts)

Feature counts:
 {0: array([0, 1, 0, 2]), 1: array([2, 0, 2, 1])}


#### Strengths, weaknesses and parameters