朴素贝叶斯法是常用分类方法。先学习联合概率分布，然后用贝叶斯定理求最大后验概率输出 $y$。实际上是学习数据生成机制，是生成模型。

- [4.1 朴素贝叶斯法的学习与分类](#4.1-朴素贝叶斯法的学习与分类)
  - [4.1.1 基本方法](#4.1.1-基本方法)
  - [4.1.2 后验概率最大化的含义](#4.1.2-后验概率最大化的含义)
- [4.2 朴素贝叶斯法的参数估计](#4.2-朴素贝叶斯法的参数估计)
  - [4.2.1 极大似然估计](#4.2.1-极大似然估计)
  - [4.2.2 学习与分类算法](#4.2.2-学习与分类算法)
  - [4.2.3 贝叶斯估计](#4.2.3-贝叶斯估计)
- [算法实现](#算法实现)
- [习题](#习题)

# 4.1 朴素贝叶斯法的学习与分类

## 4.1.1 基本方法

输入的 $x \in \mathcal{X} \subseteq \mathbf{R}^{n}$ 是 n 维向量，输出为 $y \in \mathcal{Y} = \left\{c_{1}, c_{2}, \cdots, c_{K}\right\}$，是类标记(class label)。朴素贝叶斯法通过训练集学习联合概率分布 $P(X|Y)$ 。首先，学习先验概率分布 $P\left(Y=c_{k}\right)$，$ k=1,2, \cdots, K$，再学习条件概率分布 $P\left(X=x | Y=c_{k}\right)=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right)$，这样就得到了 $P(X|Y)$。

为方便计算，朴素贝叶斯法假定分类的特征在类别确定的情况下都是条件独立的，即：
$$
\begin{aligned} P\left(X=x | Y=c_{k}\right) &=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right) \\ &=\prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \end{aligned}
$$
进行分类时，对给定的 $x$，通过学习到的模型计算后验概率：
$$
P\left(Y=c_{k} | X=x\right)=\frac{P\left(X=x | Y=c_{k}\right) P\left(Y=c_{k}\right)}{\sum_{k} P\left(X=x | Y=c_{k}\right) P\left(Y=c_{k}\right)}
$$
在给定条件独立性假设的情况下：
$$
P\left(Y=c_{k} | X=x\right)=\frac{P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)} {\sum_{k} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}
$$
于是朴素贝叶斯分类器可以表示为：
$$
{y=f(x)=\arg \max _{c_{k}} \frac{P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}{\sum_{k} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}}
$$
注意到对任意 $c_{k}$ 上式分母是固定值，所以
$$
y=\arg \max _{c_{k}} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)
$$

## 4.1.2 后验概率最大化的含义

朴素贝叶斯法将 $x$ 分配给后验概率最大的类中，等价于期望风险最小化。

假定采用 0-1 损失函数，此时期望风险为：
$$
R_{\exp }(f)=E[L(Y, f(X))]=E_{X} \sum_{k=1}^{K}\left[L\left(c_{k}, f(X)\right)\right] P\left(c_{k} | X\right)
$$
为了使期望风险最小，只需要对每个 $X=x$ 极小化，即:
$$
\begin{aligned} f(x) &=\arg \min _{y \in \mathcal{Y}} \sum_{k=1}^{K} L\left(c_{k}, y\right) P\left(c_{k} | X=x\right) \\ &=\arg \min _{y \in \mathcal{Y}} \sum_{k=1}^{K} P\left(y \neq c_{k} | X=x\right) \\ &=\arg \min _{y \in \mathcal{Y}}\left(1-P\left(y=c_{k} | X=x\right)\right) \\ &=\arg \max _{y \in \mathcal{Y}} P\left(y=c_{k} | X=x\right) \end{aligned}
$$
这样就由期望风险最小得到了后验概率最大准则，即朴素贝叶斯法采用的形式。

# 4.2 朴素贝叶斯法的参数估计

## 4.2.1 极大似然估计

因为要先学习两个先验概率 $P(c_{k})$ 和 $P(x^{(j)}|c_{k})$，可以使用极大似然估计：
$$
P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}
$$
$I$ 是指示函数。进一步假设第 $j$  个特征 $x^{(j)}$ 的取值集合为 $\left\{a_{j 1}, a_{j 2}, \cdots, a_{j S_{j}}\right\}$ ，则：
$$
P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}
$$

## 4.2.2 学习与分类算法

1. 求先验概率和条件概率

$$
P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, \quad k=1,2, \cdots, K
$$

$$
\begin{array}{c}{P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}} \\ {j=1,2, \cdots, n ; \quad l=1,2, \cdots, S_{j} ; \quad k=1,2, \cdots, K}\end{array}
$$

2. 给定实例 $x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{\mathrm{T}}$，计算：

$$
P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right), \quad k=1,2, \cdots, K
$$

3. 确定 $x$ 的类别：

$$
y=\arg \max _{c_{k}} P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)
$$

## 4.2.3 贝叶斯估计

极大似然估计可能会使某些估计的概率为 0，从而导致后验概率计算时出现偏颇。解决这一问题可以使用贝叶斯估计

后验概率的贝叶斯估计：
$$
P_{\lambda}\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+S_{j} \lambda}
$$
先验概率的贝叶斯估计：
$$
P_{\lambda}\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+\lambda}{N+K \lambda}
$$
式中 $\lambda \geqslant 0$，等价于每个变量取值的频数之上再加一个 $\lambda > 0$。当 $\lambda = 0$ 时是极大似然估计，常取 $\lambda = 1$，称为拉普拉斯平滑(Laplacian smoothing)。

# 算法实现

**加载需要的库**

In [1]:
import numpy as np
import pandas as pd
import math

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

**硬件与版本信息**

In [2]:
%load_ext watermark
%watermark -v -m -p ipywidgets,matplotlib,numpy,pandas,sklearn

CPython 3.6.9
IPython 7.7.0

ipywidgets 7.5.1
matplotlib 3.1.0
numpy 1.16.4
pandas 0.25.0
sklearn 0.21.2

compiler   : MSC v.1915 64 bit (AMD64)
system     : Windows
release    : 10
machine    : AMD64
processor  : Intel64 Family 6 Model 60 Stepping 3, GenuineIntel
CPU cores  : 4
interpreter: 64bit


**准备数据**

In [3]:
def create_data():
    iris = load_iris();
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['label'] = iris.target
    df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
    dataset = df.loc[(df['label'] == 0) | (df['label'] == 1),:]
    X = dataset.loc[:,'sepal length':'petal width']
    y = dataset['label']
    return np.array(X), np.array(y)

In [4]:
X, y = create_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

In [5]:
X_train[0], y_train[0]

(array([5.5, 2.4, 3.7, 1. ]), 1)

**高斯模型**

假设特征分布为高斯分布，则其概率密度函数为：

$$
P(X | Y=c)=\frac{1}{\sqrt{2 \pi \sigma_{c}^{2}}} e^{\frac{-\left(x-\mu_{c}\right)^{2}}{2 \sigma_{c}^{2}}}
$$

为防止分类偏颇，出现除以 0 的情形，加上 $\lambda > 0$

$$
P(X | Y=c)=\frac{1}{\sqrt{2 \pi \sigma_{c}^{2}+ \lambda}} e^{\frac{-\left(x-\mu_{c}\right)^{2}}{2 \sigma_{c}^{2}+\lambda}}
$$

In [6]:
class NB_Gaussian():
    
    def fit(self, X, y):
        """按类别算好均值、方差"""
        self.X = X
        self.y = y
        self.classes = np.unique(y)
        self.parameters = []
        
        for i, c in enumerate(self.classes):
            X_c = X[np.where(y == c)]
            self.parameters.append([])
            
            for col in X_c.T:
                parameters = {'mean':col.mean(),'var':col.var()}
                self.parameters[i].append(parameters)
    
    def __cal_possibility(self, mean, var, x):
        """给定 x 的概率"""
        lam = 1e-4
        coeff = 1.0 / math.sqrt(2 * math.pi * var + lam)
        exp = math.exp(-(math.pow(x - mean,2)/(2 * var + lam)))
        return coeff * exp
    
    def __cal_prior(self, c):
        """类别 c 的先验概率"""
        freq = np.mean(self.y == c)
        return freq
    
    def __classify(self, sample):
        """对 sample 进行分类，求最大后验概率"""
        posteriors = []
        
        for i, c in enumerate(self.classes):
            posterior = self.__cal_prior(c)
            
            for x, params in zip(sample, self.parameters[i]):
                possibility = self.__cal_possibility(params['mean'],params['var'],x)
                posterior *= possibility
            
            posteriors.append(posterior)
        
        return self.classes[np.argmax(posteriors)]
    
    def predict(self, X):
        y_pred = [self.__classify(x) for x in X]
        return y_pred
    
    def score(self, X_test, y_test):
        y_pred = self.predict(X_test)
        correct = 0
        for pred, act in zip(y_pred, y_test):
            if pred == act:
                correct += 1
        return correct / float(len(X_test))

In [7]:
nb = NB_Gaussian()
nb.fit(X_train, y_train)

In [8]:
print(nb.predict([[4.4, 3.2, 1.3, 0.2]]))

[0]


In [9]:
nb.score(X_test, y_test)

1.0

**scikit-learn**

scikit-learn 库中有伯努利模型（BernoulliNB），高斯模型（GaussianNB）和多项式模型（MultinomialNB）三种朴素贝叶斯方法的实现

In [10]:
from sklearn.naive_bayes import GaussianNB,MultinomialNB,BernoulliNB

高斯模型

In [11]:
gnb = GaussianNB()
gnb.fit(X_train,y_train)

GaussianNB(priors=None, var_smoothing=1e-09)

In [12]:
print(gnb.predict([[4.4, 3.2, 1.3, 0.2]]))

[0]


In [13]:
gnb.score(X_test,y_test)

1.0

伯努利模型

In [14]:
bnb = BernoulliNB()
bnb.fit(X_train, y_train)

BernoulliNB(alpha=1.0, binarize=0.0, class_prior=None, fit_prior=True)

In [15]:
print(bnb.predict([[4.4, 3.2, 1.3, 0.2]]))

[0]


In [16]:
bnb.score(X_test, y_test)

0.5

多项式模型

In [17]:
mnb = MultinomialNB()
mnb.fit(X_train,y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [18]:
print(mnb.predict([[4.4, 3.2, 1.3, 0.2]]))

[0]


In [19]:
mnb.score(X_test,y_test)

1.0


# 习题

**4.1 用极大似然估计法推导朴素贝叶斯法中的先验概率估计公式(4.8)和条件概率估计公式(4.9)**

① 求证：$P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}$

证明：

极大似然假设样本是独立同分布的，对任意样本结果 $y$ 和标记类别 $c_k$，只有 $P(y = c_{k}) = p，P(y \neq c_{k}) = 1-p$ 两种，所以
$$
\begin{aligned}
P(Y=c_{k}) &= p^{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}(1-p)^{\sum_{i=1}^{N} I\left(y_{i} \neq c_{k}\right)} \\
\log P(Y=c_{k})&= \sum_{i=1}^{N} I\left(y_{i}=c_{k}\right) \log p + \sum_{i=1}^{N} I\left(y_{i} \neq c_{k}\right)\log(1-p) \\
L(p)=\frac{\partial \log P(Y=c_{k})}{\partial p} &= \frac {\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{p}-\frac{\sum_{i=1}^{N} I\left(y_{i} \neq c_{k}\right)}{1-p}
\end{aligned}
$$
令 $L(p) = 0$，得
$$
p = \frac {\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+\sum_{i=1}^{N} I\left(y_{i} \neq c_{k}\right)}=\frac {\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}
$$
②求证：$P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}$

证明：

道理同①，有
$$
P\left(Y=c_{k}, x^{(j)}=a_{j l}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}, x_{i}^{(j)}=a_{j l}\right)}{N}
$$
进而：
$$
\begin{aligned}
P\left(x^{(j)}=a_{j l} | Y=c_{k}\right)&=\frac{P\left(Y=c_{k}, x^{(j)}=a_{j l}\right)}{P\left(Y=c_{k}\right)}\\
&=\frac{\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}, x_{i}^{(j)}=a_{j l}\right)}{N}} {\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}} \\
&=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}, x_{i}^{(j)}=a_{j l}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}
\end{aligned}
$$
**4.2 用贝叶斯估计法推出朴素贝叶斯法中的概率估计公式(4.10)及公式(4.11)**

①求证：$P_{\lambda}\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+\lambda}{N+K \lambda}$，其中 $\lambda$ 是估计参数，$K$ 是随机变量 $Y$ 的取值种数

证明：

假设 $Y$ 的先验分布为均匀分布，即 $p = P(Y=c_{k}) = \frac {1}{K}$，就有
$$
pK -1 = 0 \tag{1}
$$
从习题 4.1 可知
$$
pN -\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right) = 0 \tag{2}
$$
取任意 $\lambda \geqslant 0$，有
$$
\lambda(1) + (2) = 0  \\
\lambda(pK -1) + pN -\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right) = 0
$$
解得
$$
p = P(Y=c_{k}) = \frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+\lambda}{N+K \lambda} \tag{3}
$$


②求证：$P_{\lambda}\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+S_{j} \lambda}$，$S_{j}$ 是 $x^{(j)}$ 的可取值个数

证明：

依然假设先验分布为均匀分布，则 $P\left(X^{(j)}=a_{j l} , Y=c_{k}\right) = \frac{1}{KS_{j}}$ ，由①可知：
$$
P_{\lambda}\left(X^{(j)}=a_{j l} , Y=c_{k}\right) =\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)+\lambda_{1}}{N+KS_{j} \lambda_{1}} \tag{4}
$$
而
$$
P_{\lambda}\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{P_{\lambda}\left(X^{(j)}=a_{j l} , Y=c_{k}\right)}{P_{\lambda}\left(Y=c_{k}\right)}
$$
将式$(3),(4)$带入可得
$$
P_{\lambda}\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)+\lambda_{1}}{N+K S_{j}\lambda_{1}}}{\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+\lambda_{2}}{N+K \lambda_{2}} }
$$
取 $\lambda_{2} = S_{j} \lambda_{1}$，则
$$
P_{\lambda}\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)+\lambda_{1}}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+S_{j} \lambda_{1}}
$$


---

作者：Daniel Meng

GitHub：[LibertyDream](https://github.com/LibertyDream)

博客：[明月轩](https://libertydream.github.io/)