## 朴素贝叶斯

### 1. 概率基础

**联合概率：**包含多个条件，且所有条件同时成立的概率，记作：$𝑃(𝐴,𝐵)$

**条件概率：**就是事件A在另外一个事件B已经发生条件下的发生概率记作：$𝑃(𝐴|𝐵)$

特性：$P(A1,A2|B) = P(A1|B)P(A2|B)$，注意：此条件概率的成立，是由于**A1,A2相互独立**的结果

### 2. 贝叶斯决策论

$\lambda_{ij}$是将一个真实标记为$c_j$的样本误分类为$c_i$所产生的损失。于是将样本$x$分类为$c_i$所产生的期望损失：

$$ R(c_i|x) = \sum_{j=1}^{N}\lambda_{ij}P(c_j|x) $$

我们的目标是最小化总体风险：

$$ R(h) = E_x[R(h(x)|x)] $$

显然对于每个样本$x$，若$h$能最小化条件风险$R(h(x)|x)$，则总体风险$R(h)$也就最小。

于是有**贝叶斯准则：**<span class="girk"><span class="mark">为最小化总体风险，只需在每个样本上选择了那个能使条件风险$R(c|x)$最小的类别标记。</span></span>

$$ h^*(x) = \underset {c \epsilon Y}{arg min}R(c|x) $$

$h^*$为贝叶斯最优分类器，$R(h^*)$为贝叶斯风险，$1-R(h^*)$反应了分类器所能达到的最好性能，即机器学习所产生的模型精度理论上限。

具体来说，若目标是最小化分类错误率，则判误损失$\lambda_{ij}$可写为：


$$
\lambda_{ij}=
\begin{cases}
0 & \text{i = j} \\
1 & \text{otherwise}
\end{cases}
$$

此时的条件风险 $ R(c|x) = 1 - P(c|x) $

于是，最小化分类错误率的贝叶斯最优分类器为：

$$ h^*(x) = \underset {c \epsilon Y}{argmax} P(c|x) $$

对于生成模型，考虑： $ P(c|x) = \frac {P(x,c)} {P(x)} $

根据<span class="mark">**贝叶斯定理**</span>，有：

$$ P(c|x) = \frac {P(c)*P(x|c)} {P(x)} $$

于是估计$ P(c|x) $ 问题转化为如何基于训练数据 $D$ 来估计先验 $P(c)$和似然 $P(x|c)$.

### 3. 朴素贝叶斯

**朴素贝叶斯分类器采用了<span class="mark">“属性条件独立性假设”</span>：对已知类别，假设所有属性相互独立。**

即各特征值独立，$P(x|c) = \prod_{i=1}^d P(x_i | c)$, $d$为属性数目。

于是有朴素贝叶斯分类器表达式：

$$ h_{nb}^*(x) = \underset {c \epsilon Y}{argmax} P(c) \prod_{i=1}^d P(x_i | c)$$

$$ P(c) = \frac {|D_c|}{|D|} $$

$$ P(x_i | c) = \frac {|D_{c,x_i}|}{|D_c|} $$

### 4. 拉普拉斯平滑

$$ P'(c) = \frac {|D_c|+\alpha} {|D|+ \alpha N} $$

$$ P'(x_i | c) = \frac {|D_{c,x_i}|+\alpha} {|D_c|+ \alpha N_i} $$

$\alpha$为拉普拉斯系数，一般为1

$N$ 为训练集D中的类别数

$N_i$ 为属性值$i$的取值数

### 5. 基于朴素贝叶斯的文本分类


$$ 𝑃(𝐶|𝑊)=\frac{𝑃(𝑊|𝐶)𝑃(𝐶)}{𝑃(𝑊)} $$

注：$W$为给定文档的特征值(频数统计,预测文档提供)，$c$为文档类别


公式可以理解为：

$$ 𝑃(𝐶|𝐹_1,𝐹_2,…)=\frac{𝑃(𝐹_1,𝐹_2,… |𝐶)𝑃(𝐶)}{𝑃(𝐹_1,𝐹_2,…)}$$

其中$c$可以是不同类别

$𝑃(𝐶)$：每个文档类别的概率(某文档类别词数／总文档词数)

$𝑃(𝑊|𝐶)$：给定类别下特征（被预测文档中出现的词）的概率

计算方法：

$𝑃(𝐹_1|𝐶)=𝑁_𝑖/𝑁$	（训练文档中去计算）

$𝑁_𝑖$为该$𝐹_1$词在$C$类别所有文档中出现的次数

$N$为所属类别$C$下的文档所有词出现的次数和

### 6. API调用

#### `sklearn.naive_bayes.MultinomialNB(alpha = 1.0)`

alpha：拉普拉斯平滑系数

### 7. 优缺点

- 优点：

    - 朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。

    - 对缺失数据不太敏感，算法也比较简单，常用于文本分类。

    - 分类准确度高，速度快

- 缺点：

    - 需要知道$P(F_1,F_2,…|C)$，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

### 8. 案例：新闻分类

In [5]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from sklearn.feature_extraction.text import TfidfVectorizer

In [3]:
news = fetch_20newsgroups(subset='all')
news.target

array([10,  3, 17, ...,  3,  1,  7])

In [4]:
print(news.DESCR)

.. _20newsgroups_dataset:

The 20 newsgroups text dataset
------------------------------

The 20 newsgroups dataset comprises around 18000 newsgroups posts on
20 topics split in two subsets: one for training (or development)
and the other one for testing (or for performance evaluation). The split
between the train and test set is based upon a messages posted before
and after a specific date.

This module contains two loaders. The first one,
:func:`sklearn.datasets.fetch_20newsgroups`,
returns a list of the raw texts that can be fed to text feature
extractors such as :class:`~sklearn.feature_extraction.text.CountVectorizer`
with custom parameters so as to extract feature vectors.
The second one, :func:`sklearn.datasets.fetch_20newsgroups_vectorized`,
returns ready-to-use features, i.e., it is not necessary to use a feature
extractor.

**Data Set Characteristics:**

    Classes                     20
    Samples total            18846
    Dimensionality               1
    Features      

In [16]:
# 训练集与测试集划分
x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size = 0.25)

In [17]:
# 文本特征提取
tfidf = TfidfVectorizer()
x_train = tfidf.fit_transform(x_train)

print(tfidf.get_feature_names()[-5:-1])

['ðòïäáöá', 'ñaustin', 'óáíïìåô', 'ýé']


In [18]:
# 利用训练集数据计算测试集的tfidf值
x_test = tfidf.transform(x_test)

In [19]:
# 进行朴素贝叶斯算法的预测
mlt = MultinomialNB(alpha=1.0)

# 模型训练
mlt.fit(x_train, y_train)

MultinomialNB()

In [22]:
# 预测
y_pre = mlt.predict(x_test)

In [20]:
# 准确率
mlt.score(x_test, y_test)

0.8376485568760611

In [25]:
print("每个类别的精确率和召回率：")
print( classification_report(y_test, y_pre, target_names=news.target_names))

每个类别的精确率和召回率：
                          precision    recall  f1-score   support

             alt.atheism       0.85      0.71      0.77       191
           comp.graphics       0.91      0.75      0.82       256
 comp.os.ms-windows.misc       0.81      0.90      0.85       234
comp.sys.ibm.pc.hardware       0.74      0.81      0.78       246
   comp.sys.mac.hardware       0.90      0.89      0.89       224
          comp.windows.x       0.95      0.79      0.86       272
            misc.forsale       0.93      0.69      0.79       254
               rec.autos       0.91      0.90      0.91       249
         rec.motorcycles       0.96      0.95      0.96       248
      rec.sport.baseball       0.94      0.94      0.94       269
        rec.sport.hockey       0.88      0.98      0.93       233
               sci.crypt       0.75      0.98      0.85       247
         sci.electronics       0.93      0.82      0.87       239
                 sci.med       0.97      0.82      0.89      