# Naive Bayes

朴素贝叶斯在早期被用于进行垃圾邮件分类
<br>
<BR>
在此之前，我们先来认识一下条件概率和贝叶斯定理。

$贝叶斯公式$:

$$
p(A|B)=\frac{p(A,B)}{p(B)}=\frac{p(B|A) \cdot p(A)}{\sum_{a \in ℱ_A}p(B|a) \cdot p(a)}
$$




·p(A,B)：表示事件A和事件B同时发生的概率。

·p(B)：表示事件B发生的概率，叫做先验概率；p(A)：表示事件A发生的概率。

·p(A|B)：表示当事件B发生的条件下，事件A发生的概率叫做后验概率。

·p(B|A)：表示当事件A发生的条件下，事件B发生的概率。



世间很多事都存在某种联系，假设事件A和事件B。人们常常使用已经发生的某个事件去推断我们想要知道的之间的概率。
<BR><BR>
例如，医生在确诊的时候，会根据病人的舌苔、心跳等来判断病人得了什么病。对病人来说，只会关注得了什么病，医生会通道已经发生的事件来确诊具体的情况。
<BR><BR>
这里就用到了贝叶斯思想，A是已经发生的病人症状，在A发生的条件下是B_i的概率。

朴素贝叶斯算法假设所有特征的出现相互独立$互不影响$，每一特征$同等重要$


朴素贝叶斯算法一般应用在文本分类，垃圾邮件的分类，信用评估，钓鱼网站检测等。

下面先演示高斯贝叶斯

In [3]:
import warnings
warnings.filterwarnings('ignore')
 
import numpy as np
# load iris dataset
from sklearn import datasets
# load Gaussian Naive Bayes model
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split

In [4]:
X,y = datasets.load_iris(return_X_y = True)
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.2,random_state = 0)

In [5]:
clf = GaussianNB(var_smoothing=1e-8)
clf.fit(X_train,y_train)

In [6]:
# 评估
y_pred = clf.predict(X_test)
acc = np.sum(y_test == y_pred)/X_test.shape[0]
print('Test accuracy: %.3f'%acc)

#预测
y_proba = clf.predict_proba(X_test[:1])
print(clf.predict(X_test[:1]))
print('probabilities:', y_proba)

Test accuracy: 0.967
[2]
probabilities: [[1.63542393e-232 2.18880483e-006 9.99997811e-001]]


上述预测值得到的是贝叶斯后验概率，即P(Y|X)，而贝叶斯分类器的预测结果是取后验概率最大的类别，所以我们认为类目[2]的可能性最大，所以预测结果为2。

值得一提的是，在高斯贝叶斯算法中，我们认为特征服从高斯分布（Normal Distribution）。

下面我们再来演示朴素贝叶斯

当涉及多个条件时，我们认为朴素贝叶斯是基于条件独立性假设的，也就是朴素假设（Naive），这也是朴素贝叶斯中$朴素$二字的由来

朴素假设：
$$
P(A,B|Y) = P(A|Y) \cdot P(B|Y)
$$

通过贝叶斯公式进行变形，得到预测的概率计算公式：

$$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k}P(X=x|Y=c_k)P(Y=c_k)}$$

原式可以等价为：

$$P(Y=c_k|X=x)=\frac{\prod_{i=1}^{n} P(x_i | Y=c_k)P(Y=c_k)}{\sum_{k}\prod_{i=1}^{n} P(x_i | Y=c_k)P(Y=c_k)}$$

我们为了选择后验概率最大的结果，进行概率的比较，由于分母一致，这里直接去掉分母，得到最后的计算公式。

$$
y=arg max_{c_k}P(Y=c_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_k)
$$

然而，尽管朴素贝叶斯与其他Regression方法相比理论上具有最小的误差，但是理论上“朴素”这一假设很难严格成立，并且在实际应用中往往会遇到一些问题。

所以为了解决特征相关性问题，后人发明了PCA来降维，使得数据更加“纯净”，从而使得朴素贝叶斯模型更加适合处理。

这就有点超纲了