# 理论概要

朴素贝叶斯是一个生成模型，通过学习联合概率分布$P(X=x, Y=ck)=P(Y=ck) \cdot P(X=x|Y=ck)$。根据条件独立性假设，将联合分布表示为$P(X=x, Y=ck)=P(Y=ck) \cdot \prod_{i=1}^{n}P(X_i=x_i|Y=ck)$。模型最终预测结果为联合分布最大的（后验概率最大的）的类别。

各种各样的的朴素贝叶斯分类器的差异大部分来自于处理 $P(X_i=x_i|Y=ck)$ 分布时的所做的假设不同。

优点：

- 简单，在文档分类和垃圾邮件过滤等方面表现好。
- 快速，可以独立单独地把每个特征视为一维分布来估计，有助于缓解维度灾难带来的问题。

缺点：

- 是一种不错的分类器，但却不是好的估计器(estimator)，所以不能太过于重视从 predict_proba 输出的概率。

# sklearn.naive\_bayes

## GaussianNB

高斯分布假设下的朴素贝叶斯。即特征的可能性假设为高斯分布。

```python
GaussianNB(priors=None)
```



In [2]:
from sklearn.naive_bayes import GaussianNB
from sklearn import datasets

iris = datasets.load_iris()
gnb = GaussianNB().fit(iris.data, iris.target)
gnb.score(iris.data, iris.target)

0.96

## MultinomialNB

多项式朴素贝叶斯。可以用在td-idf特征的文本分类任务上。

```python
MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)
```

参数：

- alpha：贝叶斯估计中的参数$\lambda$，alpha=1时为拉普拉斯平滑，alpha<1时为lidstone平滑。

In [4]:
from sklearn.naive_bayes import MultinomialNB
import numpy as np

X = np.random.randint(5, size=(6, 100))
y = np.array([1, 2, 3, 4, 5, 6])
mnb = MultinomialNB().fit(X, y)
mnb.score(X, y)

1.0

## ComplementNB

补充朴素贝叶斯。

技术细节：

是多项式朴素贝叶斯的一种改进，特别适用于不平衡数据集。具体来说，CNB使用来自每个类的补数的统计数据来计算模型的权重。参数估计比多项式朴素贝叶斯参数估计更稳定。此外，CNB在文本分类任务上通常比MNB表现得更好(通常有相当大的优势)。

In [2]:
from sklearn.naive_bayes import ComplementNB
import numpy as np

X = np.random.randint(5, size=(6, 100))
y = np.array([1, 2, 3, 4, 5, 6])
clf = ComplementNB().fit(X, y)
print(clf.predict(X[2:3]))

ImportError: cannot import name 'ComplementNB'

## BernoulliNB

伯努利朴素贝叶斯。

参数：

- alpha：贝叶斯估计中的参数$\lambda$，alpha=1时为拉普拉斯平滑，alpha<1时为lidstone平滑。
- binarize : 二值化的阈值 (default=0.0)
   
技术细节：

每个特征都假设是一个二元 变量。要求样本以二元值特征向量表示；如果样本含有其他类型的数据，模型会将其二值化(取决于 binarize 参数)。

In [3]:
from sklearn.naive_bayes import BernoulliNB
import numpy as np

X = np.random.randint(2, size=(6, 100))
Y = np.array([1, 2, 3, 4, 4, 5])
clf = BernoulliNB()
clf.fit(X, Y)
print(clf.predict(X[2:3]))

[3]
