
![20220712100552](https://cdn.jsdelivr.net/gh/xihuishawpy/PicBad@main/blogs/pictures/20220712100552.png)

对于naive bayes分类器，效果不太行，不能太认真地看待predict_proba的概率输出。

In [1]:
import numpy as np
import pandas as pd 
import warnings
warnings.filterwarnings('ignore')

from sklearn.datasets import load_boston,load_iris

li = load_iris()
features2 = li.feature_names
x_cls ,y_cls = li.data,li.target
x_cls = pd.DataFrame(x_cls,columns=features2)
y_cls = pd.DataFrame(y_cls,columns=['target'])

from sklearn.model_selection import train_test_split
X_cls_train,X_cls_test,y_cls_train,y_cls_test = train_test_split(x_cls,y_cls,random_state=2022,test_size=0.2)

## 高斯朴素贝叶斯 -- GaussianNB

假设特征服从高斯分布.

对一批样本进行`增量拟合`，`partial_fit(X, y, classes=None, sample_weight=None)`方法需要对数据集的不同块连续调用多次，以实现核外学习或在线学习。

当整个数据集太大而无法立即放入内存拟合时，这个功能特别有用。


In [6]:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

gn_cls = GaussianNB()

# 增量拟合
gn_cls.partial_fit(X_cls_train,y_cls_train,np.unique(y_cls_train))
gn_cls.score(X_cls_train,y_cls_train)
accuracy_score(y_cls_test,gn_cls.predict(X_cls_test))

0.9666666666666667

## 多项式朴素贝叶斯 -- MultinomialNB

![20220712105135](https://cdn.jsdelivr.net/gh/xihuishawpy/PicBad@main/blogs/pictures/20220712105135.png)

多项式朴素贝叶斯分类器适用于具有`离散特征的分类`（例如，用于文本分类的字数统计）

In [17]:
from sklearn.naive_bayes import MultinomialNB

mn_cls = MultinomialNB()

# 增量拟合
mn_cls.partial_fit(X_cls_train,y_cls_train,np.unique(y_cls_train))
mn_cls.score(X_cls_train,y_cls_train)

# 很明显，对于数值类特征表现不太好~~ 
# 毕竟P(Xi|y)的估计是计数占比来的 
accuracy_score(y_cls_test,mn_cls.predict(X_cls_test))

0.7333333333333333

## 补充朴素贝叶斯 -- ComplementNB 

CNB是对标准的多项式贝叶斯（NBB）算法的改编，特别`适用于不平衡`的数据集。

具体来说，`CNB使用每个类的补充的统计数据来计算模型的权重`。

CNB的作者根据经验表明，`CNB的参数估计比MNB的参数估计更稳定`。CNB在文本分类任务上经常优于MNB（通常有相当大的差距）

In [18]:
from sklearn.naive_bayes import ComplementNB

cmn_cls = ComplementNB()

# 增量拟合
cmn_cls.partial_fit(X_cls_train,y_cls_train,np.unique(y_cls_train))
cmn_cls.score(X_cls_train,y_cls_train)

accuracy_score(y_cls_test,cmn_cls.predict(X_cls_test))

0.7333333333333333

## 伯努利朴素贝叶斯 -- Bernoulli Naive Bayes

BernoulliNB为根据多变量Bernoulli分布的数据实现朴素贝叶斯训练和分类算法；也就是说，可能有多个特征，但每个特征都被假定为二进制值（Bernoulli，布尔值）变量。

因此，该类`需要将样本表示为二进制值的特征向量`；如果交给任何其他类型的数据，BernoulliNB实例可以将其输入二进制化（取决于二进制化参数）

![20220712114956](https://cdn.jsdelivr.net/gh/xihuishawpy/PicBad@main/blogs/pictures/20220712114956.png)

像MultinomialNB一样，这个分类器`适用于离散数据`。区别在于，MultinomialNB可处理多分类，但`BernoulliNB是为二分类或布尔型函数而设计的`.

In [19]:
from sklearn.naive_bayes import BernoulliNB

bn_cls = BernoulliNB()

# 增量拟合
bn_cls.partial_fit(X_cls_train,y_cls_train,np.unique(y_cls_train))
bn_cls.score(X_cls_train,y_cls_train)

# 很明显，对于数值类特征表现更差~~  
accuracy_score(y_cls_test,bn_cls.predict(X_cls_test))

0.26666666666666666

## 类别朴素贝叶斯 -- CategoricalNB

![20220712115505](https://cdn.jsdelivr.net/gh/xihuishawpy/PicBad@main/blogs/pictures/20220712115505.png)

适用于`具有分类分布的离散特征的分类`。每个特征的类别均来自分类分布。


In [22]:
from sklearn.naive_bayes import CategoricalNB

cn_cls = CategoricalNB()

# 增量拟合
cn_cls.partial_fit(X_cls_train,y_cls_train,np.unique(y_cls_train))
cn_cls.score(X_cls_train,y_cls_train)

# 和高斯朴素贝叶斯的预测准确率相当，没搞懂~~ 不是说对于离散特征效果好么？？？
accuracy_score(y_cls_test,cn_cls.predict(X_cls_test))

0.9666666666666667