In [None]:
【例11.1】高斯朴素贝叶斯举例。

In [1]:
import numpy as np
import pandas as pd
from sklearn.naive_bayes import GaussianNB
np.random.seed(0)
x = np.random.randint(0,10,size=(6,2))
y = np.array([0,0,0,1,1,1])
data = pd.DataFrame(np.concatenate([x, y.reshape(-1,1)], axis=1), columns=['x1','x2','y'])
display(data)

Unnamed: 0,x1,x2,y
0,5,0,0
1,3,3,0
2,7,9,0
3,3,5,1
4,2,4,1
5,7,6,1


In [2]:
gnb = GaussianNB()
gnb.fit(x,y)
# 每个类别的先验概率
print('概率：', gnb.class_prior_)
# 每个类别样本的数量
print('样本数量：', gnb.class_count_)
# 每个类别的标签
print('标签：', gnb.classes_)
# 每个特征在每个类别下的均值
print('均值：',gnb.theta_)
# 每个特征在每个类别下的方差
print('方差：',gnb.sigma_)
# 测试集
x_test = np.array([[6,3]])
print('预测结果：', gnb.predict(x_test))
print('预测结果概率：', gnb.predict_proba(x_test))

概率： [0.5 0.5]
样本数量： [3. 3.]
标签： [0 1]
均值： [[5. 4.]
 [4. 5.]]
方差： [[ 2.66666667 14.00000001]
 [ 4.66666667  0.66666667]]
预测结果： [0]
预测结果概率： [[0.87684687 0.12315313]]


In [None]:
【例11.2】伯努利朴素贝叶斯举例。

In [3]:
from sklearn.naive_bayes import BernoulliNB
np.random.seed(0)
x = np.random.randint(-5,5,size=(6,2))
y = np.array([0,0,0,1,1,1])
data = pd.DataFrame(np.concatenate([x,y.reshape(-1,1)], axis=1), columns=['x1','x2','y'])
display(data)
bnb = BernoulliNB()
bnb.fit(x,y)
# 每个特征在每个类别下发生（出现）的次数。因为伯努利分布只有两个值。伯努利会提前对特征（X列）进行处理，>0 划为1  <=0的，0 
# 我们只需要计算出现的概率P(x=1|y)，不出现的概率P(x=0|y)使用1减去P(x=1|y)即可。
print('数值1出现次数：', bnb.feature_count_)
# 每个类别样本所占的比重，即P(y)。注意该值为概率取对数之后的结果，
# 如果需要查看原有的概率，需要使用指数还原。
print('类别占比p(y)：',np.exp(bnb.class_log_prior_))
# 每个类别下，每个特征（值为1）所占的比例（概率），即p（x|y）
# 该值为概率取对数之后的结果，如果需要查看原有的概率，需要使用指数还原
print('特征概率：',np.exp(bnb.feature_log_prob_))

Unnamed: 0,x1,x2,y
0,0,-5,0
1,-2,-2,0
2,2,4,0
3,-2,0,1
4,-3,-1,1
5,2,1,1


数值1出现次数： [[1. 1.]
 [1. 1.]]
类别占比p(y)： [0.5 0.5]
特征概率： [[0.4 0.4]
 [0.4 0.4]]


In [None]:
分析：那结果为什么是0.4呢，因为我们默认情况下有拉普拉斯平滑α，而且在标签为0或标签为1时，x1>0和x2>0都分别只有一个样本，即：(1+α) / (3+2*α) = (1+1) / (3+2) = 0.4。

In [None]:
【例11.3】比较三种朴素贝叶斯分布对鸢尾花数据集分类的效果。

In [4]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB,MultinomialNB, BernoulliNB
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)
models = [("多项式朴素贝叶斯：", MultinomialNB()),
("高斯朴素贝叶斯：", GaussianNB()), ("伯努利朴素贝叶斯：", BernoulliNB())]
for name, m in models:
    m.fit(X_train, y_train)
    print(name, m.score(X_test, y_test))

多项式朴素贝叶斯： 0.5789473684210527
高斯朴素贝叶斯： 1.0
伯努利朴素贝叶斯： 0.23684210526315788
