In [20]:
from sklearn.naive_bayes import GaussianNB
from sklearn import preprocessing

X = [['sunny', 'hot', 'high', 'false'],
    ['sunny', 'hot', 'high', 'true'],
    ['overcast', 'hot', 'high', 'false'],
    ['rain', 'mild', 'high', 'false'],
    ['rain', 'cool', 'normal', 'false'],
    ['rain', 'cool', 'normal', 'true'],
    ['overcast', 'cool', 'normal', 'true'],
    ['sunny', 'mild', 'high', 'false'],
    ['sunny', 'cool', 'normal', 'false'],
    ['rain', 'mild', 'normal', 'false'],
    ['sunny', 'mild', 'normal', 'true'],
    ['overcast', 'mild', 'high', 'true'],
    ['overcast', 'hot', 'normal', 'false'],
    ['rain', 'mild', 'high', 'true']]
y = [0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0]

# 这里使用 Ordinal Encoding - 序数编码，即labelencoder，将字符串编码便于后续处理
# 这个编码方式非常容易理解，就是把所有的相同类别的特征编码成同一个值，例如女=0，男=1，狗狗=2，所以最后编码的特征值是在[0, n-1]之间的整数。
# 这个编码的缺点在于它随机的给特征排序了，会给这个特征增加不存在的顺序关系，也就是增加了噪声。
# 假设预测的目标是购买力，那么真实Label的排序显然是 女 > 狗狗 > 男，与我们编码后特征的顺序不存在相关性。

# 注意不同编码方式在不同情景下的选择
enc = preprocessing.OrdinalEncoder()
enc.fit(X)
x=enc.transform(X)

bayes_modle=GaussianNB()

#训练数据
bayes_modle.fit(x,y)

#使用模型进行分类预测
result=bayes_modle.predict(x)
print(result)

#对模型评分
model_score=bayes_modle.score(x,y)
print(model_score)


[0 0 1 1 1 1 1 0 1 1 1 1 1 0]
0.9285714285714286


下面是使用了onehot方法，效果很差，不如上面的labelencoder

可能原因:
因为朴素贝叶斯是基于对特征的频率统计，不适合用于数值型变量.
比方说年龄、身高等等。虽然可以把年龄转为孩童、成年、老年等，把身高转为矮、中等、高等，从而把数值型变量转为类别型变量，类似于做个分桶，但这种转化始终是损失了数据的信息量。

In [46]:
import pandas as pd
import numpy as np

data=pd.DataFrame(X,columns=['outlook','temperature','humidity','windy'])
# 使用pandas的dummies方法实现onehot
# onehot适用于无序类别型特征，将文本数据转化成一列或多列只有0和1的数据，特征有多少取值就用多少维来表示该特征。
# 这种编码方式存在特征取值过多，维度爆炸的问题。模型的复杂度和训练时间都会显著增加。并且对于决策树模型来说，onehot会增加树的深度，增加过拟合风险。
x1=pd.get_dummies(data[['outlook','windy']])
x1


Unnamed: 0,outlook_overcast,outlook_rain,outlook_sunny,windy_false,windy_true
0,0,0,1,1,0
1,0,0,1,0,1
2,1,0,0,1,0
3,0,1,0,1,0
4,0,1,0,1,0
5,0,1,0,0,1
6,1,0,0,0,1
7,0,0,1,1,0
8,0,0,1,1,0
9,0,1,0,1,0


In [None]:
enc = preprocessing.OrdinalEncoder()
x2=enc.fit_transform(data[['temperature','humidity']])
x2=pd.DataFrame(x2,columns=['temperature','humidity'])

x_train_2=pd.concat([x1,x2],axis=1)

In [44]:
bayes_modle=GaussianNB()

#训练数据
bayes_modle.fit(x_train_2,y)

#使用模型进行分类预测
result=bayes_modle.predict(x_train_2)
print(result)

#对模型评分
model_score=bayes_modle.score(x_train_2,y)
print(model_score)

[0 0 1 0 0 0 1 0 0 0 0 1 1 0]
0.6428571428571429
