# 伯努利朴素贝叶斯模型实现天气预测

## 数据收集和分析

In [19]:
import numpy as np
X = np.array([
    [0,1,0,1],
    [1,1,1,0],
    [0,1,1,0],
    [0,0,0,1],
    [0,1,1,0],
    [0,1,0,1],
    [1,0,0,1]
])
y = np.array([0,1,1,0,1,0,0])
# 对不同分类计算每个特征值为1的数量
counts = {}
for label in np.unique(y):
    counts[label] = X[y==label].sum(axis=0)
print("feature counts:\n",counts)

feature counts:
 {0: array([1, 2, 0, 4]), 1: array([1, 3, 3, 0])}


- y为0分类时（没有下雨），有1天刮北风，有2天闷热，有0天多云，有4天报有雨
- y为1分类时（  有下雨），有1天刮北风，有3天闷热，有3天多云，有0天报有雨

## 创建伯努利朴素贝叶斯模型并进行天气预测

In [30]:
# 导入BernoulliNB类
from sklearn.naive_bayes import BernoulliNB
# 使用伯努利朴素贝叶斯模型拟合数据
clf = BernoulliNB()
clf.fit(X,y)
# 要进行预测的这一天，0刮北风，0闷热，1多云，0报有雨
next_day = [[0,0,1,0]]
pred_day = clf.predict(next_day)
if pred_day[0] == 1:
    print("预测有雨")
else:
    print("预测无雨")

预测有雨


In [31]:
# 模型预测分类概率
pred_prob = clf.predict_proba(next_day)
print("不下雨的概率是：",pred_prob[0,0])
print("会下雨的概率是：",pred_prob[0,1])

不下雨的概率是： 0.13848881010414352
会下雨的概率是： 0.8615111898958564


## 预测并分析预测结果

In [32]:
next_day1 = [[1,1,0,1]]
# 使用训练好的模型继续预测
pred_day1 = clf.predict(next_day1)
if pred_day1[0] == 1:
    print("预测有雨")
else:
    print("预测无雨")

预测无雨


In [33]:
# 模型预测分类概率
pred_prob1 = clf.predict_proba(next_day1)
print("不下雨的概率是：",pred_prob1[0,0])
print("会下雨的概率是：",pred_prob1[0,1])

不下雨的概率是： 0.92340878198688
会下雨的概率是： 0.07659121801311984


In [35]:
next_day2 = [[0,0,1,0],[1,1,0,1]]
# 使用训练好的模型继续预测
pred_day2 = clf.predict(next_day2)
print("未来两天下雨的预测结果为：",pred_day2)
# 模型预测分类概率
pred_prob2 = clf.predict_proba(next_day2)
print("未来两天下雨的预测分类概率为：\n",pred_prob2)

未来两天下雨的预测结果为： [1 0]
未来两天下雨的预测分类概率为：
 [[0.13848881 0.86151119]
 [0.92340878 0.07659122]]


# 高斯朴素贝叶斯模型实现连续值分类

## 准备数据集并用BernoullNB类进行分类

## 使用高斯朴素贝叶斯模型进行分类

# 多项式朴素贝叶斯模型实现离散特征分类

## 使用多项式朴素贝叶斯模型进行分类

## 将数值离散化处理后重新进行分类

# 估算个人收入等级

## 数据准备

In [25]:
# D:\Programs\pythonMachineLearning\机器学习Python实战.pdf-张松慧 陈丹　-2022年版-人民邮电出版社\数据集
import pandas as pd
df = pd.read_csv("D:/Programs/pythonMachineLearning/机器学习Python实战.pdf-张松慧 陈丹　-2022年版-人民邮电出版社\数据集/adult.csv",
                 header=None,
                 index_col=False,
                 names=['年龄','单位性质','权重','学历','受教育时长','婚姻状况','职业','家庭情况','种族','性别','资产所得','资产损失','周工作时长','原籍','收入'])
print(df.shape)
df.head()

(32561, 15)


Unnamed: 0,年龄,单位性质,权重,学历,受教育时长,婚姻状况,职业,家庭情况,种族,性别,资产所得,资产损失,周工作时长,原籍,收入
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [26]:
# 根据“收入”分组
group_income = df.groupby('收入')
# 收入<=50k的分组
lessthan50k = dict([x for x in group_income])[' <=50K']
# 收入>50的分组
morethan50k = dict([x for x in group_income])[' >50K']
print(lessthan50k.shape[0])
print(morethan50k.shape[0])

24720
7841


数据量差距过大，分类器会倾向多的类型，此处选取[lessthan50k[:10000],morethan50k]

In [27]:
data = pd.concat([lessthan50k[:10000],morethan50k],axis=0)
data = data.sort_index()
print(data.shape)
data.head()

(17841, 15)


Unnamed: 0,年龄,单位性质,权重,学历,受教育时长,婚姻状况,职业,家庭情况,种族,性别,资产所得,资产损失,周工作时长,原籍,收入
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


## 将数据集进行转换并编码处理
将字符串字段转换为数值形式
- 例：

In [29]:
# 导入LabelEncoder类
from sklearn.preprocessing import LabelEncoder
# 定义一个标记编码器
label_encoder = LabelEncoder()
# 创建一些标记
input_classes=['audi','ford','audi','toyota','ford','bmw'] # 有重复值
# 为标记编码
label_encoder.fit(input_classes)
# 输出编码结果
print('Class mapping:')
for i,item in enumerate(label_encoder.classes_):
    print(item,'-->',i)
    
# 用编码器转换一组标记
labels=['toyota','ford','audi']
encoder_labels = label_encoder.transform(labels)
print("标签：",labels)
print("编码后的标签：",list(encoder_labels))

Class mapping:
audi --> 0
bmw --> 1
ford --> 2
toyota --> 3
标签： ['toyota', 'ford', 'audi']
编码后的标签： [3, 2, 0]


In [33]:
import numpy as np
from sklearn.preprocessing import LabelEncoder
# 定义一个标签编码函数
def get_data_encoded(data):
    # 将数据全部转换为字符串
    data = np.array(data.astype(str))
    # 定义标记编码器对象
    encoder_list = []
    # 准备一个数组存储数据集编码的结果
    data_encoded = np.empty(data.shape)
    # 将字符串数据转换为数值数据
    for i,item in enumerate(data[0]):
        # 判断该特征是否为数值数据
        if item.isdigit():
        # 如果不是就进行标记编码
            data_encoded[:,i]=data[:,i]
        else:
            # 将所有的标记编码器存放在列表中，以便在后面测试数据时使用
            encoder_list.append(LabelEncoder())
            # 将字符串数据的特征列逐个进行编码
            data_encoded[:,i]=encoder_list[-1].fit_transform(data[:,i])
    # 返回数据编码结果和编码器列表
    return data_encoded,encoder_list

data_encoded,encoder_list = get_data_encoded(data)
# 将编码处理完成的数据集拆分成特征矩阵X和类别矩阵y
X = data_encoded[:,:-1].astype(int)
# 数据集最后一列“收入”作为分类的类别标签，' <=50K'-->0，' >50K'-->1
y = data_encoded[:,-1].astype(int)
print('编码处理完成的数据集')
print("特征维度：{},标签维度：{}".format(X.shape,y.shape))

编码处理完成的数据集
特征维度：(17841, 14),标签维度：(17841,)


## 使用高斯朴素贝叶斯模型进行建模

In [38]:
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=5)
# 对数值进行预处理
scaler = StandardScaler().fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled=scaler.transform(X_test)
# 使用高斯贝叶斯拟合数据
gnb = GaussianNB()
gnb.fit(X_train_scaled,y_train)
print(gnb.score(X_train_scaled,y_train))
print(gnb.score(X_test_scaled,y_test))

0.712780269058296
0.719793768213405


## 用模型进行预测

In [84]:
data_encoded,encoder_list = get_data_encoded(data[10000:10500])
test_encoded = data_encoded.astype(int)
test_encoded_X = test_encoded[:,:-1]
test_encoded_y = test_encoded[:,-1]
print("测试样本的收入等级：\n",test_encoded_y)
test_encoded_X_scaled = scaler.transform(test_encoded_X)
pred_encoded_y = gnb.predict(test_encoded_X_scaled)
print("预测样本的收入等级：\n",pred_encoded_y)

测试样本的收入等级：
 [0 0 1 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0
 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0
 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0
 0 0 0 1 0 0 0 1 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0 1 1 0 0
 0 0 1 0 0 0 0 1 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 1 0 1 0 1 0 0 0 0 0
 1 1 0 1 1 0 0 1 0 0 0 0 0 1 1 0 0 1 1 0 0 0 0 1 0 0 1 1 0 0 0 0 0 1 1 0 0
 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0
 0 0 0 0 0 1 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 1 1 0 0 0 0
 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 1 0 1 0 0 0 1 0
 0 0 0 0 0 0 1 0 0 1 0 1 0 0 1 0 1 0 0 0 0 0 1 1 0 0 0 0 0 1 0 0 1 1 1 1 0
 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1
 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0
 1 1 1 0 0 0 0 0 0 1 0 1 0 0 1 1 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0
 0 1 1 0 0 0 