## 任务描述

1.了解多项式朴素贝叶斯

2.掌握使用多项式朴素贝叶斯分类器进行实战

## 相关知识

朴素贝叶斯分类是常见的分类算法，其实质是通过先验概率来计算后验概率。它可以用来做很多有意义的事情。生活中也有很多场所需要用到分类，如新闻分类等。

**多项式朴素贝叶斯**

适用于离散变量，其假设各个特征xi在各个类别y下是服从多项式分布的，故每个特征值不能是负数。

![jupyter](https://i.loli.net/2021/06/02/LdbPCAwq5X1Gngz.png)

本节将介绍朴素贝叶斯分类器在企业破产预测中的应用

**数据集**

本实验所用的数据及来自UC1机器学习数据库。

数据集基本信息如下：

数据集名称：Qualitative_Bankruptcy.data1

样本数：250

特征数：6

特征描述(1-Positive，0-Average，2-Negative)如下：

->Industrial Risk(行业风险)：{0,1,2}

->Management Risk(管理风险)：{1,0,2}

->Financial Flexibility(财务灵活性)：{1,0,2}

->Credibility(信誉)：{1,0,2}

->Competitiveness(竞争力)：{1,0,2}

->Operating Risk(经营风险)：{1,0,2}

->类别(1-Bankruptcy(破产)，0-Non-Bankruptcy(非破产))：{1，0}

**读取数据**

In [1]:
import numpy as np  
#读取  
A = np.loadtxt('../../data/3.12/Qualitative_Bankruptcy.data1.txt',dtype='int',delimiter=',')
print(A)
B = np.split(A,[6,7],axis=1)
Bankrupt_data = B[0]
Bankrupt_target = B[1]


[[1 1 0 ... 0 1 0]
 [2 2 0 ... 0 2 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 2 2 ... 2 2 1]
 [2 2 2 ... 2 2 1]
 [1 2 2 ... 0 0 1]]


**切分数据集**

In [2]:
from sklearn.model_selection import train_test_split 
#加载数据集，切分数据集80%训练，20%测试  
x_train, x_test, y_train, y_test = train_test_split(Bankrupt_data,\
                           Bankrupt_target, test_size = 0.2,random_state = 0) 

**训练多项式朴素贝叶斯模型**

In [3]:
from sklearn.naive_bayes import MultinomialNB  
from sklearn.metrics import precision_recall_curve  
from sklearn.metrics import classification_report  

#调用MultinomialNB分类器  
clf = MultinomialNB().fit(x_train, y_train) 

  return f(*args, **kwargs)


**预测**

In [4]:
#预测
doc_class_predicted = clf.predict(x_test)  
print('\n',np.mean(doc_class_predicted == y_test),'\n')  


 0.484 



In [5]:
#准确率与召回率  
precision, recall, thresholds = precision_recall_curve(y_test, clf.predict(x_test))  
answer = clf.predict_proba(x_test)[:,1]  
report = answer > 0.5  
print(classification_report(y_test, report, target_names = ['neg', 'pos'])) 

              precision    recall  f1-score   support

         neg       0.85      0.59      0.69        29
         pos       0.60      0.86      0.71        21

    accuracy                           0.70        50
   macro avg       0.72      0.72      0.70        50
weighted avg       0.74      0.70      0.70        50



从上图输出的测试结果中可以看出，本次所训练的多项式朴素贝叶斯分类器在包含50个测试样本上的总预测精度达到了0.74,其中预测为正类(破产)的样本数为21个,精度为0.60;预测为负类(非破产)的测试样本数为29个,精度为0.85;而召回率正类为0.86,负类为0.59,总的召回率为0.70,正类和负类的F1值分别为0.71和0.69,总的FI值为0.70,此次所训练的朴素贝叶斯分类器分类性能比较准确,但还有很大的改进空间。另外,朴素贝叶斯分类算法的执行时间非常短,由此可以验证,朴素贝叶斯分类算法相较于其他分类算法的时间复杂度更低。

## 编程要求

复习上述内容，根据注释在Begin和End之间完成多项式朴素贝叶斯代码编写。原始数据如下：

![jupyter](https://i.loli.net/2021/06/02/rLJam2U6E8451hA.png)

In [None]:
from sklearn.naive_bayes import MultinomialNB
import pandas as pd
import numpy as np
np.random.seed(0)
x = np.random.randint(0,4,size=(6,2))
y = np.array([0,0,0,1,1,1])
data = pd.DataFrame(np.concatenate([x,y.reshape(-1,1)], axis=1), columns=['x1','x2','y'])
display(data)

mnb = MultinomialNB()
mnb.fit(x,y)
#每个类别的样本数量
************** Begin **************

**************  End  **************
#每个特征在每个类别下发生（出现）的次数
************** Begin **************

**************  End  **************
#每个类别下，每个特征所占的比例（概率），即P(x|y)
#该值为概率取对数之后的结果，查看原有的概率，并使用指数还原
************** Begin **************

**************  End  **************


## 参考答案

In [None]:
mnb = MultinomialNB()
mnb.fit(x,y)
#每个类别的样本数量
print(mnb.class_count_)
#每个特征在每个类别下发生（出现）的次数
print(mnb.feature_count_)
#每个类别下，每个特征所占的比例（概率），即P(x|y)
#该值为概率取对数之后的结果，如果需要查看原有的概率，需要使用指数还原
print(np.exp(mnb.feature_log_prob_))