# 机器学习与社会科学应用

# 第三章 经典分类算法

# 第三节 贝叶斯分类算法

<font face="宋体" >郭峰    
    教授、博士生导师  
上海财经大学公共经济与管理学院  
上海财经大学数实融合与智能治理实验室  
邮箱：guofengsfi@163.com</font> 

<font face="宋体" >本节目录：  
3.1.朴素贝叶斯的三种类型  
3.2.朴素贝叶斯算法参数  
3.3.演示性案例：网站恶意留言过滤    
3.4.实战案例：泰坦尼克号幸存者</font>  

## 3.1.朴素贝叶斯分类算法的三种类型

<font face="宋体" >在scikit-learn中，一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB，MultinomialNB和BernoulliNB。其中GaussianNB就是先验为高斯分布的朴素贝叶斯,MultinomialNB就是先验为多项式分布的朴素贝叶斯,而BernoulliNB就是先验为伯努利分布的朴素贝叶斯。</font>  

###  高斯朴素贝叶斯

In [None]:
# 高斯朴素贝叶斯  
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split  

iris = datasets.load_iris()

clf = GaussianNB()
x = iris.data # 特征  
y = iris.target # 标签 
X_train,X_test,y_train,y_test = train_test_split(x,y, test_size=0.3)

clf = clf.fit(x,y)
score = clf.score(X_test,y_test)
print("score:", score) # 输出在测试集上的分数

###  多项分布朴素贝叶斯

In [None]:
from sklearn import datasets
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split 

iris = datasets.load_iris()

clf = MultinomialNB()
x = iris.data # 特征  
y = iris.target # 标签 
X_train,X_test,y_train,y_test = train_test_split(x,y, test_size=0.3)
clf = clf.fit(x,y)
score = clf.score(X_test,y_test)
print("score:", score) # 输出在测试集上的分数

###  伯努利朴素贝叶斯

In [None]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import BernoulliNB

iris = datasets.load_iris()

clf = BernoulliNB()
x = iris.data # 特征  
y = iris.target # 标签 
X_train,X_test,y_train,y_test = train_test_split(x,y, test_size=0.3)
clf = clf.fit(X_train,y_train)
clf = clf.fit(x,y)
score = clf.score(X_test,y_test)
print("score:", score) # 输出在测试集上的分数

## 3.2 朴素贝叶斯算法参数

### 参数

In [None]:
from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()
# alpha:先验平滑因子，默认等于1，当等于1时表示拉普拉斯平滑。
# fit_prior:是否去学习类的先验概率，默认是True
# class_prior:各个类别的先验概率，如果没有指定，则模型会根据数据自动学习， 每个类别的先验概率相同，等于类标记总个数N分之一。

In [None]:
from sklearn.naive_bayes import BernoulliNB
clf = BernoulliNB()
# alpha:平滑因子，与多项式中的alpha一致。
# binarize:样本特征二值化的阈值，默认是0。如果不输入，则模型会认为所有特征都已经是二值化形式了；如果输入具体的值，则模型会把大于该值的部分归为一类，小于的归为另一类。
# fit_prior:是否去学习类的先验概率，默认是True
# class_prior:各个类别的先验概率，如果没有指定，则模型会根据数据自动学习， 每个类别的先验概率相同，等于类标记总个数N分之一。

In [None]:
# 多项式
clf = MultinomialNB(alpha=1.0,fit_prior=True)
# 参数说明如下：
# alpha：浮点型可选参数，默认为1.0，其实就是添加拉普拉斯平滑，即为上述公式中的λ ，如果这个参数设置为0，就是不添加平滑；
# fit_prior：布尔型可选参数，默认为True。布尔参数fit_prior表示是否要考虑先验概率，如果是false,则所有的样本类别输出都有相同的类别先验概率。
# 否则可以自己用第三个参数class_prior输入先验概率，或者不输入第三个参数class_prior让MultinomialNB自己从训练集样本来计算先验概率，
# 此时的先验概率为P(Y=Ck)=mk/m。其中m为训练集样本总数量，mk为输出为第k类别的训练集样本数。
# class_prior：可选参数，默认为None。

### 算法"方法"

- fit(X,Y):在数据集(X,Y)上拟合模型。  
- get_params():获取模型参数。  
- predict(X):对数据集X进行预测。  
- predict_log_proba(X):对数据集X预测，得到每个类别的概率对数值。  
- predict_proba(X):对数据集X预测，得到每个类别的概率。  
- score(X,Y):得到模型在数据集(X,Y)的得分情况。

In [None]:
# 方法格式
clf = BernoulliNB()
x = iris.data
y = iris.target
X_train,X_test,y_train,y_test = train_test_split(x,y, test_size=0.3)
clf = clf.fit(X_train,y_train)
y_pred=clf.predict(X_test)

In [None]:
# 方法格式-修改，为了和普遍标准保持统一，X要大写，y小写
clf = BernoulliNB()
X = iris.data
y = iris.target
X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.3)
clf = clf.fit(X_train,y_train)
y_pred=clf.predict(X_test)

## 3.3. 演示性案例：网站恶意留言过滤

<font face="宋体" >有一堆已经清理好的留言单词及它的所属类，现在根据已有的数据求一条新的留言所属分类。
样本数据：六条已经划分好了的留言数据集，以及各自对应的分类。具体看下面的代码及注释：</font>  

In [None]:
# 这是一个没有使用sklearn，从底层代码开始实现贝叶斯算法过程
from numpy import *
 
# 加载数据
def loadDataSet():
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0, 1, 0, 1, 0, 1]
    return postingList, classVec

In [None]:
# 合并所有单词，利用set来去重，得到所有单词的唯一列表
def createVocabList(dataSet):
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)

In [None]:
# 优化词集模型,将单词列表变为数字向量列表
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0] * len(vocabList)    #获得所有单词等长的0列表
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1   #对应单词位置加1
    return returnVec

In [None]:
# 返回的是0、1各自两个分类中每个单词数量除以该分类单词总量再取对数ln 以及0、1两类的比例
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)  # 样本数
    numWords = len(trainMatrix[0])  # 特征数
    pAbusive = sum(trainCategory) / float(numTrainDocs)  # 1类所占比例
    p0Num = ones(numWords)
    p1Num = ones(numWords)  #初始化所有单词为1
    p0Denom = 2.0
    p1Denom = 2.0  #初始化总单词为2        后面解释为什么这四个不初始化为0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:       # 求1类
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]     # 求0类
            p0Denom += sum(trainMatrix[i])
    p1Vect = log(p1Num / p1Denom)  # numpy数组 / float = 1中每个单词/1中总单词
    p0Vect = log(p0Num / p0Denom)  # 这里为什么还用ln来处理，后面说明
    return p0Vect, p1Vect, pAbusive

In [None]:
# P(X|C)判断各类别的概率大小（这里是0、1）
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)  # 相乘后得到哪些单词存在，再求和，再+log(P(C))
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1) # 由于使用的是ln，这里其实都是对数相加
    if p1 > p0:
        return 1
    else:
        return 0

In [None]:
#封装调用的函数
def testingNB():
    listOPosts, listClasses = loadDataSet()
    print( listOPosts)
    print(listClasses)
    myVocabList = createVocabList(listOPosts)
    print(len(myVocabList))
    print(myVocabList )
    trainMat = []
    print(bagOfWords2VecMN(myVocabList, listOPosts[0]))
    for postinDoc in listOPosts:
        trainMat.append(bagOfWords2VecMN(myVocabList, postinDoc))
    print(trainMat)
    p0V, p1V, pAb = trainNB0(array(trainMat), array(listClasses))
    # 上面求出了0、1两个类中各单词所占该类的比例，以及0、1的比例
 
    # 下面是预测两条样本数据的类别
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = array(bagOfWords2VecMN(myVocabList, testEntry)) #先将测试数据转为numpy的词袋模型 [0 2 0 5 1 0 0 3 ...]
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb)) #传值判断
 
    testEntry = ['stupid', 'garbage']
    thisDoc = array(bagOfWords2VecMN(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))

if __name__=="__main__":
    testingNB()

## 3.4. 实战案例：泰坦尼克号幸存者

<font face="宋体" >背景：泰坦尼克号幸存者，广泛应用于机器学习各章算法的演示  
包含泰坦尼克号乘客的个人信息以及是否从那场海难中生还  
方法：高斯朴素贝叶斯。  
特征：船舱等级、性别、年龄、兄弟姐妹数目、父母/子女数量、票价和登船口岸  
响应：是否获救</font>  

In [None]:
#步骤1：加载并清理数据
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import time
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB

path = "D:/python/机器学习与社会科学应用/演示数据/03经典分类算法/titanic/data/"

# 导入数据集
data_train = pd.read_csv(path+"train.csv",encoding='utf8')
#print(data_train.head())

# 将分类变量转换为数字
data_train["Sex_cleaned"] = np.where(data_train["Sex"]=="male",0,1)
data_train["Embarked_cleaned"] = np.where(data_train["Embarked"]=="S",0,
                                 np.where(data_train["Embarked"]=="C",1,
                                 np.where(data_train["Embarked"]=="Q",2,
                                          3)))

# 清除数据集中的非数字值（NaN）
data_train = data_train[["Survived","Pclass","Sex_cleaned","Age","SibSp","Parch","Fare","Embarked_cleaned"]]
data_train.sample(10)

In [None]:
data_train = data_train.dropna(axis=0, how='any')
X = data_train[["Pclass","Sex_cleaned","Age","SibSp","Parch","Fare","Embarked_cleaned"]]
y = data_train[["Survived"]]
y.sample(10)

In [None]:
# 将数据集拆分成训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=666)

In [None]:
# 步骤2：利用训练集数据测试模型
# 实例化分类器
gnb = GaussianNB()

# 训练分类器
gnb.fit(X_train,y_train)
y_pred = gnb.predict(X_test)

In [None]:
# 打印结果
print("Number of mislabeled points out of a total {} points : {}, performance {:05.2f}%"
      .format(
          X_test.shape[0],
          (y_test["Survived"] != y_pred).sum(),
          100*(1-(y_test["Survived"] != y_pred).sum()/X_test.shape[0])
))
#注：分类器成功率78.15%，比网文稍微低一些

In [None]:
# 步骤3：泛化到完全新的数据集
# 导入test数据集并整理
f1 = open(path+"test.csv",encoding='utf8')
data_test = pd.read_csv(f1,header=0,sep=',')

# 将分类变量转换为数字
data_test["Sex_cleaned"] = np.where(data_test["Sex"]=="male",0,1)
data_test["Embarked_cleaned"] = np.where(data_test["Embarked"]=="S",0,
                                np.where(data_test["Embarked"]=="C",1,
                                np.where(data_test["Embarked"]=="Q",2,
                                         3)))

# 清除数据集中的非数字值（NaN）
data_test=data_test[["Pclass","Sex_cleaned","Age","SibSp","Parch","Fare","Embarked_cleaned"]].dropna(axis=0, how='any')

In [None]:
used_features = ["Pclass","Sex_cleaned","Age","SibSp","Parch","Fare","Embarked_cleaned"]

y_pred_test = gnb.predict(data_test[used_features])
print('泛化到测试集后的预测结果')
print(y_pred_test)

In [None]:
# 本节结束