## 任务描述

1. 掌握朴素贝叶斯概念

2. 掌握拉布拉斯平滑

## 相关知识

**朴素贝叶斯**

理解了贝叶斯，那么让我们继续看看朴素贝叶斯。贝叶斯和朴素贝叶斯的概念是不同的，区别就在于“朴素”二字，朴素贝叶斯对条件概率分布做了条件独立性的假设。

比如下面的公式，假设有n个特征：$$P(a\mid X)=P(X\mid a)P(a)=P(x_1,x_2,...,x_n)$$

由于每个特征都是独立的，我们可以进一步拆分公式

$$P(a\mid X)=P(X\mid a)P(a)={P(X_1\mid a)P(a)*P(X_2\mid a)P(a)*...*P(X_n\mid a)P(a)}$$

**拉普拉斯平滑**

在训练集有限的情况下，给定类别，某一特征值出现的条件概率$p(x_i|y)$可能为0，这样在贝叶斯公式中分子和分母都为0，为了避免这种情况，就要用到Laplace平滑，分子加1，分母加$x_i$可能出现的种类数。

**西瓜分类实战**

In [1]:
import pandas as pd
datasets = pd.read_csv("../../data/3.11/watermelon3.0.txt")
print("watermelon3.0的数据集：\n",datasets)

watermelon3.0的数据集：
     编号  色泽  根蒂  敲声  纹理  脐部  触感     密度    含糖率 好瓜
0    1  青绿  蜷缩  浊响  清晰  凹陷  硬滑  0.697  0.460  是
1    2  乌黑  蜷缩  沉闷  清晰  凹陷  硬滑  0.774  0.376  是
2    3  乌黑  蜷缩  浊响  清晰  凹陷  硬滑  0.634  0.264  是
3    4  青绿  蜷缩  沉闷  清晰  凹陷  硬滑  0.608  0.318  是
4    5  浅白  蜷缩  浊响  清晰  凹陷  硬滑  0.556  0.215  是
5    6  青绿  稍蜷  浊响  清晰  稍凹  软粘  0.403  0.237  是
6    7  乌黑  稍蜷  浊响  稍糊  稍凹  软粘  0.481  0.149  是
7    8  乌黑  稍蜷  浊响  清晰  稍凹  硬滑  0.437  0.211  是
8    9  乌黑  稍蜷  沉闷  稍糊  稍凹  硬滑  0.666  0.091  否
9   10  青绿  硬挺  清脆  清晰  平坦  软粘  0.243  0.267  否
10  11  浅白  硬挺  清脆  模糊  平坦  硬滑  0.245  0.057  否
11  12  浅白  蜷缩  浊响  模糊  平坦  软粘  0.343  0.099  否
12  13  青绿  稍蜷  浊响  稍糊  凹陷  硬滑  0.639  0.161  否
13  14  浅白  稍蜷  沉闷  稍糊  凹陷  硬滑  0.657  0.198  否
14  15  乌黑  稍蜷  浊响  清晰  稍凹  软粘  0.360  0.370  否
15  16  浅白  蜷缩  浊响  模糊  平坦  硬滑  0.593  0.042  否
16  17  青绿  蜷缩  沉闷  稍糊  稍凹  硬滑  0.719  0.103  否


In [2]:
del datasets['编号']
print("修改后的数据集:\n",datasets)

修改后的数据集:
     色泽  根蒂  敲声  纹理  脐部  触感     密度    含糖率 好瓜
0   青绿  蜷缩  浊响  清晰  凹陷  硬滑  0.697  0.460  是
1   乌黑  蜷缩  沉闷  清晰  凹陷  硬滑  0.774  0.376  是
2   乌黑  蜷缩  浊响  清晰  凹陷  硬滑  0.634  0.264  是
3   青绿  蜷缩  沉闷  清晰  凹陷  硬滑  0.608  0.318  是
4   浅白  蜷缩  浊响  清晰  凹陷  硬滑  0.556  0.215  是
5   青绿  稍蜷  浊响  清晰  稍凹  软粘  0.403  0.237  是
6   乌黑  稍蜷  浊响  稍糊  稍凹  软粘  0.481  0.149  是
7   乌黑  稍蜷  浊响  清晰  稍凹  硬滑  0.437  0.211  是
8   乌黑  稍蜷  沉闷  稍糊  稍凹  硬滑  0.666  0.091  否
9   青绿  硬挺  清脆  清晰  平坦  软粘  0.243  0.267  否
10  浅白  硬挺  清脆  模糊  平坦  硬滑  0.245  0.057  否
11  浅白  蜷缩  浊响  模糊  平坦  软粘  0.343  0.099  否
12  青绿  稍蜷  浊响  稍糊  凹陷  硬滑  0.639  0.161  否
13  浅白  稍蜷  沉闷  稍糊  凹陷  硬滑  0.657  0.198  否
14  乌黑  稍蜷  浊响  清晰  稍凹  软粘  0.360  0.370  否
15  浅白  蜷缩  浊响  模糊  平坦  硬滑  0.593  0.042  否
16  青绿  蜷缩  沉闷  稍糊  稍凹  硬滑  0.719  0.103  否


In [3]:
data = datasets.values.tolist()
print(data)

[['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.697, 0.46, '是'], ['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.774, 0.376, '是'], ['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.634, 0.264, '是'], ['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.608, 0.318, '是'], ['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.556, 0.215, '是'], ['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.403, 0.237, '是'], ['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', 0.481, 0.149, '是'], ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', 0.437, 0.211, '是'], ['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', 0.666, 0.091, '否'], ['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', 0.243, 0.267, '否'], ['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', 0.245, 0.057, '否'], ['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', 0.343, 0.099, '否'], ['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', 0.639, 0.161, '否'], ['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', 0.657, 0.198, '否'], ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.36, 0.37, '否'], ['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', 0.593, 0.042, '否'], ['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', 0.719, 0.103, '否']]


In [4]:
goodMelon = []
badMelon = []
for i in range(len(data)):
    if data[i][8] == "是":
        goodMelon.append(data[i])
    else:
        badMelon.append(data[i])
print("好瓜的数量为：",len(goodMelon))
print("坏瓜的数量为：",len(badMelon))

好瓜的数量为： 8
坏瓜的数量为： 9


In [5]:
test=['青绿','蜷缩','浊响','清晰','凹陷','硬滑',0.697,0.460]

In [6]:
# 计算p(x|C1)=p1与p(x|C2)=p2
p1 = 1.0;p2 = 1.0
for j in range(len(test)):
    x=0.0
    for k in range(len(goodMelon)):
        if goodMelon[k][j] == test[j]:
            x = x + 1.0
    p1 = p1 * ((x + 1.0) / (len(goodMelon) + 2.0))  # 拉普拉斯平滑
for j in range(len(test)):
    x=0.0
    for k in range(len(badMelon)):
        if badMelon[k][j] == test[j]:
            x = x + 1.0
    p2 = p2 * ((x + 1.0) / (len(badMelon) + 2.0))  # 拉普拉斯平滑
print("p1:",p1)
print("p2:",p2)

p1: 0.0022579199999999996
p2: 2.3511971962570567e-05


In [7]:
pc1 = len(goodMelon) / len(data)
pc2 = 1 - pc1
print("pc1:",pc1)
print("pc2:",pc2)

pc1: 0.47058823529411764
pc2: 0.5294117647058824


In [8]:
#贝叶斯公式
p_good = p1*pc1;
p_bad=p2*pc2
print("p_good:",p_good)
print("p_bad:",p_bad)

p_good: 0.001062550588235294
p_bad: 1.2447514568419712e-05


In [9]:
if p_good > p_bad:
    print('好瓜')
else:
    print('坏瓜')

好瓜


## 编程要求

复习上述内容， 在Begin和End之间完成先验概率分布p(c)的代码编写并使用Laplace校准。

In [None]:
def NaiveBayes(traindata, trainlabel):
    '''
    通过训练集计算先验概率分布p(c)和条件概率分布p(x|c)
    :param traindata: 训练数据集   (m,n)
    :param trainLabel: 训练标记集  (m,1)
    :return: p(c)和p(x|c)
    '''
 
    classes = 10  # 类别数
    features = 784  # 样本的维度
 
    sampleNum = trainlabel.shape[0]
 
    # 计算p(c)
************** Begin **************



**************  End  **************
 
    # 计算p(x|c)
    y_num = 2  # 每个特征可能的取值的个数
    c_f_y_count = np.zeros((classes, features, y_num))  # 统计每个类别每个特征的每种可能取值出现的次数
    for k in range(sampleNum):
        c = trainlabel[k]
        data = traindata[k]
        for f in range(features):
            y = data[f]
            c_f_y_count[c][f][y] += 1
 
    Px_c = np.zeros((classes, features, y_num))   # 统计每个类别每个特征的每种可能取值的概率
    for c in range(classes):
        for f in range(features):
            c_f_y_num = np.sum(c_f_y_count[c][f])
            for y in range(y_num):
                Px_c[c][f][y] = np.log((c_f_y_count[c][f][y]+1)/c_f_y_num)  # Laplace校准
 
    return Pc, Px_c

## 参考答案

In [None]:
   # 计算p(c)
    Pc = np.zeros((classes, 1))
    for c in range(classes):
        c_i = (trainlabel == c)  # 统计标签中类别为c的样本数量
        c_i_num = np.sum(c_i)
        Pc[c] = (c_i_num+1)/sampleNum  # Laplace校准
    Pc = np.log(Pc)  