# 第五题：实现带有拉普拉斯修正的朴素贝叶斯

实验内容：
1. 叙述拉普拉斯修正的作用
2. 给出使用的数据集
3. 给出实现的代码，要有详细的注释
4. 给出模型评价指标的结果

## 含拉普拉斯修正朴素贝叶斯相较于原朴素贝叶斯的变化

### 类先验概率

$$
P(c) = {|D_c| \over |D|}
$$

**更改为**

$$
p(c) = {|D_c|+1 \over |D| + N}
$$

### 类条件概率

$$
P(x_i | c) = {|D_{c,x_i}| \over |D_c|}
$$

**更改为**

$$
P(x_i|c) = {|D_{c,x_i}|+1 \over |D_c|+N_i}
$$


### 参数说明

+ $N$ 表示训练集D中可能的类别数
+ $N_i$ 表示第i个属性可能的取值数

## 拉普拉斯修正的作用

拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题，并且在训练级变大时修正过程中所引入的先验影响逐渐变得可忽略，使得估值逐渐趋近于实际概率值，其实质上假设了属性值与类别均匀分布

# 1.导入数据集

使用spambase垃圾邮件分类任务数据集

In [1]:
# YOUR CODE HERE
import numpy as np

In [2]:
spambase = np.loadtxt('data/spambase/spambase.data', delimiter = ",")
spamx = spambase[:, :57]
spamy = spambase[:, 57]

In [3]:
spamx_binary = (spamx != 0).astype('float64')

In [4]:
from sklearn.model_selection import train_test_split
trainX, testX, trainY, testY = train_test_split(spamx_binary, spamy, test_size = 0.4, random_state = 32)

In [5]:
print(testX)

[[0. 0. 0. ... 1. 1. 1.]
 [0. 0. 1. ... 1. 1. 1.]
 [1. 0. 1. ... 1. 1. 1.]
 ...
 [0. 0. 1. ... 1. 1. 1.]
 [0. 0. 0. ... 1. 1. 1.]
 [0. 0. 0. ... 1. 1. 1.]]


# 2.实现带拉普拉斯修正的朴素贝叶斯分类器

In [24]:
class myGaussianNB:
    '''
    处理连续特征的高斯朴素贝叶斯
    '''
    def __init__(self):
        '''
        初始化四个字典
        self.label_mapping     类标记 与 下标(int)
        self.probability_of_y  类标记 与 先验概率(float)
        self.mean              类标记 与 均值(np.ndarray)
        self.var               类标记 与 方差(np.ndarray)
        '''
        self.label_mapping = dict()
        self.probability_of_y = dict()
        
    def _clear(self):
        '''
        为了防止一个实例反复的调用fit方法，我们需要每次调用fit前，将之前学习到的参数删除掉
        '''
        self.label_mapping.clear()
        self.probability_of_y.clear()
    
    def fit(self, trainX, trainY):
        '''
        这里，我们要根据trainY内的类标记，针对每类，计算这类的先验概率，以及这类训练样本每个特征的均值和方差

        Parameters
        ----------
            trainX: np.ndarray, 训练样本的特征, 维度：(样本数, 特征数)
        
            trainY: np.ndarray, 训练样本的标记, 维度：(样本数, )
        '''
        
        # 先调用_clear
        self._clear()
        
        # 获取类标记
        labels = np.unique(trainY)
        
        # 添加类标记与下标的映射关系
        self.label_mapping = {label: index for index, label in enumerate(labels)}
        
        # 遍历每个类
        for label in labels:
            
            # 取出为label这类的所有训练样本，存为 x
            x = trainX[trainY == label, :]
            # 计算先验概率，用 x 的样本个数除以训练样本总个数，存储到 self.probability_of_y 中，键为 label，值为先验概率
            # YOUR CODE HERE
            self.probability_of_y[label] = (len(x)+1)*1.0 / (len(trainX)+len(labels))
            
    
    def predict(self, testX):
        '''
        给定测试样本，预测测试样本的类标记，这里我们要实现化简后的公式

        Parameters
        ----------
            testX: np.ndarray, 测试的特征, 维度：(测试样本数, 特征数)
    
        Returns
        ----------
            prediction: np.ndarray, 预测结果, 维度：(测试样本数, )
        '''
        
        # 初始化一个空矩阵 results，存储每个样本属于每个类的概率，维度是 (测试样本数，类别数)，每行表示一个样本，每列表示一个特征
        results = np.empty((testX.shape[0], len(self.probability_of_y)))
        
        # 初始化一个列表 labels，按 self.label_mapping 的映射关系存储所有的标记，一会儿会在下面的循环内部完成存储
        labels = [0] * len(self.probability_of_y)
        
        # 遍历当前的类，label为类标记，index为下标，我们将每个样本预测出来的这个 label 的概率，存到 results 中的第 index 列
        for label, index in self.label_mapping.items():
            
            # 先验概率存为 py
            py = self.probability_of_y[label]
            
            # 使用变换后的公式，计算所有特征的条件概率之和，存为sum_of_conditional_probability
            # YOUR CODE HERE
            temp = np.empty([len(testX),len(testX[0])])
            c = 0
            # 统计每个属性的类条件概率
            for i in range(0,len(testX)):
                for j in range(0,len(testX[i])):
                    # |Dc,xi|：label取值为c且取值为xi的个数
                    D1 = np.sum(trainY[trainX[:,j] == trainX[i,j]] == label)
                                       
                    # |Dc|：label取值为c的个数
                    D2 = np.sum(trainY == label)
                    
                    # Ni:当前属性的取值数
                    N = len(np.unique(trainX[:,j]))
                    # P(xi|c)
                    temp[i,j] = np.log((D1+1)*1.0 / (D2+N))
            
            sum_of_conditional_probability = np.sum(temp, axis = 1)
            print(sum_of_conditional_probability.mean())
            print(np.log(py).mean())
            
            # debug
            assert sum_of_conditional_probability.shape == (len(testX), )
            
            # 使用变换后的公式，将 条件概率 与 log先验概率 相加，存为result，维度应该是 (测试样本数, )
            # YOUR CODE HERE
            result = np.log(py) + sum_of_conditional_probability
            
            # debug
            assert result.shape == (len(testX), )
            
            # 将所有测试样本属于当前这类的概率，存入到results中
            results[:, index] = result
            
            # 将当前的label，按index顺序放入到labels中
            labels[index] = label
        
        # 将labels转换为np.ndarray
        np_labels = np.array(labels)
        
        # 循环结束后，就计算出了给定测试样本，当前样本属于这类的概率的近似值，存放在了results中，每行对应一个样本，每列对应一个特征
        # 我们要求每行的最大值对应的下标，也就是求每个样本，概率值最大的那个下标是什么，结果存入max_prob_index中
        # YOUR CODE HERE
        max_prob_index = np.argmax(results, axis = 1)

        # debug
        assert max_prob_index.shape == (len(testX), )
        
        # 现在得到了每个样本最大概率对应的下标，我们需要把这个下标变成 np_labels 中的标记
        # 使用上面小技巧中的第五点求解
        # YOUR CODE HERE
        prediction = np_labels[max_prob_index]
        
        # debug
        assert prediction.shape == (len(testX), )
        
        # 返回预测结果
        return prediction

In [25]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

In [26]:
model = myGaussianNB()
model.fit(trainX, trainY)
prediction = model.predict(testX)
print(prediction)

-24.112289305666458
-0.5091374526186486
-26.08614875449747
-0.9188283442563777
[1. 0. 0. ... 0. 0. 0.]


In [27]:
print(accuracy_score(testY, prediction))
print(precision_score(testY, prediction))
print(recall_score(testY, prediction))
print(f1_score(testY, prediction))

0.5296034763715373
0.38742690058479534
0.37219101123595505
0.3796561604584527


# 3.计算指标

精度|查准率|查全率|F1
-|-|-|-
0.5296034763715373|0.38742690058479534|0.37219101123595505|0.3796561604584527