# 基于朴素贝叶斯的垃圾邮件识别

## 加载数据
使用`pandas`库加载位于`data/SMSSpamCollection.txt`处的垃圾邮件数据集，
通过指定`train_size`参数来确定训练集所占的比重。

In [1]:
def load_data(path, train_size=0.8):
    """
    从指定路径加载垃圾邮件数据
    :param path: 数据集路径
    :param train_size: 训练集占数据集的比重，默认为0.8
    :return: 按比例分割后的数据集
    """

    class_names = ['labels', 'messages']
    data = pd.read_csv(path, sep='\\t', header=None, names=class_names, engine='python')
    datas, labels = data['messages'], data['labels']
    _train_data, _test_data, _train_label, _test_label = train_test_split(datas, labels, train_size=train_size,
                                                                          random_state=520)

    return np.array(_train_data), np.array(_test_data), np.array(_train_label), np.array(_test_label)

## 词频向量化
使用`sklearn.feature_extraction.text`库中的`CountVectorizer`类来对文本进行特征提取以得到词频矩阵。

In [2]:
def transform(x, model='ft'):
    """
    词频向量化
    :param x: 文本
    :param model: 向量化模式，值为ft表示使用fit_transform，为t表示使用transform
    :return: 词频矩阵
    """

    c = CountVectorizer()
    if model == 'ft':
        return c.fit_transform(x)
    else:
        return c.transform(x)

## 贝叶斯模型
采用`sklearn.naive_bayes`中的`BernoulliNB`类来创建**伯努利朴素贝叶斯**分类器。

In [None]:
class NaiveBayes:

    def __init__(self):
        self.x = None
        self.y = None
        self.model = None

    def fit(self, x, y):
        self.x = transform(x, 'ft')
        self.y = y
        self.model = BernoulliNB().fit(self.x, self.y)

    def predict(self, text):
        """
        将文本列表中的文本进行分类
        :param text: 文本列表
        :return: 分类后的结果
        """

        return self.model.predict(transform(text, 't'))

## 验证
使用`utils/load_data`中的`load_data`方法导入数据集，创建朴素贝叶斯分类器并指定训练集后，通过调用`predict`方法来得到预测结果。

In [None]:
from models.NaiveBayes import NaiveBayes
from utils.load_data import load_data


def main():
    train_data, test_data, train_label, test_label = load_data('data/SMSSpamCollection.txt')
    model = NaiveBayes()
    model.fit(train_data, train_label)
    print(model.predict(test_data))


if __name__ == '__main__':
    main()

In [3]:
class NaiveBayes:

    def __init__(self):
        self.x = None
        self.y = None
        self.model = None

    def fit(self, x, y):
        self.x = transform(x, 'ft')
        self.y = y
        self.model = BernoulliNB().fit(self.x, self.y)

    def predict(self, text):
        """
        将文本列表中的文本进行分类
        :param text: 文本列表
        :return: 分类后的结果
        """

        return self.model.predict(transform(text, 't'))

## 验证
使用`utils/load_data`中的`load_data`方法导入数据集，创建朴素贝叶斯分类器并指定训练集后，通过调用`predict`方法来得到预测结果。

In [None]:
from models.NaiveBayes import NaiveBayes
from utils.load_data import load_data


def main():
    train_data, test_data, train_label, test_label = load_data('data/SMSSpamCollection.txt')
    model = NaiveBayes()
    model.fit(train_data, train_label)
    print(model.predict(test_data))


if __name__ == '__main__':
    main()