In [1]:
# 朴素贝叶斯算法原理与搜狗新闻分类实战

## 贝叶斯公式
贝叶斯公式就一行：

$$P(Y|X)=P(X|Y)P(Y)P(X)$$
而它其实是由以下的联合概率公式推导出来：

$$P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)$$
其中$P(Y)$叫做先验概率， $P(Y|X)$叫做后验概率，$P(Y,X)$叫做联合概率。

没了，贝叶斯最核心的公式就这么些。

## 机器学习的视角理解贝叶斯公式
在机器学习的视角下，我们把 X 理解成“具有某特征”，把 Y 理解成“类别标签”(一般机器学习为题中都是X=>特征, Y=>结果对吧)。在最简单的二分类问题(是与否判定)下，我们将 Y 理解成“属于某类”的标签。于是贝叶斯公式就变形成了下面的样子:

$$P(“属于某类”|“具有某特征”)=P(“具有某特征”|“属于某类”)P(“属于某类”)P(“具有某特征”)$$ 
我们简化解释一下上述公式：

- $P(“属于某类”|“具有某特征”)=$在已知某样本“具有某特征”的条件下，该样本“属于某类”的概率。所以叫做『后验概率』。
- $P(“具有某特征”|“属于某类”)$= 在已知某样本“属于某类”的条件下，该样本“具有某特征”的概率。 
- $P(“属于某类”)$= （在未知某样本具有该“具有某特征”的条件下，）该样本“属于某类”的概率。所以叫做『先验概率』。
- $P(“具有某特征”)$= (在未知某样本“属于某类”的条件下，)该样本“具有某特征”的概率。

而我们二分类问题的最终目的就是要判断$P(“属于某类”|“具有某特征”)$是否大于1/2就够了。贝叶斯方法把计算**"具有某特征的条件下属于某类"**的概率转换成需要计算“属于某类的条件下具有某特征”的概率，而后者获取方法就简单多了，我们只需要找到一些包含已知特征标签的样本，即可进行训练。而样本的类别标签都是明确的，所以贝叶斯方法在机器学习里属于有监督学习方法。

这里再补充一下，一般『先验概率』、『后验概率』是相对出现的，比如 P(Y) 与 P(Y|X) 是关于 Y 的先验概率与后验概率， P(X) 与 P(X|Y) 是关于 X 的先验概率与后验概率。

## 搜狗新闻主题分类
- 这是一个文本分类问题，经典的新闻主题分类，下面用朴素贝叶斯来做

In [1]:
import os
import time
import random
import jieba  #处理中文
import nltk  #处理英文
import sklearn
from sklearn.naive_bayes import MultinomialNB
import numpy as np
import pylab as pl
import matplotlib.pyplot as plt
from collections import Counter

In [27]:
def text_processing(folder_path, test_rate=0.2):
    data_list = []
    label_list = []

    folder_list = os.listdir(folder_path)
    for folder in folder_list:
        text_folder_path = os.path.join(folder_path, folder)
        text_files = os.listdir(text_folder_path)

        # 读取每个文件
        n = 1
        for file in text_files:
            if n > 100:
                 # 怕内存爆掉，只取100个样本文件，后期可以注释掉
                break
            with open(os.path.join(text_folder_path, file), "r") as f:
                text = f.read()
                # read() 返回值为str，每次读取整个文件，将文件所有内容放到一个字符串变量中
                # readline() 返回值为str，每次只读取一行,每行的内容放在一个字符串变量中
                # readlines() 返回值为list，一次读取整个文件，每行的内容放在一个字符串变量中作为列表的一个元素。

            # 使用jieba分词
            # 开启并行分词,参数为并行进程数
            jieba.enable_parallel()
            word_cut = jieba.cut(text, cut_all=False) # 精确模式，返回的结构是一个可迭代的genertor
            word_list = list(word_cut)
            jieba.disable_parallel() # 关闭并行分词模式

            data_list.append(word_list) # 训练集list
            label_list.append(folder)  # 训练集标签分类
            n += 1
        print("file nums:", n)

    # 划分数据集和测试集
    data_label_list = list(zip(data_list, label_list))
    random.shuffle(data_label_list)

    idx = int(len(data_label_list)*test_rate)+1
    print("总样本数：", len(data_label_list))
    train_list = data_label_list[ :idx]
    test_list = data_label_list[idx: ]
    # print(train_list)
    
    # 这里返回元祖里的一个列表（[]）
    train_data_li, train_label_li = zip(*train_list)
    print(train_data_li, len(train_data_li))
    test_data_li, test_label_li = zip(*test_list)

    # 统计词频，得到词频逆序字典
    vocab_dict = dict(Counter(train_data_li[0]))
    vocab_list = sorted(vocab_dict.items(), key=lambda f: f[1], reverse=True)

    vocab_list, _ = zip(*vocab_list)
    vocab_list = list(vocab_list)
    return vocab_list, train_data_li[0], train_label_li[0], test_data_li[0], test_label_li[0]

In [26]:
folder_path = "Database/SogouC/Sample"
vocab_list, train_data_list, train_label_list, test_data_list, test_label_list = text_processing(folder_path, test_rate=0.2)
print(len(vocab_list)) # 9748个不重复单词
print(vocab_list[:100])
print(len(train_data_list)) # 71个训练集样本
print(len(test_data_list))  # 19个测试集样本
print(len(train_label_list))  # 71个训练集标签
print(len(test_label_list))  # 19个测试集标签

file nums: 11
file nums: 11
file nums: 11
file nums: 11
file nums: 11
file nums: 11
file nums: 11
file nums: 11
file nums: 11
(['\n', '\u3000', '\u3000', '刚刚', '在', '上', '周六', '以', '0', '比', '2', '惨败', '在', '长春队', '脚下', '的', '沈足', '，', '今天下午', '将', '在', '客场', '挑战', '升班马', '厦门', '蓝狮', '，', '尽管', '在', '此前', '，', '沈足', '曾', '在', '换帅', '之后', '创造', '了', '三连胜', '和', '四轮', '不败', '的', '骄人', '战绩', '，', '但', '随着', '上', '一轮', '主场', '失利', '，', '使得', '沈足', '刚刚', '赢来', '的', '保级', '优势', '顿时', '化为乌有', '，', '对此', '，', '沈足', '俱乐部', '总经理', '何兵', '表示', '：', '“', '过去', '的', '胜利', '已经', '成为', '过去', '，', '我们', '现在', '必须', '要', '冷静', '地', '面对现实', '，', '从', '现在', '开始', '，', '我们', '打', '的', '每', '一场', '比赛', '都', '是', '保级战', '，', '特别', '是', '跟', '厦门', '这样', '的', '保级', '球队', '作战', '，', '我们', '更是', '要', '全力', '争胜', '。', '”', '\n', '\u3000', '\u3000', '为了', '提前', '适应', '厦门', '当地', '的', '天气', '和', '场地', '，', '沈足', '在', '本周一', '就', '抵达', '厦门', '，', '开始', '了', '赛前', '备战', '，', '尽管', '在', '上', '一轮', '遭遇', '惨败', '，', '但

In [5]:
folder_list

['C000008',
 'C000014',
 'C000013',
 'C000022',
 'C000023',
 'C000024',
 'C000010',
 'C000020',
 'C000016']

In [11]:
d = Counter(["w", "w", "d"])
d

Counter({'w': 2, 'd': 1})

In [13]:
dict(d)

{'w': 2, 'd': 1}

In [14]:
d = list(zip([1,2,3], [4,5,6]))

In [21]:
d

[(1, 4), (2, 5), (3, 6)]

In [15]:
a, b = zip(*d)

In [22]:
a

(1, 2, 3)

In [17]:
b

(4, 5, 6)

In [18]:
Counter(a)

Counter({1: 1, 2: 1, 3: 1})