<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#4.1-基于贝叶斯决策理论的分类方法" data-toc-modified-id="4.1-基于贝叶斯决策理论的分类方法-1">4.1 基于贝叶斯决策理论的分类方法</a></span></li><li><span><a href="#4.2-条件概率" data-toc-modified-id="4.2-条件概率-2">4.2 条件概率</a></span></li><li><span><a href="#4.3-使用条件概率来分类" data-toc-modified-id="4.3-使用条件概率来分类-3">4.3 使用条件概率来分类</a></span></li><li><span><a href="#4.4-使用朴素贝叶斯进行文档分类" data-toc-modified-id="4.4-使用朴素贝叶斯进行文档分类-4">4.4 使用朴素贝叶斯进行文档分类</a></span><ul class="toc-item"><li><span><a href="#4.5.1-准备数据：从文本中构建词向量" data-toc-modified-id="4.5.1-准备数据：从文本中构建词向量-4.1">4.5.1 准备数据：从文本中构建词向量</a></span></li><li><span><a href="#4.5.2-训练算法：从词向量计算概率" data-toc-modified-id="4.5.2-训练算法：从词向量计算概率-4.2">4.5.2 训练算法：从词向量计算概率</a></span></li></ul></li></ul></div>

# 朴素贝叶斯
## 4.1 基于贝叶斯决策理论的分类方法
- 优点：在数据较少的情况下仍然有效，可以处理多类别问题
- 缺点：对于输入数据的准备方式较为敏感
- 适用数据类型：标称型数据

贝叶斯决策的核心思想是选择具有最高概率的决策

## 4.2 条件概率
贝叶斯法则，描述交换条件概率中的条件与结果的情况：
$$p(c|x) = {{p(x|c)p(c)}\over{p(x)}}$$

## 4.3 使用条件概率来分类
贝叶斯决策理论：
- 如果$p_1(x,y) > p_2(x,y)$,那么输入类别1
- 如果$p_1(x,y) < p_2(x,y)$,那么输入类别2

但是这两个公式并不是贝叶斯决策的全部内容，使用$p_1()$和$p_2()$是为了尽可能简单的描述，真正需要计算和比较的是$p(c_1|x,y)$和$p(c_2|x,y)$,这些公式具有的含义是，给定某个有$x，y$表示的数据点，那么该数据点来自$c_1$的概率是多少，而来自$c_2$的概率又是多少，这些概率与刚给出的$p(x,y|c_1)$不同，通过贝叶斯概率公式能够转换：
$$p(c_i|x) = {{p(x|c_i)p(c_i)}\over{p(x)}}$$
根据上边的公式，贝叶斯分类的准则为：
- 如果$p(c_1|x,y) > p(c_2|x,y)$,那么输入类别1
- 如果$p(c_1|x,y) < p(c_2|x,y)$,那么输入类别2

## 4.4 使用朴素贝叶斯进行文档分类
**一般流程:**
1. 收集数据：可以是任何方法，本章使用RSS源
2. 准备数据：需要数值型或者布尔型数据
3. 分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果更好
4. 训练算法：计算不同的独立特征的条件概率
5. 测试算法：计算错误率
6. 使用算法：一个常见的贝叶斯应用是文本分类

由统计学知，如果每个特征需要N个样本，那么对于10个特征需要$N^10$个样本，对于1000个特征的数据集，需要$N^1000$个样本，可以发现，需哎哟的样本数会随着特征的数目指数级增加。
如果特征之间相互独立，那么需要的样本数就由$N^{1000}$下降到$1000N$,这里的独立性指的是一个特征或者单词出现的可能性跟它的邻居没有关系;另一个假设是，每个特征同等重要，这两个假设就是navie 贝叶斯算法的朴素所在。

## 4.5 使用Python进行文本分类
从分本中获取特征，需要先拆分文本，然后将词条转化为词条向量，其中值为1代表该词条出现在该文档当中，0代表该词条未出现。

### 4.5.1 准备数据：从文本中构建词向量
我们把文本看成单词向量或者词条向量，也就是说将句子转换为向量。采用如下代码：

In [1]:
def loadDataSet():
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0, 1, 0, 1, 0, 1]
    return postingList, classVec

def createVocabList(dataSet):
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)    # 两个集合去并集
    return list(vocabSet)

def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print "the word: %s is not in my Vocabulary!" % word
    return returnVec

In [5]:
listOPosts, listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)
print myVocabList

['cute', 'love', 'help', 'garbage', 'quit', 'I', 'problems', 'is', 'park', 'stop', 'flea', 'dalmation', 'licks', 'food', 'not', 'him', 'buying', 'posting', 'has', 'worthless', 'ate', 'to', 'maybe', 'please', 'dog', 'how', 'stupid', 'so', 'take', 'mr', 'steak', 'my']


In [6]:
setOfWords2Vec(myVocabList, listOPosts[0])

[0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1]

### 4.5.2 训练算法：从词向量计算概率
我们重写贝叶斯准则，将x、y替换为$w$， $w$表示一个向量，它由很多个数值组成。在这个例子中，数值个数和词汇表的词个数相同。
$$p(c_i|w)={p(w|c_i)p(c_i)\over p(w)}$$
利用上面的公式，对每个类计算其概率值，然后比较两个概率的大小。

In [7]:
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/ float(numTrainDocs)
    # 防止连乘为0,修改初始化方式
#     p0Num = zeros(numWords)
#     p1Num = zeros(numWords)
#     p0Denom, p1Denom = 0.0, 0.0
    p0Num = ones(numWords)
    p1Num = ones(numWords)
    p0Denom, p1Denom = 2.0, 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    # 对每个元素做除法
#     p1Vect = p1Num/p1Denom    # change to log()
#     p0Vect = p0Num/p0Denom    # change to log()
    p1Vect = log(p1Num/p1Denom)
    p0Vect = log(p0Num/p0Denom)
    return p0Vect, p1Vect, pAbusive

In [10]:
from numpy import *
listOPosts, listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)
trainMat = []
for postingDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVocabList, postingDoc))
trainMat

[[0,
  0,
  1,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  1,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  1],
 [0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  1,
  1,
  0,
  0,
  0,
  0,
  0,
  1,
  1,
  0,
  1,
  0,
  1,
  0,
  1,
  0,
  0,
  0],
 [1,
  1,
  0,
  0,
  0,
  1,
  0,
  1,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  1],
 [0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0],
 [0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  1,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  1,
  1,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  1,
  1,
  1],
 [0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  1,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  1,
  0,
  1,
  0,
  0,
  0,
  0,
  0]]

In [11]:
poV, p1V, PAb = trainNB0(trainMat, listClasses)

In [12]:
poV

array([ 0.04166667,  0.04166667,  0.04166667,  0.        ,  0.        ,
        0.04166667,  0.04166667,  0.04166667,  0.        ,  0.04166667,
        0.04166667,  0.04166667,  0.04166667,  0.        ,  0.        ,
        0.08333333,  0.        ,  0.        ,  0.04166667,  0.        ,
        0.04166667,  0.04166667,  0.        ,  0.04166667,  0.04166667,
        0.04166667,  0.        ,  0.04166667,  0.        ,  0.04166667,
        0.04166667,  0.125     ])

### 4.5.3测试算法：根据现实情况修改分类器
计算多个概率乘积以获得文档某个类别的概述，即计算$p(w_o|1)p(w_2|1)p(w_3|1)$