Naive Bayes Algorithm
============

> 朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对于给定的输入$X$，利用贝叶斯定理求出后验概率最大的输出$y$.

> 设输入空间 $\cal X \subseteq R^n$ 为$n$维向量的集合，输出空间为类标记集合 $\cal Y=\{c_1, c_2, \cdots , c_k\}$ ，输入为特征向量 $x \in \cal X$，输出为类标记(class label)$y \in \cal Y$. $X$是定义在输入空间$\cal X$上的随机向量，$Y$是定义在输出空间$\cal Y$上的随机变量. $P(X,Y)$是$X$和$Y$的联合概率分布. 训练数据集$$T=\{(x_1, y_1),(x_2, y_2),\cdots,(x_k, y_k)\}$$由$P(X,Y)$独立同分布产生.

> 朴素贝叶斯公式推导：
>> 朴素贝叶斯分类时，对给定的输入 $x$，通过学习到的模型计算后验概率分布 $P(Y=c_k | X=x)$，** 将后验概率最大的类作为 $x$ 的类输出 **。
>> 后验概率计算根据贝叶斯定理如下：
$$P(Y=c_k|X=x) = \frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k} P(X=x|Y=c_k)P(Y=c_k)} \qquad    (1)$$
>> 朴素贝叶斯法对条件概率分布作了条件独立性假设.
$$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)=\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) \qquad   (2)$$
>> 把公式(2)代入公式(1)得到朴素贝叶斯分类的基本公式(3)：
$$P(Y=c_k|X=x) = \frac{P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{k}P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)},\;k=1,2,3,\cdots,K \qquad    (3)$$
>> 朴素贝叶斯分类器表示如下：
$$y=f(x)=arg\;{max}_{c_k}\frac{P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{k}P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)}\qquad   (4)$$
>> 由于(4)中分母对所有的$c_k$都是相同的，所以，
$$y=f(x)=arg\;{max}_{c_k} P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)\qquad   (5)$$

> 朴素贝叶斯算法:
>> 输入：训练数据$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$，其中$x_i={(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})}^T$，$x_i^{(j)}$是第$i$个样本的第$j$个特征，$x_i^{(j)}\in\{{a_{j1},a_{j2},\cdots,a_{jS_j}}\}$，$a_{jl}$是第$j$个特征可能取得第l个值，$j=1,2,\cdots,n,\;l=1,2,\cdots,S_j,\;y_i\in\{c_1,c_2,\cdots,c_K\}$；实例$x$；
>> 输出：实例$x$的分类.

>> (1)计算先验概率及条件概率
$$P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N},\;k=1,2,\cdots,K$$
$$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)}$$
$$j=1,2,\cdots,n;\;l=1,2,\cdots,S_j;\;k=1,2,\cdots,K$$

>> (2)对于给定的实例$x={(x^{(1)},x^{(2)},\cdots,x^{(n)})}^T$，计算
$$P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)\;k=1,2,\cdots,K$$

>> (3)确定实例$x$的类
$$y=arg\;{max}_{c_k} P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)$$

> 拉普拉斯平滑
>> 用极大似然估计可能会出现所要估计的概率值为0的情况。这时会影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用**贝叶斯估计**。条件概率的贝叶斯估计是
$$P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda}\qquad(6)$$
>> 式中$\lambda\geq0$.等价于在随机变量各个取值的频数上赋予一个正数$\lambda>0$.当$\lambda=0$时就是极大似然估计.取$\lambda=1$，这时称为拉普拉斯平滑(Laplace smoothing).显然，对任何$l=1,2,\cdots,K$，有
$$P_\lambda(X^{(j)}=a_{jl}|Y=c_k)>0$$
$$\sum_{k}^{S_j} P(X^{(j)}=a_{jl}|Y=c_k)=1$$
>> 先验概率的贝叶斯估计是
$$P_\lambda(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}$$

> ***备注：参考资料《统计学习方法》，李航 著***

> 贝叶斯算法的优缺点：
>> 优点：在数据较少的情况下仍然有效，可以处理多类别问题；

>> 缺点：对于输入数据的准备方式较为敏感；

>> 适用数据类型：标称型数据.

=================

In [50]:
# 读取语料
def textParse(bigString):
    import re
    listOfTokens = re.split(r'\W*', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

# 创建一个包含所有文档中出现的不重复词的列表
def createVocabList(dataSet ): 
    vocabSet = set ([])
    for document in dataSet:
        vocabSet = vocabSet | set(document) 
    # print vocabSet
    return list(vocabSet)

# （词袋模型）输入词汇表及某个文档，输出文档向量，向量的每个元素为1或0，分别表示词汇中的单词再输入文档中是否出现
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList) 
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
        else: 
            print "the word：%s is not in my Vocabulary!" % word 
    return returnVec

def spamTest():
    import random
    docList = []; classList = []; fullText = []
    for i in range(1, 26):
        wordList = textParse(open('/Users/zhangxingbin/ml_algorithms/data/email/spam/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('/Users/zhangxingbin/ml_algorithms/data/email/ham/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)
    trainingSet = range(50); testSet=[]
    for i in range(10):
        randIndex = int(random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat = []; trainClasses = []
    for docIndex in trainingSet:
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])

    return trainMat, trainClasses, testSet
#     print vocabList

In [52]:
# spamTest()

In [None]:
# 训练函数
def train(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory) / float(numTrainDocs)   # 
    
    pONum = zeros (numWords); 
    plNum = zeros (numWords)
    pODenom = 0.0; 
    plDenom = 0.0

多项式模型
--------
> 文档$d$属于类别$c$的概率
$$P(c|d)$$