Naive Bayes Algorithm
============

> 朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对于给定的输入$X$，利用贝叶斯定理求出后验概率最大的输出$y$.

> 设输入空间 $\cal X \subseteq R^n$ 为$n$维向量的集合，输出空间为类标记集合 $\cal Y=\{c_1, c_2, \cdots , c_k\}$ ，输入为特征向量 $x \in \cal X$，输出为类标记(class label)$y \in \cal Y$. $X$是定义在输入空间$\cal X$上的随机向量，$Y$是定义在输出空间$\cal Y$上的随机变量. $P(X,Y)$是$X$和$Y$的联合概率分布. 训练数据集$$T=\{(x_1, y_1),(x_2, y_2),\cdots,(x_k, y_k)\}$$由$P(X,Y)$独立同分布产生.

> 朴素贝叶斯公式推导：
  ---------------
>> 朴素贝叶斯分类时，对给定的输入 $x$，通过学习到的模型计算后验概率分布 $P(Y=c_k | X=x)$，** 将后验概率最大的类作为 $x$ 的类输出 **。
>> 后验概率计算根据贝叶斯定理如下：
$$P(Y=c_k|X=x) = \frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k} P(X=x|Y=c_k)P(Y=c_k)} \qquad    (1)$$
>> 朴素贝叶斯法对条件概率分布作了条件独立性假设.
$$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)=\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) \qquad   (2)$$
>> 把公式(2)代入公式(1)得到朴素贝叶斯分类的基本公式(3)：
$$P(Y=c_k|X=x) = \frac{P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{k}P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)},\;k=1,2,3,\cdots,K \qquad    (3)$$
>> 朴素贝叶斯分类器表示如下：
$$y=f(x)=arg\;{max}_{c_k}\frac{P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_{k}P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)}\qquad   (4)$$
>> 由于(4)中分母对所有的$c_k$都是相同的，所以，
$$y=f(x)=arg\;{max}_{c_k} P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)\qquad   (5)$$

> 朴素贝叶斯算法:
  ------------
>> 输入：训练数据$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$，其中$x_i={(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})}^T$，$x_i^{(j)}$是第$i$个样本的第$j$个特征，$x_i^{(j)}\in\{{a_{j1},a_{j2},\cdots,a_{jS_j}}\}$，$a_{jl}$是第$j$个特征可能取得第l个值，$j=1,2,\cdots,n,\;l=1,2,\cdots,S_j,\;y_i\in\{c_1,c_2,\cdots,c_K\}$；实例$x$；
>> 输出：实例$x$的分类.

>> (1)计算先验概率及条件概率
$$P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N},\;k=1,2,\cdots,K \qquad   (6)$$
$$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)} \qquad   (7)$$
$$j=1,2,\cdots,n;\;l=1,2,\cdots,S_j;\;k=1,2,\cdots,K$$

>> (2)对于给定的实例$x={(x^{(1)},x^{(2)},\cdots,x^{(n)})}^T$，计算
$$P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)\;k=1,2,\cdots,K \qquad   (8)$$

>> (3)确定实例$x$的类
$$y=arg\;{max}_{c_k} P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) \qquad   (9)$$

> 拉普拉斯平滑
  ----------
>> 用极大似然估计可能会出现所要估计的概率值为0的情况。这时会影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用**贝叶斯估计**。条件概率的贝叶斯估计是
$$P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda}\qquad(10)$$
>> 式中$\lambda\geq0$.等价于在随机变量各个取值的频数上赋予一个正数$\lambda>0$.当$\lambda=0$时就是极大似然估计.取$\lambda=1$，这时称为拉普拉斯平滑(Laplace smoothing).显然，对任何$l=1,2,\cdots,K$，有
$$P_\lambda(X^{(j)}=a_{jl}|Y=c_k)>0$$
$$\sum_{k}^{S_j} P(X^{(j)}=a_{jl}|Y=c_k)=1$$
>> 先验概率的贝叶斯估计是
$$P_\lambda(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}$$

> ***备注：参考资料《统计学习方法》，李航 著***

> 贝叶斯算法的优缺点：
  ---------------
>> 优点：在数据较少的情况下仍然有效，可以处理多类别问题；

>> 缺点：对于输入数据的准备方式较为敏感；

>> 适用数据类型：标称型数据.

Naive Bayes 实现
========
准备数据集
--------
> 由于Naive Bayes擅长NLP领域，故使用垃圾邮件数据集来训练及验证Naive Bayes的学习及验证。

In [120]:
# 读取语料
def textParse(bigString):
    import re
    listOfTokens = re.split(r'\W*', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

# 创建一个包含所有文档中出现的不重复词的列表
def createVocabList(dataSet ): 
    vocabSet = set ([])
    for document in dataSet:
        vocabSet = vocabSet | set(document) 
    # print vocabSet
    return list(vocabSet)

# （词袋模型）输入词汇表及某个文档，输出文档向量，向量的每个元素为1或0，分别表示词汇中的单词再输入文档中是否出现
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList) 
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
        else: 
            print "the word：%s is not in my Vocabulary!" % word 
    return returnVec

# 将垃圾邮件以及正常邮件进行分词、构造词袋模型、分割训练以及测试集
def spamTest():
    import random
    import numpy as np
    docList = []; classList = []; fullText = []
    for i in range(1, 26):
        wordList = textParse(open("/Users/zhangxingbin/ml_algorithms/data/email/spam/%d.txt" % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('/Users/zhangxingbin/ml_algorithms/data/email/ham/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)
    trainingSet = range(50); testSet=[]
    for i in range(10):
        randIndex = int(random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat = []; trainClasses = []
    for docIndex in trainingSet:
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])

    return np.asarray(trainMat), np.asarray(trainClasses), np.asarray(testSet)

算法简单实现
---------
>Naive Bayes算法实现主要思路如下：

> * 根据公式(6)、(7)利用方法 occurrences 求解出先验概率及条件概率，其中使用的trick是将概率值转换到对数空间；

> * 条件概率的求解过程使用了字典数据结构，该字典以标签为key，字典value值为该类别下各特征出现的次数，然后根据该字典计算概率值；

> * 最后一个trick是把公式(9)等号两边取对数，一是对应步骤1、2中概率值在对数空间上的映射，二是将公式(9)的乘法运算转换为加法运算.

In [121]:
import numpy as np
from collections import Counter, defaultdict
import math

# 计算对数概率值，概率值以字典的结构返回
def occurrences(lists):
    no_of_examples = len(lists)
    prob = dict(Counter(lists))
    for key in prob.keys():
        prob[key] = math.log(prob[key] / float(no_of_examples))
    return prob

# 训练模型
def naive_bayes(trainSet, labels, testSet):
    classes = np.unique(labels)
    rows, cols = np.shape(trainSet)
    likelihoods = {}
    # 以 label 为 key 初始化 likelihoods
    for cls in classes:
        likelihoods[cls] = defaultdict(list)

    # 计算先验概率
    class_probabilities = occurrences(labels)

    # 根据 label 以及 features 统计 sample 中 feature出现的次数 --> 为计算条件概率做准备
    for cls in classes:
        # 抽取每个 label 对应的样本
        row_indices = np.where(labels == cls)[0]
        subset = trainSet[row_indices, :]
        r, c = np.shape(subset)
        for j in range(0, c):
            likelihoods[cls][j] += list(subset[:, j])

    # 计算条件概率
    for cls in classes:
        for j in range(0, cols):
            likelihoods[cls][j] = occurrences(likelihoods[cls][j])
            
    # 测试集做测试
    results = {}
    for cls in classes:
        class_probability = class_probabilities[cls]
        for i in range(0, len(testSet)):
            relative_values = likelihoods[cls][i]
            if testSet[i] in relative_values.keys():
                class_probability += relative_values[testSet[i]]
            else:
                class_probability += 0
            results[cls] = class_probability
    
    result = -100
    clazz = ''
    for cls in classes:
        if result < results[cls]:
            result = results[cls]
            clazz = cls

    print "testSet's label is: ", clazz

验证Naive Bayes的实现
------------------

In [122]:
# 获取训练集 trainMat，标签 trainClasses，测试集 testSet
trainMat, trainClasses, testSet = spamTest()

# 训练模型
naive_bayes(trainMat, trainClasses, testSet)

testSet's label is:  1


多项式、高斯、伯努利Naive Bayes的实现
==================
上述算法虽然使用了log的trick，但是没有考虑公式(10)的拉普拉斯平滑，下面给出多项式、高斯、伯努利带有拉普拉斯平滑的实现

多项式 Naive Bayes (词频型)
----------------
> 多项式模型是以"单词"为统计单位，即统计某个单词在文档中出现的次数，当某个特征词在某个文档中出现多次，多项式模型会计算多次。这个模型符合$NLP$的做法。其基本原理如下：
>> 在多项式模型中，设某文档$d=(t_1,t_2,\cdots,t_k)$，$t_k$是该文档中出现过的单词，$\color{#F00}{允许重复}$，则先验概率$$P(c)=\frac{类c下单词总数}{整个训练样本的单词总数}$$

>> 条件概率
$$P(t_k|c)=\frac{类c下单词t_k在各个文档中出现过的次数之和+1}{类c下单词总数+|V|}$$

>> $V$是训练样本的单词表（即抽取单词，单词出现多次，只算一个），$|V|$则表示训练样本包含多少种单词。$P(t_k|c)$可以看作是单词$t_k$在证明$d$属于类$c$上提供了多大的证据，而$P(c)$则可以认为是类别$c$在整体上占多大比例(有多大可能性)。

多项式 Naive Bayes实现
-------------------

In [123]:
class MultinomialNB(object):
    def __init__(self, alpha=1.0):
        self.alpha = alpha

    def fit(self, X, y):
        count_sample = X.shape[0]
        separated = [[x for x, t in zip(X, y) if t == c] for c in np.unique(y)]
        self.class_log_prior_ = [(np.log(len(i)) - np.log(count_sample)) for i in separated]
        count = np.array([np.array(i).sum(axis=0) for i in separated]) + self.alpha
        self.feature_log_prob_ = np.log(count)-np.log(count.sum(axis=1)[np.newaxis].T)
        return self

    def predict_log_proba(self, X):
        return [(self.feature_log_prob_ * x).sum(axis=1) + self.class_log_prior_ for x in X]

    def predict(self, X):
        return np.argmax(self.predict_log_proba(X), axis=1)

In [124]:
X = np.array([
    [2, 1, 0, 0, 0, 0],
    [2, 0, 1, 0, 0, 0],
    [1, 0, 0, 1, 0, 0],
    [1, 0, 0, 0, 1, 1]
])

y = np.array([0, 0, 0, 1])

nb = MultinomialNB().fit(X, y)
X_test = np.array([[2, 1, 0, 0, 0, 0], [1, 0, 0, 0, 1, 1]])
print(nb.predict(X_test))

[0 1]


伯努利 Naive Bayes (文档型)
------------------------
> 伯努利模型是以“文档”为统计单位，即统计某个特征词出现在多少个文档当中，若某个特征词在某个文档中出现了多次，那么伯努利模型只是计算一次。

>> $P(c)= \frac{类c下文件总数}{整个训练样本的文件总数}$

>> $P(t_k|c)=\frac{类c下包含单词t_k的文件数+1}{类c下文件总数+2}$

>> 备注：$P(t_k|c)$中的(类$c$下文件总数+2) 不是网上流传的(类$c$下单词总数+2)。

伯努利 Naive Bayes实现
-------------------

In [128]:
class BernoulliNB(object):
    def __init__(self, alpha=1.0):
        self.alpha = alpha

    def fit(self, X, y):
        count_sample = X.shape[0]
        separated = [[x for x, t in zip(X, y) if t == c] for c in np.unique(y)]
        self.class_log_prior_ = [(np.log(len(i)) - np.log(count_sample)) for i in separated]
        count = np.array([np.array(i).sum(axis=0) for i in separated]) + self.alpha
        smoothing = 2 * self.alpha
        n_doc = np.array([len(i) + smoothing for i in separated])
        self.feature_prob_ = count / n_doc[np.newaxis].T
        return self

    def predict_log_proba(self, X):
        return [(np.log(self.feature_prob_) * x +
                 np.log(1 - self.feature_prob_) * np.abs(x - 1)
                 ).sum(axis=1) + self.class_log_prior_ for x in X]

    def predict(self, X):
        return np.argmax(self.predict_log_proba(X), axis=1)

In [130]:
X_test = np.array([[1, 0, 0, 0, 1, 1], [1, 0, 0, 0, 1, 1]])

nb = BernoulliNB(alpha=1).fit(np.where(X > 0, 1, 0), y)
print(nb.predict(X_test))

[0 0]




高斯 Naive Bayes
--------------
> 当一些特征是连续性的值时，就可以采用高斯模型，一般是假设特征的分布是高斯分布。
>> $$P(x_i|y_k)=\frac{1}{\sqrt{2\pi\sigma^2y_k}}exp(-\frac{(x_i-\mu_{yk})^2}{2\sigma^2y_k})$$

高斯 Naive Bayes 实现
--------------

In [132]:
class GaussianNB(object):
    def __init__(self):
        pass

    def fit(self, X, y):
        separated = [[x for x, t in zip(X, y) if t == c] for c in np.unique(y)]
        self.model = np.array([np.c_[np.mean(i, axis=0), np.std(i, axis=0)] for i in separated])
        return self

    def _prob(self, x, mean, std):
        exponent = np.exp(- ((x - mean)**2 / (2 * std**2)))
        return np.log(exponent) - np.log((np.sqrt(2 * np.pi) * std))

    def predict_log_proba(self, X):
        return [[sum(self._prob(i, *s) for s, i in zip(summaries, x)) for summaries in self.model] for x in X]

    def predict(self, X):
        return np.argmax(self.predict_log_proba(X), axis=1)

    def score(self, X, y):
        return sum(self.predict(X) == y) / len(y)