### ___**朴素贝叶斯算法**___
- #### 优点：在数据量较少的情况下依旧有效，可以处理多类别问题
- #### 缺点：对输入数据的准备方式较为敏感
- **朴素贝叶斯分类器的重要假设**：
> 1. 数据样本的每一个特征之间互相独立，即一个特征出现的可能性与它和其他特征相邻无关
> 2. 每个特征同等重要
#### 朴素贝叶斯分类器适用于标称性数据，即特征取值需离散，对于输入数据而言最好的方式是将其离散为数字数据

In [None]:
def setOfWords2Vec(vocabList, inputData):
    """
    以原书的实现为例,将输入的文档转换为词向量,也就是一组以0/1表示的词频向量。
    :param vocabList 词汇表
    :param inputData 输入文档
    :return 词频向量
    """
    # 创建维数与输入的词汇表长度相同的0向量
    returnVec = [0]*len(vocabList)
    # 遍历输入文档中的每个词，如果词在词汇表中，则将词频设置为1，表示出现过
    for word in inputData:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print(f"the word: {word} is not in my vocabulary")
    return returnVec

#### 朴素贝叶斯分类器

In [None]:
from numpy import *

def trainNB0(trainMatrix, trainCategory):
    """
    训练朴素贝叶斯分类器
    :param trainMatrix   文档矩阵,行向量表示文档,传递的参数应该为一个词频的二值矩阵,也就是调用上述的setOfWords2Vec函数得到的词频矩阵
    :param trainCategory 类别标签向量，维数同文档矩阵函数应当相等
    :return 分类器模型
    """
    numTrainDocs = len(trainMatrix)
    # 这里假设文档矩阵中的文档的词数相同
    numWords = len(trainMatrix[0])
    # 计算先验概率，实际上就是文档矩阵中所有的带有侮辱性词汇的文档数除以总文档数，在此例子中，标签向量的元素值是二值化的
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    # 初始化条件概率，分子numerator和分母denominator
    p0Num = ones(numWords)
    p1Num = ones(numWords)
    p0Denom = 2.0
    p1Denom = 2.0
    for i in range(numTrainDocs):
        # 倘若当前的文档的标签为1，则将该文档的词频率向量加到p1Num中，否则加到p0Num中，并将词频率总和加到相应的分母中
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    # 计算条件概率，此处采用了对数运算是为了防止过小的数的连乘导致的向下溢出，对比f(x)和ln(f(x))，他们的增长性和极点取值几乎相同，可以视作结果相同
    p1Vect = log(p1Num / p1Denom)
    p0Vect = log(p0Num / p0Denom)
    return p0Vect, p1Vect, pAbusive