# Naive Bayes

Naive Bayes的优缺点
> 优点：在数据较少的情况下仍然有效，可以处理多类别问题。<br>
> 缺点：对输入数据的准备方式较为敏感。<br>
> 适用数据类型：标称型数据。<br>

朴素贝叶斯的一般过程
> 1. 收集数据：可以使用任何方法。本章使用RSS源。
> 2. 准备数据：需要数值型或者布尔型数据。
> 3. 分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果更好。
> 4. 训练算法：计算不同的独立特征的条件概率。
> 5. 测试算法：计算错误率。
> 6. 使用算法：文档分类等。

In [1]:
import numpy as np

## 1. 算法实现
### a.从文本中构建词向量

In [3]:
def loadDataSet():
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0, 1, 0, 1, 0, 1]
    return postingList, classVec

def createVocabList(dataSet):
    """Return set of All words."""
    
    vocabSet = set()
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)

def setOfWords2Vec(vocabList, inputSet):
    """
    遍历查看该单词是否出现，出现则将单词置1
    
    Parameters
    -----------
    vocabList : 所有单词的集合列表
    inputSet : 输入数据集
    
    Return
    -----------
    returnVec : 匹配列表
    """
    
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in inputSet:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec

In [4]:
listOPosts, listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)
myVocabList # 所有单词的集合，不含重复单词

['dog',
 'cute',
 'him',
 'park',
 'how',
 'quit',
 'my',
 'worthless',
 'ate',
 'dalmation',
 'I',
 'take',
 'to',
 'love',
 'maybe',
 'has',
 'posting',
 'steak',
 'garbage',
 'not',
 'mr',
 'food',
 'licks',
 'stop',
 'flea',
 'problems',
 'please',
 'stupid',
 'buying',
 'help',
 'so',
 'is']

In [5]:
# 查看输入样本中的单词在单词表中的分布情况
setOfWords2Vec(myVocabList, listOPosts[0])

[1,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 1,
 0,
 0,
 1,
 0,
 0]