In [10]:
def loadDataSet():
    postingList = [['dog', 'my', 'has']]
    classVec = [0, 1, 0, 1, 0, 1] # 1是好的 0是坏的
    
    return postingList, classVec
    

In [23]:
class NaiveBayes(object):
    def __init__(self): #--默认构造方法
        self.vocabulary = []      #词典
        self.idf = 0              #词典的IDF权值向量
        self.tf = 0               #训练集的权值矩阵
        self.tdm = 0              #P(x|yi)
        self.Pcates = {}          #P(yi)对应一个类别
        self.labels = []          #对应每个文本的分类，是一个外部导入的列表
        self.doclength = 0         #训练集文本数
        self.vocablen = 0         #词典词长
        self.testset = 0          #测试集
        
    def train_set(self, trainset, classVec): #--导入训练集和测试集，生成算法必要的参数和数据结构
        self.cate_prob(classVec)       #计算每个分类在数据集中的概率P(yi)
        self.doclenth = len(trainset)
        tempset = set()
        [tempset.add(word) for doc in trainset for word in doc] #生成词典
        self.vocabulary = list(tempset)
        self.vocablen = len(self.vocabulary)
        
        self.calc_wordfreq(trainset)   #计算词频数据集
        self.build_tdm()               #按分类累计向量空间的每维值P(x|yi)
        
    def cate_prob(self, classVec): #--计算在数据集中每个分类的概率P(yi)
        self.labels = classVec
        labeltemps = set(self.labels)  #获取全部分类
        for labeltemp in labeltemps:
            #统计列表中重复的分类: self.label.count(labeltemp)
            self.Pcates[labeltemp] = float(self.labels.count(labeltemp)) / float(len(self.labels))
    
    def calc_wordfreq(self, trainset): #-- 生成普通的词频向量
        self.idf = np.zeros([1, self.vocablen])  #1*词典数
        self.tf = np.zeros([self.doclength, self.vocablen]) #训练集文件数*词典数
        
        for indx in xrange(self.doclength): #遍历所有的文本
            for word in trainset[indx]:     #遍历文本中的每个词
                #找到文本的词在字典中的位置+1
                self.tf[indx, self.vocabulary.index(word)] += 1
            for signleword in set(trainset[indx]):
                self.idf[0, self.vocabulary.index(signleword)] += 1
                
    def build_tdm(self): #--按分类累计计算向量空间的每维值P(x|yi)
        self.tdm = np.zeros([len(self.Pcates), self.vocablen]) #类别行*词典列
        sumlist = np.zeros([len(self.Pcates), 1])               #统计每个分类的总值
        for indx in xrange(self.doclength):
            #将同一类别的词向量空间值加总
            self.tdm[self.labels[indx]] = np.sum(self.labels[indx])
            #统计每个分类的总值，标量
            sumlist[self.labels[indx]] = np.sum(self.tdm[self.labels[indx]])
        self.tdm = self.tdm / sumlist   #生成P(x|yi)
        
    def map2vocab(self, testdata): #--将测试集映射到当前词典
        self.testset = np.zeros([1, self.vocablen])
        for word in testdata:
            self.testset[0, self.vocabulary.index(word)] += 1
            
    def predict(self, testset): #-- 预测分类结果，输出预测的分类类别
        if np.shape(testset) [1] != self.vocablen: #如果测试集长度与词典不相等，则推出程序
            print "输入错误"
            exit(0)
            
        predvalue = 0 #初始化类别概率
        predclass = 0 #初始化类别名称
        for tdm_vect, keyclass in zip(self.tdm, self.Pcates):
            #P(x|yi) P(yi)
            #变量tdm，计算最大分类值
            temp = np.sum(testset*tdm_vect*self.Pcates[keyclass])
            if temp > predvalue:
                predvalue = temp
                predclass = keyclass
        return predclass
        
        

In [15]:
'''
改进词频向量函数:wordfreq

使用TF-IDF策略，修正多种偏差

calc_tfidf()
'''

def clac_tfidf(self, trainset):
    self.idf = np.zeros([1, self.vocablen])
    self.tf = np.zeros([self.doclength, self.vocablen])
    
    for indx in xrange(self.doclength):
        for word in trainset[indx]:
            self.tf[indx, self.vocabulary.index(word)] += 1
        #消除不同句长导致的偏差
        self.tf[indx] = self.tf(indx) / float(len(trainset[indx]))
        for signleword in set(trainset[indx]):
            self.idf[0, self.vocabulary.index(signleword)] += 1
    self.idf = np.log(float(self.doclength) / self.idf)
    self.tf = np.multiply(self.tf, self.idf) #矩阵与向量的点积 ， TF*IDF

In [25]:
'''
获取结果
'''

import os
import sys
from numpy import*
import numpy as np

dataset, listClasses = loadDataSet() #导入数据集
#dataset：句子的词向量
#listclass: 句子所属的类别[0,1,0,1,0,1]
nb = NaiveBayes()                    #实例化
nb.train_set(dataset, listClasses)   #训练数据集
nb.map2vocab(dataset[0])               #随机选一个测试句
print nb.predict(nb.testset)         #输出分类类别


0


