In [6]:
# 导入相关的函数包
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import preprocessing
from sklearn.cross_validation import train_test_split  
from tokenize import Ignore
import os
import re
import random
import joblib
import pandas as pd
import numpy as np
import jieba



朴素贝叶斯的介绍：
https://www.cnblogs.com/pinard/p/6069267.html

我们知道，在进行模型的总结的时候，我们应该把模型的定义和数据的读取分别定义两个类，这样可以使得代码更加的整洁容易读

说明：

训练集(Training set)
作用是用来拟合模型，通过设置分类器的参数，训练分类模型。后续结合验证集作用时，会选出同一参数的不同取值，拟合出多个分类器。



验证集(Validation set)

作用是当通过训练集训练出多个模型后，为了能找出效果最佳的模型，使用各个模型对验证集数据进行预测，并记录模型准确率。选出效果最佳的模型所对应的参数，即用来调整模型参数。如svn中的参数c和核函数等。



测试集(Test set)

通过训练集和验证集得出最优模型后，使用测试集进行模型预测。用来衡量该最优模型的性能和分类能力。即可以把测试集当做从来不存在的数据集，当已经确定模型参数后，使用测试集进行模型性能评价。


我们在下面的类的定义中直接将所有的数据都读取，然后对数据进行



In [7]:
# 朴素贝叶斯分类器的类定义
# 关于朴素贝叶斯分类起的使用，我们首先要进行文本表示，变成向量之后在进行进一步的处理
# 关于贝叶斯分类的ppt以及相关的介绍和知识
class NBclassifier():
    def __init__(self, is_fit = True, clf_path=None,vec_path=None):
        '''
        参数：
        is_fit: 是否从数据中学习类别的先验概率
        clf_path：分类器的路径
        vec_path：向量的路径
        创建对象时完成的初始化工作，判断分类器与vector路径是否为空，
        若为空则创建新的分类器与vector，否则直接加载已经持久化的分类器与vector。
        '''
        print('是否从数据中学习类别的先验概率', is_fit)
        if (clf_path==None or vec_path==None):
            self.clf=MultinomialNB(fit_prior = is_fit)
            self.vec=TfidfVectorizer()
        else:
            self.clf=joblib.load(clf_path)
            self.vec=joblib.load(vec_path)

    # 保存模型 为了未来使用训练好的模型
    def saveModel(self,clf_path="clf.m",vec_path="vec.m"):
        joblib.dump(self.clf,clf_path)
        joblib.dump(self.vec,vec_path)

    #训练分类器
    def trainNB(self,dataList,labelList):
    #训练模型首先需要将分好词的文本进行向量化，这里使用的TFIDF进行向量化
        try:
            self.clf.fit(self.vec.fit_transform(dataList),labelList) # 使用tfidf向量化后的词进行训练
            print(self.clf.class_log_prior_ ) 
        except:
            print('wtf')
        self.saveModel()

    #预测数据 - 只有概率最高的那个结果
    def predictNB(self,dataList):
        data = self.vec.transform(dataList)
#         print(dataList)
        predictList=self.clf.predict(data) # 直接返回预测结果 
        return predictList
    
    def preprob(self, data): # 返回每个类相应的概率
        data = self.vec.transform(data)
        return self.clf.predict_proba(data)
    
    
    def prelog_prob(self, data): # 返回log后的概率
        data = self.vec.transform(data)
        return self.clf.predict_log_proba(data)
    
    #计算准确率
    def calAccuracy(self,predictList,labelList,):
        rightCount=0
        print('测试数据集个数为',len(labelList))
        for i in range(len(labelList)):
            l = set(labelList[i].strip().split('\t'))
            if predictList[i] in l:
                rightCount+=1
        print ('准确率为：%s' %(rightCount/float(len(labelList)))) 

    def cal_precision(self,predictList,labelList):
        rightCount=0
        precount=0
        label_count=0
        for i in range(len(labelList)):
            l = set(labelList[i].strip().split(','))
            for p in predictList[i]:
                if p[0] in l:
                    rightCount+=1
                precount+=1
            label_count+=len(l)
            p=(rightCount/float(precount))
            r=(rightCount/float(label_count))
        print ('precision：%s' %(rightCount/float(precount)))   
        print ('recall：%s' %(rightCount/float(label_count))) 
        print('f1-measure: %s' %((2*p*r)/(p+r)))
    
    def cal_precision_topk(self, predictList, labelList):
        rightCount=0
        precount=0
        label_count=0
        for i in range(len(labelList)):
            l = set(labelList[i].strip().split(','))
            for p in predictList[i]:# for each case
                if p[1] in l:
                    rightCount+=1
                precount+=1
            label_count+=len(l)
            
        print ('precision：%s' %(rightCount/float(precount)))   
        print ('recall：%s' %(rightCount/float(label_count))) 
            
    # 本函数可以用来输出所有大于阈值的类别标签
    def get_nbest(self, probs, labels, thread):
        '''
        probs是每个case针对每个类别的概率 n*c的数组
        labels是类别的list，大小为训练样本中不同的class数目。使用np.unique(labelList)获得，在本问题中是这样的。
        thread是阈值，用来判断多大的概率应该被输出
        '''
        output=[] # 将输出保存在output中
        for t in [zip(i,np.unique(labels)) for i in probs]:
            output.append(list(t)) # 将每个元组保存在output中，元组构成为 '概率','标签'

    # output示例：
    # 大小为：n*c*2
    # 格式为：
    # [[()]]
    # 最外层数组为case的index
    # 往里一层是针对具体的case的类别index
    # 最里层是元组，元组构成为。元组构成为 '概率','标签'

        # 预测归一化概率大于thread的结果
        
        results=[]
        results_top3=[]
        for i in output: 
            t=np.mean(list(zip(*i))[0])
            result=[]
            result_top3=[]
            for p in range(len(i)):
                s=[]
                if i[p][0]>t:
                    s.append(i[p][1])
                    s.append(i[p][0])
                    result.append(s)
            results_top3.append(sorted(i,reverse=True)[:3])
            results.append(result)
        return results, results_top3 # 返回的是满足阈值要求的标签，概率对


In [8]:
class data_helper():
    '''
    这个类定义了读取数据的方法，并且内置了jieba分词，并且可以根据中文或者英文进行区分。
    参数介绍：
    datapath:数据路径
    train：读取的数据是否为训练数据，默认为“是”
    Chinese：是否为中文，默认为“是”
    '''
    def __init__(self, datapath, train = True, Chinese = True, read_fr_file):
        if read_fr_file:
            if train:
                dataList=[]
                labelList=[]
                for line in open(dataPath,encoding='utf-8').readlines():
                    lineArray=line.split('\t')
                    labelList.append(lineArray[-2])
                    dataList.append(lineArray[1]+lineArray[2]) 
                    thread+=1
                    if thread==r: # 限制加载的训练数据个数
                        break
                print('长度是{0}'.format(len(dataList)))
                if Chinese:
                    return self.jiebaSplit(dataList), labelList
                else:
                    return dataList, labelList
            else:
                dataList=[]
                labelList=[]
                for line in open(dataPath,encoding='utf-8').readlines():
                    lineArray=line.split('\t')
                    labelList.append(lineArray[-1])
                    dataList.append(lineArray[1]+lineArray[2])
                    thread+=1
                    if thread==r:
                        break
                print('长度是{0}'.format(len(dataList)))
                if Chinese:
                    return self.jiebaSplit(dataList), labelList
                else:
                    return dataList, labelList
        else:
            if train:
                dataList=[]
                labelList=[]
                for line in open(dataPath,encoding='utf-8').readlines():
                    lineArray=line.split('\t')
                    labelList.append(lineArray[-2])
                    dataList.append(lineArray[1]+lineArray[2]) 
                    thread+=1
                    if thread==r: # 限制加载的训练数据个数
                        break
                print('长度是{0}'.format(len(dataList)))
                if Chinese:
                    return self.jiebaSplit(dataList), labelList
                else:
                    return dataList, labelList
            else:
                dataList=[]
                labelList=[]
                for line in open(dataPath,encoding='utf-8').readlines():
                    lineArray=line.split('\t')
                    labelList.append(lineArray[-1])
                    dataList.append(lineArray[1]+lineArray[2])
                    thread+=1
                    if thread==r:
                        break
                print('长度是{0}'.format(len(dataList)))
                if Chinese:
                    return self.jiebaSplit(dataList), labelList
                else:
                    return dataList, labelList
            
                
    # 使用结巴进行分词
    def jiebaSplit(self, inputData):
        '''
        简单描述一下jieba分词。
        '''
        stopWords = open("../../NLP/中文停用词.txt").read().split("\n") # 加载停用词，网上一把一把
        results=[] # 存放结果
        for Data in inputData: 
            Data = "".join(re.findall(u'[\u4e00-\u9fa5]+', Data)) # 首先将数据中所有的中文提取出来
            wordList = "/".join(jieba.cut(Data)) # 使用jieba进行切词，并且把每个词语使用/分隔开
            listOfTokens = wordList.split("/") # 
            x= [tok for tok in listOfTokens if (tok not in stopWords and len(tok) >= 2)] # 注意python3 写成一行的if 语句需要用括号
            x=list(set(x)) # 使用词集
            '''
            词集和词袋的区别：
            词集里面只考虑每个词是否出现
            词袋同时也会考虑每个词出现的次数
            
            '''
            results.append(' '.join(x))
        return results

In [11]:
def jiebaSplit(self, inputData):
        '''
        简单描述一下jieba分词。
        '''
        stopWords = open("../../NLP/中文停用词.txt").read().split("\n") # 加载停用词，网上一把一把
        results=[] # 存放结果
        for Data in inputData: 
            Data = "".join(re.findall(u'[\u4e00-\u9fa5]+', Data)) # 首先将数据中所有的中文提取出来
            wordList = "/".join(jieba.cut(Data)) # 使用jieba进行切词，并且把每个词语使用/分隔开
            listOfTokens = wordList.split("/") # 
            x= [tok for tok in listOfTokens if (tok not in stopWords and len(tok) >= 2)] # 注意python3 写成一行的if 语句需要用括号
            x=list(set(x)) # 使用词集
            '''
            词集和词袋的区别：
            词集里面只考虑每个词是否出现
            词袋同时也会考虑每个词出现的次数
            
            '''
            results.append(' '.join(x))
        return results

In [9]:
# 测试数据集

X = ['我们都是好朋友',
    '这里有一个人叫做坏人','这是一条新闻','新华社说这么多我也不知道是为什么']
y = [1,1,2,2]

In [10]:
# trainpath = ''
# testpath = ''

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.25, random_state=1)


In [None]:
if(__name__=='__main__'):
    nbclassifier=NBclassifier(is_fit=False)
    
    dataList,labelList=nbclassifier.loadtrainData(trainPath, 50000)
    testData,testLabel=nbclassifier.loadtestData(testPath, 50000)
    # 训练并预测分类正确性
    nbclassifier.trainNB(dataList, labelList)
    predictList=nbclassifier.predictNB(testData)
    probs=nbclassifier.preprob(testData)
    predictList2,predictList_topk=nbclassifier.get_nbest(probs,labelList,0.3)
    nbclassifier.calAccuracy(predictList, testLabel)

In [3]:
# 使用不同的训练集和测试集
if(__name__=='__main__'):
    
    nbclassifier=NBclassifier(is_fit=False)
    trainPath='data/train_data/train_t1'  # id \t title \t content \t type \t single label \t multi label 
    testPath='data/train_data/test_t1'  # id \t title \t content \t type \t single label \t multi label 
    dataList,labelList=nbclassifier.loadtrainData(trainPath, 50000)
    testData,testLabel=nbclassifier.loadtestData(testPath, 50000)
    # 训练并预测分类正确性
    nbclassifier.trainNB(dataList, labelList)
    predictList=nbclassifier.predictNB(testData)
    probs=nbclassifier.preprob(testData)
    predictList2,predictList_topk=nbclassifier.get_nbest(probs,labelList,0.3)
    nbclassifier.calAccuracy(predictList, testLabel)

是否从数据中学习类别的先验概率 False


Building prefix dict from the default dictionary ...


长度是40000


Dumping model to file cache /var/folders/b7/t4jynbgx15l4n6vhy95bl47m0000gn/T/jieba.cache
Loading model cost 1.651 seconds.
Prefix dict has been built succesfully.


长度是2512
[-4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915
 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915
 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915
 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915
 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915
 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915
 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915
 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915
 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915
 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915
 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915
 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915
 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915 -4.39444915
 -4.39444915 -4.39444915 -4.39444915]
测试数据集

In [None]:
# 预测结果，并加上label。这里应该直接变成格式
testPath="/Users/lijunyi/美团/头条/data/sep_data/data_to_process/t3_process"
predata,testLabel=nbclassifier.loadtestData(testPath, 50000)
predictList=nbclassifier.predictNB(predata)
probs=nbclassifier.preprob(predata)
predictList2,predictList_topk=nbclassifier.get_nbest(probs,labelList,0.3)
import sys
count = 0
output=open('/Users/lijunyi/Desktop/李露/t3_res_prob','w')
with open('/Users/lijunyi/美团/头条/data/sep_data/data_to_process/t3_process') as train:
    for line in train:
        line = line.strip()
        output.write(line+'\t'+str(predictList2[count])+'\n')
        count+=1
    print(count, file=sys.stderr)
    

In [4]:
# 从数据中学习先验概率
nbclassifier.cal_precision(predictList2, testLabel)

precision：0.2976672450356661
recall：0.3180881747012773
f1-measure: 0.3075390897320984


In [8]:
probs=nbclassifier.preprob(predata)
predictList2,predictList_topk=nbclassifier.get_nbest(probs,labelList,0.3)
import sys
count = 0
output=open('/Users/lijunyi/Desktop/李露/t1_res_prob','w')
with open('/Users/lijunyi/美团/头条/data/sep_data/data_to_process/t1_process') as train:
    for line in train:
        line = line.strip()
        output.write(line+'\t'+str(predictList2[count])+'\n')
        count+=1
    print(count, file=sys.stderr)

26010


In [10]:
import sys
count = 0
output=open('/Users/lijunyi/Desktop/李露/t1_res_prob','w')
with open('/Users/lijunyi/美团/头条/data/sep_data/data_to_process/t1_process') as train:
    for line in train:
        line = line.strip()
        output.write(line+'\t'+str(predictList2[count])+'\n')
        count+=1
    print(count, file=sys.stderr)

26010


In [9]:
# 使用不同的训练集和测试集
if(__name__=='__main__'):
    nbclassifier=NBclassifier(is_fit=False)
    #数据集地址及生成的训练集与测试集地址
#     dataPath=u'../../datasets/answer'
#     trainPath='data/trainData.txt'
#     testPath='data/testData.txt'
    trainPath='data/train_data/t3_train'
    testPath='data/train_data/t1_test'
#     dataList,labelList=nbclassifier.loadTexts(dataPath)
#     dataList = data_nosource.head(54000)['content'].values.tolist()
#     dataList=nbclassifier.loadData(data_nosource.head(5)['content'].values.tolist()) # 这个使用了数据读取的函数 问题就在这里
#     labelList=data_nosource.head(54000)['class'].values.tolist()
    # 使用全量数据进行随机划分产生训练数据以及测试数据
#     nbclassifier.generateSample(data, label,trainPath,testPath)
    # 载入训练集与测试集 
    dataList,labelList=nbclassifier.loadtrainData(trainPath, 10000)
    testData,testLabel=nbclassifier.loadtestData(testPath, 10000)
    # 训练并预测分类正确性
    nbclassifier.trainNB(dataList, labelList)
    predictList=nbclassifier.predictNB(testData)
    probs=nbclassifier.preprob(testData)
    predictList2,predictList_topk=nbclassifier.get_nbest(probs,labelList,0.3)
    nbclassifier.calAccuracy(predictList, testLabel)

是否从数据中学习类别的先验概率 False
长度是7000
长度是4512
[-4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887
 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887
 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887
 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887
 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887
 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887
 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887
 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887
 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887
 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887
 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887
 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887
 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887 -4.71849887
 -4.71849887 