 中文语言的文本分类技术和流程，主要包括以下几个步骤：
（1）预处理：去除文本的噪声信息，例如HTML标签，文本格式转换，检测句子边界等等；
（2）中文分词：使用中文分词器为文本分词，并去除停用词；
（3）构建词向量空间：统计文本词频，生成文本的词向量空间；
（4）权重策略--TF-IDF方法：使用TF-IDF发现特征词，并抽取为反映文档主题的特征；
（5）分类器：使用算法训练分类器；
（6）评价分类结果：分类器的测试结果分析。

In [11]:
########################################################################################
# 中文分词
import os
import jieba

# 定义保存文件函数
def savefile(file, savepath):
    f = open(savepath,'wb')
    f.write(file).encode('utf-8')
    f.close()
    pass

# 定义读取文件函数
def readfile(filename):
    fp = open(filename,'rb')
    contents = fp.read().decode('utf-8')
    fp.close()
    return contents

corpuses_path = "corpuses/"
corpuses_path_seg = "corpuses_seg/"

# 获取类别名称（）
category_list = os.listdir(corpuses_path)

for category in category_list:
    category_path = corpuses_path + category + '/'         # 每一个类别的路径
    category_path_seg = corpuses_path_seg + category + '/' # 拼出分词后每个类的存放路径
    if not os.path.exists(category_path_seg):
        os.makedirs(category_path_seg)
    
    file_name = os.listdir(category_path)                  # 获取每一类中的所有文件名
    
    for each_file_name in file_name:
        full_name = category_path + each_file_name         # 文件的全路径
        
        contents = readfile(full_name).strip()            # 文件的内容
        
        # 将多余空行替换为空
        contents = contents.replace('\r\n'.encode('utf-8'),"".encode('utf-8'))
        
        # 使用结巴分词
        contents_seg = jieba.cut(contents)
        
        # 保存分词后的文件内容
        savefile(" ".join(contents_seg).encode('utf-8'),category_path_seg + each_file_name)
    
print("中文分词结束！")

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.053 seconds.
Prefix dict has been built succesfully.


中文分词结束！


In [20]:
####################################################################################
# 使用 picplk 模块使数据的持久化
# 引入sklearn 的 Bunch 数据结构
from sklearn.datasets.base import Bunch
import os 
import pickle

def savefile(file_contents,file_path):
    fp = open(file_path,'wb')
    fp.write(file_contents).encode('utf-8')
    fp.close()
    pass

def readfile(file_path):
    fp = open(file_path,'rb')
    contents = fp.read().decode('utf-8')
    fp.close()
    return contents

# Bunch类提供一种key,value的对象形式
# target_name:  所有分类集名称列表
# label:       每个文件的分类标签列表
# filepath:    文件路径
# contents:    分词后文件词向量形式
bunch = Bunch(target_name = [],label =[],filepath = [],contents = [])

corpuses_bag_path = 'corpuses_bag/corpuses_bag.dat'   # 持久化数据存储路径
corpuses_path_seg = "corpuses_seg/"                   # 分词后数据存放文件夹

# 获取类别名称（）
category_list = os.listdir(corpuses_path_seg)
# 类别名称，总共用共多少类
bunch.target_name.extend(category_list)

for category in category_list:
    category_path_seg = corpuses_path_seg + category + '/'
    
    file_list = os.listdir(category_path_seg)
    
    for each_file in file_list:
        full_name = category_path_seg + each_file
        bunch.label.append(category)
        bunch.filepath.append(full_name)
        bunch.contents.append(readfile(full_name).strip())
        
# 数据持久化
file_obj = open(corpuses_bag_path,'wb')
pickle.dump(bunch,file_obj)
file_obj.close()

print('target_name:',bunch.target_name)
print('label:',bunch.label[5:15],'文本语句数量：',len(bunch.label))
print('contents:',bunch.contents[1][1:10],'文本语句数量：',len(bunch.contents))
print('filepath:',bunch.filepath[1])
print("构建文本对象结束！！！")

target_name: ['C000008', 'C000010', 'C000013', 'C000014', 'C000016', 'C000020', 'C000022', 'C000023', 'C000024']
label: ['C000008', 'C000008', 'C000008', 'C000008', 'C000008', 'C000008', 'C000008', 'C000008', 'C000008', 'C000008'] 文本语句数量： 17910
contents: 券 通 ： 百联  文本语句数量： 17910
filepath: corpuses_seg/C000008/100.txt
构建文本对象结束！！！


In [26]:
########################################################################################################
# 权重策略：TF-IDF方法（Tf–idf term weighting） 进行特征抽取

# 词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率。
# 逆向文件频率（inverse document frequency，IDF）是一个词语普遍重要性的度量。
# 某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。
# Tf表示词语频率，而tf-idf表示术语频率乘以逆文档频率：
# tf-idf(t,d) = tf(t,d) x idf(t)

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
import pickle
import os

# 定义读取文件函数
def readfile(filename):
    fp = open(filename,'rb')
    contents = fp.read().decode('utf-8')
    fp.close()
    return contents

# 读取停词
stop_words_path = 'corpuses_bag/hlt_stop_words.txt'
stop_words = readfile(stop_words_path).splitlines()

# 读取数据
corpuses_bag_path = 'corpuses_bag/corpuses_bag.dat'   # 持久化数据存储路径
fp = open(corpuses_bag_path,'rb')
corpuses_bag = pickle.load(fp)
fp.close()

# 数据划分
corpuses_bag_train,corpuses_bag_test,y_train,y_test = train_test_split(corpuses_bag.contents,corpuses_bag.label)
print('训练数据大小',len(corpuses_bag_train),len(y_train))
print('测试数据大小',len(corpuses_bag_test),len(y_test))

# 训练数据tf-idf 特征抽取
vectorizer = TfidfVectorizer(stop_words = stop_words, sublinear_tf = True, max_df = 0.5)
X_train = vectorizer.fit_transform(corpuses_bag_train)

训练数据大小 13432 13432
测试数据大小 4478 4478


In [36]:
X_train.vocabulary = vectorizer.vocabulary_
print(list(X_train.vocabulary.items())[0:10])
# 测试数据tf-idf 特征抽取
X_test = vectorizer.transform(corpuses_bag_test)
print("训练集大小：",X_train.shape)

[('发现', 74820), ('提示', 129169), ('每年', 151018), ('11', 1832), ('20', 3722), ('以前', 47351), ('教育部', 132060), ('严禁', 36520), ('企业', 48364), ('进入', 215212)]
训练集大小： (13432, 237065)


In [33]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import confusion_matrix,classification_report

MulNB = MultinomialNB(alpha = 0.0001)
MulNB.fit(X_train,y_train)
predicted = MulNB.predict(X_test)
print('测试集混淆矩阵:\n',confusion_matrix(y_test,predicted))
print("测试集准确率：",MulNB.score(X_test,y_test))
print('测试集分类报告：\n',classification_report(y_test,predicted))
print('训练集分类报告：\n',classification_report(y_train,MulNB.predict(X_train)))
print("训练集准确率：",MulNB.score(X_train,y_train))

测试集混淆矩阵:
 [[442  26  11   0   7   5   6  11   1]
 [ 11 395  17   0  14  10   8  15   4]
 [  3   4 435   0   5   6  31  22   0]
 [  0   1   0 474   4   1   2   5   1]
 [  0   9   4   0 451   2   5  44   3]
 [  4   4  14   0   7 393  27  45   7]
 [  1   8  10   1   1  13 421  34   0]
 [  1   3   8   0  11  13   8 463   5]
 [  0   2   2   0   0   2   0  36 439]]
测试集准确率： 0.873827601608
测试集分类报告：
              precision    recall  f1-score   support

    C000008       0.96      0.87      0.91       509
    C000010       0.87      0.83      0.85       474
    C000013       0.87      0.86      0.86       506
    C000014       1.00      0.97      0.98       488
    C000016       0.90      0.87      0.89       518
    C000020       0.88      0.78      0.83       501
    C000022       0.83      0.86      0.84       489
    C000023       0.69      0.90      0.78       512
    C000024       0.95      0.91      0.93       481

avg / total       0.88      0.87      0.88      4478

训练集分类报告：
          

In [29]:
##########################################################################################################
###################    停用词
# 由于文本在存储为向量空间时，维度比较高。为节省存储空间和提高搜索效率，在文本分类之前会自动
# 过滤掉某些字或词，这些字或词即被称为停用词
# 从这个网址下载停用词表：http://www.threedweb.cn/thread-1294-1-1.html
# 读取停用词列表
# 读取文件 
# 1. 读取停用词表 
# 读取文件

# 定义读取文件函数
def readfile(filename):
    fp = open(filename,'rb')
    contents = fp.read().decode('utf-8')
    fp.close()
    return contents

stop_words_path = 'corpuses_bag/hlt_stop_words.txt'

#  按照行('\r', '\r\n', \n')分隔，返回一个包含各行作为元素的列表，
#  str.splitlines([keepends])如果参数 keepends 为 False，不包含换行符，如果为 True，则保留换行符。
stop_words = readfile(stop_words_path).splitlines()

print(stop_words[10:20])

['*', '一一', '~~~~', '’', '. ', '『', '.一', './', '-- ', '』']


In [49]:
#############################################################################################################
# 朴素贝叶斯实现，朴素贝叶斯分类的流程可以表示如下：
# 第一阶段：训练数据生成训练样本集：TF-IDF
# 第二阶段：对每个类别计算P(yi)
# 第三阶段：对每个特征属性计算所有划分的条件概率
# 第四阶段：对每个类别计算(P(x|yi ) P(yi)
# 第五阶段：以(P(x|yi ) P(yi)的最大项作为x 的所属类别
import numpy as np
import copy 

def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him','my'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not
    return postingList,classVec

class Naive_bayes:
    def __init__(self):
        self.vocabulary = []     # 词典典
        self.vocabulary_length = 0        # 词典词长
        self.tf = 0              # 词频
        self.idf = 0             # 逆文档频率
        self.tf_idf = 0          # 词频-逆文档频率
        self.tdm = []            # 条件概率P(x|yi)
        self.doc_numbers = 0      # 文档长度
        self.labels = []         #文档标签
        self.pcategory = {}      # 每一类概率 P(yi)
     
    # 导入和训练数据集，生成算法必须的参数和数据结构：
    def train_data(self,traindoc,labels):
        self.doc_numbers = len(traindoc)
        tempvocabulary = set()
        [tempvocabulary.add(each_word) for each_doc in traindoc for each_word in each_doc]  
        
        self.vocabulary = list(tempvocabulary)
        
        self.vocabulary_length = len(self.vocabulary)
        
        self._calc_pcategory(labels)
        
        self._calc_word_frequence(traindoc)
        
        self._build_tdm()
        
    # 计算每个类的概率P(yi)
    def _calc_pcategory(self,labels):
        self.labels = labels
        temp_labels = set(self.labels)
        
        for label in temp_labels:
            self.pcategory[label] = float(self.labels.count(label))/float(len(self.labels))
    
    # 计算词频 tf-idf 权重方法
    def _calc_word_frequence(self,traindoc):
        self.tf = np.zeros((self.doc_numbers,self.vocabulary_length))
        self.idf = np.zeros(self.vocabulary_length)
        self.tf_idf = np.zeros((self.doc_numbers,self.vocabulary_length))
        for doc_index in range(self.doc_numbers):
            # 计算词频 tf
            for vocabulary_index in range(self.vocabulary_length):
                self.tf[doc_index,vocabulary_index] = float(traindoc[doc_index].count(self.vocabulary[vocabulary_index]) + 0.01)\
                                                            / float(len(traindoc[doc_index]))
            # 计算逆文档频率
            for each_word in set(traindoc[doc_index]):
                self.idf[self.vocabulary.index(each_word)] += 1
                
        self.idf = np.log(float(self.doc_numbers)/self.idf)
        self.tf_idf = self.tf * self.idf
    
    # 计算条件概率 P(X|yi)
    def _build_tdm(self):
        # 统计条件概率
        self.tdm = np.zeros((len(self.pcategory),self.vocabulary_length))
        # 统计每个分类的词汇总数
        each_category_total_vocabulary = np.zeros((len(self.pcategory),1))
        for doc_index in range(self.doc_numbers):
            # 将同一类别的词向量空间值加总
            self.tdm[self.labels[doc_index]] += self.tf_idf[doc_index]
            # 计算每一类的总词汇数
            each_category_total_vocabulary[self.labels[doc_index]] = np.sum(self.tdm[self.labels[doc_index]])
        # 计算条件概率
        self.tdm = self.tdm / each_category_total_vocabulary
        
    def predict(self,testdoc):
        # 存储测试集词汇出现次数
        self.testset = np.zeros((len(testdoc),self.vocabulary_length))
        self.predict_labels = []
        
        # 计算测试集词汇出现次数
        for test_doc_index in range(len(testdoc)):
            for each_word in testdoc[test_doc_index]:
                if each_word in self.vocabulary:
                    self.testset[test_doc_index,self.vocabulary.index(each_word)] += 1
        
        for test_set_index in range(len(self.testset)):
            predict_value = -float('Inf')
            predict_class = ''
            for tdm_vect,keyclass in zip(self.tdm,self.pcategory):
                temp_value = np.sum(self.testset[test_set_index] * np.log(tdm_vect)) + np.log(self.pcategory[keyclass])
                if temp_value > predict_value:
                    predict_value = copy.deepcopy(temp_value)
                    predict_class = copy.deepcopy(keyclass)
            self.predict_labels.append(predict_class)
        
        return self.predict_labels
                                            

In [50]:
naive_bayes = Naive_bayes()
traindata, labels = loadDataSet()
naive_bayes.train_data(traindata,labels)
print('词典词汇为',naive_bayes.vocabulary)
print('训练类别标签',naive_bayes.labels)
print('第一条文档的词频逆文档频率',naive_bayes.tf_idf[0])
print('条件概率',naive_bayes.tdm)
print('类别概率',naive_bayes.pcategory)

词典词汇为 ['dog', 'worthless', 'has', 'cute', 'please', 'dalmation', 'maybe', 'him', 'licks', 'how', 'ate', 'help', 'buying', 'my', 'steak', 'stop', 'food', 'take', 'stupid', 'love', 'not', 'problems', 'mr', 'flea', 'so', 'to', 'posting', 'quit', 'is', 'I', 'garbage', 'park']
训练类别标签 [0, 1, 0, 1, 0, 1]
第一条文档的词频逆文档频率 [ 0.10001124  0.00156945  0.25852529  0.00255966  0.25852529  0.00255966
  0.00255966  0.00099021  0.00255966  0.00255966  0.00255966  0.25852529
  0.00255966  0.10001124  0.00255966  0.00156945  0.00255966  0.00255966
  0.00099021  0.00255966  0.00255966  0.25852529  0.00255966  0.25852529
  0.00255966  0.00156945  0.00255966  0.00255966  0.00255966  0.00255966
  0.00255966  0.00255966]
条件概率 [[ 0.02265408  0.00089473  0.05855996  0.04587091  0.05855996  0.04587091
   0.00145924  0.03492607  0.04587091  0.04587091  0.04587091  0.05855996
   0.00145924  0.07419642  0.04587091  0.02812562  0.00145924  0.00145924
   0.00056451  0.04587091  0.00145924  0.05855996  0.04587091  0.0585

In [53]:
predict = naive_bayes.predict(traindata)
print(predict)

[0, 1, 0, 1, 0, 1]
