思路：  
#### 1.对文档进行分词   
英文文档常使用的工具是NTLK包。NTLK包中包含了英文的停用词，stop words、分词和标注方法。
import nltk  
word_list = nltk.word_tokenize(text) # 分词  
nltk.pos_tag(word_list) # 标注单词的词性  

中文文档常使用的是jieba包。jieba包中包含了中文的停用词stop words和分词方法。  
import jieba  
word_list = jieba.cut (text) # 中文分词  

#### 2.加载停用词表       
从网上可以下载到中文常用的停用词保存在stop_words.txt中，然后利用Python的文件读取函数读取文件，保存在stop_words数组中。     
stop_words = [line.strip().decode('utf-8') for line in io.open('stop_words.txt').readlines()]  

#### 3.计算单词的权重      
创建TfidfVectorizer类，使用fit_transform( )方法进行拟合，得到TF-IDF的特征空间features，选择出来的这些分词就是特征。  
计算这些特征在文档上的特征向量得到的就是特征空间features。  
#max_df参数用来描述单词在文档中的最高出现率。max_df=0.5，表示一个单词在50%的文档中都出现过了，因此不作为分词统计。  
#一般很少设置min_df，因为它的值通常都会很小。  
tf = TfidfVectorizer(stop_words=stop_words, max_df=0.5)  
features = tf.fit_transform(train_contents)  
tf的属性包括：vocabulary_ (词汇表，字典型)，idf_(返回idf值)，stop_words_（返回停用词表）  

#### 4.生成朴素贝叶斯分类器      
将特征训练集的特征空间train_features，以及训练集对应的分类train_labels传递给贝叶斯分类器clf，就会自动生成一个符合特征空间和对应分类的分类器。 
采用多项式贝叶斯分类器，其中alpha为平滑参数，使用平滑的原因：如果单词在训练样本中没有出现，这个单词的概率计算为0，但这显然是欠拟合，不能认为样本中的没有观察到的事件，就认为整个事件的概率为0。  
当alpha=1时，使用的是Laplace平滑。采用的是+1的方式，即次数+1，来统计没有出现过的单词的概率。当训练样本很大的时候，次数+1得到的概率变化可以忽略不计，同时避免了零概率。缺点就是不能保证足够的精读。    
当0<alpha<1时，使用的是Lidstone平滑。对于Lidstone平滑来说，alpha越小，迭代次数越多，精度越高。我们可以设置alpha为0.001。  
多项式贝叶斯分类器  
from sklearn.naive_bayes import MultinomialNB    
clf = MultinomialNB(alpha=0.001).fit(train_features, train_labels)  

#### 5.使用生成的分类器做预测    
首先要得到测试数据集的特征矩阵。  
方法是用训练集的分词创建一个TfidVectorizer类，使用同样的stop_word和max_df，注意vocabulary来自训练集进行transform_fit拟合模型后的属性。然后使用TfidfVectorizer类对测试集的内容进行fit_transform拟合，得到测试数据集的特征矩阵test_features。  
test_tf = TfidfVectorizer(stop_words=stop_words, max_df=0.5, vocabulary=train_vocabulary)  
test_features=test_tf.fit_transform(test_contents)  
然后用训练好的分类器对新数据做预测。方法是使用predict函数，传入测试集的特征矩阵test_features，得到分类结果predicted_labels。predict函数的作用就是求解所有后验概率并找出最大的那个。  
predicted_labels=clf.predict(test_features)  

#### 6.计算准确率，计算准确率实际上是对分类模型的评估    
可以调用sklearn中的metrics包，使用其中的accuracy_score函数，方便对实际结果和预测的结果进行对比，给出模型的准确率。  
from sklearn import metrics  
print metrics.accuracy_score(test_labels, predicted_labels)  

In [1]:
# !/usr/bin/env python
# -*- coding:utf8 -*-
import os
# 常用的中文分词包jieba；相应地，常用的英文分词包是NTLK
import jieba  
# TfidfVectorizer，用来将原始文本转化为tf-idf的特征矩阵
from sklearn.feature_extraction.text import TfidfVectorizer
# 多项式贝叶斯分类器
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics


# 分类标识字典
labels = {'体育': 0, '女性': 1, '文学': 2, '校园': 3}
# 加载停用词
with open('./data/stop/stopword.txt', 'rb') as f:
    STOP_WORDS = [line.strip() for line in f.readlines()]


    
def load_data(path):
#获取分词结果和对应标签

    documents = []
    labels = []    
    # 循环所有文件并进行分词
    # os.walk(path)得到的是多个元组构成的一个生成器，1个元祖的结构是：root表示路径字符串，dirs表示该路径下的文件夹列表，files表示该路径下的文件列表
    for root, dirs, files in os.walk(path): 
        for file in files:
            # 获取标识（体育、女性、文学、校园），注意，windows获取的新路径，斜杆变成了反斜杠。
            label = root.split('\\')[-1] 
            labels.append(label)
            # 路径+文件名合成新的文件路径
            filename = os.path.join(root, file)
            # 因为字符集问题因此直接用二进制方式读取
            with open(filename, 'rb') as f: 
                content = f.read()
                # 使用jieba工具包进行中文分词，得到的结果是字符串列表
                word_list = list(jieba.cut(content))
                # 将子字符串列表，利用join函数生成一个新的长字符串，其中子字符串以空格隔开；
                # 最后循环得到的字符串列表，每一个元素就是一个文档分词的字符串，每个元素中的单词以逗号隔开
                documents.append(' '.join(word_list))
                
    # 返回所有文档的分词列表，以及每个文档一一对应的标识
    return documents, labels


def train_fun(train_data, train_label, test_data, test_label):
    """
    构造模型并计算测试集准确率，字数限制变量名简写
    :param train_data: 训练集数据
    :param train_label: 训练集标签
    :param test_data: 测试集数据
    :param test_label: 测试集标签
    :return: 测试集准确率
    """
    # 计算训练数据集矩阵，max_df=0.5 表示一个单词在50%的文档中都出现过了，因此不作为分词统计。
    tf = TfidfVectorizer(stop_words=STOP_WORDS, max_df=0.5)
    features = tf.fit_transform(train_data)
    # 训练模型
    clf = MultinomialNB(alpha=0.001).fit(features, train_label)
    
    
    # 计算测试数据集矩阵，使用同样的stop_word和max_df，vocabulary来自训练集进行transform_fit拟合模型后的属性
    test_tf = TfidfVectorizer(stop_words=STOP_WORDS, max_df=0.5, vocabulary=tf.vocabulary_)
    test_features = test_tf.fit_transform(test_data)
    # 模型预测
    predicted_labels = clf.predict(test_features)
    # 获取结果
    x = metrics.accuracy_score(test_label, predicted_labels)
    return x


# 获取训练数据集和测试数据集的分词结果和标签
train_documents, train_labels = load_data('./data/train')
test_documents, test_labels = load_data('./data/test')

# 通过训练数据集、测试数据集的分词结果和标签，得到预测结果打分
score = train_fun(train_documents, train_labels, test_documents, test_labels)
print(score)

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\MQ\AppData\Local\Temp\jieba.cache
Loading model cost 2.656 seconds.
Prefix dict has been built succesfully.


0.91
