# 基于潜在狄里克雷分配（LDA）的内容主题挖掘 

![img](./TF-IDF.png)

In [1]:
import os
import tarfile  # tar压缩包库
if not os.path.exists('./news_data'):
    with tarfile.open('./datacode_for_book/chapter8/news_data.tar.gz') as tar:
        print(tar.getnames())
        for name in tar.getmembers():
            tar.extract(name,path='./datacode_for_book/chapter8/')
    

['./news_data/news.sohunews.010806.txt', './news_data/news.sohunews.020806.txt', './news_data/news.sohunews.030806.txt', './news_data/news.sohunews.040806.txt', './news_data/news.sohunews.050806.txt', './news_data/news.sohunews.060806.txt', './news_data/news.sohunews.070806.txt', './news_data/news.sohunews.080806.txt', './news_data/news.sohunews.110806.txt', './news_data/news.sohunews.120806.txt']


In [2]:
from bs4 import BeautifulSoup

# 全角转半角
def str_convert(content):
    '''
    将内容中的全角字符，包含英文字母、数字键、符号等转换为半角字符
    :param content: 要转换的字符串内容
    :return: 转换后的半角字符串
    '''
    new_str = ''
    for each_char in content:  # 循环读取每个字符
        code_num = ord(each_char)  # 读取字符的ASCII值或Unicode值
        if code_num == 12288:  # 全角空格直接转换
            code_num = 32
        elif (code_num >= 65281 and code_num <= 65374):  # 全角字符（除空格）根据关系转化
            code_num -= 65248
        new_str += chr(code_num)
    return new_str

def data_parse(data):
    '''
    从原始文件中解析出文本内容数据
    :param data: 包含代码的原始内容
    :return: 文本中的所有内容，列表型
    '''
    raw_code = BeautifulSoup(data, "lxml")  # 建立BeautifulSoup对象
    content_code = raw_code.find_all('content')  # 从包含文本的代码块中找到content标签
    content_list = []  # 建立空列表，用来存储每个content标签的内容
    for each_content in content_code:  # 循环读出每个content标签
        if len(each_content) > 0:  # 如果content标签的内容不为空
            raw_content = each_content.text  # 获取原始内容字符串
            convert_content = str_convert(raw_content)  # 将全角转换为半角
            content_list.append(convert_content)  # 将content文本内容加入列表
    return content_list

In [3]:
# 汇总所有内容
import os
print ('walk files and get content...')
all_content = []  # 总列表，用于存储所有文件的文本内容
for root, dirs, files in os.walk('./datacode_for_book/chapter8/news_data'):  # 分别读取遍历目录下的根目录、子目录和文件列表
    for file in files:  # 读取每个文件
        file_name = os.path.join(root, file)  # 将目录路径与文件名合并为带有完整路径的文件名
        with open(file_name,'r',encoding='utf-8') as f:  # 以只读方式打开文件
            data = f.read()  # 读取文件内容
        all_content.extend(data_parse(data))  # 从文件内容中获取文本并将结果追加到总列表

walk files and get content...


In [4]:
import jieba.posseg as pseg
# 中文分词
def jieba_cut(text):
    '''
    将输入的文本句子根据词性标注做分词
    :param text: 文本句子，字符串型
    :return: 符合规则的分词结果
    '''
    rule_words = ['z', 'vn', 'v', 't', 'nz', 'nr', 'ns', 'n', 'l', 'i', 'j', 'an',
                  'a']  # 只保留状态词、名动词、动词、时间词、其他名词、人名、地名、名词、习用语、简称略语、成语、形容词、名形词
    words = pseg.cut(text)  # 分词
    seg_list = []  # 列表用于存储每个文件的分词结果
    for word in words:  # 循环得到每个分词
        if word.flag in rule_words:
            seg_list.append(word.word)  # 将分词追加到列表
    return seg_list

In [5]:
# 获取每条内容的分词结果
print ('get word list...')
words_list = []  # 分词列表，用于存储所有文件的分词结果
for each_content in all_content:  # 循环读出每个文本内容
    words_list.append(list(jieba_cut(each_content)))  # 将文件内容的分词结果以列表的形式追加到列表

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\longf\AppData\Local\Temp\jieba.cache


get word list...


Loading model cost 0.778 seconds.
Prefix dict has been built succesfully.


In [6]:
# 文本预处理
from gensim import corpora, models  # gensim的词频统计和主题建模模块
def text_pro(words_list, tfidf_object=None, training=True):
    '''
    gensim主题建模预处理过程，包含分词类别转字典、生成语料库和TF-IDF转换
    :param words_list: 分词列表，列表型
    :param tfidf_object: TF-IDF模型对象，该对象在训练阶段生成
    :param training: 是否训练阶段，用来针对训练和预测两个阶段做预处理
    :return: 如果是训练阶段，返回词典、TF-IDF对象和TF-IDF向量空间数据；如果是预测阶段，返回TF-IDF向量空间数据
    '''
    # 分词列表转字典
    dic = corpora.Dictionary(words_list)  # 将分词列表转换为字典形式
    print(('{:*^60}'.format('token & word mapping review:')))
    for i, w in list(dic.items())[:5]:  # 循环读出字典前5条的每个key和value，对应的是索引值和分词
        print(('token:%s -- word:%s' % (i, w)))
    # 生成语料库
    corpus = []  # 建立一个用于存储语料库的列表
    for words in words_list:  # 读取每个分词列表
        corpus.append(dic.doc2bow(words))  # 将每个分词列表转换为语料库词袋（bag of words）形式的列表
    print(('{:*^60}'.format('bag of words review:')))
    print((corpus[0]))  # 打印输出第一条语料库
    # TF-IDF转换
    if training == True:
        tfidf = models.TfidfModel(corpus)  # 建立TF-IDF模型对象
        corpus_tfidf = tfidf[corpus]  # 得到TF-IDF向量稀疏矩阵
        print(('{:*^60}'.format('TF-IDF model review:')))
        for doc in corpus_tfidf:  # 循环读出每个向量
            print(doc)  # 打印第一条向量
            break  # 跳出循环
        return dic, corpus_tfidf, tfidf
    else:
        return tfidf_object[corpus]



In [7]:
# 建立主题模型
print ('train topic model...')
dic, corpus_tfidf, tfidf = text_pro(words_list, tfidf_object=None, training=True)  # 训练集的文本预处理
num_topics = 3  # 设置主题个数
lda = models.LdaModel(corpus_tfidf, id2word=dic, num_topics=num_topics)  # 通过LDA进行主题建模
print ('{:*^60}'.format('topic model review:'))
for i in range(num_topics):  # 输出每一类主题的结果
    print (lda.print_topic(i))  # 输出对应主题

train topic model...
****************token & word mapping review:****************
token:0 -- word:仇恨
token:1 -- word:侮辱
token:2 -- word:侵害
token:3 -- word:凶杀
token:4 -- word:危害
********************bag of words review:********************
[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 2), (17, 1), (18, 1), (19, 2), (20, 1), (21, 1), (22, 1), (23, 1), (24, 1), (25, 2), (26, 1), (27, 1), (28, 1), (29, 1), (30, 1), (31, 1)]
********************TF-IDF model review:********************
[(0, 0.16762633852828174), (1, 0.16660204914253687), (2, 0.1643986382302142), (3, 0.168282481745965), (4, 0.16197667368712637), (5, 0.14602961468426073), (6, 0.16282320045073903), (7, 0.10154448591145282), (8, 0.12365275311464316), (9, 0.12399080729729553), (10, 0.16703117734810868), (11, 0.163124879458702), (12, 0.16844765669812112), (13, 0.16409043499326897), (14, 0.1662290891913951), (15, 0.1685028172752526), (16, 0

In [8]:
# 新数据集的主题模型预测
print ('topic forecast...')
with open('./datacode_for_book/chapter8/article.txt','r',encoding='utf-8') as f:  # 打开新的文本
    text_new = f.read()  # 读取文本数据
text_content = data_parse(data)  # 解析新的文本
words_list_new = jieba_cut(text_new)  # 将文本转换为分词列表
corpus_tfidf_new = text_pro([words_list_new], tfidf_object=tfidf, training=False)  # 新文本数据集的预处理
corpus_lda_new = lda[corpus_tfidf_new]  # 获取新的分词列表（文档）的主题概率分布
print ('{:*^60}'.format('topic forecast:'))
print (list(corpus_lda_new))

topic forecast...
****************token & word mapping review:****************
token:0 -- word:一鸣惊人
token:1 -- word:三剑客
token:2 -- word:上演
token:3 -- word:不败
token:4 -- word:专业培训
********************bag of words review:********************
[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 3), (6, 1), (7, 1), (8, 1), (9, 1), (10, 2), (11, 1), (12, 1), (13, 1), (14, 1), (15, 2), (16, 2), (17, 1), (18, 1), (19, 3), (20, 1), (21, 1), (22, 1), (23, 1), (24, 1), (25, 1), (26, 1), (27, 2), (28, 3), (29, 2), (30, 1), (31, 1), (32, 1), (33, 1), (34, 1), (35, 2), (36, 1), (37, 2), (38, 1), (39, 1), (40, 2), (41, 2), (42, 1), (43, 1), (44, 1), (45, 1), (46, 1), (47, 1), (48, 1), (49, 1), (50, 2), (51, 1), (52, 1), (53, 1), (54, 2), (55, 3), (56, 1), (57, 1), (58, 1), (59, 2), (60, 1), (61, 1), (62, 2), (63, 1), (64, 1), (65, 1), (66, 1), (67, 1), (68, 1), (69, 1), (70, 2), (71, 1), (72, 1), (73, 4), (74, 1), (75, 1), (76, 1), (77, 7), (78, 5), (79, 2), (80, 1), (81, 1), (82, 1), (83, 1), (84, 1), (85,

# gensim例子

In [1]:
#coding=utf-8
'''
Created on 2017-12-12

gensim API地址:
https://radimrehurek.com/gensim/apiref.html

本篇对gensim讲解分为3大类
1.gensim字典的基本使用，其中和jieba结合使用
2.gensim模型的使用,比如tf-idf模型，lsi模型（用于求文本相似度）等
3.gensim的数据类型和Numpy，Scipy的转换
'''
import jieba
from gensim import corpora, models, similarities
# 一.gensim字典的基本使用
# 加载数据
# 从文件加载
files = []
f1 = open("./gensim1.txt", "r",encoding='utf-8').read()
f2 = open("./gensim2.txt", "r",encoding='utf-8').read()
files.append(f1)
files.append(f2)

# 文件数据切词
text1 = [[word for word in jieba.cut(f1)]]
text2 = [[word for word in jieba.cut(f2)]]
texts = [[word for word in jieba.cut(file)] for file in files]

# 生成字典,prune_at的作用为控制向量的维数，也就是说最多能为2000000个词语进行向量化
# dictionary = corpora.Dictionary(texts,prune_at=2000000)
# 可以这样分开添加使用
dictionary = corpora.Dictionary(text1,prune_at=2000000)
# # 对字典进行扩容
dictionary.add_documents(text2, prune_at=2000000)
# 或者手动设置一次词语，但这个方法一般用来打印所有的词语和编号print dictionary.token2id或者print dictionary.id2token
# dictionary.token2id = {'computer': 0, 'human': 1, 'response': 2, 'survey': 3}
# 合并字典
# dict1 = corpora.Dictionary(some_documents)
# dict2 = corpora.Dictionary(other_documents)
# dict2_to_dict1 = dict1.merge_with(dict2)

'\nCreated on 2017-12-12\n\ngensim API地址:\nhttps://radimrehurek.com/gensim/apiref.html\n\n本篇对gensim讲解分为3大类\n1.gensim字典的基本使用，其中和jieba结合使用\n2.gensim模型的使用,比如tf-idf模型，lsi模型（用于求文本相似度）等\n3.gensim的数据类型和Numpy，Scipy的转换\n'

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\longf\AppData\Local\Temp\jieba.cache
Loading model cost 0.731 seconds.
Prefix dict has been built succesfully.


In [2]:
# 加载数据
wordslist = ["我在玉龙雪山","我喜欢玉龙雪山","我还要去玉龙雪山"] 
# 切词
textTest = [[word for word in jieba.cut(words)] for words in wordslist]
# 生成字典
dictionary = corpora.Dictionary(textTest,prune_at=2000000)
# 保存生成的字典
dictionary.save('./gensim_dict.dict')
#load数据
# dictionary.load('./gensim_dict.dict')

# 遍历字典
dictionary.keys()    #返回所有词语的编号
list(dictionary.values())
dictionary.dfs    #{单词id，在多少文档中出现}
dictionary.get(5) #返回编号对应的词语，例如这里5->特性。
dictionary.compactify() #压缩词语向量，如果使用了filter_extremes，filter_n_most_frequent，filter_tokens等删除词典元素的操作，可以使用该方法进行压缩
dictionary.num_docs #所有文章数目
dictionary.num_nnz #每个文件中不重复词个数的和
dictionary.num_pos #所有词的个数

[0, 1, 2, 3, 4, 5]

['在', '我', '玉龙雪山', '喜欢', '去', '还要']

{1: 3, 0: 1, 2: 3, 3: 1, 5: 1, 4: 1}

'还要'

3

10

10

In [3]:
# 加载数据
wordslist = ["我在玉龙雪山","我喜欢玉龙雪山","我还要去玉龙雪山"] 
# 切词
textTest = [[word for word in jieba.cut(words)] for words in wordslist]
# 生成字典
dictionary = corpora.Dictionary(textTest,prune_at=2000000)
for key in dictionary.keys():
    print(key,dictionary.get(key),dictionary.dfs[key])

0 在 1
1 我 3
2 玉龙雪山 3
3 喜欢 1
4 去 1
5 还要 1


In [4]:
# 加载数据
wordslist = ["我在玉龙雪山","我喜欢玉龙雪山","我还要去玉龙雪山"] 
# 切词
textTest = [[word for word in jieba.cut(words)] for words in wordslist]
# 生成字典
dictionary = corpora.Dictionary(textTest,prune_at=2000000)
dictionary.filter_extremes(no_below=1, no_above=0.5,keep_n=3 ) #过滤文档频率大于no_below，小于no_above*num_docs（3）的词
for key in dictionary.keys():
    print(key,dictionary.get(key),dictionary.dfs[key])

0 在 1
1 喜欢 1
2 去 1


In [5]:
# 加载数据
wordslist = ["我在玉龙雪山","我喜欢玉龙雪山","我还要去玉龙雪山"] 
# 切词
textTest = [[word for word in jieba.cut(words)] for words in wordslist]
# 生成字典
dictionary = corpora.Dictionary(textTest,prune_at=2000000)
dictionary.filter_n_most_frequent(2) #过滤出现次数最多的前两个词语
for key in dictionary.keys():
    print(key,dictionary.get(key),dictionary.dfs[key])

0 在 1
1 喜欢 1
2 去 1
3 还要 1


In [6]:
# 加载数据
wordslist = ["我在玉龙雪山","我喜欢玉龙雪山","我还要去玉龙雪山"] 
# 切词
textTest = [[word for word in jieba.cut(words)] for words in wordslist]
# 生成字典
dictionary = corpora.Dictionary(textTest,prune_at=2000000)
dictionary.filter_tokens(good_ids=[0]) #good_ids=[0,2]表示仅保留编号为0,2的词语，bad_ids=[1,3]表示要删除编号为1,3的词语
for key in dictionary.keys():
    print(key,dictionary.get(key),dictionary.dfs[key])

0 在 1


In [7]:
# 加载数据
wordslist = ["我在玉龙雪山","我喜欢玉龙雪山","我还要去玉龙雪山"] 
# 切词
textTest = [[word for word in jieba.cut(words)] for words in wordslist]
# 生成字典
dictionary = corpora.Dictionary(textTest,prune_at=2000000)
# 如果想要过滤掉出现次数为1的词，可以使用以下代码
ids=[]
for key in dictionary.keys():
    if dictionary.dfs[key]==1:
        ids.append(key)
dictionary.filter_tokens(bad_ids=ids)
print("过滤后:")
for key in dictionary.keys():
    print(key,dictionary.get(key),dictionary.dfs[key])

过滤后:
0 我 3
1 玉龙雪山 3


In [9]:
# 向量化
# 将要向量化的数据,注意test是list<list>
wordstest = "我去玉龙雪山并且喜欢玉龙雪山"
# 切词
test = [word for word in jieba.cut(wordstest)]
test
# 将数据向量化doc2bow(document, allow_update=False, return_missing=False)，其实这一步生成了向量化词袋
corpus,missing = dictionary.doc2bow(test,return_missing=True)
print((corpus,missing))

['我', '去', '玉龙雪山', '并且', '喜欢', '玉龙雪山']

([(0, 1), (1, 2)], {'去': 1, '喜欢': 1, '并且': 1})


In [47]:
# 二.gensim的模型model模块，可以对corpus进行进一步的处理，比如tf-idf模型，lsi模型，lda模型等
import jieba
from gensim import corpora, models, similarities

wordstest_model = ["我去玉龙雪山并且喜欢玉龙雪山玉龙雪山","我在天安门","我在去往玉龙雪山的路上"]
test_model = [[word for word in jieba.cut(words)] for words in wordstest_model]
test_model
dictionary = corpora.Dictionary(test_model) #先建立辞典
list(dictionary.items())
corpus_model= [dictionary.doc2bow(test) for test in test_model] #形成每句/文章的情况
corpus_model

# 目前只是生成了一个模型,并不是将对应的corpus转化后的结果,里面存储有各个单词的词频，文频等信息
tfidf_model = models.TfidfModel(corpus_model)
#使用测试文本来测试模型，提取关键词,test_bow提供当前文本词频，tfidf_model提供idf计算
testword = "我看天安门"
test_bow = dictionary.doc2bow([word for word in jieba.cut(testword)])
test_bow
tfidf_model[test_bow]

tfidf_model.dfs #{单词id，在多少文档中出现}
# # 通过gensim.models.tfidfmodel.df2idf(docfreq, totaldocs, log_base=2.0, add=0.0)方法计算idf值
# # 即idf = add + log(totaldocs / doc_freq),这种算法可能会出现0值
tfidf_model.idfs #{单词id，idf值}，
tfidf_model.id2word #无返回值
tfidf_model.num_docs #所有文章数目
tfidf_model.normalize #是否规范化处理
tfidf_model.num_nnz #每个文件中不重复词个数的和4+4 =8

# # 将文档转化成tf-idf模式表示的向量
# 保存模型和加载模型
# tfidf_model.save('/tmp/foo.tfidf_model',)
# tfidf_model = models.TfidfModel.load('/tmp/foo.tfidf_model',mmap=None)

[['我', '去', '玉龙雪山', '并且', '喜欢', '玉龙雪山', '玉龙雪山'],
 ['我', '在', '天安门'],
 ['我', '在', '去往', '玉龙雪山', '的', '路上']]

[(0, '去'),
 (1, '喜欢'),
 (2, '并且'),
 (3, '我'),
 (4, '玉龙雪山'),
 (5, '在'),
 (6, '天安门'),
 (7, '去往'),
 (8, '的'),
 (9, '路上')]

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 3)],
 [(3, 1), (5, 1), (6, 1)],
 [(3, 1), (4, 1), (5, 1), (7, 1), (8, 1), (9, 1)]]

[(3, 1), (6, 1)]

[(6, 1.0)]

{0: 1, 1: 1, 2: 1, 3: 3, 4: 2, 5: 2, 6: 1, 7: 1, 8: 1, 9: 1}

{0: 1.5849625007211563,
 1: 1.5849625007211563,
 2: 1.5849625007211563,
 3: 0.0,
 4: 0.5849625007211562,
 5: 0.5849625007211562,
 6: 1.5849625007211563,
 7: 1.5849625007211563,
 8: 1.5849625007211563,
 9: 1.5849625007211563}

3

<function gensim.matutils.unitvec(vec, norm='l2', return_norm=False)>

14

In [48]:
lda = models.LdaModel(corpus_model, id2word=dictionary, num_topics=3)  # 通过LDA进行主题建模
lda.print_topics()

[(0,
  '0.289*"玉龙雪山" + 0.131*"去" + 0.125*"我" + 0.125*"并且" + 0.112*"喜欢" + 0.045*"在" + 0.045*"天安门" + 0.043*"路上" + 0.042*"去往" + 0.042*"的"'),
 (1,
  '0.226*"玉龙雪山" + 0.129*"喜欢" + 0.121*"我" + 0.111*"并且" + 0.101*"去" + 0.065*"在" + 0.064*"天安门" + 0.062*"去往" + 0.061*"路上" + 0.061*"的"'),
 (2,
  '0.189*"我" + 0.186*"在" + 0.110*"玉龙雪山" + 0.109*"的" + 0.108*"去往" + 0.107*"路上" + 0.105*"天安门" + 0.029*"去" + 0.029*"喜欢" + 0.028*"并且"')]

In [49]:
testword = "我看天安门"
test_bow = dictionary.doc2bow([word for word in jieba.cut(testword)])
test_bow
lda[tfidf_model[test_bow]]

[(3, 1), (6, 1)]

[(0, 0.16960569), (1, 0.17093119), (2, 0.65946317)]

In [50]:
testword = "我去玉龙雪山并且喜欢玉龙雪山玉龙雪山"
test_bow = dictionary.doc2bow([word for word in jieba.cut(testword)])
test_bow
lda[tfidf_model[test_bow]]

[(0, 1), (1, 1), (2, 1), (3, 1), (4, 3)]

[(0, 0.7592156), (1, 0.12749138), (2, 0.11329304)]

# 基于多项式贝叶斯的增量学习的文本分类

In [57]:
# 全角转半角
def str_convert(content):
    '''
    将内容中的全角字符，包含英文字母、数字键、符号等转换为半角字符
    :param content: 要转换的字符串内容
    :return: 转换后的半角字符串
    '''
    new_str = ''  # 新字符串
    for each_char in content:  # 循环读取每个字符
        code_num = ord(each_char)  # 读取字符的ASCII值或Unicode值
        if code_num == 12288:  # 全角空格直接转换
            code_num = 32
        elif (code_num >= 65281 and code_num <= 65374):  # 全角字符（除空格）根据关系转化
            code_num -= 65248
        new_str += chr(code_num)
    return new_str

# 解析文件内容
def data_parse(data):
    '''
    从原始文件中解析出文本内容和标签数据
    :param data: 包含代码的原始内容
    :return: 以列表形式返回文本中的所有内容和对应标签
    '''
    raw_code = BeautifulSoup(data, "lxml")  # 建立BeautifulSoup对象
    doc_code = raw_code.find_all('doc')  # 从包含文本的代码块中找到doc标签
    content_list = []  # 建立空列表，用来存储每个content标签的内容
    label_list = []  # 建立空列表，用来存储每个content对应的label的内容
    for each_doc in doc_code:  # 循环读出每个doc标签
        if len(each_doc) > 0:  # 如果dco标签的内容不为空
            content_code = each_doc.find('content')  # 从包含文本的代码块中找到doc标签
            raw_content = content_code.text  # 获取原始内容字符串
            convert_content = str_convert(raw_content)  # 将全角转换为半角
            content_list.append(convert_content)  # 将content文本内容加入列表

            label_code = each_doc.find('url')  # 从包含文本的代码块中找到url标签
            label_content = label_code.text  # 获取url信息
            label = re.split('[/|.]', label_content)[2]  # 将URL做分割并提取子域名
            label_list.append(label)  # 将子域名加入列表
    return content_list, label_list


# 交叉检验
def cross_val(model_object, data, label):
    '''
    通过交叉检验计算每次增量学习后的模型得分
    :param model_object: 每次增量学习后的模型对象
    :param data: 训练数据集
    :param label: 训练数据集对应的标签
    :return: 交叉检验得分
    '''
    predict_label = model_object.predict(data)  # 预测测试集标签
    score_tmp = round(accuracy_score(label, list(predict_label)), 4)  # 计算预测准确率
    return score_tmp


# word to vector
def word_to_vector(data):
    '''
    将训练集文本数据转换为稀疏矩阵
    :param data: 输入的文本列表
    :return: 稀疏矩阵
    '''
    model_vector = HashingVectorizer(non_negative=True)  # 建立HashingVectorizer对象
    vector_data = model_vector.fit_transform(data)  # 将输入文本转化为稀疏矩阵
    return vector_data


# label to vecotr
def label_to_vector(label, unique_list):
    '''
    将文本标签转换为向量标签
    :param label: 文本列表
    :unique_list: 唯一值列表
    :return: 向量标签列表
    '''
    for each_index, each_data in enumerate(label):  # 循环读取每个标签的索引及对应值
        label[each_index] = unique_list.index(each_data)  # 将值替换为其索引
    return label

In [2]:
with open('./datacode_for_book/chapter8/test_sets.txt','r',encoding='utf-8') as f:
    test_data = f.read()
test_data[:10]

'<doc>\n<url'

In [17]:
from bs4 import BeautifulSoup
import re
raw_code = BeautifulSoup(test_data, "lxml")  # 建立BeautifulSoup对象
doc_code = raw_code.find_all('doc')  # 从包含文本的代码块中找到doc标签
content_list = []  # 建立空列表，用来存储每个content标签的内容
label_list = []  # 建立空列表，用来存储每个content对应的label的内容
for each_doc in doc_code:  # 循环读出每个doc标签
    if len(each_doc) > 0:  # 如果dco标签的内容不为空
        content_code = each_doc.find('content')  # 从包含文本的代码块中找到doc标签
        raw_content = content_code.text  # 获取原始内容字符串
        convert_content = str_convert(raw_content)  # 将全角转换为半角
        content_list.append(convert_content)  # 将content文本内容加入列表

        label_code = each_doc.find('url')  # 从包含文本的代码块中找到url标签
        label_content = label_code.text  # 获取url信息
        label = re.split('[/|.]', label_content)[2]  # 将URL做分割并提取子域名
        label_list.append(label)  # 将子域名加入列表
content_list[0]
label_list[0]

'1.反对宪法基本原则,危害国家安全、政权稳定统一的;煽动民族仇恨、民族歧视的;\ue40c2.宣扬邪教和封建迷信的;散布谣言,破坏社会稳定的;侮辱诽谤他人,侵害他人合法权益的;\ue40c3.散布淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪的;'

'house'

In [18]:
from sklearn.feature_extraction.text import HashingVectorizer  # 文本转稀疏矩阵

model_vector = HashingVectorizer(non_negative=True)  # 建立HashingVectorizer对象
vector_data = model_vector.fit_transform(content_list)  # 将输入文本转化为稀疏矩阵
vector_data

<1864x1048576 sparse matrix of type '<class 'numpy.float64'>'
	with 119401 stored elements in Compressed Sparse Row format>

In [19]:
label_list[:3]
unique_list = ['sports', 'house', 'news']  # 标签唯一值列表
for each_index, each_data in enumerate(label_list):  # 循环读取每个标签的索引及对应值
    label_list[each_index] = unique_list.index(each_data)  # 将值替换为其索引
label_list[:3]

['house', 'sports', 'house']

[1, 0, 1]

In [80]:
# 预测集
with open('./datacode_for_book/chapter8/article.txt','r',encoding='utf-8') as f:
    new_data = f.read()
    
new_raw_code = BeautifulSoup(new_data, "lxml")  # 建立BeautifulSoup对象
new_doc_code = new_raw_code.find_all('doc')  # 从包含文本的代码块中找到doc标签
new_content_list = []  # 建立空列表，用来存储每个content标签的内容
new_label_list = []  # 建立空列表，用来存储每个content对应的label的内容
for each_doc in new_doc_code:  # 循环读出每个doc标签
    if len(each_doc) > 0:  # 如果dco标签的内容不为空
        content_code = each_doc.find('content')  # 从包含文本的代码块中找到doc标签
        raw_content = content_code.text  # 获取原始内容字符串
        convert_content = str_convert(raw_content)  # 将全角转换为半角
        new_content_list.append(convert_content)  # 将content文本内容加入列表

        label_code = each_doc.find('url')  # 从包含文本的代码块中找到url标签
        label_content = label_code.text  # 获取url信息
        label = re.split('[/|.]', label_content)[2]  # 将URL做分割并提取子域名
        new_label_list.append(label)  # 将子域名加入列表
new_content_list
new_label_list

model_vector = HashingVectorizer(non_negative=True)  # 建立HashingVectorizer对象
new_vector_data = model_vector.fit_transform(new_content_list)  # 将输入文本转化为稀疏矩阵
new_vector_data

unique_list = ['sports', 'house', 'news']  # 标签唯一值列表
for each_index, each_data in enumerate(new_label_list):  # 循环读取每个标签的索引及对应值
    new_label_list[each_index] = unique_list.index(each_data)  # 将值替换为其索引
new_label_list

['焦点图\ue40cAC米兰马可-波罗训练基地,身着红黑箭条衫挥汗奔跑的7号是谁?是一鸣惊人的帕托?还是舍瓦王者归来?是你!来自中国的你!足球朝圣2008,邀你与奥运同行,成为红黑军团的一员,体验顶级职业球员生活。11名天才足球少年将免费受训意大利,圆梦欧洲足球!\ue40c全国范围内8-16岁有足球基础的少年均可报名参加5月和7月在京举行的选拔比赛,由资深教练和前国脚组成的评审团将最终选出11名足球朝圣者,接受专业培训并与当地青少年切磋技艺,参观圣西罗球场,亲临现场观看比赛。[活动简介]\ue40c培训教练\ue40cAC米兰的教练组将对我们选拔的每个学员进行初步评测,并定下相应的训练计划。\ue40c负责训练评测的教练都是具有意大利足协培训认证的AC米兰著名教练,这其中包括球员时期鼎鼎有名的毛利齐奥-冈茨、菲里波-加利。在赛季期间,AC米兰俱乐部将安排学员们参观圣西罗球场。表现突出的球员还将有机会获邀前往米兰内洛基地,与众多球星亲密接触……[ 点击查看详细]\ue40c毛利齐奥-冈茨:1990年代意甲著名前锋,曾效力于亚特兰大,国际米兰,佛罗伦萨,摩德纳和安科纳等俱乐部;曾于1997/98至1999/2000赛季效力AC Milan,并获得意甲冠军...[查看详细]\ue40c菲里波-加利:1990年代AC Milan主力后卫,与荷兰三剑客共创56场联赛不败;为AC Milan效力超过12个赛季,5夺意甲冠军,3夺欧洲冠军杯...[查看详细]\ue40c皮耶利诺-普拉蒂:1970年代AC Milan主力前锋,曾在1969年冠军杯决赛对阿贾克斯的比赛中上演帽子戏法;1967年意甲最佳射手;代表意大利国家队获得1968年欧锦赛冠军...[查看详细]\ue40c训练基地\ue40c青训球星\ue40c米兰青年队拥有意大利最为出色的青训体系,以擅长培养领袖球员而出名,像巴雷西、马尔蒂尼,现役球员中,奥多、托尔多、科科、多纳代尔等球星,也曾是米兰青训体系培育出的球星。\ue40c在这其中,巴雷西曾被视为世界上最好的自由人,米兰红黑的象征,他退役后,6号球衣也随之被米兰封存。巴雷西后,马尔蒂尼成为米兰当仁不让的灵魂,2007/08赛季将是这位伟大的队长效力红黑军团的最后一个赛季……[ 点击查看详细]\ue40c保罗-马尔蒂尼,17岁起从青年队提拔至一队,1988年的欧洲锦

['sports']

<1x1048576 sparse matrix of type '<class 'numpy.float64'>'
	with 102 stored elements in Compressed Sparse Row format>

[0]

In [81]:
# 增量学习
import os
from sklearn.naive_bayes import MultinomialNB  # 贝叶斯分类器
from sklearn.metrics import accuracy_score  # 分类评估指标
score_list = []
pre_list = []
model_nb = MultinomialNB()  # 建立MultinomialNB模型对象

print ('{:*^60}'.format('incremental learning...'))
for root, dirs, files in os.walk('./datacode_for_book/chapter8/news_data'):  # 分别读取遍历目录下的根目录、子目录和文件列表
    for file in files:  # 读取每个文件
        file_name = os.path.join(root, file)  # 将目录路径与文件名合并为带有完整路径的文件名
        print ('training file: %s' % file)
        # 增量训练
        with open(file_name,'r',encoding='utf-8') as f:  # 以只读方式打开文件
            data = f.read()  # 读取文件内容
        content, label = data_parse(data)  # 解析文本内容和标签
        data_vector = word_to_vector(content)  # 将文本内容向量化
        label_vecotr = label_to_vector(label, unique_list)  # 将标签内容向量化
        model_nb.partial_fit(data_vector, label_vecotr, classes=np.array([0, 1, 2]))  # 增量学习
        # 交叉检验
        score_list.append(cross_val(model_nb, vector_data, label_list))  # 将交叉检验结果存入列表
        # 增量预测
        predict_y = model_nb.predict(new_vector_data)  # 预测内容标签
        pre_list.append(predict_y.tolist())

print ('{:*^60}'.format('cross validation score:'))
print (score_list)  # 打印输出每次交叉检验得分
print ('{:*^60}'.format('predicted labels:'))
print (pre_list)  # 打印输出每次预测标签索引值
print ('{:*^60}'.format('true labels:'))
print (new_label_list)  # 打印输出正确的标签值


******************incremental learning...*******************
training file: news.sohunews.010806.txt


MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

training file: news.sohunews.020806.txt


MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

training file: news.sohunews.030806.txt


MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

training file: news.sohunews.040806.txt


MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

training file: news.sohunews.050806.txt


MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

training file: news.sohunews.060806.txt


MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

training file: news.sohunews.070806.txt


MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

training file: news.sohunews.080806.txt


MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

training file: news.sohunews.110806.txt


MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

training file: news.sohunews.120806.txt


MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

******************cross validation score:*******************
[0.8707, 0.9013, 0.9067, 0.9088, 0.9099, 0.912, 0.9147, 0.9142, 0.9147, 0.9158]
*********************predicted labels:**********************
[[0], [0], [0], [0], [0], [0], [0], [0], [0], [0]]
************************true labels:************************
[0]
