<div align="center"><h1> 第8章&nbsp;&nbsp;自然语言理解和文本挖掘</h1></div>

# 一、说明

- 描述：本章源代码。
- 作者：方伟（FangWei）
- 程序开发环境：Windows DEV Channel , Build 22533.1001 64位
- Python版本：64位 3.10.1

# 二、程序

## 8.1 使用结巴分词提取用户评论关键字

In [1]:
# 导入库
import pandas as pd
from jieba.analyse import extract_tags

In [2]:
# 读取数据
with open('user_comment.txt',encoding='utf8') as fn:
    comment_data = fn.read()
print(comment_data[:50])

good
python处理大数据确实有优势，开始学习python了。
案例讲解
帮朋友买的，希望能派


In [3]:
# 提取评论关键字
tags_pairs = extract_tags(comment_data, topK=50, withWeight=True, allowPOS=[ 'n', 'v', 'a'])  
print(tags_pairs[:10])

Building prefix dict from the default dictionary ...
Loading model from cache D:\system_backup\Temp\jieba.cache
Loading model cost 0.780 seconds.
Prefix dict has been built succesfully.


[('不错', 0.4611682047852686), ('质量', 0.1506516876), ('学习', 0.15018509056091855), ('内容', 0.1423718093568111), ('购买', 0.13940803933837087), ('值得', 0.12514956604512997), ('好书', 0.1088390687781629), ('正版', 0.10818894374870017), ('推荐', 0.10572970067705373), ('物流', 0.09871223606294627)]


In [4]:
# 关键字写文件
with open('user_comment_tags.txt','w+') as fn:
    for tag,weight in tags_pairs:
        fn.write(tag)
        fn.write(':')
        fn.write(str(weight))
        fn.write('\n')

In [5]:
# 关键字数据框
keywords_pd = pd.DataFrame(tags_pairs,columns=['keyword','weight'])
print(keywords_pd.head())

  keyword    weight
0      不错  0.461168
1      质量  0.150652
2      学习  0.150185
3      内容  0.142372
4      购买  0.139408


In [6]:
# 展示词云结果
from pyecharts import options as opts
from pyecharts.charts import WordCloud
wc = WordCloud()
wc.add("", [list(i) for i in tags_pairs], word_size_range=[15, 300])
wc.set_global_opts(title_opts=opts.TitleOpts(title="词云关键字展示"))
wc.render_notebook()

## 8.2 使用LDA主题模型做商品描述聚类

In [7]:
import jieba.posseg as pseg
from gensim import corpora
from gensim.sklearn_api import LdaTransformer,TfIdfTransformer,Text2BowTransformer
from sklearn.pipeline import Pipeline

In [8]:
# 分词功能
def word_split(text):
    words = pseg.cut(text)
    return [word.word for word in words if word.flag == 'n']

In [9]:
# 读取数据
with open('news.csv',encoding='utf8') as fn:
    news_data = fn.readlines()
print(news_data[0][:100])

昨天清晨,购得首张单程票卡的韩先生通过自动检票机。本报记者 周民 摄地铁进入自动售检票时代首张单程票卡由内蒙古乘客购得 今日4000引导人员“助刷”本报讯 昨天清晨5时01分,随着地铁西直门站的


In [10]:
# 构建词库
words_list = [word_split(each_data) for each_data in news_data]
dic = corpora.Dictionary(words_list) 

In [11]:
# 构建pipe模型
model_pipes = Pipeline(steps=[('text2bow',Text2BowTransformer(tokenizer=word_split)),
                             ('tfidf',TfIdfTransformer()),
                             ('lda',LdaTransformer(num_topics=3, id2word=dic, random_state=3))])
result = model_pipes.fit_transform(news_data)

In [12]:
# 查看数据所属各组的概率
print(result[:3])

[[0.05532361 0.89083403 0.05384237]
 [0.04731178 0.04766071 0.9050275 ]
 [0.07582398 0.8495183  0.07465773]]


In [13]:
# 为了展示，将中间结果拿出来
corpus = Text2BowTransformer(tokenizer=word_split).fit_transform(news_data)
corpus_tfidf = TfIdfTransformer().fit_transform(corpus)

In [14]:
# 查看分组TOP权重关键字
topic_kw = model_pipes.steps[2][1].gensim_model.top_topics(corpus_tfidf,topn=10)
print(topic_kw)

[([(0.0013826446, '小区'), (0.001379973, '女排'), (0.00089395104, '世界'), (0.00086274336, '编号'), (0.0008516237, '时间'), (0.00081707275, '大奖赛'), (0.0007950419, '体育讯'), (0.0007267941, '公司'), (0.0007040468, '人'), (0.000686727, '平')], -5.885689820103438), ([(0.0015513123, '图'), (0.0010907127, '时间'), (0.0010224294, '体育讯'), (0.0009499508, '小区'), (0.00092686794, '编号'), (0.0009198478, '精彩'), (0.00081352255, '面积'), (0.00080829725, '球员'), (0.0007862203, '精彩图片'), (0.00078179734, '人')], -8.139738142311833), ([(0.0013802531, '民族'), (0.0010815584, '灾区'), (0.0010510021, '人'), (0.0009867399, '地震'), (0.00089058396, '男排'), (0.0008505483, '时间'), (0.0008157716, '传情'), (0.0008147721, '记者'), (0.0008002909, '魔鬼'), (0.00079953944, '瞎说')], -9.592828226511234)]


In [15]:
# 预测新数据的类别
with open('article.txt',encoding='utf8') as fn:
    new_data = fn.readlines()
model_pipes.transform(new_data)

array([[0.0749843 , 0.8669579 , 0.05805784]], dtype=float32)

## 8.3 使用随机森林预测用户评分倾向性分类

In [16]:
# 导入库
import jieba.posseg as pseg
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer  # 基于TF-IDF的词频转向量库
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

In [17]:
# 分词功能
def word_split(text):
    rule_words = ['ad', 'ag', 'an','a','i','j','l','v','vd','vg','vn']
    words = pseg.cut(text)
    return [word.word for word in words if word.flag in rule_words]

In [18]:
# 读取数据
raw_data = pd.read_csv('book_comment.txt',sep='\t')
print(raw_data.head(3))

                                                  评论  得分
0       “史诗般”？“回归人性”？ 不就是一个15岁女孩的恋爱故事吗！？在晋江上估计都入不了V！   1
1  我真的不知道我为什么会喜欢这本书，我也不知道他想要告诉我什么，是什么类型的书，可是就是一口气...   5
2                    跟风读的一本书，读了三分之二就不读下去了，有点言情小说的感觉。   2


In [19]:
# 读取停用词
with open('stop_words.txt',encoding='utf8') as fn:
    stop_words = fn.readlines()

In [20]:
# 拆分训练集和测试集
x,y = raw_data['评论'],raw_data['得分']
num = int(len(x)*0.7)
x_train,x_test = x[:num],x[num:]
y_train, y_test = y[:num],y[num:]

In [21]:
# 构建pipeline模型
model_pipe = Pipeline([('TfidfVectorizer',TfidfVectorizer(tokenizer=word_split,stop_words=stop_words)),('rf',RandomForestClassifier(class_weight ='balanced'))])

In [22]:
# 模型训练
model_pipe.fit(x_train,y_train) 
pre_y=model_pipe.predict(x_test)



In [23]:
# 模型评估
columns = [str(i) for i in model_pipe.classes_]
print(classification_report(y_test, pre_y,target_names=columns))

              precision    recall  f1-score   support

           1       0.25      0.10      0.14        10
           2       0.29      0.33      0.31         6
           3       0.60      0.39      0.47        23
           4       0.23      0.60      0.33        10
           5       0.00      0.00      0.00         6

   micro avg       0.33      0.33      0.33        55
   macro avg       0.27      0.28      0.25        55
weighted avg       0.37      0.33      0.32        55



In [24]:
# 预测新数据
with open('book_comment_new.txt',encoding='utf8') as fn:
    data_new = fn.readlines()
pre_result = model_pipe.predict(data_new)
for each_str,each_pre in zip(data_new,pre_result):
    print(f'{each_str} → {each_pre}'.replace('\n',''))

"故事情节跌宕起伏，引人入胜！ → 4
情节觉得很好 → 3
"开头写的引人入胜，本以为会是很有人生哲理的内容，越到后面剧情有点狗血。但是还是完整快速的看完的书。 → 4
很久以前飞机上看完的" → 4
很一般 → 1


## 8.4 使用TextRank自动生成文章摘要和关键短语

In [25]:
from textrank4zh import TextRank4Keyword, TextRank4Sentence

In [26]:
with open('text.txt',encoding='utf8') as fn:
    text = fn.read()

In [27]:
# 提取关键短语
tr4w = TextRank4Keyword()
tr4w.analyze(text=text, window=3)
for phrase in tr4w.get_keyphrases(keywords_num=36, min_occur_num= 2):
    print(phrase)

数据化运营
做数据分析
数据分析工作


In [28]:
# 提取摘要
tr4s = TextRank4Sentence()
tr4s.analyze(text=text)
for item in tr4s.get_key_sentences(num=3,sentence_min_len=10):
    print(item.index, item.weight, item.sentence)  # index是语句在文本中位置，weight是权重

4 0.12395878528020926 本书作者认为本书的核心立意在于如何做数据分析以及应用到数据化运营落地，而Python则是应用的利器，因此行文间必须贯穿着如何做数据分析这条主线，而那些与数据分析和数据化运营分析不相关或相关性低的知识，不应该呈现在本书中或出于内容完整性和连贯性需求应一笔带过
5 0.11502316806426781 因此，本书内容围绕数据分析工作展开，整体思路上除了第一章准备工作和第二章Python基础知识介绍外，后面的内容包括数据读写、数据预处理、数据可视化、数据分析和建模、数据分析结果交付和部署等，这些构成了数据分析工作的完整流程
10 0.11255526122948391 本书的作者还希望，除了让读者对每个知识知其然并知其所以然外，还会在每章必要环节介绍跟特定内容相关的扩展知识点，为读者提供可以去探索和学习的更多方向和更深层次内容，这才是超出预期的价值所在
