# 7.4  Python编程实践———2021年政府工作报告分析

In [None]:
# 本文件为教材《数据分析理论与实践：基于经典算法及Python编程实现》（朝乐门主编，机械工业出版社，2022年）的配套代码。

In [None]:
import jieba 
import jieba.posseg as pseg  #词性标注器

import numpy as np   
import pandas as pd 

import matplotlib as mpl
import matplotlib.pyplot as plt

%matplotlib inline
from wordcloud import WordCloud

## 1. 数据读入

In [None]:
text=open('data\政府工作报告.txt', 'r',encoding='utf-8').read().replace('\n','')



In [None]:
# 显示函数open()的返回值text的前500个字符
text[:500]

## 2.分词处理

<!-- 名词 (1个一类，7个二类，5个三类)
　　名词分为以下子类：
　　　　n 名词
　　　　nr 人名
　　　　nr1 汉语姓氏
　　　　nr2 汉语名字
　　　　nrj 日语人名
　　　　nrf 音译人名
　　　　ns 地名
　　　　nsf 音译地名
　　　　nt 机构团体名
　　　　nz 其它专名
　　　　nl 名词性惯用语
　　　　ng 名词性语素
时间词(1个一类，1个二类)
　　　　t 时间词
　　　　tg 时间词性语素
处所词(1个一类)
　　　　s 处所词
方位词(1个一类)
　　　　f 方位词
动词(1个一类，9个二类)
　　　　v 动词
　　　　vd 副动词
　　　　vn 名动词
　　　　vshi 动词“是”
　　　　vyou 动词“有”
　　　　vf 趋向动词
　　　　vx 形式动词
　　　　vi 不及物动词（内动词）
　　　　vl 动词性惯用语
　　　　vg 动词性语素
形容词(1个一类，4个二类)
　　　　a 形容词
　　　　ad 副形词
　　　　an 名形词
　　　　ag 形容词性语素
　　　　al 形容词性惯用语
区别词(1个一类，2个二类)
　　　　b 区别词
　　　　bl 区别词性惯用语
状态词(1个一类)
　　　　z 状态词
代词(1个一类，4个二类，6个三类)
　　　　r 代词
　　　　rr 人称代词
　　　　rz 指示代词
　　　　rzt 时间指示代词
　　　　rzs 处所指示代词
　　　　rzv 谓词性指示代词
　　　　ry 疑问代词
　　　　ryt 时间疑问代词
　　　　rys 处所疑问代词
　　　　ryv 谓词性疑问代词
　　　　rg 代词性语素
数词(1个一类，1个二类)
　　　　m 数词
　　　　mq 数量词
量词(1个一类，2个二类)
　　　　q 量词
　　　　qv 动量词
　　　　qt 时量词
副词(1个一类)
　　　　d 副词
介词(1个一类，2个二类)
　　　　p 介词
　　　　pba 介词“把”
　　　　pbei 介词“被”
连词(1个一类，1个二类)
　　　　c 连词
　　　　cc 并列连词
助词(1个一类，15个二类)
　　　　u 助词
　　　　uzhe 着
　　　　ule 了 喽
　　　　uguo 过
　　　　ude1 的 底
　　　　ude2 地
　　　　ude3 得
　　　　usuo 所
　　　　udeng 等 等等 云云
　　　　uyy 一样 一般 似的 般
　　　　udh 的话
　　　　uls 来讲 来说 而言 说来
　　　　uzhi 之
　　　　ulian 连 （“连小学生都会”）
叹词(1个一类)
　　　　e 叹词
语气词(1个一类)
　　　　y 语气词(delete yg)
拟声词(1个一类)
　　　　o 拟声词
前缀(1个一类)
　　　　h 前缀
后缀(1个一类)
　　　　k 后缀
字符串(1个一类，2个二类)
　　　　x 字符串
　　　　xx 非语素字
　　　　xu 网址URL
标点符号(1个一类，16个二类)
　　　　w 标点符号
　　　　wkz 左括号，全角：（ 〔 ［ ｛ 《 【 〖 〈 半角：( [ { <
　　　　wky 右括号，全角：） 〕 ］ ｝ 》 】 〗 〉 半角： ) ] { >
　　　　wyz 左引号，全角：“ ‘ 『
　　　　wyy 右引号，全角：” ’ 』
　　　　wj 句号，全角：。
　　　　ww 问号，全角：？ 半角：?
　　　　wt 叹号，全角：！ 半角：!
　　　　wd 逗号，全角：， 半角：,
　　　　wf 分号，全角：； 半角： ;
　　　　wn 顿号，全角：、
　　　　wm 冒号，全角：： 半角： :
　　　　ws 省略号，全角：…… …
　　　　wp 破折号，全角：—— －－ ——－ 半角：--- ----
　　　　wb 百分号千分号，全角：％ ‰ 半角：%
　　　　wh 单位符号，全角：￥ ＄ ￡ ° ℃ 半角：$

作者：象网
链接：https://www.jianshu.com/p/dbaa841fe580
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。 -->

In [None]:
words = pseg.cut(text[:20]) #采用精确模式分词

for word, flag in words:
    print(F'{word}  {flag}')

## 3.自定义词汇

In [None]:
jieba.add_word('不平凡', tag='a')
jieba.add_word('以保促稳', tag='v')
jieba.add_word('稳中求进', tag='v')
jieba.add_word('助企纾困', tag='v')
jieba.add_word('量大面广', tag='a')
jieba.add_word('中小微', tag='a')
jieba.add_word('小微', tag='a')
jieba.add_word('落实', tag='v')
jieba.add_word('普惠', tag='a')
jieba.add_word('稳岗', tag='v')
jieba.add_word('线上', tag='a')
jieba.add_word('放管服', tag='v')
jieba.add_word('一带一路', tag='n')
jieba.add_word('天问一号', tag='n')
jieba.add_word('嫦娥五号', tag='n')
jieba.add_word('因城施策', tag='v')
jieba.add_word('线上', tag='a')
jieba.add_word('不忘初心', tag='v')
jieba.add_word('牢记使命', tag='v')
jieba.add_word('探月', tag='n')
jieba.add_word('可持续', tag='a')
jieba.add_word('中国梦', tag='n')

In [None]:
words = pseg.cut(text[-20:])
    
for word, flag in words:
    print(F'{word}  {flag}')

## 4.词性标注

In [None]:
words = [] #定义空列表
     
year = 2021
year_words = [] #定义空列表

year_words.extend(pseg.cut(text))

for j in range(len(year_words)):
    ls_year_words = list(year_words[j])
    ls_year_words.append(year)
    words.append(ls_year_words)
    
words[0:10]

In [None]:
#将列表words 转换为数据框对象df_words，并设置列名依次为“词汇”“词性”和“年份”。
df_words = pd.DataFrame(words,columns=["词汇","词性","年份"])
df_words

In [None]:
#查看行数 
df_words.index.size

In [None]:
# 增加词性的中文名称
jiebapos = pd.read_excel("data\jiebaPOS.xlsx",header=0)

df_words_renamed = df_words.join(jiebapos.set_index('词性英文名称'), on='词性')

df_words_renamed

In [None]:
#查看“词性中文名称”一列中是否存在缺失值。
df_words_renamed[df_words_renamed.词性中文名称.isnull()]

## 5.停用词处理

In [None]:
#读入停用词表stopwords.txt
stopwords = open(r'data\stopwords.txt').read()
lst_StopWords = stopwords.split("\n")  
lst_StopWords[:10]

In [None]:
#过滤停用词
df_words = df_words_renamed[df_words_renamed.apply(lambda x: x.loc["词汇"] not in lst_StopWords,axis=1)]

df_words[:10]


In [None]:
# 查看停用词处理后的词数
df_words.shape[0]

## 6.词性分布分析

In [None]:
df_WordSpeechDistribution = pd.DataFrame(df_words['词性中文名称'].value_counts(ascending=False))

df_WordSpeechDistribution.head(10)

In [None]:
#修改列名，将原“词性”列的名称改为“频数”
df_WordSpeechDistribution.rename(columns={'词性中文名称':'频数'}
                                 ,inplace=True)

df_WordSpeechDistribution.head(10)

In [None]:
df_WordSpeechDistribution['频数'].sum()
#查看行数

In [None]:
# 增设一个新列——“百分比”。
df_WordSpeechDistribution['百分比'] = df_WordSpeechDistribution['频数'] / df_WordSpeechDistribution['频数'].sum()
df_WordSpeechDistribution.head(10)

In [None]:
#用Pandas 的plot()方法绘制前10 位词性类别分布图。
plt.rcParams["font.family"] = 'simHei'
plt.subplots(figsize=(7,5))
plt.rcParams["font.family"] ='STFangsong'
df_WordSpeechDistribution.iloc[:10]['频数'].plot(kind='barh',color='darkred')
plt.yticks(size=10)
plt.xlabel('频数',size=10)
plt.ylabel('词性',size=10)
plt.title('【政府工作报告】词性分布分析')

## 7.高频词分析

In [None]:
df_words.head(20)

In [None]:
#创建列表columns_slected，并定义6个主要词性列表
columns_slected=['名词','名词计数','动词','动词计数','数词','数词计数','代词','代词计数','副词','副词计数','形容词','形容词计数']

df_Top6 = pd.DataFrame(columns=columns_slected)

#统计6 大词性类别的具体内容，并保存到数据df_Top6 框中。
for i in range(0,12,2):
    df_Top6[columns_slected[i]] = df_words.loc[df_words['词性中文名称']==columns_slected[i]]['词汇'].value_counts().reset_index()['index']
    df_Top6[columns_slected[i+1]] = df_words.loc[df_words['词性中文名称']==columns_slected[i]]['词汇'].value_counts().reset_index()['词汇']

df_Top6.head(10)

## 8. 关键词分析

In [None]:
#按照词的出现频数保存到数据框中
df_AnnualTopWords = pd.DataFrame(columns=[2021])

df_AnnualTopWords[2021] = df_words["词汇"].value_counts().reset_index()["index"]
    
df_AnnualTopWords[0:].head(10)

In [None]:
#调用jieba关键词抽取模块jieba.analyse
import jieba.analyse as analyse

df_annual_keywords = pd.DataFrame(columns=[2021])

# .extract_tags（）函数基于TF-IDF算法抽取关键词
df_annual_keywords[2021]=analyse.extract_tags(' '.join(df_AnnualTopWords[2021].astype('str')))

#查看年度关键词
df_annual_keywords

## 9. 生成词云

In [None]:
#显示字符串myText的前200个字符
myText=' '.join(df_words.词汇)
myText[:200]

In [None]:
font_wc= r'C:\Windows\Fonts\msyhbd.ttc'
word_cloud = WordCloud(font_path=font_wc,  
                       background_color='white') 
word_cloud.generate(myText)
plt.subplots(figsize=(8,5))
plt.imshow(word_cloud)
plt.axis('off')
plt.title('政府工作报告的词云图')
