# wordcloud库
词云库：根据文本中词语出现的频率绘制词云

`conda install wordcloud`

wordcloud.WordCloud()：代表一个文本对应的词云

可设置：颜色、形状

In [15]:
import wordcloud
w = wordcloud.WordCloud()   #词云对象
# width：宽度，默认400像素
# height：高度，默认200像素
# min_font_size：最小字号，默认4号
# max_font_size：最大字号，默认根据高度自动调节
# font_step: 字号改变的间隔
# font_path：指定字体文件的路径
# max_words: 词云显示的最大词数
# stopwords: 词云的排除列表，集合的形式
# mask：指定词云形状
# background_color：词云的背景颜色

In [16]:
#向词云对象w中加载文本
w.generate("Python and wordcloud")

<wordcloud.wordcloud.WordCloud at 0x7f91a2768b50>

In [17]:
#将词云对象保存为图片：png或者jpg
w.to_file('outfile.png')

<wordcloud.wordcloud.WordCloud at 0x7f91a2768b50>

### 绘制词云的步骤
1. 配置词云对象参数
2. 加载词云文本
 - 分割：按空格分割
 - 统计：单词统计并过滤
 - 字体：根据统计配置字体
 - 布局：颜色/尺寸
3. 输出词云文件

## 中文词云
由于wordcloud默认是按空格进行分隔，所以对中文来说的话，需要手动先进行分词

In [11]:
import jieba
import wordcloud

In [18]:
text = "程序语言是计算机能够理解的语言"
txt = " ".join(jieba.lcut(text))
txt

'程序语言 是 计算机 能够 理解 的 语言'

In [24]:
#--必须指定字体，否则图片不能正常显示
w = wordcloud.WordCloud(width = 1000, height = 700, font_path = 'Microsoft Yahei.ttf')    

In [25]:
w.generate(txt)  #jieba分词后，用空格连接为一个长字符串

<wordcloud.wordcloud.WordCloud at 0x7f91a848a940>

In [26]:
w.to_file('outfile2.png')

<wordcloud.wordcloud.WordCloud at 0x7f91a848a940>

## 例：政府工作报告

原文地址：
- https://python123.io/resources/pye/新时代中国特色社会主义.txt
- https://python123.io/resources/pye/关于实施乡村振兴战略的意见.txt

步骤：
1. 读取文件、分词整理
2. 输出词云
3. 优化迭代


In [27]:
import jieba
import wordcloud

# 1.读取文本的内容
f = open("新时代中国特色社会主义.txt", 'r', encoding = 'utf-8')
t = f.read()
f.close()

# 2.中文分词
ls = jieba.lcut(t)
txt = " ".join(ls)

# 3.生成词云对象
w = wordcloud.WordCloud(width = 1000, height = 700, 
                        font_path = 'Microsoft Yahei.ttf',
                        background_color = 'white')    
w.generate(txt) 

# 4.保存图片
w.to_file('社会主义.png')

<wordcloud.wordcloud.WordCloud at 0x7f91a27683d0>

In [34]:
# 优化单词过滤
w = wordcloud.WordCloud(width = 1000, height = 700, 
                        font_path = 'Microsoft Yahei.ttf',
                        background_color = 'white',
                        stopwords = {'的','是','和','在','以'}   #排除单词
                       )    
w.generate(txt) 

# 4.保存图片
w.to_file('社会主义.png')

<wordcloud.wordcloud.WordCloud at 0x7f91a8be7cd0>

In [27]:
" ".join(jieba.lcut(text))

'程序语言 是 计算机 能够 理解 的 语言'