## 5分钟用Python生成极品家丁全本小说词云

使用如下Python库：
1. jieba：中文分词库，自然语言处理必备，https://github.com/fxsjy/jieba
2. imageio：读取图片，或者写出图片，http://imageio.github.io
3. wordcloud：词云生成，可以设定背景图片，https://github.com/amueller/word_cloud

In [1]:
import jieba
import imageio
import wordcloud

## 1、将《极品家丁》小说文字分词

In [2]:
fin = open('jipinjiading.txt', encoding='utf-8')
# 读取txt全部文字
txt = fin.read()

In [3]:
txt[:100]

'\ufeff《极品家丁》 / 作者：禹岩\n简介：【本书阅读方法】参考《唐伯虎点秋香》！年轻的销售经理，因为一次意外经历，来到了一个完全不同的世界，成为萧家大宅里一名光荣的——家丁!暮晓春来迟先于百花知岁岁种桃树'

In [4]:
# 使用jieba分词，精确模式（还有全模式和搜索引擎模式）
wordlist = jieba.lcut(txt)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.703 seconds.
Prefix dict has been built succesfully.


In [5]:
type(wordlist)

list

In [6]:
wordlist[:10]

['\ufeff', '《', '极品', '家丁', '》', ' ', '/', ' ', '作者', '：']

In [7]:
string = " ".join(wordlist)

## 2、读取图片-用于词云的背景图

In [8]:
image = imageio.imread("python-logo.jpg")

In [9]:
# 该图片是600行、600列的尺寸，每个相似点由3个数字组成
image.shape

(600, 600, 3)

<div style="text-align:center">Python-logo图片</div>
<img style="width:200px;height:200px" src="python-logo.jpg"/>

In [10]:
# 这三个数字组合起来代表一个颜色
# 比如255、255、255是白色的
image[0][0]

Array([255, 255, 255], dtype=uint8)

In [11]:
# 图片顶部，中间的位置
image[200][300]

Array([ 55, 113, 163], dtype=uint8)

<div style="text-align:center">像素图片：</div>
<div style="text-align:center">在这个网站转换：https://www.sioe.cn/yingyong/yanse-rgb-16/</div>
<img src="python-logo-pix01.png"/>

In [12]:
# 图片底部，中间的位置
image[500][200]

Array([255, 213,  69], dtype=uint8)

<div style="text-align:center">像素图片：</div>
<div style="text-align:center">在这个网站转换：https://www.sioe.cn/yingyong/yanse-rgb-16/</div>
<img src="python-logo-pix02.png"/>

## 3、生成词云图片

In [13]:
wc = wordcloud.WordCloud(width=600,
                        height=600,
                        background_color='white',
                        # 指定字体路径，中文需要指定
                        font_path='msyh.ttc',
                        # mask 指定词云形状图片，默认为矩形
                        mask=image,
                        # 提高清晰度
                        scale=15)

In [14]:
# 将string变量传入wc的generate()方法
# 给词云输入文字
wc.generate(string)

<wordcloud.wordcloud.WordCloud at 0x186068755c8>

In [15]:
# 将词云图片导出到当前文件夹
wc.to_file('result_wordcloud.png')

<wordcloud.wordcloud.WordCloud at 0x186068755c8>

<img src="result_wordcloud.png" style="width:400px;height:400px">