在上节课我们已经完成了前三个步骤，今天我们要完成这个项目生成词云图。

1. 向网页发送请求，获取网页源代码;
2. 解析源代码，提取想要的数据；
3. 使用 jieba 模块将语句切分成词；
4. 运用字典的知识进行词频统计；
5. 将词语生成词云图。

上节课，我们使用 jieba 模块将电影短评拆分成词。

由于 jieba.lcut() 函数返回的结果是列表，在这里，有多少条电影短评，就有多少个列表生成。

为了方便，使用列表合并的方法 ，列表 wordList 与列表 words 用 + 运算符合并，将多个列表合并成一个列表。

最后，使用 词频统计 的方法，对词语出现的次数进行统计，并剔除了长度等于1的一些标点符号和语气词。

统计好词频后，接下来就到了最后一个环节——生成词云图。

词云图是文本数据的视觉表示，由词汇组成类似云的彩色图形，用于展示大量文本数据。

词云图是对文字中出现频率较高的“关键词”的视觉上的突出，过滤掉大量的文本信息，使浏览者只要一眼扫过就可以领略主旨。

# 生成词云图

如何生成词云图呢？在这里我们使用 pyecharts。

pyecharts 是一个用于生成 echarts 图表的模块。echarts 是百度开源的一个数据可视化模块，使用 pyechart 模块可以在 python 中生成 echarts 数据图。

pyecharts 不是一个内置模块，所以在使用前要先通过代码 `pip install pyecharts==1.8.1 `在终端中进行安装。

如果在自己电脑上安装不上或安装缓慢，可在命令后添加`-i https://pypi.tuna.tsinghua.edu.cn/simple/ `进行加速。

pyecharts 模块中的 WordCloud 可用于生成词云图。

接下来，需要从 pyecharts 模块中导入 WordCloud。

想要生成词云图，我们要学习三个有关词云的代码。      
WordCloud()       
add()       
render()

# WordCloud()

利用 pyecharts 模块中可以绘制多种图表。

pyecharts 模块是基于 echarts 模块构建的，所以我们要使用 pyecharts.charts 中的 WordCloud 来绘制词云图。

示例使用 from...import 从 pyecharts.charts 中导入 WordCloud 。

## 创建对象         

导入 WordCloud() 类后，需要调用类中的方法，接下来，使用 WordCloud() 函数创建一个对象。

注意：W和C要大写哦。

## 赋值变量      

将创建 WordCloud 对象赋值给变量 wd，就可以调用变量 wd，用于设置词云图中的其他参数。

让我们先在代码中，创建一个 WordCloud 对象吧。

首先要从 pyecharts.charts 模块中导入 WordCloud 模块。

接着使用 WordCloud() 函数，创建 WordCloud 对象，并赋值给 wordCloud。

In [1]:
# 使用import导入requests模块
import requests

# 从bs4中导入BeautifulSoup
from bs4 import BeautifulSoup

# 使用import导入jieba模块
import jieba

# TODO 从pyecharts.charts中导入WordCloud模块
from pyecharts.charts import WordCloud

# 将豆瓣电影评论URL地址，赋值给变量url
url = "https://movie.douban.com/subject/2129039/comments?sort=new_score&status=P"

# 将User-Agent以字典键对形式赋值给headers
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}

# 将 url 和 headers参数，添加进requests.get()中，将字典headers传递headers参数，给赋值给response
response = requests.get(url, headers=headers)

# 将服务器响应内容转换为字符串形式，赋值给html
html = response.text

# 使用BeautifulSoup()传入变量html和解析器lxml，赋值给soup
soup = BeautifulSoup(html, "lxml")

# 使用find_all()查询soup中class="short"的节点，赋值给content_all
content_all = soup.find_all(class_="short")

# 创建一个空白列表wordList
wordList = []

# for循环遍历content_all
for content in content_all:

    # 获取每个节点中标签内容，赋值给contentString
    contentString = content.string

    # 使用jieba.lcut()将contentString进行分词，赋值给words
    words = jieba.lcut(contentString)

    # 将列表wordList和列表words进行累加
    wordList = wordList + words

# 创建一个空白字典wordDict
wordDict = {}

# for循环遍历列表wordList
for word in wordList:
    
    # 如果列表中的元素长度大于1
    if len(word) > 1:
        
        # 如果该元素不存在字典的键中
        if word not in wordDict.keys():
            
            # 将字典中键所对应的值设置为1
            wordDict[word] = 1
        
        # 否则
        else:

            # 将字典中键所对应的值累加
            wordDict[word] = wordDict[word] + 1

# TODO 创建WordCloud对象，赋值给wordCloud
wordCloud = WordCloud()
# TODO 使用print输出 success
print("success")

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/4z/x134c5vs38g4pdlhhy4vgmhc0000gn/T/jieba.cache
Loading model cost 1.198 seconds.
Prefix dict has been built successfully.


success


  super().__init__(init_opts=init_opts)


# 添加参数

调用 add() 函数可以设置词云图的内容，例如：展示文字，字体大小等。

## series_name     

系列名称（series_name）指的是数据的统称，例如：降水量、蒸发量。

series_name 为必须参数，就是必须传入，词云图中展示的是文字内容，在这里 series_name 可以设置为空，即 series_name=""。

注意：为空时，双引号中间没有空格。

## data_pair

data_pair 参数是指传入词云图中的数据，它的值的格式为：
`[(word1, count1), (word2, count2)]`

这是一个由元组组成的列表，列表中的每项都是元组。

word 是词云图中的文字；count 是文字的词频。

## items()      

在这里，我们可以使用 items() 函数，将字典 wordDict中的每对 key 和 value 组成一个元组，并把这些元组放在列表中返回。

例如：对wordDict使用items()，wordDict.items(), 就能获得列表` [('君问', 150), ('归期', 130), ('未有期', 120)] `。

items() 函数的返回结果，刚好符合 data_pair 参数的要求，即 data_pair=wordDict.items() 。

## word_size_range         

是用来设置词云图中字体大小范围，它的数据类型是列表。

word_size_range 的默认值为`[12, 60]`，12代表着词云图中频率最低的词语大小，60代表着词云图中频率最高的词语大小。

在这里，我们可以修改参数值设置为`[20, 80]`，即 word_size_range = `[20,80]` 。

# 保存文件

## render()      

render() 函数默认将词云图以 html 格式存储在代码所在文件夹内。

在本地使用VsCode运行代码后，代码左侧文件目录就能看到生成的html文件，或者以文件名进行搜索。

## 调用函数      

使用 wd 调用函数 render() 就表示，现在需要对wd文件进行保存操作。

## 文件名称       

render() 中要传入字符串，即以双引号包围。

字符串中要设置 html 格式的文件，即 文件名称+.+html ，例如：rain.html。

在目录中找到这个 html 文件，点击它，就可以在浏览器中看到生成的词云图啦～

在学习了 WordCloud 相关的函数后，让我们在程序中编写代码吧～

使用 WordCloud() 函数创建一个WordCloud对象，赋值给变量 wordCloud。

调用 add() 函数设置 series_name的值为空；data_pair 的值为字典 wordDict 转换成由元组组成的列表；将 word_size_range 的值设置为 [20, 80]。

接着，使用 wordCloud.render() 函数html存储文件，设置文件名为wordcloud.html。

In [6]:
# 使用import导入requests模块
import requests

# 从bs4中导入BeautifulSoup
from bs4 import BeautifulSoup

# 使用import导入jieba模块
import jieba

# 从pyecharts.charts中导入WordCloud模块
from pyecharts.charts import WordCloud

# 将豆瓣电影评论URL地址，赋值给变量url
url = "https://movie.douban.com/subject/2129039/comments?sort=new_score&status=P"

# 将User-Agent以字典键对形式赋值给headers
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}

# 将 url 和 headers参数，添加进requests.get()中，将字典headers传递headers参数，给赋值给response
response = requests.get(url, headers=headers)

# 将服务器响应内容转换为字符串形式，赋值给html
html = response.text

# 使用BeautifulSoup()传入变量html和解析器lxml，赋值给soup
soup = BeautifulSoup(html, "lxml")

# 使用find_all()查询soup中class="short"的节点，赋值给content_all
content_all = soup.find_all(class_="short")

# 创建一个空白列表wordList
wordList = []

# for循环遍历content_all
for content in content_all:

    # 获取每个节点中标签内容，赋值给contentString
    contentString = content.string

    # 使用jieba.lcut()将contentString进行分词，赋值给words
    words = jieba.lcut(contentString)

    # 将列表wordList和列表words进行累加
    wordList = wordList + words

# 创建一个空白字典wordDict
wordDict = {}

# for循环遍历列表wordList
for word in wordList:
    
    # 如果列表中的元素长度大于1
    if len(word) > 1:
        
        # 如果该元素不存在字典的键中
        if word not in wordDict.keys():
            
            # 将字典中键所对应的值设置为1
            wordDict[word] = 1
        
        # 否则
        else:

            # 将字典中键所对应的值累加
            wordDict[word] = wordDict[word] + 1

# 创建WordCloud对象，赋值给wordCloud
wordCloud = WordCloud()

# TODO 使用add()函数，series_name的值设置为空
# data_pair的值为字典wordDict转换成由元组组成的列表；
# 将word_size_range的值设置为[20,80]。
wordCloud.add(series_name = "", data_pair = wordDict.items(), word_size_range = [20, 80])

# TODO 使用wordCloud.render()存储文件，设置文件名为wordcloud.html
wordCloud.render("wordcloud_7_1.html")

# TODO 使用print输出 success
print("success")

from IPython.display import IFrame

IFrame(src='./wordcloud_7_1.html', width=800, height=500)

  and should_run_async(code)


success


  super().__init__(init_opts=init_opts)


查看生成的词云图中，发现还有一些无意义的` ...`。

我们可以使用if语句进行判断，当词语等于这几个时，使用 continue 继续下次循环。

In [7]:
# 使用import导入requests模块
import requests

# 从bs4中导入BeautifulSoup
from bs4 import BeautifulSoup

# 使用import导入jieba模块
import jieba

# 从pyecharts.charts中导入WordCloud模块
from pyecharts.charts import WordCloud

# 将豆瓣电影评论URL地址，赋值给变量url
url = "https://movie.douban.com/subject/2129039/comments?sort=new_score&status=P"

# 将User-Agent以字典键对形式赋值给headers
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}

# 将 url 和 headers参数，添加进requests.get()中，将字典headers传递headers参数，给赋值给response
response = requests.get(url, headers=headers)

# 将服务器响应内容转换为字符串形式，赋值给html
html = response.text

# 使用BeautifulSoup()传入变量html和解析器lxml，赋值给soup
soup = BeautifulSoup(html, "lxml")

# 使用find_all()查询soup中class="short"的节点，赋值给content_all
content_all = soup.find_all(class_="short")

# 创建一个空白列表wordList
wordList = []

# for循环遍历content_all
for content in content_all:

    # 获取每个节点中标签内容，赋值给contentString
    contentString = content.string

    # 使用jieba.lcut()将contentString进行分词，赋值给words
    words = jieba.lcut(contentString)

    # 将列表wordList和列表words进行累加
    wordList = wordList + words

# 创建一个空白字典wordDict
wordDict = {}

# for循环遍历列表wordList
for word in wordList:
    
    # TODO 判断为这几个词语时
    if word == ".." or word == "......":
        #  TODO 继续下次循环
        continue
    
    # 如果列表中的元素长度大于1
    if len(word) > 1:
        # 如果该元素不存在字典的键中
        if word not in wordDict.keys():  
            # 将字典中键所对应的值设置为1
            wordDict[word] = 1
        # 否则
        else:
            # 将字典中键所对应的值累加
            wordDict[word] = wordDict[word] + 1

# 创建WordCloud对象，赋值给wordCloud
wordCloud = WordCloud()

# 使用add()函数，series_name的值设置为空
# data_pair的值为字典wordDict转换成由元组组成的列表；
# 将word_size_range的值设置为[20,80]。
wordCloud.add(series_name = "", data_pair = wordDict.items(), word_size_range = [20,80])

# 使用wordCloud.render()存储文件，设置文件名为wordcloud2.html
wordCloud.render("wordcloud_7_2.html")

# 使用print输出 success
print("success")

from IPython.display import IFrame

IFrame(src='./wordcloud_7_2.html', width=800, height=500)

  and should_run_async(code)


success


  super().__init__(init_opts=init_opts)


如果你在自己的电脑上代码运行，打开代码所在目录，wordcloud.html 已经在目录中，点击这个 html 文件，在浏览器中就可以看到生成的词云啦！

今天，我们通过学习图中的知识点

实现在网页中获取文本，统计文本中的词频，生成词云图。

# 百词斩题目

## 寻找不重复的词语     

静静学习了jieba.lcut()函数后，对电影《飞屋环游记》的评论内容进行分词，输出的结果中有许多重复出现的词语，例如“的”，“最”……
她想要把这些重复的词语去掉，统计一下其中的词语个数，这该怎么做呢？

URL链接：https://movie.douban.com/subject/2129039/comments?sort=new_score&status=P

`User-Agent：Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36`

注意：本题需要用到去重知识点，请点击提示进行学习。

set()函数去重

使用set()函数能够对列表中的元素去重，去重后需要赋值给新的变量。

In [4]:
# 定义列表wordList
wordList = ["夜曲", "编程", "课程", "好", "好", "课程"]

# 使用set()函数对列表进行去重，并赋值给wordSet
wordSet = set(wordList)

# 使用print()输出wordList
print(wordList)

# 使用print()输出wordSet
print(wordSet)

['夜曲', '编程', '课程', '好', '好', '课程']
{'编程', '课程', '好', '夜曲'}


  and should_run_async(code)


In [5]:
# 使用import导入requests模块
import requests
# 从bs4中导入BeautifulSoup模块
from bs4 import BeautifulSoup
# 使用import导入jieba模块
import jieba

# 将豆瓣电影评论URL地址，赋值给变量url
url = "https://movie.douban.com/subject/2129039/comments?sort=new_score&status=P"

# 将User-Agent以字典键对形式赋值给headers
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36"}

# TODO 将 url 和 headers参数，添加进requests.get()中，将字典headers传递headers参数，给赋值给response
response = requests.get(url, headers = headers)

# TODO 将服务器响应内容转换为字符串形式，赋值给html
html = response.text

# TODO 使用BeautifulSoup()传入变量html和解析器lxml，赋值给soup
soup = BeautifulSoup(html, "lxml")

# TODO 使用find_all()查询soup中class="short"的节点，赋值给content_all
content_all = soup.find_all(class_="short")

# TODO 创建一个空白列表wordList
wordList = []

# TODO for循环遍历content_all
for content in content_all:
    # TODO 获取每个节点中标签内容，赋值给contentString
    contentString = content.string
    # TODO 使用jieba.lcut()将contentString进行分词，赋值给words
    words = jieba.lcut(contentString)
    # TODO 将列表wordList和列表words进行累加
    wordList = wordList + words

# TODO 使用set()函数对列表wordList进行去重，并赋值给wordSet
wordSet = set(wordList)

# TODO 使用len()计算wordSet长度并输出
print(len(wordSet))

328


## 修改词云图大小        

爬取网站
https://nocturne-spider.baicizhan.com/2020/09/02/coco/
所有的文字内容，利用结巴分词生成一张宽度为800px，高度为500px的词云图，生成的文件命名为“dream.html”。

【题目要求】
1. 词频统计时，过滤掉字的个数为1的字符串；
2. 利用jieba模块，对转换成的字符串进行分词；
3. 使用wordcloud模块，将分词后的结果生成词云图，字体大小范围为[30,70]，图片宽度为800，高度为500。

注意：本题需要用到设置词云图长宽知识点，请点击提示进行学习。

图片长宽可以使用wordCloud.add()函数中的参数设置      

如果想设置宽为400，高为300，就添加width=400，height=300       

生成的词云图可以设置的最大宽高是900和500

In [8]:
import requests
from bs4 import BeautifulSoup
from pyecharts.charts import WordCloud
import jieba

url = "https://nocturne-spider.baicizhan.com/2020/09/02/coco/"

response = requests.get(url)

html = response.text

soup = BeautifulSoup(html, "lxml")

content_all = soup.find_all(name = "em")

wordList = []

for content in content_all:
    contentString = content.string
    words = jieba.lcut(contentString)
    wordList = wordList + words

wordDict = {}

for word in wordList:
    if len(word) > 1:
        if word not in wordDict.keys():
            wordDict[word] = 1
        else:
            wordDict[word] = wordDict[word] + 1
            
wordCloud = WordCloud()

wordCloud.add(series_name = "", data_pair = wordDict.items(), width = 800, height = 500, word_size_range = [30, 70])

wordCloud.render("dream_7.html")

print("success")

from IPython.display import IFrame

IFrame(src='./dream_7.html', width=800, height=500)

  and should_run_async(code)


success


  super().__init__(init_opts=init_opts)
