# 昨日复习

很多网站都会提供不同功能的 API，如果网站提供了，我们就不需要去爬取 HTML 代码，可以直接去网站的 API 获取数据。

这样做既减轻了网站的服务器压力，也让我们避免解析网页的繁杂工作。    

在 XML 中可以定义自己的标签和文档结构，没有固定的标签。

在上节课中我们已经完成了前两个步骤，今天我们要获取所有弹幕发布时间。

上节课我们获取到了网页信息，在返回的结果中出现了一些奇奇怪怪的符号，并且没有中文。

其实那些符号是中文乱码，会出现乱码的原因是网页编码和爬取下来后的编码转换不一致。

# 编码

我们知道，计算机只能处理二进制数字，也就是0或者1，而人能看懂的是一些有意义的字符。

因此，这里就需要将人类能看懂的语言字符转换为计算机能看懂的数字序列(0 1序列)，这个过程就是编码。    

可是世界上有很多种语言，每种语言都有自己的特点。

为了让计算机看得懂人类语言，就出现了很多种编码方式，常见的有：ASCII，ISO-8859-1，GBK，Unicode，UTF-8 等。

# 获取编码方式

出现乱码的原因是网页编码和爬取下来后的编码转换不一致。

网页编码和 requests 模块编码分别是什么呢？在这里，我们可以使用相关属性获取编码方式。

## .encoding 属性

requests.get()请求发出后，requests 模块会基于 HTTP 头部作出推测。

在使用 .text 属性前，requests 模块会使用推测出来的文本编码。

我们可以使用 .encoding 属性，找出 requests 模块使用了什么编码。

In [1]:
import requests
url = "https://comment.bilibili.com/218710655.xml"
response = requests.get(url)
print(response.encoding)

ISO-8859-1


## .apparent_encoding 属性

.apparent_encoding 属性会从网页的内容中分析网页编码的方式。

In [2]:
import requests
url = "https://comment.bilibili.com/218710655.xml"
response = requests.get(url)
print(response.apparent_encoding)

utf-8


我们再来对比下这两个属性的作用，如右图所示。

当我们使用 .text 属性获取网页内容的时候，使用的是 .encoding 进行编码，但是基于 HTTP 头部分析出来的编码不一定正确，就造成了乱码。

.apparent_encoding 是通过内容分析出编码，有一定准确率。遇到乱码的时候，可以作为爬虫备选的编码方式。

# 修改编码方式

requests模块使用了 ISO-8859-1 编码，网页使用了 utf-8 编码，编码方式不一样，难怪会出现中文乱码。

在这里，我们可以对 response.encoding 属性重新赋值，即可修改编码。

使用 response.encoding 属性就可以修改编码。

将网站的编码方式，也就是将 response.apparent_encoding 赋值给 response.encoding，就可以修改编码了

```
# 使用import导入requests模块
import requests

# 将https://comment.bilibili.com/218710655.xml赋值给变量url
url = "https://comment.bilibili.com/218710655.xml"

# 将变量url作为参数，添加进requests.get()中，给赋值给response
response = requests.get(url)

# TODO 使用.apparent_encoding属性获取网页编码方式
# 将网页编码方式赋值给response.encoding
response.encoding = response.apparent_encoding

# 使用.text属性获取response内容，赋值给xml
xml = response.text

# TODO 使用print输出xml
print(xml)
```

# 提取弹幕发布时间

太好了，现在返回的结果中没有符号，能够输出弹幕内容。接下来，我们要提取出弹幕的发布时间。

仔细观察 xml 代码，会发现所有的弹幕都在类似的节点中，只是属性 p 的值不一样，这些参数应该和弹幕的设置有关。

在这里，我们就需要提取出和弹幕有关所有节点，再从每个节点中提取出弹幕时间对应的参数。

想要提取出弹幕所在的节点，我们要使用 Beautiful Soup 解析模块，需要从 bs4 中导入 BeautifulSoup 模块

创建一个 BeautifulSoup 对象，传入变量 xml 和解析器 lxml，将该对象赋值给变量 soup。

接着使用 find_all() 函数中，传入 name 参数，其参数值为 d 。将返回的由所有 d 节点组成的列表，赋值给变量 content_all。

In [3]:
# 使用import导入requests模块
import requests

# TODO 从bs4中导入BeautifulSoup模块
from bs4 import BeautifulSoup

# 将https://comment.bilibili.com/218710655.xml赋值给变量url
url = "https://comment.bilibili.com/218710655.xml"

# 将变量url作为参数，添加进requests.get()中，给赋值给response
response = requests.get(url)

# 使用.apparent_encoding属性获取网页编码方式
# 将网页编码方式赋值给response.encoding
response.encoding = response.apparent_encoding

# 将服务器响应内容转换为字符串形式，赋值给xml
xml = response.text

#  TODO 使用BeautifulSoup()读取xml，添加lxml解析器，赋值给soup
soup = BeautifulSoup(xml, "lxml")

#  TODO 使用find_all()查询soup中d的节点，赋值给content_all
content_all = soup.find_all(name = "d")

#  TODO 使用print输出content_all
print(content_all)

[<d p="204.84500,1,25,16777215,1642172854,0,b1fa2b3c,965374888358830080,11">这个解说好搞笑哈哈哈哈</d>, <d p="437.65500,1,25,16777215,1625123666,0,98d9bb45,51370520143724547,11">懂了些哈哈哈哈哈</d>, <d p="670.55200,1,25,16777215,1624852749,0,bd32e134,51228481792507909,11">啊这 我以为是Python的开发环境 最不可能是在哪种23333</d>, <d p="719.69800,1,25,16777215,1624666481,0,1bdf1605,51130823620427783,11">浮世三千，吾爱有三：日、月、卿。日为朝，月为暮，卿为朝朝暮暮</d>, <d p="675.42500,1,25,16777215,1607184937,0,38da9b90,41965459988807687,11">睡觉需要床 也没毛病  这四个都是环境</d>, <d p="701.68500,1,25,16777215,1599117952,0,975098d5,37736036523573255,11">所以你就是在这里写代码?</d>, <d p="294.59800,1,25,16777215,1599117944,0,975098d5,37736032071843843,11">前方碎屏警告</d>, <d p="627.28800,1,25,16777215,1599117899,0,975098d5,37736008860041221,11">变长的原因是恰饭</d>, <d p="575.65700,1,25,16777215,1599117751,0,975098d5,37735930922532867,11">盆栽的头好长</d>, <d p="363.67700,1,25,16777215,1599117621,0,975098d5,37735863102734339,11">应该是每一分每一秒</d>, <d p="432.62200,1,25,16777215,1599117203,0,975098d5,37735

提取出弹幕所在全部节点后，该如何获取弹幕的发布时间呢？

在这里，在 p 对应的属性值中第一个参数就是弹幕的发布时间，例如：43.49200，它的单位是秒。

也就是说，我们需要提取出 p 对应的属性值，再获取第一个参数值。

想要把 P 对应的属性值提取出，需要使用 for 循环遍历列表 content_all。

接着使用 .attrs 属性获取 p 对应的属性值，赋值给变量 data。

In [4]:
# 使用import导入requests模块
import requests

# 从bs4中导入BeautifulSoup模块
from bs4 import BeautifulSoup

# 将https://comment.bilibili.com/218710655.xml赋值给变量url
url = "https://comment.bilibili.com/218710655.xml"

# 将变量url作为参数，添加进requests.get()中，给赋值给response
response = requests.get(url)

# 使用.apparent_encoding属性获取网页编码方式
# 将网页编码方式赋值给response.encoding
response.encoding = response.apparent_encoding

# 将服务器响应内容转换为字符串形式，赋值给xml
xml = response.text

# 使用BeautifulSoup()读取xml，添加lxml解析器，赋值给soup
soup = BeautifulSoup(xml,"lxml")

# 使用find_all()查询soup中d的节点，赋值给content_all
content_all = soup.find_all(name = "d")

# TODO for循环遍历content_all
for comment in content_all:

    # TODO 使用.attrs获取p对应的属性值，并赋值给data
    data = comment.attrs["p"]

    # TODO 使用print输出data
    print(data)

204.84500,1,25,16777215,1642172854,0,b1fa2b3c,965374888358830080,11
437.65500,1,25,16777215,1625123666,0,98d9bb45,51370520143724547,11
670.55200,1,25,16777215,1624852749,0,bd32e134,51228481792507909,11
719.69800,1,25,16777215,1624666481,0,1bdf1605,51130823620427783,11
675.42500,1,25,16777215,1607184937,0,38da9b90,41965459988807687,11
701.68500,1,25,16777215,1599117952,0,975098d5,37736036523573255,11
294.59800,1,25,16777215,1599117944,0,975098d5,37736032071843843,11
627.28800,1,25,16777215,1599117899,0,975098d5,37736008860041221,11
575.65700,1,25,16777215,1599117751,0,975098d5,37735930922532867,11
363.67700,1,25,16777215,1599117621,0,975098d5,37735863102734339,11
432.62200,1,25,16777215,1599117203,0,975098d5,37735643673001991,11
673.89400,1,25,16777215,1599117186,0,975098d5,37735635031162887,11
457.12800,1,25,16777215,1599116945,0,975098d5,37735508443922439,11
337.93400,1,25,16777215,1599116744,0,975098d5,37735403190484995,11
441.05400,1,25,16777215,1599116732,0,975098d5,377353970044108

# 分隔字符串split()

现在我们获取到了所有 p 对应的属性值，来分析一下如何从字符串中，提取出弹幕发布时间。

如右图所示，整个字符串由逗号将参数值之间隔开，弹幕时间在第一项。     

要对字符串进行拆解，我们可以使用Python的内置函数 split()。

In [6]:
data = "43.49200,1,25,16777215,1596185022,0,a9d6f86d,36198336480935939"

dataList = data.split(",")

time = data.split(",")[0]

print(dataList)

print(time)

['43.49200', '1', '25', '16777215', '1596185022', '0', 'a9d6f86d', '36198336480935939']
43.49200


变量 data 表示要进行分割的字符串。           

将分隔符作为参数传入到split()函数中，即可把字符串按照指定分隔符切分成多个字符串组成的列表。      

将获取到的列表，赋值给变量dataList。       

split() 函数分隔后获得一个列表，[0]表示列表索引第1个元素。

想要获取弹幕发布时间，我们可以使用 split() 函数分割 data，将逗号作为分隔符传入函数中，在返回的列表中索引第一个元素，然后赋值给变量 time。

In [7]:
# 使用import导入requests模块
import requests

# 从bs4中导入BeautifulSoup模块
from bs4 import BeautifulSoup

# 将https://comment.bilibili.com/218710655.xml赋值给变量url
url = "https://comment.bilibili.com/218710655.xml"

# 将变量url作为参数，添加进requests.get()中，给赋值给response
response = requests.get(url)

# 使用.apparent_encoding属性获取网页编码方式
# 将网页编码方式赋值给response.encoding
response.encoding = response.apparent_encoding

# 将服务器响应内容转换为字符串形式，赋值给xml
xml = response.text

# 使用BeautifulSoup()读取xml，添加lxml解析器，赋值给soup
soup = BeautifulSoup(xml,"lxml")

# 使用find_all()查询soup中d的节点，赋值给content_all
content_all = soup.find_all(name = "d")

# for循环遍历content_all
for comment in content_all:

    # 使用.attrs获取p对应的属性值，并赋值给data
    data = comment.attrs["p"]

    # TODO 使用split()函数分割data，把第一个元素时间赋值给time
    time = data.split(",")[0]
    
    # TODO 使用print输出time
    print(time)

204.84500
437.65500
670.55200
719.69800
675.42500
701.68500
294.59800
627.28800
575.65700
363.67700
432.62200
673.89400
457.12800
337.93400
441.05400
132.55700
716.17600
164.98900
414.78100
124.80900
352.62900
651.55200
331.27000
530.00800
730.50900
686.78300
139.35800
345.78300
719.26600
392.79600
302.66800
96.16700
523.30500
682.45000
657.39900
419.57800
487.32000
452.09200
0.00000
283.83800
169.09500
147.09400
137.59400
85.17600
737.02000
37.32800
48.48800
732.99600
377.06200
228.49900
52.86000
219.57900
399.20100
422.85800
408.86000
491.36900
373.78000
694.33200
687.30500
526.33800
469.81100
406.47600
376.72700
302.94100
375.97800
192.62000
212.69100
549.42800
176.01900
401.74500
375.57200
725.51900
379.01800
376.62300
381.94900
376.01000
374.53000
376.35700
46.21900
190.23700
326.06200
190.14100
377.88100
48.07200
37.30000
117.49800
628.29900
219.51800
379.89300
378.22100
547.17500
409.83300
226.43600
376.89400
95.33600
378.58500
175.82300
240.15400
735.97400
654.23500
605.36000
5

接下来，我们将获得的发布时间存储在一起，可以新建一个列表timeList。

由于获取到的分布时间是字符串，我们可以使用 float() 函数将变量 time 转换成浮点数 。

接着在 for 循环中，使用 append() 函数将浮点数添加进列表 timeList 中。

In [9]:
# 使用import导入requests模块
import requests

# 从bs4中导入BeautifulSoup模块
from bs4 import BeautifulSoup

# 将https://comment.bilibili.com/218710655.xml赋值给变量url
url = "https://comment.bilibili.com/218710655.xml"

# 将变量url作为参数，添加进requests.get()中，给赋值给response
response = requests.get(url)

# 使用.apparent_encoding属性获取网页编码方式
# 将网页编码方式赋值给response.encoding
response.encoding = response.apparent_encoding

# 将服务器响应内容转换为字符串形式，赋值给xml
xml = response.text

# 使用BeautifulSoup()读取xml，添加lxml解析器，赋值给soup
soup = BeautifulSoup(xml,"lxml")

# 使用find_all()查询soup中d的节点，赋值给content_all
content_all = soup.find_all(name = "d")

# TODO 新建一个列表timeList
timeList = []

# for循环遍历content_all
for comment in content_all:

    # 使用.attrs获取p对应的属性值，并赋值给data
    data = comment.attrs["p"]
    
    # 使用split()函数分割data，把第一个元素时间赋值给time
    time = data.split(",")[0]

    # TODO 将time转换成浮点数，添加进列表timeList中
    timeList.append(float(time))
 
# TODO 使用print输出timeList
print(timeList)

[204.845, 437.655, 670.552, 719.698, 675.425, 701.685, 294.598, 627.288, 575.657, 363.677, 432.622, 673.894, 457.128, 337.934, 441.054, 132.557, 716.176, 164.989, 414.781, 124.809, 352.629, 651.552, 331.27, 530.008, 730.509, 686.783, 139.358, 345.783, 719.266, 392.796, 302.668, 96.167, 523.305, 682.45, 657.399, 419.578, 487.32, 452.092, 0.0, 283.838, 169.095, 147.094, 137.594, 85.176, 737.02, 37.328, 48.488, 732.996, 377.062, 228.499, 52.86, 219.579, 399.201, 422.858, 408.86, 491.369, 373.78, 694.332, 687.305, 526.338, 469.811, 406.476, 376.727, 302.941, 375.978, 192.62, 212.691, 549.428, 176.019, 401.745, 375.572, 725.519, 379.018, 376.623, 381.949, 376.01, 374.53, 376.357, 46.219, 190.237, 326.062, 190.141, 377.881, 48.072, 37.3, 117.498, 628.299, 219.518, 379.893, 378.221, 547.175, 409.833, 226.436, 376.894, 95.336, 378.585, 175.823, 240.154, 735.974, 654.235, 605.36, 575.973, 560.054, 483.865, 106.108, 578.126, 389.817, 729.446, 421.2, 345.728, 447.909, 409.505, 740.359, 728.874, 7

# 课程总结
在这节课中，我们学习了编码，修改爬虫编码方式；提取出符合条件的节点；将分布时间存储在列表中。

下节课，我们要学习如何进行分段统计，绘制出折线图。

# 百词斩题目

## 弹幕提取
Yoyo 通过这节课的学习，成功获取到了弹幕发布时间，她发现用户发布的弹幕内容也很有趣，想要获取用户的弹幕内容，该怎么办呢？

弹幕接口地址:
https://comment.bilibili.com/218710655.xml

解题思路：
1. 导入相关模块，请求网页响应。
2. 由于存在中文乱码，response.encoding 修改编码方式；
3. BeautifulSoup解析网页，find_all()函数提取相关节点；
4. 使用 .string 属性获取标签内容。

In [10]:
import requests
from bs4 import BeautifulSoup

url = "https://comment.bilibili.com/218710655.xml"
response = requests.get(url)
response.encoding = response.apparent_encoding
xml = response.text
soup = BeautifulSoup(xml, "lxml")
content_all = soup.find_all(name = "d")
for content in content_all:
    data = content.string
    print(data)

这个解说好搞笑哈哈哈哈
懂了些哈哈哈哈哈
啊这 我以为是Python的开发环境 最不可能是在哪种23333
浮世三千，吾爱有三：日、月、卿。日为朝，月为暮，卿为朝朝暮暮
睡觉需要床 也没毛病  这四个都是环境
所以你就是在这里写代码?
前方碎屏警告
变长的原因是恰饭
盆栽的头好长
应该是每一分每一秒
最多一个礼拜
其实学c++比较好，应为大公司还是要C
才学C语言
一天之volg，花了两分钟时间介绍早饭...
等一下..发现同款课程
君英国语中国语本当上手
散装英语
前进的胶布
兄弟，我恨你
这就是你短的理由？
好家伙，牙刷妙啊
字写得好好看！！！！！
扁辑哈哈哈
冠（读一声）
草，打高尔夫
Windows内核学起来有意思
魔鬼的声音
好，开始学习
君问归期未有期
哔哩哔哩 (゜-゜)つロ 干杯~
要橙汁不要橘汁
可以当程序员了好激动
明年今日 别要再失眠 下一句 唱|~~~
百词斩的风格
这小围腰
好羡慕你们每次都能选对
不选C我倒立洗头
注释就像是时光机，是给几个月后的自己看的
辉辉 上完厕所带瓶冰可乐回来
多喝热水...
晚安 玛卡巴卡
有程序员的味道了
这颜色有内味了
第二题我错了 老师我还能继续学吗
选择题全对
up是什么神仙声音？？！！
哈哈哈哈桃花源记
你这个运行第二行这么离谱的吗？
c
print(" king of the world")
面壁者
print("king  lf the world")
可可爱爱
非战斗人员请撤离
C
C
C
c
C
B
C
C
C
C
c
A
print("king of the world")
print("print("hello world"))
a a a a a a
C
C
巴山夜雨涨秋池
c
c
c
ccc
c
ccccc
dddd
A
b
这个括号是英文的吗？
c
DDDDDDDDDDDDDDDDDDDDDDDDDDD
我就知道B站是万能的
刚学完第一步
拍过电脑不属于pc电脑？
print（"King of the Word"）
C
c
#interesting
c
print("Do not go gentle into that good night")
c
print("")
C
pront("interesting")
风格一致
阿爸阿爸
煎牛排
何当共剪西窗烛
这个视频必火
注释给自己看


## 弹幕词云
Yoyo 把视频弹幕全部扒下来了，为了更加直观地展示，她想运用之前学习到的知识，把获取到的弹幕内容制作成词云图。

我们可以在上一题的基础上，继续编写代码哦，需要运用到jieba分词、词频统计和pyecharts。

解题思路：

1. 导入 jieba 模块，将弹幕传入jieba.lcut()中，进行分词；
2. 新建列表，将词全部储存在列表中；
3. 新建字典，进行词频统计；
4. 从pyecharts.charts中导入WordCloud模块，使用相关代码设置词云图；
5. 设置词云图的数据统称为空，字体大小范围为[20,80]；
6. 保存并命名词云图为wordcloud.html

In [19]:
# 使用import导入requests模块
import requests

# 从bs4中导入BeautifulSoup模块
from bs4 import BeautifulSoup

# TODO 使用import导入jieba模块
import jieba

# TODO 从pyecharts.charts中导入WordCloud模块
from pyecharts.charts import WordCloud

# 将https://comment.bilibili.com/218710655.xml赋值给变量url
url = "https://comment.bilibili.com/218710655.xml"

# 将变量url作为参数，添加进requests.get()中，给赋值给response
response = requests.get(url)

# 调用.encoding属性获取requests模块的编码方式
# 调用.apparent_encoding属性获取网页编码方式
# 将网页编码方式赋值给response.encoding
response.encoding = response.apparent_encoding

# 将服务器响应内容转换为字符串形式，赋值给xml
xml = response.text

# 使用BeautifulSoup()读取xml，添加lxml解析器，赋值给soup
soup = BeautifulSoup(xml,"lxml")

# 使用find_all()查询soup中d的节点，赋值给content_all
content_all = soup.find_all(name = "d")

# TODO 创建一个空白列表wordList
wordList = []

# for循环遍历content_all
for comment in content_all:

    # 使用.string获取弹幕内容，并赋值给data
    data = comment.string
    

    # TODO 使用jieba.lcut()将data进行分词，赋值给words
    words = jieba.lcut(data)

    # TODO 将列表wordList和列表words进行累加
    wordList = wordList + words

# TODO 创建一个空白字典wordDict
wordDict = {}

# TODO for循环遍历列表wordList
for word in wordList:
    
    # TODO 如果列表中的元素长度大于1
    if len(word) > 1:
        
        # TODO 如果该元素不存在字典的键中
        if word not in wordDict.keys():
            
            # TODO 将字典中键所对应的值设置为1
            wordDict[word] = 1
        
        # TODO 否则
        else:

            # TODO 将字典中键所对应的值累加
            wordDict[word] = wordDict[word] + 1

# TODO 创建WordCloud对象，赋值给wordCloud
wordCloud = WordCloud()

# TODO 使用add()函数，series_name的值设置为空
# data_pair的值为字典wordDict转换成由元组组成的列表
# 将word_size_range的值设置为[20,80]
wordCloud.add(series_name = "", data_pair = wordDict.items(), word_size_range = [20, 80])

# TODO 使用wordCloud.render()存储文件，设置文件名为wordcloud.html
wordCloud.render("wordcloud_12.html")

# TODO 使用print输出 success
print("success")

from IPython.display import IFrame

IFrame(src='./wordcloud_12.html', width=900, height=500)

  and should_run_async(code)


success


  super().__init__(init_opts=init_opts)


## 后浪（下）
Yoyo想要制作一款类似《后浪》的视频，用与品牌宣传鼓励当代年轻人，Yoyo想要在制作视频前，对用户进行一轮访谈。

她想到可以从《后浪》这个视频中，找出发弹幕最积极的10个用户，邀请他们做访谈。

在“后浪（上）”我们已经获取到了 XML 代码，在这里我们可以继续编写，获取发弹幕数最多的10个用户。

tips
在下面p标签的内容，表示用户id的是第七个参数892564fa
`p="199.82500,1,25,16777215,1600071258,0,892564fa,38235843388243975"`

本题需要用到Counter模块知识点，请点击提示进行学习。

```
python-Counter计数函数

Counter 计数器，顾名思义就是用来计数的，最主要的作用就是计算列表各个元素的数量。具体用法参看示例：

from collections import Counter
wordList = ['html', 'js','js', 'css', 'python' 'python' 'python']
word_counts = Counter(wordList)
top_two = word_counts.most_common(2)
print(top_two)

输出结果
[('python', 3), ('js', 2)]
```

In [13]:
# 使用import导入requests模块
import requests

# 从bs4中导入BeautifulSoup模块
from bs4 import BeautifulSoup

# TODO 从collections中导入Counter模块
from collections import Counter

# 将获取到的含有cid的xml地址，赋值给变量url
url = "https://comment.bilibili.com/186803402.xml"

# 将变量url作为参数，添加进requests.get()中，给赋值给response
response = requests.get(url)

# 使用.text属性获取response内容，赋值给xml
xml = response.text

# 使用BeautifulSoup()读取xml，添加lxml解析器，赋值给soup
soup = BeautifulSoup(xml,"lxml")

# 使用find_all()查询soup中d的节点，赋值给content_all
content_all = soup.find_all("d")

# TODO 创建一个空白列表userList
userList = []

# TODO for循环遍历content_all
for content in content_all:

    # TODO 使用.attrs获取p对应的属性值，并赋值给data
    data = content.attrs["p"]

    # TODO 使用split()函数分割data，把第7个元素赋值给userID
    userID = data.split(",")[6]

    # TODO 在列表中加入userID
    userList.append(userID)

# TODO 使用Counter()函数统计userList中的词语个数,赋值给user_counts
user_counts = Counter(userList)

# TODO 使用user_counts.most_common()计算出现频率最高的10个用户，赋值给top_ten_user
top_ten_user = user_counts.most_common(10)

# TODO 输出结果top_ten_user
print(top_ten_user)

  and should_run_async(code)


[('b30b21dc', 3), ('734c4959', 2), ('cc8026db', 2), ('2416c723', 2), ('4b93dba', 1), ('f1309af9', 1), ('68f3de05', 1), ('285b5a19', 1), ('47ed5ea5', 1), ('d67e2bdd', 1)]


## 电脑壁纸pro
小红在之前的练习中，将故宫壁纸下载下来后，以数字形式命名。学习了今天的课程之后，她想要直接获取图片自身的alt属性值来命名图片，并将其中的空格替换成"_"，这该怎么做呢？

【题目要求】：

1. 解析https://www.dpm.org.cn/lights/royal.html 网页（不翻页），寻找包含图片信息的节点
（注意：首页链接URL不需要加页码）
2. 获取alt对应的属性值，使用replace()函数将其中的空格替换成"_"
3. 获取src对应的属性值，将图片链接添加进requests.get()，获取图片数据
4. 用格式化将"图片名字.jpg"格式组合，使用with语句配合open()函数以写入图片文件


In [21]:
import requests
from bs4 import BeautifulSoup

headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.62"}
url = "https://www.dpm.org.cn/lights/royal.html"
response = requests.get(url, headers = headers)
response.encoding = response.apparent_encoding
html = response.text
soup = BeautifulSoup(html, "lxml")
content_all = soup.find_all(class_ = "pic")
for content in content_all:
    imgContent = content.find(name = "img")
    imgUrl = imgContent.attrs["src"]
    imgName = imgContent.attrs["alt"]
    imgName = imgName.replace(" ", "_")
    imgResponse = requests.get(imgUrl)
    img = imgResponse.content
    
    with open("/Users/xiaojiangyue/programming-study-notes/Python/爬虫/lesson_12_output/"+f"{imgName}.jpg", "wb") as f:
        f.write(img)