本文学习于https://www.cnblogs.com/zhangxinqi/p/9210211.html#_label16

# lxml库

## 简介

`lxml`是python的一个解析库，支持`HTML`和`XML`的解析，支持`XPath`解析方式，而且解析效率非常高。

`XPath`，全称`XML Path Language`，即**XML路径语言**，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。

XPath的选择功能十分强大，它提供了非常简明的路径选择表达式，另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，**几乎所有我们想要定位的节点，都可以用XPath来选择**。

XPath于1999年11月16日成为W3C标准，它被设计为供XSLT、XPointer以及其他XML解析软件使用，更多的文档可以访问其官方网站：https://www.w3.org/TR/xpath/

## 安装

`pip install lxml`

# XPath常用规则

|表达式|描述|
|:--:|:--:|
|nodename|选取此节点的所有子节点|
|/|从当前节点选取直接子节点|
|//|从当前节点选取子孙节点|
|**.**|选取当前节点|
|**..**|选取当前节点的父节点|
|@|选取属性|
|*|通配符，选择所有元素节点与元素名|
|@*|选取所有属性|
|[@attrib]|选取具有给定属性的所有元素|
|[@attrib='value']|选取给定属性具有给定值的所有元素|
|[tag]|选取所有具有指定元素的直接子节点|
|[tag='text']|选取所有具有指定元素并且文本内容是text节点|

## starts-with() ,contains() 和 text(),last()函数的用法

1. `starts-with(key,value)`: 查找key以value开头的相应节点，如：`div[starts-with(@class,"par")]` 即查找属性class以`"par"`开头的`div`节点

2. `contains(key,value)`：查找key包含value的相应节点，如：`div[contains(@class,"para")]`即查找属性class包含`para`的`div`节点

3. `text()`：函数文本定位，如:`//a/text()`，即获取所有a节点下的文本，不包含其子节点中的文本；`//a//text()`,获取所有a节点下的文本，包含其子节点的文本；`a[text()="百度搜索"]`,即获取所有文本内容是`百度搜索的`的`a`节点

4. `last()`: 函数定位，最后位置

## 读取文本解析节点

`html = etree.HTML(text)` : 生成一个XPath解析对象

`result = etree.tostring(html,encoding='utf-8')` ： 将XPath解析对象输出为字节

`result.decode('utf-8')`：将结果解码成utf-8

In [1]:
from lxml import etree

text='''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">第一个</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0"><a href="link5.html">a属性</a>
     </ul>
 </div>
'''

html = etree.HTML(text) # 初始化生成一个XPath解析对象
result = etree.tostring(html,encoding='utf-8') # 解析对象为字节

print('type(html):  ',type(html))
print()
print('type(result):  ',type(result))
print()
print(result)
print()
print(result.decode('utf-8'))

type(html):   <class 'lxml.etree._Element'>

type(result):   <class 'bytes'>

b'<html><body><div>\n    <ul>\n         <li class="item-0"><a href="link1.html">\xe7\xac\xac\xe4\xb8\x80\xe4\xb8\xaa</a></li>\n         <li class="item-1"><a href="link2.html">second item</a></li>\n         <li class="item-0"><a href="link5.html">a\xe5\xb1\x9e\xe6\x80\xa7</a>\n     </li></ul>\n </div>\n</body></html>'

<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">第一个</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0"><a href="link5.html">a属性</a>
     </li></ul>
 </div>
</body></html>


由最后一行的输出结果可知，etree会修复HTML文本节点。

## 读取HTML文件进行解析

In [2]:
from lxml import etree

# 指定解析器HTMLParser，会根据文件修复HTML文件中缺失的元素
html = etree.parse('./data/赵曙_百度百科.html',etree.HTMLParser())
result = etree.tostring(html) # 解析成字节

print('type(html):  ',type(html))
print()
print('type(result):  ',type(result))
print()
print(result)
print()
print(result.decode('utf-8'))

type(html):   <class 'lxml.etree._ElementTree'>

type(result):   <class 'bytes'>

b'<!DOCTYPE html>\n<!-- saved from url=(0047)https://baike.baidu.com/item/%E8%B5%B5%E6%9B%99 --><html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/><script async="" src="./&#36213;&#26329;_&#30334;&#24230;&#30334;&#31185;_files/element.min.js"/><script async="" src="./&#36213;&#26329;_&#30334;&#24230;&#30334;&#31185;_files/monkey.min.js"/><script async="" src="./&#36213;&#26329;_&#30334;&#24230;&#30334;&#31185;_files/dp.min.js"/><script type="text/javascript" async="" src="./&#36213;&#26329;_&#30334;&#24230;&#30334;&#31185;_files/auto_dup"/>\n\n<meta http-equiv="X-UA-Compatible" content="IE=Edge"/>\n<meta name="referrer" content="always"/>\n<meta name="description" content="&#36213;&#26329;&#65288;1032&#24180;2&#26376;16&#26085;&#65293;1067&#24180;1&#26376;25&#26085;&#65289;&#65292;&#21363;&#23435;&#33521;&#23447;&#65288;1063&#24180;5&#26376;&#19968;1067&#24180;1&#26376;&#22312

In [3]:
result = etree.tostringlist(html) # 解析成列表

print('type(html):  ',type(html))
print()
print('type(result):  ',type(result))
print()
print(result)

type(html):   <class 'lxml.etree._ElementTree'>

type(result):   <class 'list'>

[b'<!DOCTYPE html>\n<!-- saved from url=(0047)https://baike.baidu.com/item/%E8%B5%B5%E6%9B%99 --><html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/><script async="" src="./&#36213;&#26329;_&#30334;&#24230;&#30334;&#31185;_files/element.min.js"/><script async="" src="./&#36213;&#26329;_&#30334;&#24230;&#30334;&#31185;_files/monkey.min.js"/><script async="" src="./&#36213;&#26329;_&#30334;&#24230;&#30334;&#31185;_files/dp.min.js"/><script type="text/javascript" async="" src="./&#36213;&#26329;_&#30334;&#24230;&#30334;&#31185;_files/auto_dup"/>\n\n<meta http-equiv="X-UA-Compatible" content="IE=Edge"/>\n<meta name="referrer" content="always"/>\n<meta name="description" content="&#36213;&#26329;&#65288;1032&#24180;2&#26376;16&#26085;&#65293;1067&#24180;1&#26376;25&#26085;&#65289;&#65292;&#21363;&#23435;&#33521;&#23447;&#65288;1063&#24180;5&#26376;&#19968;1067&#24180;1&#26376;&#22312

## 获取所有节点

返回一个列表，其中每个元素都是Element类型，所有节点都包含在其中

In [4]:
from lxml import etree

html = etree.parse('./data/赵曙_百度百科.html',etree.HTMLParser())
result = html.xpath('//*') # //* 代表获取子孙节点，* 代表获取所有

print('type(html): ',type(html))
print()
print('type(result): ',type(result))
print()
print('result: ',result[:10])

type(html):  <class 'lxml.etree._ElementTree'>

type(result):  <class 'list'>

result:  [<Element html at 0x11b974ff448>, <Element head at 0x11b973fbb48>, <Element meta at 0x11b974decc8>, <Element script at 0x11b974dec48>, <Element script at 0x11b974ff408>, <Element script at 0x11b974ff4c8>, <Element script at 0x11b974ff508>, <Element meta at 0x11b974ff548>, <Element meta at 0x11b974ff588>, <Element meta at 0x11b974ff488>]


如要获取`div`节点，可以使用`//`后面加上节点名称，然后调用`xpath()`方法

In [5]:
div_result = html.xpath('//div') # 获取所有子孙节点的div节点
print(div_result[:10])

[<Element div at 0x11b974ffe48>, <Element div at 0x11b974ffec8>, <Element div at 0x11b974fff08>, <Element div at 0x11b97503188>, <Element div at 0x11b975031c8>, <Element div at 0x11b97503488>, <Element div at 0x11b975034c8>, <Element div at 0x11b97503508>, <Element div at 0x11b97503548>, <Element div at 0x11b975036c8>]


## 获取子节点

通过 `/` 或者 `//` ，即可查找元素的子节点或者子孙节点，如果想要选择 `div` 节点的所有直接`a`节点，可以这样使用

In [6]:
# 通过追加 /a 选择所有div 节点的所有直接节点，
# 因为//div 用于选中所有div节点，/a 用于选中div节点的所有直接子节点a
a_result = html.xpath('//div/a')
print(a_result[:10])

[<Element a at 0x11b97503208>, <Element a at 0x11b97503248>, <Element a at 0x11b97503288>, <Element a at 0x11b975032c8>, <Element a at 0x11b97503308>, <Element a at 0x11b97503348>, <Element a at 0x11b97503388>, <Element a at 0x11b975033c8>, <Element a at 0x11b97503408>, <Element a at 0x11b97503588>]


## 获取父节点

我们知道，通过连续的`/`或者`//`，可以查找直接子节点或子孙节点，那么要查找 父节点可以使用`..`来实现，也可以使用`轴`，即`parent::`来获取父节点。

比如，我们想要获取所有包含属性`href="https://baike.baidu.com/item/%E6%AC%A7%E9%98%B3%E4%BF%AE"`的`a`元素的`父节点`，首先我们要定位`a`元素节点，即用`//a`，然后定位属性,即`//a[@href="https://baike.baidu.com/item/%E6%AC%A7%E9%98%B3%E4%BF%AE"]/`,然后锁定其父节点,即`//a[@href="https://baike.baidu.com/item/%E6%AC%A7%E9%98%B3%E4%BF%AE"]/..`；另一种写法是`//a[@href="https://baike.baidu.com/item/%E6%AC%A7%E9%98%B3%E4%BF%AE"]/parent::` 。

如果进一步，我们想要获取其父节点的属性`class`的值呢，则可以`//a[@href="https://baike.baidu.com/item/%E6%AC%A7%E9%98%B3%E4%BF%AE"]/../@class` 或 `//a[@href="https://baike.baidu.com/item/%E6%AC%A7%E9%98%B3%E4%BF%AE"]/parent::*/@class`

In [7]:
result = html.xpath('//a[@href="https://baike.baidu.com/item/%E6%AC%A7%E9%98%B3%E4%BF%AE"]/..')
print('父节点： ',result)
print()
result = html.xpath('//a[@href="https://baike.baidu.com/item/%E6%AC%A7%E9%98%B3%E4%BF%AE"]/../@class')
print('父节点的属性class： ',result)

父节点：  [<Element div at 0x11b9750fc08>, <Element div at 0x11b984e03c8>]

父节点的属性class：  ['para', 'para']


## 属性匹配：用@进行属性过滤

在选取的时候，我们还可以**用`@`符号进行属性过滤**。比如，这里如果要选取`class`为`para`的`div`节点，可以这样实现：

In [8]:
result = html.xpath('//div[@class="para"]')
print(result[:10])

[<Element div at 0x11b9750b608>, <Element div at 0x11b9750b788>, <Element div at 0x11b9750b888>, <Element div at 0x11b9750ba88>, <Element div at 0x11b9750e548>, <Element div at 0x11b9750eb08>, <Element div at 0x11b9750ebc8>, <Element div at 0x11b9750ec48>, <Element div at 0x11b9750ed08>, <Element div at 0x11b9750f088>]


## 文本获取：获取节点包裹的文本

我们用`XPath`中的`text()方法`，**获取节点中的文本**

In [9]:
div_result = html.xpath('//div[@class="para"]/text()') # 获取属性为class="para"的div节点中的文本,不包含其子节点a中的内容
all_div_result = html.xpath('//div[@class="para"]//text()')# 获取div节点中的所有文本，包含其子节点内的内容
a_div_result = html.xpath('//div[@class="para"]/a/text()') # 获取div下a节点下的内容

print(div_result[:10])
print()
print(all_div_result[:10])
print()
print(a_div_result[:10])

['赵曙（1032年2月16日－1067年1月25日），即宋英宗（1063年5月一1067年1月在位），原名赵宗实，后改名赵曙，', '第五位皇帝，宋太宗', '曾孙，商王', '之孙，濮王', '第十三子，宋仁宗', '养子。', '赵曙幼年时被无子的仁宗接入皇宫抚养，赐名为赵宗实。担任左监门卫率府副率，后历任右', '大将军、宜州刺史、', '团练使、秦州防御使。嘉祐七年（1062年），被立为皇子，改名赵曙，封巨鹿', '。']

['赵曙（1032年2月16日－1067年1月25日），即宋英宗（1063年5月一1067年1月在位），原名赵宗实，后改名赵曙，', '宋朝', '第五位皇帝，宋太宗', '赵光义', '曾孙，商王', '赵元份', '之孙，濮王', '赵允让', '第十三子，宋仁宗', '赵祯']

['宋朝', '赵光义', '赵元份', '赵允让', '赵祯', '羽林军', '岳州', '郡公', '韩琦', '辽国']


## 属性获取

**使用`@`符号即可获取节点的属性**，例如：获取所有`div`节点下，所有`a`节点的`href`属性

In [10]:
result1 = html.xpath('//div/a/@href') #获取a的href属性
result2 = html.xpath('//div//@href') #获取所有div子孙节点的href属性

print(result1[:10])
print()
print(result2[:10])

['https://www.baidu.com/', 'http://news.baidu.com/', 'https://tieba.baidu.com/', 'https://zhidao.baidu.com/', 'http://music.baidu.com/', 'http://image.baidu.com/', 'http://v.baidu.com/', 'http://map.baidu.com/', 'https://wenku.baidu.com/', 'https://baike.baidu.com/']

['http://www.baidu.com/', 'javascript:;', 'https://passport.baidu.com/v2/?reg&regType=1&tpl=wk', 'https://www.baidu.com/', 'http://news.baidu.com/', 'https://tieba.baidu.com/', 'https://zhidao.baidu.com/', 'http://music.baidu.com/', 'http://image.baidu.com/', 'http://v.baidu.com/']


## 属性多值匹配

如果某个属性的值有多个时，我们可以使用`contains()`函数来获取，`contains(property,value)`匹配一个属性property中包含的字符串value。

In [11]:
result = html.xpath('//div[@class="para"]/a/text()')
print(result)
print()

result = html.xpath('//div[contains(@class,"para")]/a/text()')
print(result)

['宋朝', '赵光义', '赵元份', '赵允让', '赵祯', '羽林军', '岳州', '郡公', '韩琦', '辽国', '西夏', '司马光', '资治通鉴', '\xa0', '福宁殿', '庙号', '永厚陵', '赵光义', '重孙', '赵恒', '赵元份', '赵祯', '赵允让', '母亲', '节度使', '\xa0', '宋仁宗', '曹太后', '儒者', '羽林军', '刺史', '仁宗', '赵昕', '\xa0', '庆历', '赵昕', '团练使', '嘉祐', '韩琦', '包拯', '秦州', '宗正', '\xa0', '嘉祐', '遗诏', '韩琦', '韩贽', '安州', '\xa0', '欧阳修', '\xa0', '濮议', '大祥', '西蕃', '濮议', '中书', '皇考', '欧阳修', '诏书', '宦官', '中书省', '吕诲', '\xa0', '韩琦', '赵顼', '\xa0', '福宁殿', '永厚陵', '孝义', '\xa0', '富弼', '\xa0', '\xa0', '\xa0', '司马光', '资治通鉴', '龙图阁', '天章阁', '昭文馆', '史馆', '集贤院', '秘阁', '\xa0', '司马光', '\xa0', '王称', '\xa0', '脱脱', '\xa0', '王夫之', '\xa0', '\xa0', '苏轼', '翰林院', '知制诰', '起居注', '史馆', '\xa0', '赵光义', '赵元份', '赵允让', '高滔滔', '赵顼', '赵颢', '赵頵', '宝安公主', '寿康公主', '昭仪', '贵仪', '婕妤', '\xa0', '赵顼', '赵颢', '赵颜', '赵頵', '嘉祐', '德宁公主', '徐国', '左卫', '王师', '陈国', '长公主', '燕国大长公主', '元祐', '秦国大长公主', '宝安公主', '宋神宗', '舒国', '王诜', '越国', '荆国大长公主', '寿康公主', '卫国公主', '冀国', '政和', '宣和', '舒国公主', '东都事略', '\xa0', '宋史', '\xa0', '宋史全文', '\xa0']

['宋朝', '赵光义', '赵元份', '赵允

## 多属性匹配：and运算符

另外我们还可能遇到一种情况，那就是**根据多个属性确定一个节点，这时便需要同时匹配多个属性**，此时可运用`and`运算符来连接使用：

In [12]:
result = html.xpath('//div[@class="para" and @label-module="para"]/text()')
print(result[:10])

print()

result = html.xpath('//div[contains(@class,"para") and @label-module="para"]/text()')
print(result[:10])

['赵曙（1032年2月16日－1067年1月25日），即宋英宗（1063年5月一1067年1月在位），原名赵宗实，后改名赵曙，', '第五位皇帝，宋太宗', '曾孙，商王', '之孙，濮王', '第十三子，宋仁宗', '养子。', '赵曙幼年时被无子的仁宗接入皇宫抚养，赐名为赵宗实。担任左监门卫率府副率，后历任右', '大将军、宜州刺史、', '团练使、秦州防御使。嘉祐七年（1062年），被立为皇子，改名赵曙，封巨鹿', '。']

['赵曙（1032年2月16日－1067年1月25日），即宋英宗（1063年5月一1067年1月在位），原名赵宗实，后改名赵曙，', '第五位皇帝，宋太宗', '曾孙，商王', '之孙，濮王', '第十三子，宋仁宗', '养子。', '赵曙幼年时被无子的仁宗接入皇宫抚养，赐名为赵宗实。担任左监门卫率府副率，后历任右', '大将军、宜州刺史、', '团练使、秦州防御使。嘉祐七年（1062年），被立为皇子，改名赵曙，封巨鹿', '。']


## XPath中的运算符

|运算符|描述|实例|返回值|
|:--:|:--:|:--:|:--:|
|or|或|age=19 or age=20|如果age等于19或者等于20则返回true否则返回false|
|and|与|age>19 and age<21|如果age等于20则返回true，否则返回false|
|mod|取余|5 mod 2|1|
|\||取两个节点的集合|//book \| //cd|返回所有拥有book和cd元素的节点集合|
|+|加|6+4|10|
|-|减|6-4|2|
|*|乘|6*4|24|
|div|除|8 div 4|2|
|=|等于|age=19|true|
|!=|不等于|age!=19|true|
|<|小于|age<19|true|
|<=|小于或等于|age<=19|true|
|>|大于|age>19|true|
|>=|大于或等于|age>=19|true|

## 按序选择

有时候，我们在选择的时候，某些属性可能同时匹配多个节点，但我们只想要其中的某个节点，如第二个节点或者最后一个节点，这时可以**利用中括号引入索引的方法，来获取特定次序的节点**。

In [13]:
result = html.xpath('//div[contains(@class,"para")]/a/text()') # 获取div节点下a节点的文本内容
print(result[:10])

print()

result = html.xpath('//div[1][contains(@class,"para")]/a/text()') # 获取第一个div节点......
print(result)

print()

result = html.xpath('//div[last()][contains(@class,"para")]/a/text()') # 获取最后一个div节点......
print(result)

print()

result = html.xpath('//div[position()>2 and position()<4][contains(@class,"para")]/a/text()') # 获取第三个div节点......
print(result)

print()

result = html.xpath('//div[last()-2][contains(@class,"para")]/a/text()') # 获取倒数第三个div节点......
print(result)
print()

['宋朝', '赵光义', '赵元份', '赵允让', '赵祯', '羽林军', '岳州', '郡公', '韩琦', '辽国']

['宋朝', '赵光义', '赵元份', '赵允让', '赵祯', '濮议']

['福宁殿', '庙号', '永厚陵', '濮议']

['韩琦', '辽国', '西夏', '司马光', '资治通鉴', '\xa0']

['羽林军', '岳州', '郡公']



这里使用了`last()`、`position()`函数，在`XPath`中，提供了100多个函数，包括`存取、数值、字符串、逻辑、节点、序列`等处理功能，它们的具体作用可参考：http://www.w3school.com.cn/xpath/xpath_functions.asp

## 节点轴选择

XPath 提供了很多节点选择方法，包括获取直接子元素、子孙元素、兄弟元素、父元素、祖先元素等，例如：

In [14]:
result1 = html.xpath('//div[1]/ancestor::*') # 获取第一个div节点的所有祖先节点
result2 = html.xpath('//div[1]/ancestor::div') # 获取第一个div节点的div祖先节点
result3 = html.xpath('//div[1]/attribute::*') # 获取第一个div节点的所有属性值
result4 = html.xpath('//div[1]/child::*') # 获取第一个div节点的直接子节点
result5 = html.xpath('//div[10]/descendant::a') # 获取第一个div节点的子孙节点的a节点
result6 = html.xpath('//div[1]/following::*') # 获取第一个div节点的之后的所有节点
result7 = html.xpath('//div[1]/following-sibling::*') # 获取第一个div节点的所有同级节点

print(result1[:10])
print()
print(result2[:10])
print()
print(result3[:10])
print()
print(result4[:10])
print()
print(result5[:10])
print()
print(result6[:10])
print()
print(result7[:10])

[<Element html at 0x11b974ff448>, <Element body at 0x11b984e0cc8>, <Element div at 0x11b984e1dc8>, <Element div at 0x11b984e1ec8>, <Element div at 0x11b984e2088>, <Element div at 0x11b984e2308>, <Element div at 0x11b984e2488>, <Element div at 0x11b984e25c8>, <Element div at 0x11b984e2888>, <Element ul at 0x11b984e21c8>]

[<Element div at 0x11b984e1dc8>, <Element div at 0x11b984e1ec8>, <Element div at 0x11b984e2088>, <Element div at 0x11b984e2308>, <Element div at 0x11b984e2488>, <Element div at 0x11b984e25c8>, <Element div at 0x11b984e2888>, <Element div at 0x11b984e2988>, <Element div at 0x11b984e2ac8>, <Element div at 0x11b984e2c08>]

['BAIDU_DUP_fp_wrapper', 'position: absolute; left: -1px; bottom: -1px; z-index: 0; width: 0px; height: 0px; overflow: hidden; visibility: hidden; display: none;', 'topbar cmn-clearfix', 'separator', 'layout', 'wgt-searchbar wgt-searchbar-new wgt-searchbar-main cmn-clearfix wgt-searchbar-large', 'logo-container', 'form', 'sug', 'declare']

[<Element ifr

# 案例

爬取网页中的图片，并存放在不同的文件夹中，网页地址：https://www.ivsky.com/tupian/ziranfengguang/

## 获取网页: requests

In [15]:
import requests
from requests.exceptions import RequestException

url = 'https://www.ivsky.com/tupian/ziranfengguang/'
# 处理异常，如果获取网页失败，则处理
try:
    response = requests.get(url)
    print(response)
except RequestException as e:
    print('Request is error!',e)

<Response [200]>


响应码/状态码：

1. 200：表示成功
2. 404：资源不存在
3. 500：服务器错误

In [16]:
print(response.content) # 返回字节类型

b'<!doctype html><html><head><meta charset=utf-8 /><title>\xe8\x87\xaa\xe7\x84\xb6\xe9\xa3\x8e\xe5\x85\x89\xe5\x9b\xbe\xe7\x89\x87 - \xe8\x87\xaa\xe7\x84\xb6\xe9\xa3\x8e\xe6\x99\xaf\xe5\x9b\xbe\xe7\x89\x87 (\xe5\xa4\xa9\xe5\xa0\x82\xe5\x9b\xbe\xe7\x89\x87\xe7\xbd\x91)</title><meta name="description" content="\xe8\x87\xaa\xe7\x84\xb6\xe9\xa3\x8e\xe5\x85\x89\xe5\x9b\xbe\xe7\x89\x87 - \xe8\x87\xaa\xe7\x84\xb6\xe9\xa3\x8e\xe6\x99\xaf\xe5\x9b\xbe\xe7\x89\x87," /><meta name="keywords" content="" /><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" /><meta name="renderer" content="webkit" /><meta name="applicable-device" content="pc" /><link rel="alternate" media="only screen and(max-width: 640px)" href="https://m.ivsky.com/tupian/ziranfengguang/"><meta name="mobile-agent" content="format=html5; url=https://m.ivsky.com/tupian/ziranfengguang/"><link type="text/css" href="/img/a.css" rel="stylesheet" /><script type="text/javascript" src="//img.ivsky.com/img/jq.js"></script><script ty

In [17]:
print(response.text) # 返回字符串类型

<!doctype html><html><head><meta charset=utf-8 /><title>自然风光图片 - 自然风景图片 (天堂图片网)</title><meta name="description" content="自然风光图片 - 自然风景图片," /><meta name="keywords" content="" /><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" /><meta name="renderer" content="webkit" /><meta name="applicable-device" content="pc" /><link rel="alternate" media="only screen and(max-width: 640px)" href="https://m.ivsky.com/tupian/ziranfengguang/"><meta name="mobile-agent" content="format=html5; url=https://m.ivsky.com/tupian/ziranfengguang/"><link type="text/css" href="/img/a.css" rel="stylesheet" /><script type="text/javascript" src="//img.ivsky.com/img/jq.js"></script><script type="text/javascript" src="/img/a.js"></script></head><body><div id="header"><div class="box"><div id="logo"><a href="https://www.ivsky.com">天堂图片网</a></div><ul id="menu"><li><a href="/">首页</a></li><li><a href="/tupian/">图片大全</a></li><li><a href="/bizhi/">桌面壁纸</a></li></ul><div id="search"><div class="inp"><input type="te

## 解析网页：lxml

通过分析网页结构:

![](./image/lxml.png)

我们发现，图片都存储在`<ul class="ali">/<div class="il_img">/<li>/<a>/<img>`的属性`src`中

In [18]:
from lxml import etree

html = etree.HTML(response.text,etree.HTMLParser()) # 解析HTML文本内容
img_list = html.xpath('//ul[@class="ali"]/li//a/img') # 注意 a 标签不是 li的直接子节点，故用//
print(img_list[:10])

[<Element img at 0x11b98926808>, <Element img at 0x11b98926848>, <Element img at 0x11b98926888>, <Element img at 0x11b989268c8>, <Element img at 0x11b98926908>, <Element img at 0x11b98926988>, <Element img at 0x11b989269c8>, <Element img at 0x11b98926a08>, <Element img at 0x11b98926a48>, <Element img at 0x11b98926948>]


## 下载图片

In [19]:
# 遍历img节点列表
for img in img_list:
    title = img.xpath('@alt')[0] # 图片的标题
    img_url = 'https:' + img.xpath('@src')[0]# 图片地址
    print(img_url)
    # 处理异常
    try:
        img_response = requests.get(img_url) # 通过URL获取图片数据
    except RequestException as e:
        print('request is error!',e)
        continue
    
    # 存储图片
    file = open('./data/lxml_result/'+title+'.jpg','wb')
    file.write(img_response.content)
    file.close()

https://img.ivsky.com/img/tupian/li/201810/16/senlin_wu-011.jpg
https://img.ivsky.com/img/tupian/li/201810/16/shamo.jpg
https://img.ivsky.com/img/tupian/li/201810/16/caoyuan-007.jpg
https://img.ivsky.com/img/tupian/li/201810/16/xuanya-005.jpg
https://img.ivsky.com/img/tupian/li/201810/16/hongse_de_yanshi.jpg
https://img.ivsky.com/img/tupian/li/201810/16/xiagu_pubu-011.jpg
https://img.ivsky.com/img/tupian/li/201810/16/kongzhong_de_yuncai-007.jpg
https://img.ivsky.com/img/tupian/li/201810/16/haidao-006.jpg
https://img.ivsky.com/img/tupian/li/201810/16/haitan_yanshi-006.jpg
https://img.ivsky.com/img/tupian/li/201810/16/qiutian_shulin-002.jpg
https://img.ivsky.com/img/tupian/li/201810/09/xiaoxi_liushui-013.jpg
https://img.ivsky.com/img/tupian/li/201810/08/luzhu-007.jpg
https://img.ivsky.com/img/tupian/li/201810/08/haitan-002.jpg
https://img.ivsky.com/img/tupian/li/201810/07/caihong-006.jpg
https://img.ivsky.com/img/tupian/li/201810/07/xingkong-010.jpg
https://img.ivsky.com/img/tupian/li/20

爬取结果如下:
![](./image/lxml2.png)

这里我们只是做了个简单的爬虫，但实际上仍有很大问题，比如下载的图片，事实上像素太小；我们只是下载了一个网页上的图片，爬虫没有处理多网页的情况。