# 说明


### 教程来源
  [【2022 年】Python3 爬虫教程 - 网页解析利器 XPath](https://cuiqingcai.com/202231.html)

### 目录

# 笔记


### 1.介绍

XPath，全称是 XML Path Language，即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档的搜索。

<div align=center>
<img alt="图 1" src="../../images/cd95a45a2283e26667f0b9d3c46f10997d69fa7dba5e340cc7d89b9fb5ca33ee.png" width=75% />  


### 2.实例

In [10]:
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''

In [15]:
from lxml import etree      # 导入 lxml 库的 etree 模块

# 调用 HTML 类进行初始化，这样就成功构造了一个 XPath 解析对象。
# etree 模块可以自动修正 HTML 文本，补齐 li 节点
html = etree.HTML(text)
result = etree.tostring(html)   # 调用 tostring 方法即可输出修正后的 HTML 代码
print(result.decode('utf-8'))   # decode 方法将 bytes 类型转为 str 类型
print(type(result))
print(type(result.decode('utf-8')))

<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </li></ul>
 </div>
</body></html>
<class 'bytes'>
<class 'str'>


直接读取文本文件进行解析

In [None]:
from lxml import etree

html = etree.parse('./test.html', etree.HTMLParser())
result = etree.tostring(html)
print(result.decode('utf-8'))

### 3.所有节点

一般用 **`//`** 开头的 XPath 规则来选取所有符合要求的节点。

**`*`** 代表匹配所有节点

返回列表形式，元素为 `Element` 类型，后跟节点名称（如 `html`、`body`、`div`...)

In [22]:
from lxml import etree

html = etree.HTML(text)
print(html)

### 获取所有节点
result = html.xpath('//*')
print('\n所有节点:\n', result)

### 获取指定节点名称
result = html.xpath('//li')
print('\n所有 li 节点:\n', result)

<Element html at 0x1b563144140>

所有节点:
 [<Element html at 0x1b563144140>, <Element body at 0x1b563144400>, <Element div at 0x1b563144180>, <Element ul at 0x1b563144740>, <Element li at 0x1b563144700>, <Element a at 0x1b563144900>, <Element li at 0x1b563144440>, <Element a at 0x1b5631446c0>, <Element li at 0x1b563144600>, <Element a at 0x1b563144880>, <Element li at 0x1b5631444c0>, <Element a at 0x1b563144980>, <Element li at 0x1b5631448c0>, <Element a at 0x1b563144a00>]

所有 li 节点:
 [<Element li at 0x1b563144700>, <Element li at 0x1b563144440>, <Element li at 0x1b563144600>, <Element li at 0x1b5631444c0>, <Element li at 0x1b5631448c0>]


### 4.子节点

- **`/`**  用于获取直接子节点

- **`//`** 用于获取子孙节点

In [26]:
html = etree.HTML(text)

### 获取 li 节点的所有直接子节点 a
result = html.xpath('//li/a')
print('li 节点的所有直接子节点 a\n', result)

### 获取 ul 节点的所有子孙节点 a
result = html.xpath('//ul//a')
print('\n获取 ul 节点的所有子孙节点 a\n',result)

# 注意：使用 //ul/a 便无法获取任何结果
print('\n使用 //ul/a 便无法获取任何结果\n', html.xpath('//ul/a'))

li 节点的所有直接子节点 a
 [<Element a at 0x1b563114f80>, <Element a at 0x1b563114600>, <Element a at 0x1b563114180>, <Element a at 0x1b563114dc0>, <Element a at 0x1b563114f40>]

获取 ul 节点的所有子孙节点 a
 [<Element a at 0x1b563114f80>, <Element a at 0x1b563114600>, <Element a at 0x1b563114180>, <Element a at 0x1b563114dc0>, <Element a at 0x1b563114f40>]

使用 //ul/a 便无法获取任何结果
 []


### 5.父节点

- 获取父节点
  - **`..`** 
  - **`parent::`**

In [45]:
'''
    首先选中 href 属性为 link4.html 的 a 节点
    然后获取其父节点
    再获取其 class 属性
'''

result = html.xpath('//a[@href="link4.html"]/../@class')
print('常规方式 .. 获取父节点\n', result)

result = html.xpath('//a[@href="link4.html"]/parent::*/@class')
print('\n通过 parent:: 获取父节点\n', result)

常规方式 .. 获取父节点
 ['item-1']

通过 parent:: 获取父节点
 ['item-1']


In [42]:
### 分解
result = html.xpath('//ul//*')
print('查看所有li 和 a 节点\n', result)

result1 = html.xpath('//a')
print('\n获取所有a节点\n', result1)

result2 = html.xpath('//a[@href="link4.html"]')
print('\n获取所有a节点中href属性为link4.html的 a 节点\n', result2)

result3 = html.xpath('//a[@href="link4.html"]/..')
print('\n再获取其父节点\n', result3)

result4 = html.xpath('//a[@href="link4.html"]/../@class')
print('\n再获取其class属性\n', result4)

查看所有li 和 a 节点
 [<Element li at 0x1b563155dc0>, <Element a at 0x1b56313dd40>, <Element li at 0x1b563155740>, <Element a at 0x1b56313d900>, <Element li at 0x1b5631551c0>, <Element a at 0x1b56313de00>, <Element li at 0x1b563120d40>, <Element a at 0x1b56313d180>, <Element li at 0x1b563155440>, <Element a at 0x1b56313d140>]

获取所有a节点
 [<Element a at 0x1b56313dd40>, <Element a at 0x1b56313d900>, <Element a at 0x1b56313de00>, <Element a at 0x1b56313d180>, <Element a at 0x1b56313d140>]

获取所有a节点中href属性为link4.html的 a 节点
 [<Element a at 0x1b56313d180>]

再获取其父节点
 [<Element li at 0x1b563120d40>]

再获取其class属性
 ['item-1']


### 6.属性匹配

利用 **`@`** 进行属性过滤

In [47]:
### 获取 所有 class 属性为 item-0 的 li 节点

result = html.xpath('//li[@class="item-0"]')
print(result)

[<Element li at 0x1b56313d3c0>, <Element li at 0x1b56313d540>]


### 7.**文本获取【重点】**



In [50]:
result = html.xpath('//li[@class="item-0"]')
print(result, '\n')

result = html.xpath('//li[@class="item-0"]/text()')
print(result, '\n')

[<Element li at 0x1b563207ec0>, <Element li at 0x1b563207740>] 

['\n     '] 



##### 获取 li 节点内部文本的两种方式

- 先选取 a 节点 再获取文本

In [51]:
result = html.xpath('//li[@class="item-0"]/a/text()')
print(result, '\n')

['first item', 'fifth item'] 



- 直接使用 **`//`**

In [52]:
result = html.xpath('//li[@class="item-0"]//text()')
print(result, '\n')

['first item', 'fifth item', '\n     '] 



### 8.属性获取

In [59]:
print('【所有 a 节点】')
print(html.xpath('//li/a'))

print('\n【所有 a 节点 的 href 属性】')
print(html.xpath('//li/a/@href'))


【所有 a 节点】
[<Element a at 0x1b56313dd40>, <Element a at 0x1b56313d900>, <Element a at 0x1b56313de00>, <Element a at 0x1b56313d180>, <Element a at 0x1b56313d140>]

【所有 a 节点 的 href 属性】
['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']


### 9.属性多值匹配

In [64]:
text = '''
<li class="li li-first"><a href="link.html">first item</a></li>
'''
html = etree.HTML(text)

In [65]:
result = html.xpath('//li[@class="li"]/a/text()')
print(result)

[]


contains 方法

第一个参数传入属性名称，第二个参数传入属性值，只要此属性包含所传入的属性值，就可以完成匹配了。

In [66]:
result = html.xpath('//li[contains(@class, "li")]/a/text()')
print(result)

['first item']


### 10.多属性匹配

- 使用 XPath 运算符 and 来连接

In [104]:
text = '''
<li class="li li-first" name="item"><a href="link.html">first item</a></li>
'''
html = etree.HTML(text)

In [69]:
# 第一个属性  contains(@class, "li")
# 第二个属性  @name="item"
print(html.xpath('//li[contains(@class, "li") and @name="item"]/a/text()'))

['first item']


> 更多的 **`XPath 运算符`** 详见:
>
> [XPath 运算符](https://www.w3school.com.cn/xpath/xpath_operators.asp)

### 11.按序选择

In [98]:
from lxml import etree

text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)

有时候，我们在选择的时候某些属性可能同时匹配了多个节点，但是只想要其中的某个节点，如第二个节点或者最后一个节点，这时该怎么办呢？

这时可以利用中括号传入索引的方法获取特定次序的节点

In [101]:
for i in html.xpath('//li'):
    print(i)
print()
print(html.xpath('//li[1]')[0])
print()
print(html.xpath('//li[last()]')[0])
### 所有的 li 节点不是有序的吗？
### 所有的 li 节点不是有序的吗？
### 所有的 li 节点不是有序的吗？
### 所有的 li 节点不是有序的吗？
### 所有的 li 节点不是有序的吗？
### 所有的 li 节点不是有序的吗？
### 所有的 li 节点不是有序的吗？
### 所有的 li 节点不是有序的吗？
### 所有的 li 节点不是有序的吗？

<Element li at 0x1b56134c480>
<Element li at 0x1b56134c440>
<Element li at 0x1b56134c980>
<Element li at 0x1b56134cdc0>
<Element li at 0x1b56134cf00>

<Element li at 0x1b56134c980>

<Element li at 0x1b56134cf00>


### ***`所有的 li 节点不是有序的吗？`***
### ***`所有的 li 节点不是有序的吗？`***
### ***`所有的 li 节点不是有序的吗？`***
### ***`所有的 li 节点不是有序的吗？`***
### ***`所有的 li 节点不是有序的吗？`***
### ***`所有的 li 节点不是有序的吗？`***

In [100]:
print(html.xpath('//li[1]/a/text()'))       # 以 1 开头
print(html.xpath('//li[last()]/a/text()'))
print(html.xpath('//li[position()<=3]/a/text()'))
print(html.xpath('//li[last()-2]/a/text()'))

['first item']
['fifth item']
['first item', 'second item', 'third item']
['third item']


> 更多 方法见:
> 
> [XPath、XQuery 以及 XSLT 函数](https://www.w3school.com.cn/xpath/xpath_functions.asp)

### 12.节点轴选择

包括获取子元素、兄弟元素、父元素、祖先元素等



In [125]:
from lxml import etree

text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html"><span>first item</span></a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)

In [127]:
print(html.xpath('//li[1]/ancestor::*'))        # 祖先节点
print(html.xpath('//li[1]/ancestor::div'))
print()
print(html.xpath('//li[1]/attribute::*'))       # 属性值
print(html.xpath('//li[1]/attribute::class')) 
print()
print(html.xpath('//li[1]/child::*'))           # 直接子节点
print(html.xpath('//li[1]/child::a[@href="link1.html"]'))
print()
print(html.xpath('//li[1]/descendant::*'))      # 后代、后裔（子孙节点）
print(html.xpath('//li[1]/descendant::span'))   
print()
print(html.xpath('//li[1]/following::*'))       # 当前节点之后的所有节点(子孙)
print(html.xpath('//li[1]/following::*[2]'))    # 把 li 和 a 节点都算进去了，再选择
print(html.xpath('//li[1]/following::*[2]/text()')) 
print()
print(html.xpath('//li[1]/following-sibling::*'))   # 当前节点之后的所有同级节点

[<Element html at 0x1b563205f00>, <Element body at 0x1b56322e480>, <Element div at 0x1b56322ef80>, <Element ul at 0x1b56322e700>]
[<Element div at 0x1b56322e100>]

['item-0']
['item-0']

[<Element a at 0x1b56322e100>]
[<Element a at 0x1b56322e4c0>]

[<Element a at 0x1b56322ef80>, <Element span at 0x1b56322e700>]
[<Element span at 0x1b56322e900>]

[<Element li at 0x1b56322e4c0>, <Element a at 0x1b56322e580>, <Element li at 0x1b56322ee40>, <Element a at 0x1b56322e6c0>, <Element li at 0x1b56322ea40>, <Element a at 0x1b56322e040>, <Element li at 0x1b56322e880>, <Element a at 0x1b56322e680>]
[<Element a at 0x1b56322e580>]
['second item']

[<Element li at 0x1b56322e480>, <Element li at 0x1b56322ef80>, <Element li at 0x1b56322e900>, <Element li at 0x1b56322e6c0>]


> 更多轴用法参考:
> 
> [XPath Axes（轴）](https://www.w3school.com.cn/xpath/xpath_axes.asp)
> 
> 更多 Python lxml 库的用法参考:
> 
> [lxml - XML and HTML with Python](http://lxml.de/)