# Xpath 基本语法
lxml 是 一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。

XPath (XML Path Lauguage) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。

教程：https://www.runoob.com/xpath/xpath-tutorial.html

### 选取节点
<img src="./images/xpath01.png" width=500>

### 谓语
谓语用来查找某个特定的节点或者包含某个指定的值的节点，被嵌在方括号中

<img src="./images/xpath02.png" width=600>


### 选取未知节点
XPath 通配符可用来选取未知的 HTML 元素

<img src="./images/xpath03.png" width=300>

### 运算符
<img src="./images/xpath04.png" width=700>

In [1]:
# 用于解析 HTML 文档
from lxml import etree

html_str = """
<html>
<head>
  <meta charset="utf-8">
  <title>教程</title>
</head>
<body>
  <div>
    <h1>我的第一个标题1</h1>
    <p>我的第一个段落1</p>
    <p>我的第一个段落2</p>
    <p>我的第一个段落3</p>
    <p>我的第一个段落4</p>
    <p>我的第一个段落5</p>
    <p>我的第一个段落6</p>
    <a href="http://www.baidu.com">这是一个链接</a>
    <a>这是一个链接</a>
    <img>
    <img width="100">
    <img width="200">
    <img width="300">
  </div> 
</body>
</html>
"""
# 将 HTML 字符串解析成可进行 XPath 查询的文档树对象
xpath_html = etree.HTML(html_str)
print(xpath_html)

# /：从根节点开始遍历
# text()：提取标签的内容
print(xpath_html.xpath("/html/body/div/h1/text()"))

# //：任何节点开始，不考虑位置
print(xpath_html.xpath("//h1/text()"))

# 提取所有 p 标签的内容
print(xpath_html.xpath("/html/body/div/p/text()"))

<Element html at 0x19aa092a700>
['我的第一个标题1']
['我的第一个标题1']
['我的第一个段落1', '我的第一个段落2', '我的第一个段落3', '我的第一个段落4', '我的第一个段落5', '我的第一个段落6']


In [2]:
# 提取 div 元素
div = xpath_html.xpath("/html/body/div")[0]
print(div)

# .：当前节点
print(div.xpath("./h1/text()"))

# ..：父节点
print(div.xpath("../div/h1/text()"))

<Element div at 0x19aa08c2500>
['我的第一个标题1']
['我的第一个标题1']


In [3]:
# @：属性名
print(div.xpath("./a/@href"))

# /img[@width]：查找 img 标签中有 width 属性的元素
# /@width：查找所有 width 属性
print(div.xpath("./img[@width]/@width"))

# 查找 img 标签中 width=300 的元素
print(div.xpath("./img[@width=300]"))

['http://www.baidu.com']
['100', '200', '300']
[<Element img at 0x19aa0929900>]


In [4]:
# 第 1 个 p 元素
print(xpath_html.xpath("//p[1]/text()"))

# 倒数第 3 个 p 元素
print(xpath_html.xpath("//p[last()-2]/text()"))

# 前 2 个 p 元素
print(xpath_html.xpath("//p[position()<3]/text()"))

['我的第一个段落1']
['我的第一个段落4']
['我的第一个段落1', '我的第一个段落2']
