# xpath使用


## 节点选择

| 表达式 | 描述 |
| :----------------- | :---------------------------------------- |
| nodename       | 选择所有名为nodename的节点           |
| /            | 从根节点选择                    |
| //           | 选择文档中所有匹配的节点         |
| .            | 选择当前节点                    |
| ..           | 选择父节点                     |
| @            | 选择属性                       |


## 谓词
谓词用于查找一个特定的节点，或者一个包含特定值的节点

| 表达式 | 结果 |
| :-------------------------------------- | :-------------------------------------------- |
| /bookstore/book[1]              | 选择bookstore下的第一个book子节点         |
| /bookstore/book[last()]           | 选择bookstore的子节点中的最后一个book元素   |
| /bookstore/book[last()-1]          |                               |
| /bookstore/book[position()<3]       | 选择bookstore的子节点中的前两个book元素    |
| //title[@lang]                 | 选择所有包含"lang"属性的title元素        |
| //title[@lang='en']              | 选择所有lang属性等于'en'的titlt元素       |
| /bookstore/book[price>35.00]        | 选择bookstore下的包含price子元素且price元素的value大于35.00的book元素 |
| /boostore/book[price>35.00]/title    | 选择bookstore下的包含price元素且price元素的value大于35.00的book下的title元素 |

## 通配符

- *：匹配任意元素节点
- @*: 匹配任意属性节点
- node(): 匹配任意类型任意节点

| 表达式 | 结果 |
| :------------------------- | :------------------------------------------ |
| /bookstore/*          | 匹配bookstore下的所有子节点           |
| //*                | 匹配document中的所有节点             |
| //title[@*]          | 匹配所有至少带有一个属性的title元素      |  


## 匹配多个
使用|可以匹配多个

| 表达式 | 结果 |
| :----------------------- | :------------------------------------------------- |
| //book/title \| //book/price | 选择所有book下的title和price子元素 |
| //title \| //price        | 匹配所有的title和price元素 |
| /bookstore/book/title \| \\price | 匹配boostore下的book子元素下的title子元素和文档中所有price元素 |


## 轴(Axes)

| AxixName | Result |
| :-------------------------- | :---------------------------------------- |
| ancestor              | 选择当前节点的所有祖先节点           |
| ancestor-or-self         | 选择当前节点的所有祖先和当前节点自己    |
| attribute             | 选择当前节点的所有属性              |
| child                | 选择当前节点的所有子节点            |
| descendant            | 选择当前节点的所有子孙节点（后裔）      |
| descendant-or-self      | 选择当前节点的所有子孙节点后当前节点自己  |
| following            | 选择当前节点的闭标签后的everything in the document |
| following-sibling      | 当前节点后的所有兄弟节点 |
| namespace           | Selects all namespace nodes of the current node |
| parent             | 选择当前节点的父节点                   |
| preceding           | Selects all nodes that appear before the current node in the document, except ancestors, attribute nodes and namespace nodes |
| preceding-sibling      | 当前节点前的所有兄弟节点                |
| self              | 选择当前节点                         |

### 相对定位和绝对定位
```
# 绝对定位
/step/step/...

# 相对定位
step/step/....

```

语法：
```
axisname::nodetest[predicate]
```

举例：

| 例子 | 结果 |
| :-------------------------- | :---------------------------------------------------- |
| child::book            | 选择当前节点下的所有book子节点                |
| attribute::lang         | 选择当前节点的lang属性                     |
| child::*              | 选择当前节点的所有子节点                   |
| attribute::*           | 选择当前节点的所有属性                     |
| child::text()          | 选择当前节点的所有text node children |
| child::node()          | 选择当前节点的所有children |
| descendant::book        | 选择当前节点的所有book 子孙节点 |
| ancestor::book         | 选择当前节点的所有book祖先节点 |
| ancestor-or-self::book    | 选择当前节点的所有book祖先节点和自己            |
| child::*/child::price    | 选择当前节点的price孙子节点                  |


## 操作符

| 操作符 | 描述 | 例子 |
| :------------------- | :---------------------------------- | :------------------------- |
| \|             | 计算2个节点集 ,相当于求并集      | //book \| //cd         |
| +              | 加                       | 6 + 4               |
| -              | 减                       | 6 - 4               |
| *              | 乘                       | 6 * 4               |
| div            |  除                       | 6 div 4              |
| =              | 等于                      | price=9.80            |
| !=             | 不等于                    |  price!=9.80           |
| <              | 小于                     | price<9.80            |
| <=             | 小于等于                   | price<=9.80           |
| >              | 大于                      | price>9.80            |
| >=             | 大于等于                   | price>=9.80           |
| or             | 或者                      | price=9.80 or price=9.70   |
| and            |  且                       | price<9.80 and price>9.00  |
| mod            | 求余                      | 5 mod 2              |



## 例子

```
import requests
from lxml import html


# 获取网页内容
url = 'https://movie.douban.com/top250'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'
}
pageContent = requests.get(url, headers=headers)
tree = html.fromstring(pageContent.content)

# 获取文件内容
tree = html.fromstring(open('test.html', 'rb').read())

# xpath查找
content = tree.xpath('查找语法')

# 打印详细内容
print(html.tostring(content[0]))


# 语法

# 匹配节点中的文本
nodetest/text()

# 匹配当前节点下的某个任意位置元素
content.xpath('.//div[@id="b1"]')

```