本课程旨在帮助学生了解如何使用 **XPath** 来解析 HTML 文档，并提取数据。学生将学习 XPath 的基本语法，并通过实际 HTML 示例逐步掌握其应用。

---

### **1. 什么是 XPath？**

#### **1.1 简介**

**XPath** 是一种用于查询 XML 和 HTML 文档中节点的语言。它通过定义路径表达式来选择和提取页面中的元素。XPath 广泛用于网络爬虫和网页数据提取中，因为它提供了灵活和强大的查询功能。

#### **1.2 XPath 的基础语法**

- **`/`**：从根节点选择。
- **`//`**：从文档的任何位置选择节点。
- **`@`**：选择属性。
- **`[]`**：用于索引选择，选择特定位置的元素。
- **`text()`**：提取元素的文本内容。

---

### **2. 环境设置**

为了在 Python 中使用 XPath 解析 HTML，建议使用 `lxml` 库。安装步骤如下：

#### **2.1 安装依赖**

```bash
pip install lxml
pip install requests
```

---

### **3. XPath 示例**

以下为具体的 HTML 示例及其对应的 XPath 代码，通过这些示例，学生可以逐步理解 XPath 的工作原理。

---

### **示例 1：解析表格中的数据**

In [1]:
from lxml import etree

# 示例 HTML 代码
html_content = '''
<html>
  <body>
    <table>
      <tr>
        <td>姓名</td>
        <td>年龄</td>
      </tr>
      <tr>
        <td>张三</td>
        <td>25</td>
      </tr>
      <tr>
        <td>李四</td>
        <td>30</td>
      </tr>
    </table>
  </body>
</html>
'''

# 解析 HTML
tree = etree.HTML(html_content)

# 提取表格头部数据
header = tree.xpath('//table/tr[1]/td/text()')
print(f"表头: {header}")

# 提取张三的年龄
zhang_age = tree.xpath('//table/tr[2]/td[2]/text()')[0]
print(f"张三的年龄: {zhang_age}")

# 提取所有姓名
names = tree.xpath('//table/tr/td[1]/text()')
print(f"所有姓名: {names}")


表头: ['姓名', '年龄']
张三的年龄: 25
所有姓名: ['姓名', '张三', '李四']


**示例 2：解析带有属性的 HTML**

In [2]:
from lxml import etree

# 示例 HTML 代码
html_content = '''
<html>
  <body>
    <a href="https://example.com">Example 1</a>
    <a href="https://test.com">Test Link</a>
  </body>
</html>
'''

# 解析 HTML
tree = etree.HTML(html_content)

# 提取所有链接的文本
link_texts = tree.xpath('//a/text()')
print(f"链接文本: {link_texts}")

# 提取所有链接的 URL
links = tree.xpath('//a/@href')
print(f"链接 URL: {links}")


链接文本: ['Example 1', 'Test Link']
链接 URL: ['https://example.com', 'https://test.com']


**示例 3：复杂 HTML 结构**

In [3]:
from lxml import etree

# 示例 HTML 代码
html_content = '''
<html>
  <body>
    <div class="content">
      <h1>页面标题</h1>
      <div class="article">
        <p>这是一段介绍文字。</p>
        <p class="author">作者: 李华</p>
        <ul>
          <li>第一点</li>
          <li>第二点</li>
          <li>第三点</li>
        </ul>
      </div>
    </div>
  </body>
</html>
'''

# 解析 HTML
tree = etree.HTML(html_content)

# 提取页面标题
title = tree.xpath('//h1/text()')[0]
print(f"页面标题: {title}")

# 提取作者信息
author = tree.xpath('//p[@class="author"]/text()')[0]
print(f"作者: {author}")

# 提取所有列表项
list_items = tree.xpath('//ul/li/text()')
print(f"列表项: {list_items}")


页面标题: 页面标题
作者: 作者: 李华
列表项: ['第一点', '第二点', '第三点']


### **4. 综合案例：解析豆瓣电影数据**

下面的例子展示如何从豆瓣电影 `Top 250` 页面中提取电影标题和评分。

In [4]:
import requests
from lxml import etree

# 设置请求的 URL
url = "https://movie.douban.com/top250"

# 定义请求头，模拟浏览器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# 发送 GET 请求，获取页面内容
response = requests.get(url, headers=headers)

# 检查请求是否成功
if response.status_code == 200:
    html_content = response.content  # 获取网页 HTML 内容

    # 使用 lxml 的 etree 解析 HTML
    tree = etree.HTML(html_content)
    
    # 使用 XPath 提取电影标题
    movie_titles = tree.xpath("//div[@class='hd']/a/span[@class='title']/text()")
    
    # 提取电影的评分
    movie_ratings = tree.xpath("//span[@class='rating_num']/text()")
    
    # 打印所有提取到的电影标题和评分
    for title, rating in zip(movie_titles, movie_ratings):
        print(f"电影: {title}, 评分: {rating}")
else:
    print(f"请求失败，状态码: {response.status_code}")


电影: 肖申克的救赎, 评分: 9.7
电影:  / The Shawshank Redemption, 评分: 9.6
电影: 霸王别姬, 评分: 9.5
电影: 阿甘正传, 评分: 9.5
电影:  / Forrest Gump, 评分: 9.4
电影: 泰坦尼克号, 评分: 9.4
电影:  / Titanic, 评分: 9.5
电影: 千与千寻, 评分: 9.4
电影:  / 千と千尋の神隠し, 评分: 9.4
电影: 这个杀手不太冷, 评分: 9.4
电影:  / Léon, 评分: 9.5
电影: 美丽人生, 评分: 9.4
电影:  / La vita è bella, 评分: 9.3
电影: 星际穿越, 评分: 9.2
电影:  / Interstellar, 评分: 9.3
电影: 盗梦空间, 评分: 9.3
电影:  / Inception, 评分: 9.2
电影: 楚门的世界, 评分: 9.3
电影:  / The Truman Show, 评分: 9.6
电影: 辛德勒的名单, 评分: 9.2
电影:  / Schindler's List, 评分: 9.3
电影: 忠犬八公的故事, 评分: 9.3
电影:  / Hachi: A Dog's Tale, 评分: 9.3
电影: 海上钢琴师, 评分: 9.2
电影:  / La leggenda del pianista sull'oceano, 评分: 9.1


### **5. XPath 与 CSS 选择器的对比**

- **XPath**：
  - **优点**：XPath 更灵活，可以通过属性、文本、索引等方式进行复杂查询。
  - **缺点**：语法稍显复杂。

- **CSS 选择器**：
  - **优点**：CSS 选择器语法简单，更加直观。
  - **缺点**：对于复杂文档结构，CSS 选择器的表达能力有限。

---

### **6. 课后练习**

1. 使用 XPath 提取豆瓣 `Top 250` 页面中的每部电影评分。
2. 修改 XPath 表达式，提取每部电影的导演信息。


---

### **总结**

通过本课程，学生将掌握如何使用 XPath 在 HTML 文档中查询和提取数据的技能。XPath 是一个非常强大的工具，尤其在处理复杂 HTML 结构时极具优势。学生可以根据实际的网页结构编写适合的 XPath 表达式，从而高效地提取数据。

---

### **附录：常用 XPath 表达式**

| XPath 表达式                    | 说明                                |
| ------------------------------- | ----------------------------------- |
| `//div[@class='hd']`            | 选择所有 `class="hd"` 的 `div` 元素 |
| `//span[@class='title']/text()` | 提取电影标题的文本内容              |
| `//a[@href]`                    | 选择带有 `href` 属性的 `a` 标签     |
| `//ul/li/text()`                | 选择所有列表项 `li` 的文本内容      |


---

### **参考资料**

- [XPath 官方文档](https://www.w3.org/TR/xpath/)
- [lxml 官方文档](https://lxml.de/xpathxslt.html)