---
title: "HTML 文档与 Requests 库"
format:
  html:
   code-fold: false
   code-tools: true
jupyter: python3
---

## HTML 文档

### 一、HTML 的概念

一个网页通常由以下三大技术要素组成：

- `CSS`：定义网页的样式
- `HTML`：定义网页的结构和信息
- `JavaScript`：定义用户和网页的交互逻辑

```{mermaid}
graph LR
id1(网页源代码) --> id2(CSS: 网页的样式)
id1 --> id3(HTML: 网页的结构和信息)
id1 --> id4(JavaScript: 用户和网页的交互逻辑)
```

由于我们在爬取数据时，主要关心的是网页上面的信息，我们主要学习 HTML。

HTML(HyperText Markup Language)即超文本标记语言，是一种用于创建和组织网页内容的标记语言。它被广泛应用于 Web 开发中，是互联网上最基本的构建块之一，用于描述网页上的文本、图像、链接、表格、多媒体和其他元素的结构和外观。HTML使用标记（标签）来定义文档的结构和内容，这些标记可以通过Web浏览器解释和渲染，以便用户查看和与之交互。

在学习 HTML 文档时，我们首先要记住的概念就是，HTML 是一种**标记语言**，它使用一系列的**标签**(由尖括号 `<>` 括起来)来标记文档的各个部分，如标题、段落、图像等。

随机打开一个网页，在页面上单击右键，选择查看网页源代码，你就可以看到一个网页的源码是如撰写的。比如，我们打开[必应 (bing.com)](https://www.bing.com/)，在打开其网页源代码，就可以看到如下所示的界面：

![网页源代码](./img/网页源代码.png)

仔细观察这个页面，你会发现其中有许许多多的标签，这些标签共同构成了这个页面，其中，网页的 HTML 通常位于 `<html>` 标签之间，包含网页的整体结构，主要有 `<head>` 和 `<body>` 部分；CSS 通常位于 `<style>` 标签内，或者作为外部样式表文件链接到 HTML 页面中；JavaScript 通常位于 `<script>` 标签内，也可以作为外部 JavaScript 文件链接到 HTML 页面之中。

::: {.callout-note}
**文本与超文本**

(1) 文本（Text）

- 文本是一种线性的、有序的信息传递方式。它通常指代书写、打印或输入的字母、数字和符号组成的字符串。
- 文本只包含基本字符，没有多样的格式或媒体元素。
- 在计算机领域，文本通常指代不包含多媒体内容、链接或其他互动元素的字符数据。

(2) 超文本（Hypertext）

- 超文本是一种非线性的、互动的信息传递方式。它不仅包含文本内容，还包括可以链接到其他文档、网页、图像、视频等媒体的超链接。
- 超文本具有更丰富的表现形式，可以通过链接实现跳转、导航和互动。
- 在计算机领域，超文本通常指代包含超链接的内容，这些超链接可以将用户引导到相关的信息或资源。

总的来说，文本强调线性、顺序式的信息传递，而超文本强调非线性、互动式的信息传递，通过链接实现了内容的关联性和丰富性。Web 中的超文本是基于 HTML 构建的，通过超链接和其他元素，使用户能够在不同的网页和资源之间进行自由导航和交互。

:::

让我们一起来看看一个简单的 HTML 示例：

In [None]:
<!DOCTYPE html>
<html>

<head>
    <meta charset="utf-8">
    <title>简单的网页示例</title>
</head>

<body>
    <h1>欢迎来到我的网页</h1>
    <p>这是一个简单的HTML示例，用于展示基本的网页结构和元素。</p>
    <p>你可以点击下面的链接跳转到其他网页：</p>
    <ul>
        <li><a href="https://python.pypandas.com/">示例链接1</a></li>
        <li><a href="https://movie.douban.com/top250">示例链接2</a></li>
    </ul>
</body>

</html>

上面的示例中，用 `<>` 括起来的内容，就是 HTML 的**标签**。尝试将上面的示例代码输入到记事本中保存，并将文件后缀修改为 .html，这样我们就得到了一个带有相应内容的网页，将其在浏览器中打开，观察其中的元素与代码之间的联系。你还可以尝试修改一下代码的内容，自定义你的第一个网页。

浏览器渲染网页时，会把 HTML 源码解析成一个标签树，每个标签都是树的一个节点(node)。这种节点就称为网页元素(element)。所以，“标签”和“元素”基本上是同义词，只是使用的场合不一样：标签是从源码角度来看，元素是从编程角度来看，比如 `<p>` 标签对应网页的 `p` 元素。

这个示例具有一个网页的基本结构，让我们一起来观察一下这个简单的示例代码，看看 HTML 文档的基本组成部分。

- `<!DOCTYPE>` 声明
  - `<!DOCTYPE>` 声明通常是网页的第一个标签，定义文档的类型和版本，告诉浏览器如何解析网页。默认情况下，只需要简单声明 `doctype` 为 `html` 即可，浏览器会按照 HTML 5 的规则解析网页。
- `<html>`
  - `<html>` 是文档的根元素，网页的顶层容器，一个网页只能有一个 `<html>` 标签，该标签包含了整个HTML文档，其他元素都是它的子元素。
- `<head>`
  - `<head>` 标签包含文档的元信息，如标题、字符编码和链接到外部资源的信息，该标签的内容不会出现在网页上。`<head>` 标签是 `<html>` 标签下的第一个子元素，如果网页不包含 `<head>`，浏览器将会自动创建一个。
- `<meta>`
  - 用于设置或说明网页的元数据，必须放置在 `<head>` 标签里。一个 `<meta>` 标签就是一项元数据，一个网页可以有多个 `<meta>` 标签。一般来说，`<meta>` 标签放置在 `<head>` 的最前面。
- `<title>`
  - `<title>` 标签定义文档的标题，显示在浏览器的标题栏或标签页上，该标签内部不能再放置其他标签，只能放置无格式的纯文本。
- `<body>`
  - `<body>` 标签是一个容器标签，用于放置网页的主体内容。浏览器显示的页面内容，如文本、图像、链接等，都放置在它的内部。它是 `<html>` 的第二个子元素，紧跟在 `<head>` 后面。


```{html}
<!DOCTYPE html>
<html>
<head>
    <title>My HTML Page</title>
</head>
<body>
    <h1>This is a Heading</h1>
    <p>This is a paragraph.</p>
    <a href="https://example.com">Visit Example</a>
</body>
</html>


```

标签通常成对出现，包括起始标签和闭合标签。例如，`<p>` 是表示段落的起始标签，`</p>` 是表示段落的闭合标签。

::: {.callout-note}

在 `<body>` 标签内部，我们可以使用各种各样的标签来定义页面中的不同元素，下面是一些常见元素的表示方法：

- 标题： 使用 `<h1>`、`<h2>`、`<h3>` 等标题标签定义页面的标题，标题按重要性逐级递减。
- 段落： 使用 `<p>` 标签定义段落，用于包含文本段落。
- 链接： 使用 `<a>` 标签定义链接，可以链接到其他页面、文件、位置等，我们日常使用的超链接，就是通过 `<a>` 标签定义的。
- 图像： 使用 `<img>` 标签插入图像，需要指定图像的来源（URL）等信息。
- 列表： 使用 `<ul>`（无序列表）和 `<ol>`（有序列表）定义列表，使用 `<li>` 定义列表项。
- 表格： 使用 `<table>` 定义表格，使用 `<tr>` 定义表格行，使用 `<td>` 定义单元格。
- 表单： 使用 `<form>` 定义表单，用于用户输入和提交数据。包含输入字段、按钮等。

另外，在 HTML 文档中，注释的写法与 Python 并不一样，HTML 代码的注释以 `<!--` 开头，以 `-->` 结尾，可以换行。

```html
<!-- 这是一个注释 -->

<!--
  <p>hello world</p>
-->
```

:::

如果你使用的是 Google Chrome 浏览器，也可以打开一个新标签页，根据我们前面所学的知识观察新标签页的源代码，并且尝试拆分他们。

In [None]:
<!doctype html>
<html dir="ltr" lang="zh">

<head>
    <meta charset="utf-8">
    <title>新标签页</title>
    <style>
        body {
            background: #3C3C3C;
            margin: 0;
        }

        #backgroundImage {
            border: none;
            height: 100%;
            pointer-events: none;
            position: fixed;
            top: 0;
            visibility: hidden;
            width: 100%;
        }

        [show-background-image] #backgroundImage {
            visibility: visible;
        }
    </style>
</head>

<body>
    <iframe id="backgroundImage" src=""></iframe>
    <ntp-app></ntp-app>
    <script type="module" src="new_tab_page.js"></script>
    <link rel="stylesheet" href="chrome://resources/css/text_defaults_md.css">
    <link rel="stylesheet" href="chrome://theme/colors.css?sets=ui,chrome">
    <link rel="stylesheet" href="shared_vars.css">
</body>

</html>

最后我们需要注意的是各个标签之间的层级关系。

在上面的 HTML 示例中，仔细观察标签 `<body>` 中的内容，这些就是它的子元素。在 HTML 和 CSS 中，元素之间存在多种关系，其中两个重要的关系就是“父子元素”和“兄弟元素”。

- 父子元素关系： 父子元素关系指的是一个元素包含在另一个元素的内部，形成了层级关系。在 HTML 中，这通常表示一个元素是另一个元素的子元素。例如：

In [None]:
<div> <!-- 这是父元素 -->
    <p>这是子元素</p> <!-- 这是子元素 -->
</div>

在这个例子中，`<div>` 元素是 `<p>` 元素的父元素，而 `<p>` 元素是 `<div>` 元素的子元素。子元素通常位于父元素的内部，并且可以通过嵌套来创建更复杂的结构。

- 兄弟元素关系： 兄弟元素关系指的是位于同一父元素内的元素之间的关系，它们具有相同的父元素。例如：

In [None]:
<ul> <!-- 父元素 -->
    <li>Item 1</li> <!-- 这是兄弟元素 -->
    <li>Item 2</li> <!-- 这是兄弟元素 -->
    <li>Item 3</li> <!-- 这是兄弟元素 -->
</ul>

在这个例子中，`<li>` 元素之间就是兄弟元素，它们都是 `<ul>` 元素的子元素，并且具有相同的父元素。兄弟元素通常位于同一层次结构中，它们可以通过 CSS 选择器和 JavaScript 来选择和操作。

```{mermaid}
graph LR
id1(HTMl) --> id2("父元素1\n(兄弟元素1)")
id2 --> id3(兄弟元素2)
id2 --> id4(兄弟元素2)
id1 --> id5("父元素2\n(兄弟元素1)")
```

### 二、使用 XPath 选取 HTML 元素

要编写爬虫程序，抓取网页中特定的信息，就是要从 HTML 中选取出我们所需要的元素。通过上面的学习，我们掌握了 HTML 文档的构成，接下来，我们一起来看看如何从一个 HTML 网页中选取到我们想要的元素。

我们已经知道了，HTML 由许许多多的标签组成。因此，我们要抓取特定的内容，也就要从标签下手。要在 HTMl 文档中定位和提取数据，我们可以使用 XPath 表达式或 CSS 表达式。

我们首先来看看 XPath 表达式。

#### 1. XPath 的概念

XPath 是一种用于在XML文档中定位和提取数据的查询语言。它广泛用于解析和操作XML文档，同时也适用于HTML文档，特别是在Web爬虫和数据抓取中。要使用 XPath，我们可以使用 lxml 库，它是一个用于处理XML和HTML文档的强大库，支持XPath查询。使用下面的代码安装它：

In [None]:
!pip install lxml


在本次学习中，我们以下面的 HTML 文档为示例，复制下面的代码，将其保存为一个 .html 文件。


In [None]:
<!DOCTYPE html>
<html>

<head>
    <title>一个HTML文档</title>
</head>

<body>
    <header>
        <h1>网页抓取示例</h1>
        <nav>
            <ul>
                <li><a href="https://jupyter.pydatacamp.com/hub/login">开始练习吧！</a></li>
                <li><a href="https://pydatacamp.com/">记得认真阅读文档！！</a></li>
                <li><a href="https://docs.qq.com/doc/DS1dFSVBCcndjbXNa">记录你的问题~</a></li>
            </ul>
        </nav>
    </header>

    <section id="content">
        <article>
            <h2>文章1</h2>
            <p>这是第一篇文章。📃📃📃📃📃好多字呀！🔤🔣🔤🔣🔤</p>
        </article>

        <article>
            <h2>文章2</h2>
            <p>这是第二篇文章。😆🎮➡️🦹👉📄✏️➡️🥹➡️😭➡️📝➡️🗒️🗒️🗒️🗒️🗒️➡️😫😫➡️😭😭➡️🥱🦥➡️🫣🙈🫣➡️😆🎮</p>
        </article>
    </section>

    <aside>
        <h3>相关链接</h3>
        <ul>
            <li><a href="https://zty.pe/">要不要学习打字？</a></li>
            <li><a href="https://weread.qq.com/">多多读书准没错！</a></li>
            <li><a href="https://www.4399.com/">或许是时候休息一会儿了😎☕</a></li>
            <li><a href="https://movie.douban.com/top250">也许看看电影是个好选择🎞️</a></li>
        </ul>
    </aside>

    <footer>
        <p>&copy; 2023 网页抓取示例</p>
    </footer>
</body>

</html>

#### 2. XPath 节点

在 XPath 中，节点是 HTML 文档的基本构建块，用于表示文档的不同部分。你可以将节点理解为 HTML 文档中的标签。XPath 通过选择不同类型的节点来定位和访问文档中的数据。XPath 共有七种类型的节点：元素节点、属性节点、文本节点、命名空间节点、处理指令节点、注释节点以及文档(根)节点。在本次学习中，我们主要关注以下三种：

1. 元素节点

   元素节点用以表示文档中的标签，如：`<div>`、`<p>`、`<a>` 等。元素节点可以包含其他元素节点、文本节点和属性节点。

2. 属性节点

   属性节点用以表示元素的属性，如：`<a href="https://example.com">` 中的 `href` 属性。属性节点可以提供关于元素的额外信息。

3. 文本节点

   文本节点用以表示元素中的文本内容，如：`<p>这是文本节点</p>` 中的“这是文本节点”就是一个文本节点。

XPath 节点之间的关系也很重要，在 HTML 部分，我们了解了各个标签之间存在父子元素关系、兄弟元素关系，这些关系也可以用于 XPath 节点。另外，如果我们将父子元素关系推而广之，就拥有了先辈-后代元素关系。

> 先辈节点：某节点的父节点、父节点的父节点等，都是该节点的先辈节点。
>
> 后代节点：某节点的子节点、子节点的子节点等，都是该节点的后代节点。

```{mermaid}
graph LR
id1(HTMl) --> id2("先辈元素1\n----------\n父元素1\n----------\n兄弟元素1")
id2 --> id3("先辈元素2\n----------\n父元素2\n----------\n兄弟元素2\n----------\n子元素1\n----------\n后代元素1")
id2 --> id4(兄弟元素2)
id3 --> id6("子元素2\n----------\n后代元素2")
id1 --> id5(兄弟元素1)
```

#### 3. XPath 语法

了解了 XPath 节点的前置知识，我们就可以开始尝试在 JupyterLab 中开始练习了。

首先，我们需要 lxml 库为我们提供对 HTML 文档的解析支持。


In [1]:
from lxml import html

随后，设置 HTML 文档字符串：

In [2]:
# 设置 HTML 文档字符串
html_string = """
<!DOCTYPE html>
<html>

<head>
    <title>一个HTML文档</title>
</head>

<body>
    <header>
        <h1>网页抓取示例</h1>
        <nav>
            <ul>
                <li><a href="https://jupyter.pydatacamp.com/hub/login">开始练习吧！</a></li>
                <li><a href="https://pydatacamp.com/">记得认真阅读文档！！</a></li>
                <li><a href="https://docs.qq.com/doc/DS1dFSVBCcndjbXNa">记录你的问题~</a></li>
            </ul>
        </nav>
    </header>

    <section id="content">
        <article>
            <h2>文章1</h2>
            <p>这是第一篇文章。📃📃📃📃📃好多字呀！🔤🔣🔤🔣🔤</p>
        </article>

        <article>
            <h2>文章2</h2>
            <p>这是第二篇文章。😆🎮➡️🦹👉📄✏️➡️🥹➡️😭➡️📝➡️🗒️🗒️🗒️🗒️🗒️➡️😫😫➡️😭😭➡️🥱🦥➡️🫣🙈🫣➡️😆🎮</p>
        </article>
    </section>

    <aside>
        <h3>相关链接</h3>
        <ul>
            <li><a href="https://zty.pe/">要不要学习打字？</a></li>
            <li><a href="https://weread.qq.com/">多多读书准没错！</a></li>
            <li><a href="https://www.4399.com/">或许是时候休息一会儿了😎☕</a></li>
            <li><a href="https://movie.douban.com/top250">也许看看电影是个好选择🎞️</a></li>
        </ul>
    </aside>

    <footer>
        <p>&copy; 2023 网页抓取示例</p>
    </footer>
</body>

</html>
"""

# 使用lxml的html模块解析HTML
parsed_html = html.fromstring(html_string)

将 HTML 字符串准备好以后，就使用 `html.fromstring()` 方法来解析它。

如果在前面你已经将这个示例文档保存为了 .html 文件，可以像下面这样，使用 `html.parse()` 方法来解析它：

In [None]:
# 指定HTML文件的路径
html_file_path = r'文档路径'
parser = html.HTMLParser(encoding='utf-8')

# 使用lxml的html模块解析HTML文件
parsed_html = html.parse(html_file_path, parser=parser)

`html.fromstring()` 和 `html.parse()` 是 lxml 库提供的两种主要的 HTML 文档解析方法。

`html.fromstring()` 既简单又直观，它通常适用于处理内存中的单个 HTML 片段或字符串。一般情况下，从文件中加载的较大的 HTML 文档不使用该方法进行处理。

`html.parse()` 多用于解析从本地文件或 URL 加载的 HTML 文档，这个方法适用于处理完整的 HTML 文档。

现在我们一起来看看 XPath 是如何选取元素的。

##### (1) 节点选取

一个 HTML 文档中，通常会有许多相同的标签，我们通过这些标签来定位节点。但是仔细观察 HTML 文档就会发现，同一标签可能会在不同地方出现许多次，在不同的地方实现不同的功能。因此，我们就需要找到一种方法来定位我们需要的标签——利用元素关系，即根据不同先辈-后代元素之间的关系来定位元素。比如，要找到上面的 HTML 文档中 `<header>` 标签下的 `<h1>` 标签，就可以从 `<h1>` 标签出发，一个个查询其先辈元素：

In [None]:
/html/body/header/h1

```{mermaid}
graph TD
id(html) --> id1(body) --> id2(header) --> id3(h1)
id3 -- 上溯 --> id2
id2 -- 上溯 --> id1
id1 -- 上溯 --> id
```

了解了这个原则，我们就可以按照下面的规则来定位文档中的任意元素了。

|   表达式   |           描述           |        示例         |               说明               |                       使用示例                       |
| :--------: | :----------------------: | :-----------------: | :------------------------------: | :--------------------------------------------------: |
| `nodename` |  选取此节点的所有子节点  |       `/html`       |      选取根节点的所有子节点      |        `result1 = parsed_html.xpath('/html')`        |
|    `//`    |     从根节点取子节点     |       `//h1`        | 从根节点开始选取所有 `<h1>` 元素 |        `result2 = parsed_html.xpath('//h1')`         |
|    `/`     | 选取某个指定节点的子节点 | `/html/body/header` |   选取 `<header>` 元素的子节点   |  `result3 = parsed_html.xpath('/html/body/header')`  |
|    `@`     |  选取带有指定属性的节点  |       `//@id`       |   选取所有带有 `id` 属性的节点   |        `result6 = parsed_html.xpath('//@id')`        |
|    `.`     |       选取当前节点       |     `./header`      |  选取当前节点的 `<header>` 元素  | `header_element = body_element.xpath('./header')[0]` |

现在，让我们一起看看这些表达式的实现效果如何。

::: {.callout-note}

需要注意的是，XPath 查询返回的结果不是节点的内容，而是代表选定节点的元素对象。因此如果直接输出查询到的内容，会将这些元素对象的地址等信息输出出来，而不会直接包含节点的文本信息。

如果想要获取节点的文本内容，就需要进一步处理元素对象，例如使用 `.text` 属性或 `.text_content` 方法来提取文本内容。

- 使用 `.text` 属性：大多数 XML/HTML 解析库（包括 lxml）的元素对象都具有一个 `.text` 属性，它可以用来获取元素的文本内容。

  ```python 
  # 使用 .text 属性获取文本内容
  element = parsed_html.xpath('//h1')[0]
  text_content = element.text
  print(text_content)
  
  ```

- 使用 `.text_content()` 方法：lxml 库的元素对象还提供了一个 `.text_content()` 方法，它返回元素及其子元素的文本内容。

  ```python 
  # 使用 .text_content() 方法获取文本内容
  element = parsed_html.xpath('//h1')[0]
  text_content = element.text_content()
  print(text_content)
  
  ```

:::

**1. 选取根节点的所有子节点**

In [3]:
result1 = parsed_html.xpath('/html')
print("示例1:", result1)

示例1: [<Element html at 0x26a08172210>]


**2. 从根节点开始选取所有 `<h1>` 元素**

In [4]:
result2 = parsed_html.xpath('//h1')
print("示例2:", result2)

示例2: [<Element h1 at 0x26a081671b0>]


**3. 选取 `<html>` 下 `<body>` 标签中的 `<header>` 元素**

In [5]:
result3 = parsed_html.xpath('/html/body/header')
print("示例3:", result3)

示例3: [<Element header at 0x26a08185d60>]


**4. 选取所有带有 `id` 属性的节点**

In [None]:
result6 = parsed_html.xpath('//@id')
print("示例6:", result6)

**5. 将当前节点移动到 `<body>` 元素下，然后选取当前节点中的 `<header>` 元素**

可能你已经注意到，最后一个表达式的使用示例与其他表达式不太一致。这是由于这个方法是用在当前节点下的，这意味着我们不能够像使用其他表达式那样，在任意位置使用这个方法。按表格中的例子来看，完整的方法应该是这样的：

In [None]:
body_element = parsed_html.xpath('/html/body')[0]  # 将当前节点移动到<body>元素
header_element = body_element.xpath('./header')[0]  # 使用./header来选取<header>元素
print("示例:", header_element)

##### (2) 谓词

你可能已经注意到，在上一小节里的最后一个方法里，我们在进行元素定位时，在最后加上了 `[0]` 这样的代码。这些代码就是 XPath 的谓词，类似于自然语言中的谓语，谓词仿佛在给 XPath 添加一个动作，让其去定位我们所需要的特定的元素。

XPath 谓词时一种用于在 XPath 表达式中添加条件的方式，以筛选出 HTML 文档中特定的节点。谓词可以使 XPath 表达式更具灵活性，我们可以根据节点的属性值、位置或其他条件来选择节点。

谓词一般放在 XPath 表达式的最后，其语法如下

In [None]:
节点选择表达式[谓词条件]

其中，条件参数是一个逻辑表达式，用于过滤节点。

| 表达式                        | 使用示例                                                     | 描述                                          |
| ----------------------------- | ------------------------------------------------------------ | --------------------------------------------- |
| `//p`                         | `all_p_elements = parsed_html.xpath('//p')`| 选择所有 `<p>` 元素                           |
| `//a[@href]`                  | `href_specified_a_elements = parsed_html.xpath('//a[@href]') ` | 选择具有指定href属性的 `<a>` 元素             |
| `//h1[text()="网页抓取示例"]` | `h1_elements_with_title = parsed_html.xpath('//h1[text()="网页抓取示例"]') ` | 选择所有带有"网页抓取示例"标题的 `<h1>` 元素  |
| `//article[1]`                | `first_article = parsed_html.xpath('//article[1]') `         | 选择第一个 `<article>` 元素                   |
| `//aside//li[last()]`         | `last_li_element = parsed_html.xpath('//aside//li[last()]') ` | 选取 `<aside>` 标签下的最后一个 `<li>` 元素   |
| `//aside//li[last()-1]`       | `second_last_li_element = parsed_html.xpath('//aside//li[last()-1]') ` | 选取 `<aside>` 标签下的倒数第二个 `<li>` 元素 |

你可以根据下面的代码，到 JupyterLab 中试一试：

> 需要注意的是，当我们没有使用函数等方法获取指定元素，或者选择唯一元素进行获取，而是直接使用条件来获取元素时，XPath 获取的结果将是一个列表，而这些列表常常是不同类型的节点，直接将这些节点输出为列表可能会导致混乱。因此要输出获取到的内容，就需要用到 `for` 循环。

**1. 选择所有 `<p>` 元素**

In [9]:
# 示例1: 选择所有<p>元素
all_p_elements = parsed_html.xpath('//p')

# 输出示例1结果
print("示例1: 选择所有<p>元素的文本内容：")
for p_element in all_p_elements:
    print(p_element.text_content())

示例1: 选择所有<p>元素的文本内容：
这是第一篇文章。📃📃📃📃📃好多字呀！🔤🔣🔤🔣🔤
这是第二篇文章。😆🎮➡️🦹👉📄✏️➡️🥹➡️😭➡️📝➡️🗒️🗒️🗒️🗒️🗒️➡️😫😫➡️😭😭➡️🥱🦥➡️🫣🙈🫣➡️😆🎮
© 2023 网页抓取示例


**2. 选择具有指定href属性的 `<a>` 元素**

In [7]:
# 示例2: 选择具有指定href属性的<a>元素
href_specified_a_elements = parsed_html.xpath('//a[@href]')

# 输出示例2结果
print("\n示例2: 选择具有指定href属性的<a>元素：")
for a_element in href_specified_a_elements:
    print(a_element.text_content())


示例2: 选择具有指定href属性的<a>元素：
开始练习吧！
记得认真阅读文档！！
记录你的问题~
要不要学习打字？
多多读书准没错！
或许是时候休息一会儿了😎☕
也许看看电影是个好选择🎞️


**3. 选择所有带有"网页抓取示例"标题的 `<h1>` 元素**

In [10]:
# 示例3: 选择所有带有"网页抓取示例"标题的<h1>元素
h1_elements_with_title = parsed_html.xpath('//h1[text()="网页抓取示例"]')

# 输出示例3结果
print("\n示例3: 选择所有带有'网页抓取示例'标题的<h1>元素：")
for h1_element in h1_elements_with_title:
    print(h1_element.text_content())


示例3: 选择所有带有'网页抓取示例'标题的<h1>元素：
网页抓取示例


**4. 选择第一个 `<article>` 元素**

In [11]:
# 示例4: 选择第一个<article>元素
first_article = parsed_html.xpath('//article[1]')

# 输出示例4结果
print("\n示例4: 选择第一个<article>元素的标题：")
print(first_article[0].find('h2').text_content())


示例4: 选择第一个<article>元素的标题：
文章1


**5. 选取 `<aside>` 标签下的最后一个 `<li>` 元素**

In [16]:
# 示例5: 选取<aside>标签下的最后一个<li>元素
last_li_element = parsed_html.xpath('//aside//li[last()]')

# 输出示例5结果
print("\n示例5: 选取<aside>标签下的最后一个<li>元素：")
for li_element in last_li_element:
    print(li_element.text_content())


示例5: 选取<aside>标签下的最后一个<li>元素：
也许看看电影是个好选择🎞️


**6. 选取 `<aside>` 标签下的倒数第二个 `<li>` 元素**

In [17]:
# 示例6: 选取<aside>标签下的倒数第二个<li>元素
second_last_li_element = parsed_html.xpath('//aside//li[last()-1]')

# 输出示例6结果
print("\n示例6: 选取倒数第二个<li>元素：")
for li_element in second_last_li_element:
    print(li_element.text_content())


示例6: 选取倒数第二个<li>元素：
或许是时候休息一会儿了😎☕


##### (3) 通配符

最后，我们一起来看看 XPath 通配符。你可能已经注意到，在上面的谓词小节中，有许多奇怪的符号出现，比如：`//a[@href]` 中的 `@`；又有一些出现在谓词中的表达式，例如：`//h1[text()="网页抓取示例"]`。这些符号和表达式，就是 XPath 中的通配符。借助通配符，我们可以选取未知的 HTML 元素。

| 通配符   | 描述               | 使用示例                    | 结果说明                                     |
| -------- | ------------------ | --------------------------- | -------------------------------------------- |
| `*`      | 匹配任何元素节点   | `//*`                       | 选取文档中的所有元素                         |
| `@`      | 匹配任何属性节点   | `//a[@href]`                | 选择具有指定href属性的 `<a>` 元素            |
| `node()` | 匹配任何类型的节点 | `//h1[text()="网页抓取示例` | 选择所有带有"网页抓取示例"标题的 `<h1>` 元素 |


---


## Requests 库

### 一、 什么是 Requests 库

前面我们介绍过，如果要使用爬虫进行数据爬取，首先就要向服务器发送请求，以获取网页的数据源代码，即获取需要被处理的网页内容。

在本次学习中，我们所使用的，用来向服务器发送请求的工具就是 Requests 库，它是一个 HTTP 请求库，用于发送 HTTP 请求和 Web 服务器进行通信。我们可以借助这个库，使用一种简单而优雅的方法在 Python 中进行网络通信。

值得注意的是，requests 库并不是 Python 自带的库，而是一个第三方库，因此在使用它之前，我们需要进行安装。打开 JupyterLab，在终端中输入以下代码以安装 requests 库。

In [None]:
!pip install requests

### 二、Requests 库的特点和用法

#### 1. 发送 HTTP 请求

使用 requests 库可以很方便的发送 HTTP 请求，例如，我们想要向服务器发送一个 `Get` 请求，就可以调用 requests 库中的 `.get()` 函数。这个函数只接收一个参数，就是网站的 URL。参照下面的例子，你也可以找一些网站来尝试使用 requests 库发送 HTTP 请求。

::: {.callout-note}

在输入参数时，我们要格外注意的一点是：

在我们的日常生活中，浏览器地址里里的网址可能是这样的：movie.douban.com/top250 或 www.movie.douban.com/top250

![地址1](./img/地址1.png)

但是在将网址作为参数填入时，我们必须要在网址前加上传输协议，即：https://movie.douban.com/top250

![地址2](./img/地址2.png)

:::


In [18]:
import requests


response = requests.get("https://movie.douban.com/top250")
print(response)

<Response [418]>


运行上面的代码，我们就将使用 `.get` 函数获取的内容输出了出来，你会发现，输出的结果就是服务器回应给我们的状态码 `418`。

::: {.callout-note}

关于状态码 `418`：

状态码 `418` 不是一个通常意义上的由服务器传递给客户端的状态码，它通常使用于愚人节或者一些轻松的场合，也有可能是服务器发现了爬虫程序，并且向使用爬虫的人开了一个小小的、善意的玩笑。它的具体描述是：

Any attempt to brew coffee with a teapot should result in the error code "418 I'm a teapot". The resulting entity body MAY be short and stout.

使用中文来表达的话，大意为：

当客户端给一个茶壶发送泡咖啡的请求时，茶壶就返回一个418错误状态码，表示“我是一个茶壶”。

一个茶壶🫖！当然不可以用来泡咖啡☕呀！😆😆

这个状态码诞生于1998年，作为一个愚人节玩笑来到这个世界上。详情可以参考：https://datatracker.ietf.org/doc/html/rfc2324

你看，计算机编程并不只是冷冰冰的代码，也存在着许多多的人文关怀。在使用爬虫时，千万记得遵循爬虫伦理，设置合理的爬虫策略，小心伤了辛苦建立网站的程序员们的心！

:::

在使用 `.get` 方法发送请求以后，我们还需要判断我们的请求是否被客户端所接受了，即判断我们的请求有没有成功，此时，我们就可以使用 `response.ok` 属性，该属性用于检查 HTTP 请求是否成功并且返回一个布尔值，如果响应码在状态 200 到 299 的范围内，将返回 `True`，表示请求成功，否则将返回 `False`，表示请求失败。

以上面的 HTTP 请求为示例，想要验证请求是否成功，可以这样输入：

In [19]:
import requests


response = requests.get("https://movie.douban.com/top250")
print(response)

if response.ok:
    print("请求成功")
else:
    print("请求失败")

<Response [418]>
请求失败


与 `response.ok` 方法类似的，还有如下方法，他们分别能获取到状态码、响应头以及文本内容。

- `response.status_code`属性包含了HTTP响应的状态码。状态码是一个三位数，表示服务器对请求的处理结果。

- `response.headers`属性是一个字典，包含了HTTP响应的头部信息。

- `response.text`属性包含了HTTP响应的文本内容。对于文本响应（如HTML页面或纯文本文档），这是服务器返回的实际文本内容。

以中文知识社区 [知乎](https://www.zhihu.com)<https://www.zhihu.com/> 为例，我们来尝试一下上面的方法：

In [20]:
import requests


response = requests.get("https://www.zhihu.com/")
# 获取状态码
print(f"服务器返回的状态码是：{response.status_code}")


服务器返回的状态码是：200


In [21]:
# 获取响应头
print(f"服务器返回的响应头是：{response.headers}")


服务器返回的响应头是：{'Server': 'CLOUD ELB 1.0.0', 'Date': 'Thu, 14 Sep 2023 06:13:07 GMT', 'Content-Type': 'text/html; charset=utf-8', 'Vary': 'Accept-Encoding', 'content-security-policy': "default-src * blob:; img-src * data: blob: resource: t.captcha.qq.com *.dun.163yun.com *.dun.163.com *.126.net *.nosdn.127.net nos.netease.com; connect-src * wss: blob: resource:; frame-src 'self' *.zhihu.com mailto: tel: weixin: *.vzuu.com mo.m.taobao.com getpocket.com note.youdao.com safari-extension://com.evernote.safari.clipper-Q79WDW8YH9 blob: mtt: zhihujs: captcha.guard.qcloud.com pos.baidu.com dup.baidustatic.com openapi.baidu.com wappass.baidu.com passport.baidu.com *.cme.qcloud.com vs-cdn.tencent-cloud.com t.captcha.qq.com *.dun.163yun.com *.dun.163.com *.126.net *.nosdn.127.net nos.netease.com; script-src 'self' blob: *.zhihu.com g.alicdn.com qzonestyle.gtimg.cn res.wx.qq.com open.mobile.qq.com 'unsafe-eval' unpkg.zhimg.com unicom.zhimg.com resource: zhihu-live.zhimg.com captcha.gtimg.com captcha.g

In [22]:
# 获取文本内容
print(f"服务器返回的文本内容是：{response.text}")


服务器返回的文本内容是：<!doctype html>
<html lang="zh" data-hairline="true" class="itcauecng" data-theme="light"><head><meta charSet="utf-8"/><title data-rh="true">知乎 - 有问题，就会有答案</title><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"/><meta name="renderer" content="webkit"/><meta name="force-rendering" content="webkit"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><meta name="google-site-verification" content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg"/><meta name="description" property="og:description" content="知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于 2011 年 1 月正式上线，以「让人们更好的分享知识、经验和见解，找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容，聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群，已成为综合性、全品类、在诸多领域具有关键影响力的知识分享社区和创作者聚集的原创内容平台，建立起了以社区驱动的内容变现商业模式。"/><link data-rh="true" rel="apple-touch-icon" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.81060cab.png"/><link data-rh="true" rel="apple-touch-icon" href="https://static.zhihu.com/heifetz/assets/ap

通过使用 `.get()` 方法，我们已经完成了爬虫工作的第一步：获取网页的全部信息了。接下来，让我们学习一下关于 requests 库的其他操作。


```{mermaid}
graph TD
id(Requests 库中\n常见的请求方法) --> id1(requests.get 发送 GET 请求)
id --> id2(response.ok 检查请求是否成功)
id --> id3(response.status_code 获取状态码)
id --> id4(response.headers 获取响应头)
id --> id5(response.text 获取服务器返回的文本内容)
id --> id6(requests.post 发送 POST 请求)
```



#### 2. 传递参数

仔细回想上一节的内容，一个 HTTP 请求通常包含请求行、请求头和请求体，其中，请求头包含了请求的信息和附加内容，请求发起者的身份信息等等都包含在请求头之中。在我们使用 `.get()` 方法时，requests 库会自动帮我们生成请求头，但是这样一来，服务器很容易就能够知道请求发起者的身份是一个爬虫程序，而有些网站并不希望自己的服务对象是一个不能看广告的程序，就会拒绝我们的请求，就像 [豆瓣电影](https://movie.douban.com/top250)<https://movie.douban.com/top250> 做的那样。因此，如果我们想要隐藏我们自己，就要指定信息进行修改。

要对我们传递给服务器的信息进行修改，就要额外设置参数，比如：

我们额外设置一个参数：`headers`，就像下面这样：

In [23]:
import requests


headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"
}
response = requests.get("https://movie.douban.com/top250", headers = headers)
print(response)

<Response [200]>


在上面的示例中，我们通过设置 `headers` 参数，将我们的身份模拟成了一个运行在 Windows 10 上的 Chrome 浏览器，观察服务器给我们的返回结果就可以发现，状态码从表示请求失败的 `418` 变为了代表请求成功的 `200`，我们的伪装成功骗过了网站的服务器。但是请先别急着骄傲，我们还没有大获全胜，如果你要爬取更多的信息，可能会触发网站的反爬虫机制，请让我们脚踏实地，一步步来。

> 如果你想知道更多的 `user-agent`，可以试试看下面的方法：
> 1. 打开你的浏览器，按 `F12` 或 `Ctrl + Shift + I`(或 `Cmd + Option + I` 在 Mac 上)打开开发者工具，切换到 "Network" 或 "网络" 标签。
> 2. 刷新页面或执行所需的操作，浏览器就会生成一个HTTP请求。
> 3. 在开发者工具中，我们就将看到所有HTTP请求的列表。选择其中一个请求，然后在右侧的 "Headers" 或 "标头" 部分查找 "User-Agent" 头部，就可以看到浏览器的User-Agent信息。
>
> ![UA](/.img/UA.png)

在 `requests` 库中，你可以使用参数来自定义和配置HTTP请求。这些参数通常是键值对，用于指定请求的一些特定要求或信息。以下是 `requests` 库中常见的一些参数及其用法：

**1. `params`： 用于向URL添加查询字符串参数，常用于GET请求。**

In [24]:
import requests

params = {"key1": "value1", "key2": "value2"}
response = requests.get("https://www.example.com/api", params=params)

在上述示例中，`params` 参数将被添加到URL中，形成类似于 `https://www.example.com/api?key1=value1&key2=value2` 的请求。

**2. `headers`：用于设置 HTTP 请求的头部信息，包括用户代理、授权信息等。**

In [None]:
import requests

headers = {"User-Agent": "MyApp/1.0", "Authorization": "Bearer token"}
response = requests.get("https://www.example.com", headers=headers)

使用 `headers` 参数，您可以模拟不同的用户代理或提供身份验证信息。

**3. `data`：用于发送表单数据或请求主体数据，通常与 POST 请求一起使用。**

In [None]:
import requests

data = {"username": "user", "password": "pass"}
response = requests.post("https://www.example.com/login", data=data)

`data` 参数允许您将数据以表单形式发送给服务器。


**4. `json`：用于发送 JSON 数据，通常与 POST 请求一起使用。**

In [None]:
import requests

json_data = {"key": "value"}
response = requests.post("https://www.example.com/api", json=json_data)

`json` 参数允许您以 JSON 格式发送数据给服务器。


**5. `auth`：用于进行基本身份验证，需要提供用户名和密码。**

In [None]:
import requests

auth = ("username", "password")
response = requests.get("https://www.example.com/secure", auth=auth)

`auth` 参数用于访问需要身份验证的资源。


**6. `cookies`：用于发送请求时附带的 Cookies 信息。**

In [None]:
import requests

cookies = {"session_id": "1234567890"}
response = requests.get("https://www.example.com/profile", cookies=cookies)

`cookies` 参数可用于模拟登录状态或其他需要使用 Cookies 的情况。


**7. `files`：用于上传文件，通常与 POST 请求一起使用。**

In [None]:
import requests

files = {"file": open("data.txt", "rb")}
response = requests.post("https://www.example.com/upload", files=files)

`files` 参数允许您上传文件。


**8. `timeout`：用于设置请求的超时时间，防止长时间等待响应。**

In [None]:
import requests

response = requests.get("https://www.example.com", timeout=5)

`timeout` 参数指定了等待服务器响应的最大秒数。

这些参数允许我们非常自由的自定义我们的请求内容，满足我们不同的需求，多多在编辑器里尝试一下，你会进步的很快。

```{mermaid}
graph TD
id(Requests 库中\n常见的可自定义参数) --> id1(params 添加查询字符串参数)
id --> id2(headers 设置 HTTP 请求头)
id --> id3(data 发送表单数据或请求主体数据\n通常与 POST 请求一起使用)
id --> id4(json 以 JSON 格式发送数据\n通常与 POST 请求一起使用)
id --> id5(auth 进行基本身份验证)
id --> id6(cookies 发送请求时附带Cookies信息)
id --> id7(files 上传文件\n通常与 POST 请求一起使用)
id --> id8(timeout 设置请求超时时间)
```

#### 3. 发送 `POST` 请求

使用 requests 库，除了可以向服务器发送 `GET` 请求，还可以发送 `POST` 请求。发送 `POST` 请求的方法与传递参数的方法类似，都需要我们设置一个额外的参数。只不过此时，我们要设置的参数就是：`data`，并且，使用的方法变成了 `.post` 方法。

先来看看下面的例子：

In [25]:
import requests


# 定义要提交的数据，可以是表单数据或 JSON 数据
data = {
    "key1": "value1",
    "key2": "value2"
}

# 使用 requests.post() 发送 POST 请求
response = requests.post("https://www.example.com/api", data=data)

# 处理响应
if response.status_code == 200:
    print("POST 请求成功")
    print(response.text)
else:
    print("POST 请求失败")


POST 请求失败


我们首先定义了要提交的数据，可以是一个字典，表示表单数据。然后，我们使用 `requests.post()` 方法发送 `POST` 请求到指定的 URL，同时将数据传递给 `data` 参数。最后，我们检查响应的状态码，如果状态码为 `200`，则表示请求成功，并打印响应内容。在上面的示例中，由于我们准备的网址 <https://www.example.com/api> 是一个不存在的网址，因此我们发送的请求会失败，请不用担心。

这样一来，我们就完成了 requests 库的基础学习，在后面的学习中，我们可以自如地使用 requests 库来抓取网页的内容了。当然，requests 库还有许多其他的功能，比如处理 HTTP 请求异常，这部分大家可以根据自己的精力选择性学习。

#### 4. 处理异常

在使用 requests 库进行网络请求时，可以通过捕获和处理异常来增强代码的健壮性，以应对网络请求过程中可能出现的各种异常情况。以下是一些常见的网络请求异常以及如何处理它们的详细介绍：

##### (1) 请求错误异常(RequestException)

  请求错误异常是一种捕获网络请求过程中各种错误的**通用异常**。使用 requests 库中的 `requests.exceptions.RequestException` 方法，它可以捕获请求超时、连接错误、DNS 解析错误等各种可能的问题。


In [None]:
import requests


try:
    response = requests.get("https://www.example.com")
    response.raise_for_status()  # 检查是否有错误的响应状态码
except requests.exceptions.RequestException as e:
    print(f"请求发生错误：{e}")

##### (2) 请求超时异常(Timeout)

  请求超时异常是指在规定的时间内没有接收到服务器的响应。可以使用 `timeout` 参数来设置请求的最大等待时间。如果超过指定的时间仍未收到响应，将引发 `requests.exceptions.Timeout` 异常。

In [None]:
import requests


try:
    response = requests.get("https://www.example.com", timeout=5)  # 设置超时时间为5秒
    response.raise_for_status()  # 检查是否有错误的响应状态码
except requests.exceptions.Timeout:
    print("请求超时，请检查网络连接或增加超时时间。")
except requests.exceptions.RequestException as e:
    print(f"请求发生错误：{e}")

##### (3) 连接错误异常(ConnectionError)

连接错误异常是指在建立与服务器的连接时出现问题，可能是因为无法连接到服务器或目标服务器不可达，使用 `requests.exceptions.ConnectionError` 来检查是否出现连接错误异常。


In [None]:
import requests


try:
    response = requests.get("https://www.example.com")
    response.raise_for_status()  # 检查是否有错误的响应状态码
except requests.exceptions.ConnectionError:
    print("无法连接到服务器，请检查网络连接或服务器是否可达。")
except requests.exceptions.RequestException as e:
    print(f"请求发生错误：{e}")

##### (4) HTTP错误异常(HTTPError)

HTTP错误异常是指服务器返回了一个不成功的HTTP响应状态码（如4xx或5xx），表示请求未成功完成。可以使用 `response.raise_for_status()` 方法来检查响应状态码，如果状态码表明请求失败，将引发 `requests.exceptions.HTTPError` 异常。

In [None]:
import requests


try:
    response = requests.get("https://www.example.com")
    response.raise_for_status()  # 检查是否有错误的响应状态码
except requests.exceptions.HTTPError as e:
    print(f"HTTP错误：{e}")
except requests.exceptions.RequestException as e:
    print(f"请求发生错误：{e}")

通过适当捕获和处理这些异常，我们可以确保您的网络请求代码在面对问题时能够进行适当的处理，以提高代码的稳定性和可靠性。
