---
title: "Requests 库"
format:
  html:
  #  code-fold: true
   code-tools: true
jupyter: python3
---

## Requests 库

### 一、什么是 Requests库 ？

前面我们介绍过，如果要使用爬虫进行数据爬取，首先就要向服务器发送请求，以获取网页的数据源代码，即获取需要被处理的网页内容。

在本次学习中，我们所使用的，用来向服务器发送请求的工具就是 Requests 库，它是一个 HTTP 请求库，用于发送 HTTP 请求和 Web 服务器进行通信。我们可以借助这个库，使用一种简单而优雅的方法在 Python 中进行网络通信。

值得注意的是，requests 库并不是 Python 自带的库，而是一个第三方库，因此在使用它之前，我们需要进行安装。打开 JupyterLab，在终端中输入以下代码以安装 requests 库。

In [None]:
pip install requests

### 二、Requests 库的特点和用法

#### 1. 发送 HTTP 请求

使用 requests 库可以很方便的发送 HTTP 请求，例如，我们想要向服务器发送一个 `Get` 请求，就可以调用 requests 库中的 `.get()` 函数。这个函数只接收一个参数，就是网站的 URL。参照下面的例子，你也可以找一些网站来尝试使用 requests 库发送 HTTP 请求。

> 在输入参数时，我们要格外注意的一点是：
> 在我们的日常生活中，浏览器地址里里的网址通常是这样的：movie.douban.com/chart 或 www.movie.douban.com/chart
> ![](./浏览器网址.png)
> 但是在将网址作为参数填入时，我们必须要在网址前加上传输协议，即：https://movie.douban.com/chart
> ![](./URL.png)


In [11]:
import requests

response = requests.get("https://movie.douban.com/chart")
print(response)

<Response [418]>


运行上面的代码，我们就将使用 `.get` 函数获取的内容输出了出来，你会发现，输出的结果就是服务器回应给我们的状态码 `418`。

::: {.callout-note}
关于状态码 `418`：

状态码 `418` 不是一个通常意义上的由服务器传递给客户端的状态码，它通常使用于愚人节或者一些轻松的场合，也有可能是服务器发现了爬虫程序，并且向使用爬虫的人开了一个小小的、善意的玩笑。它的具体描述是：

Any attempt to brew coffee with a teapot should result in the error code "418 I'm a teapot". The resulting entity body MAY be short and stout.

使用中文来表达的话，大意为：

当客户端给一个茶壶发送泡咖啡的请求时，茶壶就返回一个418错误状态码，表示“我是一个茶壶”。

这个状态码诞生于1998年，作为一个愚人节玩笑来到这个世界上。详情可以参考：https://datatracker.ietf.org/doc/html/rfc2324

你看，计算机编程并不只是冷冰冰的代码，也存在着许多多的人文关怀。在使用爬虫时，千万记得遵循爬虫伦理，设置合理的爬虫策略，小心伤了辛苦建立网站的程序员们的心！

:::

在使用 `.get` 方法发送请求以后，我们还需要判断我们的请求是否被客户端所接受了，即判断我们的请求有没有成功，此时，我们就可以使用 `response.ok` 属性，该属性用于检查 HTTP 请求是否成功并且返回一个布尔值，如果响应码在状态 200 到 299 的范围内，将返回 `True`，表示请求成功，否则将返回 `False`，表示请求失败。

以上面的 HTTP 请求为示例，验证请求是否成功。

In [12]:
import requests

response = requests.get("https://movie.douban.com/chart")
print(response)

if response.ok:
    print("请求成功")
else:
    print("请求失败")

<Response [418]>
请求失败


与 `response.ok` 方法类似的，还有如下方法，他们分别能获取到状态码、响应头以及文本内容。

- `response.status_code`属性包含了HTTP响应的状态码。状态码是一个三位数，表示服务器对请求的处理结果。
- `response.headers`属性是一个字典，包含了HTTP响应的头部信息。
- `response.text`属性包含了HTTP响应的文本内容。对于文本响应（如HTML页面或纯文本文档），这是服务器返回的实际文本内容。

In [13]:
import requests

response = requests.get("https://www.zhihu.com/")

print(response.status_code)  # 获取状态码
print(response.headers)      # 获取响应头
print(response.text)         # 获取文本内容


200
{'Server': 'CLOUD ELB 1.0.0', 'Date': 'Fri, 01 Sep 2023 14:07:54 GMT', 'Content-Type': 'text/html; charset=utf-8', 'Vary': 'Accept-Encoding', 'content-security-policy': "default-src * blob:; img-src * data: blob: resource: t.captcha.qq.com *.dun.163yun.com *.dun.163.com *.126.net *.nosdn.127.net nos.netease.com; connect-src * wss: blob: resource:; frame-src 'self' *.zhihu.com mailto: tel: weixin: *.vzuu.com mo.m.taobao.com getpocket.com note.youdao.com safari-extension://com.evernote.safari.clipper-Q79WDW8YH9 blob: mtt: zhihujs: captcha.guard.qcloud.com pos.baidu.com dup.baidustatic.com openapi.baidu.com wappass.baidu.com passport.baidu.com *.cme.qcloud.com vs-cdn.tencent-cloud.com t.captcha.qq.com *.dun.163yun.com *.dun.163.com *.126.net *.nosdn.127.net nos.netease.com; script-src 'self' blob: *.zhihu.com g.alicdn.com qzonestyle.gtimg.cn res.wx.qq.com open.mobile.qq.com 'unsafe-eval' unpkg.zhimg.com unicom.zhimg.com resource: zhihu-live.zhimg.com captcha.gtimg.com captcha.guard.qc

通过使用 `.get()` 方法，我们已经完成了爬虫工作的第一步：获取网页的全部信息了。接下来，让我们学习一下关于 requests 库的其他操作。

#### 2. 传递参数

仔细回想上一节的内容，一个 HTTP 请求通常包含请求行、请求头和请求体，其中，请求头包含了请求的信息和附加内容，请求发起者的身份信息等等都包含在请求头之中。在我们使用 `.get()` 方法时，requests 库会自动帮我们生成请求头，但是这样一来，服务器很容易就能够知道请求发起者的身份是一个爬虫程序，而有些网站并不希望自己的服务对象是一个不能看广告的程序，就会拒绝我们的请求。因此，如果我们想要隐藏我们自己，就要指定信息进行修改。

要对我们传递给服务器的信息进行修改，就要额外设置参数，比如：

我们额外设置一个参数：`headers`，就像下面这样：


In [14]:
import requests

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
response = requests.get("https://movie.douban.com/chart", headers = headers)
print(response)

<Response [200]>


在上面的示例中，我们通过设置 `headers` 参数，将我们的身份模拟成了一个运行在 Windows 10 上的 Chrome 浏览器，观察服务器给我们的返回结果就可以发现，状态码从表示请求失败的 `418` 变为了代表请求成功的 `200`，我们的伪装成功骗过了网站的服务器。但是请先别急着骄傲，我们还没有大获全胜，如果你要爬取更多的信息，可能会触发网站的反爬虫机制，请让我们脚踏实地，一步步来。

> 如果你想知道更多的 `user-agent`，可以试试看下面的方法：
> 1. 打开你的浏览器，按 `F12` 或 `Ctrl + Shift + I`(或 `Cmd + Option + I`` 在 Mac 上)打开开发者工具，切换到 "Network" 或 "网络" 标签。
> 2. 刷新页面或执行所需的操作，浏览器就会生成一个HTTP请求。
> 3. 在开发者工具中，我们就将看到所有HTTP请求的列表。选择其中一个请求，然后在右侧的 "Headers" 或 "标头" 部分查找 "User-Agent" 头部，就可以看到浏览器的User-Agent信息。

如果你感兴趣，还可以看看下面的拓展内容，这里列出了常见的我们可以修改的信息。


::: {.callout-note}

在 `requests` 库中，你可以使用参数来自定义和配置HTTP请求。这些参数通常是键值对，用于指定请求的一些特定要求或信息。以下是 `requests` 库中常见的一些参数及其用法：

1. **params：** 用于向URL添加查询字符串参数，常用于GET请求。

   ```python
   import requests

   params = {"key1": "value1", "key2": "value2"}
   response = requests.get("https://www.example.com/api", params=params)
   ```

   在上述示例中，`params` 参数将被添加到URL中，形成类似于 `https://www.example.com/api?key1=value1&key2=value2` 的请求。

2. **headers：** 用于设置HTTP请求的头部信息，包括用户代理、授权信息等。

   ```python
   import requests

   headers = {"User-Agent": "MyApp/1.0", "Authorization": "Bearer token"}
   response = requests.get("https://www.example.com", headers=headers)
   ```

   使用 `headers` 参数，您可以模拟不同的用户代理或提供身份验证信息。


3. **data：** 用于发送表单数据或请求主体数据，通常与POST请求一起使用。

   ```python
   import requests

   data = {"username": "user", "password": "pass"}
   response = requests.post("https://www.example.com/login", data=data)
   ```

   `data` 参数允许您将数据以表单形式发送给服务器。


4. **json：** 用于发送JSON数据，通常与POST请求一起使用。

   ```python
   import requests

   json_data = {"key": "value"}
   response = requests.post("https://www.example.com/api", json=json_data)
   ```

   `json` 参数允许您以JSON格式发送数据给服务器。


5. **auth：** 用于进行基本身份验证，需要提供用户名和密码。

   ```python
   import requests

   auth = ("username", "password")
   response = requests.get("https://www.example.com/secure", auth=auth)
   ```

   `auth` 参数用于访问需要身份验证的资源。


6. **cookies：** 用于发送请求时附带的Cookies信息。

   ```python
   import requests

   cookies = {"session_id": "1234567890"}
   response = requests.get("https://www.example.com/profile", cookies=cookies)
   ```

   `cookies` 参数可用于模拟登录状态或其他需要使用Cookies的情况。


7. **files：** 用于上传文件，通常与POST请求一起使用。

   ```python
   import requests

   files = {"file": open("data.txt", "rb")}
   response = requests.post("https://www.example.com/upload", files=files)
   ```

   `files` 参数允许您上传文件。


8. **timeout：** 用于设置请求的超时时间，防止长时间等待响应。

   ```python
   import requests
   
   response = requests.get("https://www.example.com", timeout=5)
   ```

   `timeout` 参数指定了等待服务器响应的最大秒数。

这些参数允许我们非常自由的自定义我们的请求内容，满足我们不同的需求，多多在编辑器里尝试一下，你会进步的很快。

:::

#### 3. 发送 `POST` 请求

使用 requests 库，除了可以向服务器发送 `GET` 请求，还可以发送 `POST` 请求。发送 `POST` 请求的方法与传递参数的方法类似，都需要我们设置一个额外的参数。只不过此时，我们要设置的参数就是：`data`，并且，使用的方法变成了 `.post` 方法。

先来看看下面的例子：

In [15]:
import requests

# 定义要提交的数据，可以是表单数据或 JSON 数据
data = {
    "key1": "value1",
    "key2": "value2"
}

# 使用 requests.post() 发送 POST 请求
response = requests.post("https://www.example.com/api", data=data)

# 处理响应
if response.status_code == 200:
    print("POST 请求成功")
    print(response.text)
else:
    print("POST 请求失败")


POST 请求失败


我们首先定义了要提交的数据，可以是一个字典，表示表单数据。然后，我们使用 `requests.post()` 方法发送 `POST` 请求到指定的 URL，同时将数据传递给 `data` 参数。最后，我们检查响应的状态码，如果状态码为 `200`，则表示请求成功，并打印响应内容。

这样一来，我们就完成了 requests 库的基础学习，在后面的学习中，我们可以自如地使用 requests 库来抓取网页的内容了。当然，requests 库还有许多其他的功能，比如处理 HTTP 请求异常，这部分大家可以根据自己的精力选择性学习。

#### 4. 处理异常

在使用 requests 库进行网络请求时，可以通过捕获和处理异常来增强代码的健壮性，以应对网络请求过程中可能出现的各种异常情况。以下是一些常见的网络请求异常以及如何处理它们的详细介绍：

1. **请求超时异常（Timeout）：**

   请求超时异常是指在规定的时间内没有接收到服务器的响应。可以使用 `timeout` 参数来设置请求的最大等待时间。如果超过指定的时间仍未收到响应，将引发 `requests.exceptions.Timeout` 异常。

In [None]:
import requests

try:
    response = requests.get("https://www.example.com", timeout=5)  # 设置超时时间为5秒
    response.raise_for_status()  # 检查是否有错误的响应状态码
except requests.exceptions.Timeout:
    print("请求超时，请检查网络连接或增加超时时间。")
except requests.exceptions.RequestException as e:
    print(f"请求发生错误：{e}")

2. **请求错误异常（RequestException）：**

   请求错误异常是一种捕获网络请求过程中各种错误的通用异常。它可以捕获请求超时、连接错误、DNS解析错误等各种可能的问题。

In [None]:
   import requests

   try:
       response = requests.get("https://www.example.com")
       response.raise_for_status()  # 检查是否有错误的响应状态码
   except requests.exceptions.RequestException as e:
       print(f"请求发生错误：{e}")

3. **连接错误异常（ConnectionError）：**

   连接错误异常是指在建立与服务器的连接时出现问题，可能是因为无法连接到服务器或目标服务器不可达。

In [None]:
   import requests

   try:
       response = requests.get("https://www.example.com")
       response.raise_for_status()  # 检查是否有错误的响应状态码
   except requests.exceptions.ConnectionError:
       print("无法连接到服务器，请检查网络连接或服务器是否可达。")
   except requests.exceptions.RequestException as e:
       print(f"请求发生错误：{e}")

4. **HTTP错误异常（HTTPError）：**

   HTTP错误异常是指服务器返回了一个不成功的HTTP响应状态码（如4xx或5xx），表示请求未成功完成。可以使用 `response.raise_for_status()` 方法来检查响应状态码，如果状态码表明请求失败，将引发 `requests.exceptions.HTTPError` 异常。

In [None]:
   import requests
   
   try:
       response = requests.get("https://www.example.com")
       response.raise_for_status()  # 检查是否有错误的响应状态码
   except requests.exceptions.HTTPError as e:
       print(f"HTTP错误：{e}")
   except requests.exceptions.RequestException as e:
       print(f"请求发生错误：{e}")

通过适当捕获和处理这些异常，我们可以确保您的网络请求代码在面对问题时能够进行适当的处理，以提高代码的稳定性和可靠性。