## **Python `requests` 库详解**

### **课程目标**

- 学习如何使用 `requests` 库发送 HTTP 请求
- 理解 GET 和 POST 请求的区别
- 学习如何处理响应数据
- 学会发送带参数的请求、文件上传和处理异常

---

### **1. `requests` 库简介**

- `requests` 是一个用于简化 HTTP 请求的 Python 库，使发送网络请求更容易。

- 安装：

  ```bash
  pip install requests
  ```

### **2. HTTP 协议简介**

- HTTP 是一种用于通信的协议。常见的请求方法包括：
  - **GET**：获取资源
  - **POST**：向服务器提交数据
  - **PUT**：更新资源
  - **DELETE**：删除资源

---

### **3. GET 请求**

GET 请求用于从服务器获取数据。`httpbin` 提供了测试 GET 请求的接口。

#### 示例代码：

In [1]:
import requests

# 向 httpbin 发送 GET 请求
response = requests.get('https://httpbin.org/get')

# 打印状态码，状态码为 200 表示请求成功
print(f'状态码: {response.status_code}')

# 打印响应内容（文本格式）
print(f'响应内容: {response.text}')

# 如果服务器返回 JSON，可以使用 .json() 解析为字典
data = response.json()
print(f'解析后的 JSON 数据: {data}')


状态码: 200
响应内容: {
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br, zstd", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.32.2", 
    "X-Amzn-Trace-Id": "Root=1-66ddba0f-79b763ec262109c4685d1494"
  }, 
  "origin": "221.15.159.55", 
  "url": "https://httpbin.org/get"
}

解析后的 JSON 数据: {'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br, zstd', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.32.2', 'X-Amzn-Trace-Id': 'Root=1-66ddba0f-79b763ec262109c4685d1494'}, 'origin': '221.15.159.55', 'url': 'https://httpbin.org/get'}


#### 讲解：

1. `requests.get()` 用于发送 GET 请求。
2. `response.status_code` 是服务器返回的状态码，200 表示成功。
3. `response.text` 是服务器返回的响应内容，通常是字符串。
4. 如果响应内容是 JSON 格式，`response.json()` 可以将其解析为 Python 字典。

---

### **4. GET 请求带参数**

有时候需要通过 URL 参数向服务器传递信息。这时我们可以使用 `params` 参数来传递查询参数。

#### 示例代码：

In [2]:
import requests

# 构建查询参数
params = {
    'name': 'Alice',
    'age': 25
}

# 发送带参数的 GET 请求
response = requests.get('https://httpbin.org/get', params=params)

# 打印请求的 URL，包含了查询参数
print(f'请求的 URL: {response.url}')

# 打印返回的响应内容
print(f'响应内容: {response.text}')


请求的 URL: https://httpbin.org/get?name=Alice&age=25
响应内容: {
  "args": {
    "age": "25", 
    "name": "Alice"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br, zstd", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.32.2", 
    "X-Amzn-Trace-Id": "Root=1-66ddba10-4c914d7c362a38ce71865ff0"
  }, 
  "origin": "221.15.159.55", 
  "url": "https://httpbin.org/get?name=Alice&age=25"
}



#### 讲解：

1. 使用 `params` 参数将查询字符串附加到 URL 中，例如：`?name=Alice&age=25`。
2. `response.url` 可以查看包含查询参数的完整 URL。
3. `httpbin.org/get` 会返回服务器接收到的所有参数，便于测试。

---

### **5. POST 请求**

POST 请求用于向服务器提交数据。`httpbin` 提供了一个 `post` 接口用于测试。

#### 示例代码：

In [3]:
import requests

# 要发送的数据
data = {
    'username': 'test_user',
    'password': 'test_pass'
}

# 发送 POST 请求
response = requests.post('https://httpbin.org/post', data=data)

# 打印状态码
print(f'状态码: {response.status_code}')

# 打印返回的 JSON 响应
print(f'响应内容: {response.json()}')


状态码: 200
响应内容: {'args': {}, 'data': '', 'files': {}, 'form': {'password': 'test_pass', 'username': 'test_user'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br, zstd', 'Content-Length': '37', 'Content-Type': 'application/x-www-form-urlencoded', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.32.2', 'X-Amzn-Trace-Id': 'Root=1-66ddba11-05b1754c1654443b14266f47'}, 'json': None, 'origin': '221.15.159.55', 'url': 'https://httpbin.org/post'}


#### 讲解：

1. `requests.post()` 用于发送 POST 请求，提交的数据通过 `data` 参数传递。
2. `httpbin.org/post` 会返回服务器接收到的 POST 数据，便于调试。
3. 服务器返回的响应通常为 JSON，使用 `.json()` 方法解析。

---

### **6. 上传文件**

可以使用 `requests` 发送文件数据，例如上传文件到服务器。

#### 示例代码

In [4]:
import requests

# 要上传的文件
files = {
    'file': open('example.txt', 'rb')
}

# 发送文件上传请求
response = requests.post('https://httpbin.org/post', files=files)

# 打印返回的响应内容
print(f'响应内容: {response.json()}')


响应内容: {'args': {}, 'data': '', 'files': {'file': '商务数据采集与分析'}, 'form': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br, zstd', 'Content-Length': '174', 'Content-Type': 'multipart/form-data; boundary=1767426d18cd1c0419b0e904e127c12d', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.32.2', 'X-Amzn-Trace-Id': 'Root=1-66ddba13-47a344753c9b0ef70e56f20a'}, 'json': None, 'origin': '221.15.159.55', 'url': 'https://httpbin.org/post'}


#### 讲解：

1. `files` 参数用于上传文件，文件需要以二进制模式打开（`rb`）。
2. `httpbin.org/post` 会返回服务器接收到的文件信息。

---

### **7. 自定义请求头**

有时需要在请求中添加自定义的 HTTP 头，比如 `User-Agent` 或 `Authorization`。

#### 示例代码：

In [5]:
import requests

# 自定义 HTTP 头
headers = {
    'User-Agent': 'my-app/1.0'
}

# 发送带自定义头的 GET 请求
response = requests.get('https://httpbin.org/get', headers=headers)

# 打印返回的响应内容
print(f'响应内容: {response.text}')


响应内容: {
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br, zstd", 
    "Host": "httpbin.org", 
    "User-Agent": "my-app/1.0", 
    "X-Amzn-Trace-Id": "Root=1-66ddba14-528210b21d79308c7f92632b"
  }, 
  "origin": "221.15.159.55", 
  "url": "https://httpbin.org/get"
}



#### 讲解：

1. `headers` 参数用于添加自定义 HTTP 头。
2. 常见的头包括 `User-Agent`（标识客户端）和 `Authorization`（身份认证）。

---

### **8. 处理异常**

在网络请求中，可能会出现连接失败、超时等问题。可以通过捕获异常进行处理。

#### 示例代码：

In [6]:
import requests

try:
    # 设置超时时间为 5 秒
    response = requests.get('https://httpbin.org/delay/10', timeout=5)
    print(f'状态码: {response.status_code}')
except requests.Timeout:
    print('请求超时')
except requests.RequestException as e:
    print(f'请求失败: {e}')


请求超时


#### 讲解：

1. `timeout` 参数用于设置请求超时时间。
2. 使用 `try-except` 块捕获异常，例如 `requests.Timeout` 处理超时异常，`requests.RequestException` 处理所有请求相关的异常。

---

### **9. 会话与 Cookie**

`requests.Session` 对象允许你跨多个请求保持某些参数（例如 Cookie）。

#### 示例代码：

In [7]:
import requests

# 创建一个会话对象
session = requests.Session()

# 发送请求，设置 Cookie
session.get('https://httpbin.org/cookies/set/sessioncookie/123456789')

# 发送另一个请求，查看 Cookie
response = session.get('https://httpbin.org/cookies')

# 打印返回的响应内容，查看 Cookie 是否被保留
print(f'响应内容: {response.text}')


响应内容: {
  "cookies": {
    "sessioncookie": "123456789"
  }
}



 `requests` 库get请求实例

In [8]:
import requests

# 设置请求的 URL
url = "https://movie.douban.com/top250"

# 定义请求头，模拟浏览器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# 发送 GET 请求
response = requests.get(url, headers=headers)

# 检查请求是否成功
if response.status_code == 200:
    # 将网页内容保存到本地文件
    with open("douban_top250.html", "w", encoding='utf-8') as file:
        file.write(response.text)
    print("网页保存成功!")
else:
    print(f"请求失败，状态码: {response.status_code}")


网页保存成功!


### 代码解释：

1. **请求页面**：使用 `requests.get` 向目标 URL 发送 HTTP GET 请求。我们通过设置 `headers` 来模仿浏览器请求，避免被服务器拒绝（有些服务器会限制非浏览器请求）。

2. **检查响应状态码**：通过 `response.status_code` 检查请求是否成功，通常状态码为 200 表示成功。

3. **保存网页内容**：如果请求成功，我们将通过 `response.text` 获取网页的 HTML 内容，并将其保存到本地文件 `douban_top250.html` 中。使用 `open()` 函数创建文件，并通过 `file.write()` 将内容写入文件。

4. **处理错误**：如果请求失败（例如网络问题或服务器错误），程序会打印状态码，方便调试。

In [1]:
import requests

# 创建会话对象，保持会话
session = requests.Session()

# 定义登录页面和登录后页面的URL
login_url = 'http://127.0.0.1:5000/login'
home_url = 'http://127.0.0.1:5000/'

# 定义登录表单数据
login_data = {
    'username': 'zcfe',  # 用户名
    'password': '123456'  # 密码
}

# 第一步：获取登录页面
response = session.get(home_url)

# 检查登录页面请求是否成功
if response.status_code == 200:
    print("成功访问登录页面")

    # 第二步：发送 POST 请求，提交登录表单
    login_response = session.post(login_url, data=login_data)

    # 检查是否登录成功
    if login_response.status_code == 200:
        print("登录成功")

        # 第三步：保存登录后的页面
        with open('logged_in_page.html', 'w', encoding='utf-8') as file:
            file.write(login_response.text)

        print("登录后的页面已保存为 'logged_in_page.html'")
    else:
        print(f"登录失败，状态码: {login_response.status_code}")
else:
    print(f"无法访问登录页面，状态码: {response.status_code}")


成功访问登录页面
登录成功
登录后的页面已保存为 'logged_in_page.html'
