# Python爬虫三大库之Requests


## 实验目的
了解Requests模块中主要方法的使用


## 实验要求

掌握Requests模块中主要方法的使用

## 实验原理

众所周知，Python语言属于胶水语言，可扩展性强。用Python编写爬虫程序的最大好处就是其本身有很多使用的第三库，免去了我们自己实现相应功能的环节。Python有3个比较实用的库：Requests、Beautiful Soup和Lxml，为我们编写爬虫程序提供了必不可少的技术支持，下面介绍其中的Requests库。

Requests 是用Python语言编写，基于 urllib，采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，可以节约我们大量的工作，完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的，所以它比 urllib 更加 Pythoner。用Requests库实现HTTP请求非常简单，操作也相当人性化。因此，Python中常用Requests来实现HTTP请求过程，它也是在Python爬虫开发中最常用的方式。

### requests库常用的7种方法：

1. requests.request()


2. requests.get(‘https://github.com/timeline.json’) #GET请求


3. requests.post(“http://httpbin.org/post”) #POST请求


4. requests.put(“http://httpbin.org/put”) #PUT请求（提交修改全部的数据）


5. requests.delete(“http://httpbin.org/delete”) #DELETE请求


6. requests.head(“http://httpbin.org/get”) #HEAD请求


7. requests.patch(“http://httpbin.org/get”) #PATCH请求（提交修改部分数据）

剩下六种方法都是由requests()方法实现的，因此我们也可以说requests()方法是最基本的，在网络上，对服务器数据进行修改是比较困难的，在实际中get()方法是最为常用的方法

## 实验步骤

###  Requests.request()方法

Requests库的request()方法，主要用来构造一个请求，支撑以上各个基础方法。通常使用下面的格式来完成该方法的调用。

![image.png](attachment:image.png)

其中，method是指请求方式，对应上面所讲的get()、put()、post()等方法；url代表目标页面的url链接地址。** kwargs代表控制访问参数，共13个。例如params参数，代表字典或字节序列，可作为参数增加到url中。代码如下：

![image.png](attachment:image.png)
- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

由以上示例代码可以看出，通过通用request()方法，可以包装出通用的接口，来模拟requests对象常用方法的功能。另外，requests()方法的 ** kwargs参数属于可选。

### Requests.get()方法

Requests库的get()方法主要用于获取HTML网页，相当于HTTP的GET。其返回对象response的常用属性如下表所示，我们可通过这些属性获取要访问域名的基本信息。

![image.png](attachment:image.png)

下面使用get()方法来演示如何通过其返回对象response来获取`www.baidu.com` 域名的基本信息，示例代码如下：
![image.png](attachment:image.png)
- 请输入上述代码并运行

In [14]:
import requests
#r=requests.get("http://www.baidu.com")
r=requests.get("http://movie.douban.com/subject/1292052")
print(r.status_code)
print(r.text)

418



- 结果如下

![image.png](attachment:image.png)

如上代码所示，requests对象的get()方法返回的response对象r，通过print()函数打印r的属性值，我们便可获取网站域名的相关信息。

### Requests.head()方法
Request库的head()方法主要用于获取HTML网页头信息，相当于HTTP的HEAD.例如，抓取百度首页的头部信息，示例代码如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

如上代码所示，首先导入requests包，然后调用head()函数，返回response对象r，最后，通过引用r的相关属性，显示对应网址的相关信息。

### Requests.post()方法
Requests库的post()方法主要用于向HTTP网页提交POST请求，相当于HTTP的POST。这里，我们给指定的url地址`http://httpbin.org`用post()方法添加sendinfo信息，示例代码如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

由以上代码的交互式输出结果，我们不难发现，字典sendinfo以form表单的形式被发送给response对象。这里也可以直接向url地址发送字符串，示例如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

从代码的交互式输出结果不难发现，字符串以“data：i am string”键值对被保存下来。

### Requests.put()方法
Requests库的put()方法主要用于向HTML网页提交PUT请求，相当于HTTP的PUT。
例如，给指定的put()方法添加字典sendinfo信息，示例代码如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

同样，由上述交互输出可以看出，put()也是用form表单的方式存储自定义的字典，并返回response对象。

### Requests.patch()方法
Request库的patch()方法主要用于向HTML网页提交局部修改请求，相当于HTTP的PATCH。例如，用patch()方法修改刚才put()方法添加的字典sendinfo。

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

由上述代码可知，通过patch()方法我们成功将字典中的name值修改成功。

### Requests.delete()方法
Requests库的delete()方法主要用于向HTML页面提交删除请求，相当于HTTP的DELETE。例如，我们删除刚才patch()方法修改后的sendinfo字典，示例代码如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

由以上代码执行结果可以看出，form表单的内容为空，说明我们删除成功。

### 爬取定向网页的通用代码框架
在以上Requests库的学习基础之上，总结给予Requests定向网页爬虫程序模板框架如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

### 实验结束后

![image.png](attachment:image.png)