# 使用Request
    上一节中，我们了解了urllib的基本用法，但是其中有很多不便的地方，比如处理网页验证和Cookies时，需要Opener和Handler来处理。为了更加方便，就有了更强大的库requrst

## 一、基本用法
### 1.准备工作

In [None]:
#在开始之前，请确保已经正确安装了request库。如果没有，可使用  
!pip install request   

### 2.实例引入
    urllib库中的urlopen()方法实际上是以GET方法来请求网页，而request中相应的方法就是get()方法
    


In [1]:
import requests

r = requests.get('http://www.baidu.com/')
print(type(r))
print(r.status_code)
print(type(r.text))
print(r.text)
print(r.cookies)

<class 'requests.models.Response'>
200
<class 'str'>
<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>ç¾åº¦ä¸ä¸ï¼ä½ å°±ç¥é</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off

这里我们调用了get()方法实现与urlopen()相同的操作，得到一个Response对象，然后分别输出了Response的类型、状态码、响应体的类型、内容以及Cookies  
通过运行结果我们可以发现，它的返回类型是requests.models.Response，响应体的类型是字符串str，Cookies的类型是RequestsCookieJar  

In [2]:
#使用get()方法一句话实现一个GET请求，它还有其他的请求类型可以用一句话完成
r1 = requests.post('http://httpbin.org/post')
r2 = requests.put('http://httpbin.org/put')
r3 = requests.delete('http://httpbin.org/delete')
r4 = requests.head('http://httpbin.org/head')
r5 = requests.options('http://httpbin.org/get')

### 3.GET请求
    HTTP中最常见的请求之一就是GET请求

·基本实例  
    首先，构建一个最简单的GET请求，请求链接为http://httpbin.org/get, 该网站会判断如果客户端发起的是GET请求的话，它返回相应的请求信息:

In [3]:
import requests
r = requests.get('http://httpbin.org/get')
print(r.text)

{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.24.0", 
    "X-Amzn-Trace-Id": "Root=1-606bc708-0ef4bdbd606be837011f80d2"
  }, 
  "origin": "221.230.53.80", 
  "url": "http://httpbin.org/get"
}



可以发现，我们成功发起了GET请求，返回结果中包含请求头、URL、IP等信息  
那么，要附加额外信息，就要利用params这个参数  

In [4]:
data = {
    'name': 'germey',
    'age': 22
}
r = requests.get('http://httpbin.org/get', params=data)
print(r.text)

{
  "args": {
    "age": "22", 
    "name": "germey"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.24.0", 
    "X-Amzn-Trace-Id": "Root=1-606bc7be-0767b82002c5d0b05a2bdcc2"
  }, 
  "origin": "221.131.86.57", 
  "url": "http://httpbin.org/get?name=germey&age=22"
}



通过运行结果可以判断，请求的链接自动被构造成了  http://httpbin.org/get?name=germey&age=22  

另外，网页的返回类型实际上是str类型，但是它很特殊，是JSON格式的。所以，如果想直接解析返回结果，得到一个字典格式的话，可以直接调用json()方法。

In [5]:
r = requests.get('http://httpbin.org/get')
print(type(r.text))
print(r.json())
print(type(r.json()))

<class 'str'>
{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.24.0', 'X-Amzn-Trace-Id': 'Root=1-606bc88a-5ca85b776c416b6d2250922f'}, 'origin': '222.186.192.210', 'url': 'http://httpbin.org/get'}
<class 'dict'>


可以发现，调用json()方法，就可以将返回结果是JSON格式的字符串转化为字典  
但需要注意的是，如果返回结果不是JSON格式，便会出现解析错误，抛出json.decoder.JSONDecoderError异常

·抓取网页  
上面的请求链接返回的是JSON形式的字符串，那么如果请求普通的网页，则肯定能获得相应的内容了。

·抓取二进制数据  
图片、音频、视频这些文件本质上都是由二进制码组成的，由于有特定的保存格式和对应的解析方式，我们才可以看到这些形形色色的多媒体。如果想要抓取它们，就要拿到它们的二进制码

In [8]:
#以GitHub的站点图标为例
import requests

r = requests.get("https://github.com/favicon.ico")
print(r.text)
print(r.content)

         (  &          (  N  (                                                    v�        �i                            ���              ���                    ��               ����            ��,\�"        4�����    0�   ����8        @�����-����;                        :�������O                                L������                                      ������                                        ������!                                ������4                                @���8���          
                  ���8    ���6   �����   t7���           ������������                  ���

可以注意到，前者出现了乱码，后者结果前带有一个b，这代表是bytes类型的数据。由于图片是二进制数据，所以前者在打印时转化为str类型，也就是图片直接转化为字符串，这理所当然出现乱码  
我们将刚才提取到的图片保存下来

In [9]:
r = requests.get("https://github.com/favicon.ico")
with open("favicon.ico", "wb") as f:
    f.write(r.content)

运行结束之后，可以在文件夹中发现名为favicon.ico的图片  
同样音频和视频文件也可以用这种方法获取

·添加headers  
与urllib.request一样，我们也可以通过headers参数来传递头信息  



### 4.POST请求
    前面我们了解了最基本的GET请求，另外一种比较常见的请求方式是POST。使用requests实现POST请求同样非常简单。

In [10]:
import requests

data = {
    'name': 'germey',
    'age': '22'
}
r = requests.post('http://httpbin.org/post', data=data)
print(r.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "age": "22", 
    "name": "germey"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "18", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.24.0", 
    "X-Amzn-Trace-Id": "Root=1-606bd357-1921a49e44479e905790f897"
  }, 
  "json": null, 
  "origin": "222.186.192.210", 
  "url": "http://httpbin.org/post"
}



可以发现，我们成功获得了返回结果，其中form部分就是提交的数据，这就证明POST请求成功发送了  



### 5.响应
    发送请求后，得到的自然是相应。在上面的实例中，我们使用text和content获取了相应的内容。此外，还有很多属性和方法可以用来获取其他信息，比如状态码、响应头、Cookies等

In [13]:
import requests

r = requests.get('http://www.baidu.com')
print(type(r.status_code), r.status_code)
print(type(r.headers), r.headers)
print(type(r.cookies), r.cookies)
print(type(r.url), r.url)
print(type(r.history), r.history)

<class 'int'> 200
<class 'requests.structures.CaseInsensitiveDict'> {'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Tue, 06 Apr 2021 03:26:03 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:28:16 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}
<class 'requests.cookies.RequestsCookieJar'> <RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
<class 'str'> http://www.baidu.com/
<class 'list'> []


这里分别打印输出status_code属性得到状态码，输出headers属性得到相应头，输出cookie属性得到Cookies，输出url属性得到URL，输出history属性得到请求历史  



## 二、高级用法
    在前一节中，我们了解了requests的基本用法，如基本的GET、POST请求以及Response对象。本节中，我们再来了解下requests的一些高级用法，如文件上传、Cookies设置、代理设置等


### 1.文件上传
    我们知道requests可以提交模拟一些数据。假如有的网站需要上传文件，我们也可以用它来实现

In [14]:
import requests

files = {'file': open('favicon.ico', 'rb')}
r = requests.post("http://httpbin.org/post", files=files)
print(r.text)

{
  "args": {}, 
  "data": "", 
  "files": {
    "file": "data:application/octet-stream;base64,AAABAAIAEBAAAAEAIAAoBQAAJgAAACAgAAABACAAKBQAAE4FAAAoAAAAEAAAACAAAAABACAAAAAAAAAFAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABERE3YTExPFDg4OEgAAAAAAAAAADw8PERERFLETExNpAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABQUFJYTExT8ExMU7QAAABkAAAAAAAAAAAAAABgVFRf/FRUX/xERE4UAAAAAAAAAAAAAAAAAAAAAAAAAABEREsETExTuERERHhAQEBAAAAAAAAAAAAAAAAAAAAANExMU9RUVF/8VFRf/EREUrwAAAAAAAAAAAAAAABQUFJkVFRf/BgYRLA4ODlwPDw/BDw8PIgAAAAAAAAAADw8PNBAQEP8VFRf/FRUX/xUVF/8UFBSPAAAAABAQEDAPDQ//AAAA+QEBAe0CAgL/AgIC9g4ODjgAAAAAAAAAAAgICEACAgLrFRUX/xUVF/8VFRf/FRUX/xERES0UFBWcFBQV/wEBAfwPDxH7DQ0ROwAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA0NEjoTExTnFRUX/xUVF/8SEhKaExMT2RUVF/8VFRf/ExMTTwAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAERERTBUVF/8VFRf/ExMT2hMTFPYVFRf/FBQU8AAAAAIAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAITExTxFRUX/xMTFPYTExT3FRUX/xQUFOEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFBQU4RUVF/8TExT3FBQU3hUVF/8TExT5Dw8PIQAAAAAAAAAAA

### 2.Cookies
    前面我们使用urllib处理过Cookies，写法比较复杂，而有了requests，获取和设置Cookies只需一步即可完成

In [16]:
import requests

r = requests.get('https://www.baidu.com')
print(r.cookies)
for key, value in r.cookies.items():
    print(key + '=' + value)

<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
BDORZ=27315


这里我们首先调用cookies属性即可成功得到Cookies，可以发现它是RequestCookieJar类型。然后用items()方法将其转化为元组组成的列表，便利输出每一个Cookie的名称和值，实现Cookie的遍历解析

当然，我们可以直接使用Cookie来维持登陆状态，下面以知乎为例。首先登陆知乎，将Headers中的Cookie内容复制下来

In [28]:
import requests

cookie = 'q_c1=5fbe90025a9e4123a93a7a4c86276cff|1617249989000|1617249989000; _zap=152581f4-0b89-4a6b-9ea6-55da4d2f9917; d_c0="AsCemMf64hKPTgr76FOYqwhsyANui1goVgI=|1617249988"; _xsrf=qTRS0cM3TABtw3rDRDjjNH6bvypTcR0r; __snaker__id=r0hYCaoH7BvYy6hQ; _9755xjdesxxd_=32; YD00517437729195:WM_NI=gp2rzS7kTlPnTeJjfXHnVs0Do1tym3uc7dAPpdrQfycs4MXjBHhSlZlUVyNRYo3A2VC1+U6tE0sEUcvDnvGaqZJeMGGZiiO/BpuIGeLn3Q106YARUZKrQWCBBKBU22whOGI=; YD00517437729195:WM_NIKE=9ca17ae2e6ffcda170e2e6eeb7e154b0b9acd2f360b1b08ba6d45e928e8b84ae3b8eb9a7b3fc4b93eda4adc42af0fea7c3b92aa5b0fe93f959f5b59c8dd36698bb868be5548cb29a94b350adefbc9af039b7bdf985c45cb4bcbeb2e573a1adfcaedb628298a8b4ef52b08b9a9acd5a9bb1fda2b15e81efe5b6b58087f0bda6d869b69ca297c66bb3868686d04d8586a78ace2582b0bbaac66f90b2fdb2b43cf6878fb3d85289ae9fb8c24a82958eb6b13ab5b881a8cc37e2a3; YD00517437729195:WM_TID=WALcQyhMPcxFBQRQQANv0JgmFyEEmhKU; tst=r; SESSIONID=o9taNTlzfJijaQpgXzcGqbaSF4KReu4Mr7cdPeqek4F; JOID=Vl8TAEwCGepltp3MegUJ92l9YC5qbiGbAPvKoQVnUIIK08-_HKLCgAK2n8h7OIv1TzEpLy6vq2Dyfa-MOr-fv6I=; osd=VFgdC0kAHuRus5_LdA4M9W5zaytoaS-QBfnNrw5iUoUE2Mq9G6zJhQCxkcN-Ooz7RDQrKCCkrmL1c6SJOLiRtKc=; captcha_session_v2="2|1:0|10:1617682342|18:captcha_session_v2|88:dVVzanJXOWlvN2d2dHlCc1NJelR1anBweTJGRzI2Rjg3TXZzakt3MWVQeVc5RnhmTzl3NTc2cVJ3WFZEcVZwZA==|095fd791daee9c728ee51707edb6ddb612f144870244a6671997917a37b9e0da"; gdxidpyhxdE=WrGkVapc3e81xfdM6THfzTHCz66bv62UILA38M+01QLIPIr3XEk94ceGPDhHs8A+/Y3YARcP87GU5+3WSYS6AVWDqx9EIU+sZAY4zU/IEHQj7mLLsAk8BY0XiI6adIIKNo5ULp3Js5czAGqMbrOont7ZJNlbp//JBlGEIRRDDlnirfUU:1617683243271; captcha_ticket_v2="2|1:0|10:1617682354|17:captcha_ticket_v2|704:eyJ2YWxpZGF0ZSI6IkNOMzFfaC4uakI0RmYtdnY4WnJETFl3c0tqWUxmLTFEUWNZVFlOS2ZLUmlXVnJQNVljY2VxRVdyTXdmY0hodS1hWmVHTG9pdmkySFdYRllrbS51Z3A4OE5vVmE3SW5kSFVwVUh3Ym1vZ3FIbDFKbVVtUUthNXVFcEl3d215R0ZTNTlwaGxTbnprSGlwZ0N2Vjd6MjltTmNuZ1lXYzBXWU90dlpOekVmYUMuMU5Pc0Fha3NSYk9hUHlBTXZCblVhaUFUdlNGeHVHa2tkd3d4UDdkLWhUUGFfWHNCT0s1S2JsSjlxcEFjV3hWRmtOZXRyZXhyMkxRRTl2VkMtWXBNU25SVGV1dlJKN1V5ZlhiY3JXSHFycW9NQUtRNDE4TDBZWlhZNVpSTVo3dUQtNXV1d1pvalVxN3JnQW9xLWtxaEhiUWFvTjVmOXIuLUVjRm5UaXV6MnRrcVBjX0RMU21KTGZ1X3JFQmpzcFVzRVBwMGhPcFAtUTlvVTJ5S2xSdUwtYXN5c0hYWlJTTlc2TS53NHlUMmJmdXduLnZRdTZJbW9IS1d4VUF6SlhZeEVMT1A2LXhqWVBDaGUwUndiRmJQYVpuUkNKWXc4YWpIZExxNkJFdnk4U0RMSV9ISi5xc2RyaENncFNvWG80S2dBWGpxaFYycGJmaHNsemtzcVgxMk96MyJ9|68fc0aadb8d4dfc4b1144b62cf7436d57098b668306fc73b4c23b13aa36d27e7"; z_c0="2|1:0|10:1617682355|4:z_c0|92:Mi4xNVhFc0Z3QUFBQUFDd0o2WXhfcmlFaVlBQUFCZ0FsVk5zeTFaWVFDUmRrVzhneGcxNDdGUldoZVpHZkdBNXVvTS1n|d7684439ebe5272a703dce40086a0f9a297cf3fab1f3c5b4383e4934c9e7074e"; KLBRSID=81978cf28cf03c58e07f705c156aa833|1617682379|1617677254'
headers = {
    'Cookie': cookie,
    'Host': 'www.zhihu.com',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_3) \
    AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 \
    Safari/537.36'
}
r = requests.get('https://www.zhihu.com', headers=headers)
print(r.text)

<!doctype html>
<html lang="zh" data-hairline="true" data-theme="light"><head><meta charSet="utf-8"/><title data-react-helmet="true">首页 - 知乎</title><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"/><meta name="renderer" content="webkit"/><meta name="force-rendering" content="webkit"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><meta name="google-site-verification" content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg"/><meta name="description" property="og:description" content="知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于 2011 年 1 月正式上线，以「让人们更好地分享知识、经验和见解，找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容，聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群，已成为综合性、全品类、在诸多领域具有关键影响力的知识分享社区和创作者聚集的原创内容平台，建立起了以社区驱动的内容变现商业模式。"/><link data-react-helmet="true" rel="apple-touch-icon" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.a53ae37b.png"/><link data-react-helmet="true" rel="apple-touch-icon" href="https://static.zhihu.com/heifetz/assets/apple-tou

当然，也可以通过cookies参数来设置，不过这就需要构造RequestsCookieJar对象，而且需要分割一下cookies。

In [20]:
import requests

cookies = 'q_c1=5fbe90025a9e4123a93a7a4c86276cff|1617249989000|1617249989000; _zap=152581f4-0b89-4a6b-9ea6-55da4d2f9917; d_c0="AsCemMf64hKPTgr76FOYqwhsyANui1goVgI=|1617249988"; _xsrf=qTRS0cM3TABtw3rDRDjjNH6bvypTcR0r; __snaker__id=r0hYCaoH7BvYy6hQ; _9755xjdesxxd_=32; YD00517437729195:WM_NI=gp2rzS7kTlPnTeJjfXHnVs0Do1tym3uc7dAPpdrQfycs4MXjBHhSlZlUVyNRYo3A2VC1+U6tE0sEUcvDnvGaqZJeMGGZiiO/BpuIGeLn3Q106YARUZKrQWCBBKBU22whOGI=; YD00517437729195:WM_NIKE=9ca17ae2e6ffcda170e2e6eeb7e154b0b9acd2f360b1b08ba6d45e928e8b84ae3b8eb9a7b3fc4b93eda4adc42af0fea7c3b92aa5b0fe93f959f5b59c8dd36698bb868be5548cb29a94b350adefbc9af039b7bdf985c45cb4bcbeb2e573a1adfcaedb628298a8b4ef52b08b9a9acd5a9bb1fda2b15e81efe5b6b58087f0bda6d869b69ca297c66bb3868686d04d8586a78ace2582b0bbaac66f90b2fdb2b43cf6878fb3d85289ae9fb8c24a82958eb6b13ab5b881a8cc37e2a3; YD00517437729195:WM_TID=WALcQyhMPcxFBQRQQANv0JgmFyEEmhKU; tst=r; SESSIONID=o9taNTlzfJijaQpgXzcGqbaSF4KReu4Mr7cdPeqek4F; JOID=Vl8TAEwCGepltp3MegUJ92l9YC5qbiGbAPvKoQVnUIIK08-_HKLCgAK2n8h7OIv1TzEpLy6vq2Dyfa-MOr-fv6I=; osd=VFgdC0kAHuRus5_LdA4M9W5zaytoaS-QBfnNrw5iUoUE2Mq9G6zJhQCxkcN-Ooz7RDQrKCCkrmL1c6SJOLiRtKc=; captcha_session_v2="2|1:0|10:1617682342|18:captcha_session_v2|88:dVVzanJXOWlvN2d2dHlCc1NJelR1anBweTJGRzI2Rjg3TXZzakt3MWVQeVc5RnhmTzl3NTc2cVJ3WFZEcVZwZA==|095fd791daee9c728ee51707edb6ddb612f144870244a6671997917a37b9e0da"; gdxidpyhxdE=WrGkVapc3e81xfdM6THfzTHCz66bv62UILA38M+01QLIPIr3XEk94ceGPDhHs8A+/Y3YARcP87GU5+3WSYS6AVWDqx9EIU+sZAY4zU/IEHQj7mLLsAk8BY0XiI6adIIKNo5ULp3Js5czAGqMbrOont7ZJNlbp//JBlGEIRRDDlnirfUU:1617683243271; captcha_ticket_v2="2|1:0|10:1617682354|17:captcha_ticket_v2|704:eyJ2YWxpZGF0ZSI6IkNOMzFfaC4uakI0RmYtdnY4WnJETFl3c0tqWUxmLTFEUWNZVFlOS2ZLUmlXVnJQNVljY2VxRVdyTXdmY0hodS1hWmVHTG9pdmkySFdYRllrbS51Z3A4OE5vVmE3SW5kSFVwVUh3Ym1vZ3FIbDFKbVVtUUthNXVFcEl3d215R0ZTNTlwaGxTbnprSGlwZ0N2Vjd6MjltTmNuZ1lXYzBXWU90dlpOekVmYUMuMU5Pc0Fha3NSYk9hUHlBTXZCblVhaUFUdlNGeHVHa2tkd3d4UDdkLWhUUGFfWHNCT0s1S2JsSjlxcEFjV3hWRmtOZXRyZXhyMkxRRTl2VkMtWXBNU25SVGV1dlJKN1V5ZlhiY3JXSHFycW9NQUtRNDE4TDBZWlhZNVpSTVo3dUQtNXV1d1pvalVxN3JnQW9xLWtxaEhiUWFvTjVmOXIuLUVjRm5UaXV6MnRrcVBjX0RMU21KTGZ1X3JFQmpzcFVzRVBwMGhPcFAtUTlvVTJ5S2xSdUwtYXN5c0hYWlJTTlc2TS53NHlUMmJmdXduLnZRdTZJbW9IS1d4VUF6SlhZeEVMT1A2LXhqWVBDaGUwUndiRmJQYVpuUkNKWXc4YWpIZExxNkJFdnk4U0RMSV9ISi5xc2RyaENncFNvWG80S2dBWGpxaFYycGJmaHNsemtzcVgxMk96MyJ9|68fc0aadb8d4dfc4b1144b62cf7436d57098b668306fc73b4c23b13aa36d27e7"; z_c0="2|1:0|10:1617682355|4:z_c0|92:Mi4xNVhFc0Z3QUFBQUFDd0o2WXhfcmlFaVlBQUFCZ0FsVk5zeTFaWVFDUmRrVzhneGcxNDdGUldoZVpHZkdBNXVvTS1n|d7684439ebe5272a703dce40086a0f9a297cf3fab1f3c5b4383e4934c9e7074e"; KLBRSID=81978cf28cf03c58e07f705c156aa833|1617682379|1617677254'
jar = requests.cookies.RequestsCookieJar()
headers = {
    'Host': 'www.zhihu.com',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_3) \
    AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 \
    Safari/537.36'
}
for cookie in cookies.split(';'):
    key, value = cookie.split('=', 1)
r = requests.get('https://www.zhihu.com', cookies=jar, headers=headers)
print(r.text)

<!doctype html>
<html lang="zh" data-hairline="true" data-theme="light"><head><meta charSet="utf-8"/><title data-react-helmet="true">知乎 - 有问题，就会有答案</title><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"/><meta name="renderer" content="webkit"/><meta name="force-rendering" content="webkit"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><meta name="google-site-verification" content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg"/><meta name="description" property="og:description" content="知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于 2011 年 1 月正式上线，以「让人们更好地分享知识、经验和见解，找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容，聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群，已成为综合性、全品类、在诸多领域具有关键影响力的知识分享社区和创作者聚集的原创内容平台，建立起了以社区驱动的内容变现商业模式。"/><link data-react-helmet="true" rel="apple-touch-icon" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.a53ae37b.png"/><link data-react-helmet="true" rel="apple-touch-icon" href="https://static.zhihu.com/heifetz/assets/ap

这里我们首先新建了一个RequestCookieJar对象，然后将复制下来的cookies利用split()方法分割，接着利用set()方法设置好每个Cookie的key和value，然后通过调用requests的get()方法并传递给cookies参数即可。当然，由于知乎本身的限制，headers参数也不能少，只不过不需要在原来的headers参数里设置cookie字段了



### 3.会话维持
在requests中，如果直接利用get()或post()等方法的确可以做到模拟网页的请求，但是这实际上是相当于不同的会话，也就是说相当于你用了两个浏览器打开了不同的页面  
维持同一个会话，就是相当于打开了一个新的浏览器选项卡而不是新开一个浏览器。利用Session对象，可以方便地维护一个会话，而且不用担心cookies的问题，它会自动帮我们处理好。

In [21]:
import requests

requests.get('http://httpbin.org/cookies/set/number/123456789')
r = requests.get('http://httpbin.org/cookies')
print(r.text)

{
  "cookies": {}
}



 这里我们请求了一个测试网址http://httpbin.org/cookies/set/number/123456789。 请求这个网址时，可以设置一个cookie，名称叫做number，内容是123456789，随后又请求了http://httpbin.org/cookies, 此网址可以获取当前的cookies。 
 结果是无法获取
 
 再转用Session试试看：

In [22]:
import requests

s = requests.Session()
s.get('http://httpbin.org/cookies/set/number/123456789')
r = s.get('http://httpbin.org/cookies')
print(r.text)

{
  "cookies": {
    "number": "123456789"
  }
}



成功获取！  
所以，利用Session，可以做到模拟同一个会话而不用担心Cookies的问题。它通常用于模拟登陆成功之后再进行下一步的操作  
Session在平常用得非常广泛，可以模拟在一个浏览器中打开同一站点的不同页面，后面会有专门的章节讲解

### 4.SSL证书验证
此外，requests还提供了证书验证的功能。当发送HTTP请求的时候，它会检查SSL证书，我们可以使用verify参数控制是否检查此证书。如果不加verify参数的话，默认是True，会自动验证

### 5.代理设置
对于某些网站，在测试的时候请求几次，能正常获取内容。但是一旦开始大规模爬取，对于大规模且频繁的请求，网站可能会弹出验证码，或者跳转到登陆认证页面，更甚至会直接封禁客户端的IP，导致一定时间段内无法访问  
那么，为了防止这种情况发生，我们需要设置代理来解决这个问题，这就需要用到proxies参数。  若代理需要使用HTTP Basic Auth，可以使用类似http://user:passwd@host:port 这样的语法来设置代理

In [None]:
#示例，无法运行！！！
import requests

proxies = {
    'http':"http://10.10.1.10:3128",
    'https':"http://10.10.1.10:1080"
}

requests.get("https://www.baidu.com", proxies =proxies)

### 6.超时设置
在本机网络状况不好或者服务器网络响应太慢甚至无响应时，我们可能会等待特别久的时间才可能收到响应，甚至收不到响应而报错。这是就需要timeout参数。这个时间的计算是发出请求到服务器返回响应的时间  

In [25]:
import requests

r = requests.get("https://www.taobao.com", timeout = 1)
print(r.status_code)

200


通过这样的方式，我们可以将超时时间设置为1秒，如果1秒内没有响应，那就抛出响应  
实际上，请求分为两个阶段，即链接(connect)和读取(read)  
上面设置的timeout将作用链接和读取这二者的timeout总和
如果要分别指定，就可以传入一个元组：  
r = requests.get('https://www.taobao.com", timeout = (5, 11, 30))  
如果想永久等待，就可以直接把timeout设置为None，或不设置

### 7.身份认证
在访问网站时，我们可能会遇到认证页面  
此时可以用requests自带的身份认证功能，示例：

In [None]:
import requests
from requests.auth import HTTPBasicAuth

r = requests.get('http://.......', auth=HTTPBasicAuth('username', 'passwd'))
print(r.status_code)

如果用户名和密码正确的话，请求时会自动认证成功，会返回200状态码；如果认证失败。则返回401状态码  
requests提供了一个更简单的写法，可以直接传一个元组，它会默认使用HTTPBasicAuth这个类来认证

In [None]:
import requests

r = requests.get('http://.......', auth=('username', 'passwd'))
print(r.status_code)

此外，requests还提供了其他认证方式，如OAuth认证，不过此时需要安装oauth包,安装命令：  
pip3 install requests_oauthlib 

In [None]:
import requests
from requests_oauthlib import OAuth1

url = 'https://api.twitter.com/1.1/account/verify_credentials.json'
auth = OAuth1('YOUR_APP KEY', 'YOUR_APP_SECRET',
             'USER_OAUTH_TOKEN', 'USER_OAUTH_TOKEN_SECRET')
requests.get(url, auth=auth)

详情参考https://requests-oauthlib.readthedocs.org/

### 8.Prepared Request
    前面介绍urllib时，我们可以将请求表示为数据结构，其中各个参数都可以通过一个Request对象来表示。在requests里同样可以做到，这个数据结构就是Prepared Request。

In [27]:
from requests import Request, Session

url = "http://httpbin.org/post"
data = {
    'name': 'germey'
}
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'
}
s = Session()
req = Request('POST', url, data=data, headers=headers)
prepped = s.prepare_request(req)
r = s.send(prepped)
print(r.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "name": "germey"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "11", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-606bfbaf-049ffc2c1da8e3f57a58779c"
  }, 
  "json": null, 
  "origin": "221.131.86.57", 
  "url": "http://httpbin.org/post"
}



这里我们引入Request，然后用url、data和headers参数构造了一个Request对象，这时需要再调用Seesion的prepare_request()方法将其转换为Prepared Request对象，然后调用send()方法发送即可  
有了Request这个对象，就可以将请求当作独立的对象来看待，这样在进行队列调度时会非常方便  
详情参考http://docs.python-requests.org/