# Requests库入门

|方法 |说明|
|:--------:|:---------|
|requests.request() |构造一个请求，支撑以下各方法的基础方法|
|requests.get() |获取HTML网页的主要方法，对应于HTTP的GET|
|requests.head() |获取HTML网页头信息的方法，对应于HTTP的HEAD|
|requests.post() |向HTML网页提交POST请求的方法，对应于HTTP的POST|
|requests.put() |向HTML网页提交PUT请求的方法，对应于HTTP的PUT|
|requests.patch() |向HTML网页提交局部修改请求，对应于HTTP的PATCH|
|requests.delete() |向HTML页面提交删除请求，对应于HTTP的DELET|

## requensts.get()方法

```python
r = requests.get(url)
```

> 构造一个向服务器请求资源的requests对象   
> 返回一个包含服务器资源的response对象

```python
requests.get(url, params=None, **kwargs)
```

> url : 拟获取页面的url链接    
> params : url中的额外参数，字典或字节流格式，可选    
> \*\*kwargs: 12个控制访问的参数    

- Response对象的属性     

|属性|说明|       
|:------:|:-----|
|r.status_code| HTTP请求的返回状态，200表示连接成功，404表示失败|
|r.text |HTTP响应内容的字符串形式，即，url对应的页面内容|
|r.encoding |从HTTP header中猜测的响应内容编码方式|
|r.apparent_encoding| 从内容中分析出的响应内容编码方式（备选编码方式）|
|r.content| HTTP响应内容的二进制形式|

- reponse编码   

    - r.encoding:从HTTP header中猜测的响应内容编码方式
    - r.apparent_encoding :从内容中分析出的响应内容编码方式（备选编码方式）

>r.encoding：如果header中不存在charset，则认为编码为ISO‐8859‐1   
>r.text根据r.encoding显示网页内容    
>r.apparent_encoding：根据网页内容分析出的编码方式,可以看作是r.encoding的备选

## 爬取网页的通用代码框架

- 理解Requests库的异常


|异常 |说明|
|:------:|:-------|
|requests.ConnectionError |网络连接错误异常，如DNS查询失败、拒绝连接等|
|requests.HTTPError |HTTP错误异常|
|requests.URLRequired |URL缺失异常|
|requests.TooManyRedirects |超过最大重定向次数，产生重定向异常|
|requests.ConnectTimeout |连接远程服务器超时异常|
|requests.Timeout |请求URL超时，产生超时异常|
|r.raise_for_status() |如果不是200，产生异常 requests.HTTPError|

In [2]:
import requests

def getHTMLText(url):
	try:
		r = requests.get(url, timeout=30)
		r.raise_for_status()
		r.encoding = r.apparent_encoding
		return r.text
	except:
		return "errror"  #如果状态码不是200
    
if __name__ == "__main__":
	url = "www.baidu.com"
	print(getHTMLText(url))

errror


## HTTP协议及Requests库方法

** HTTP协议 **

- HTTP是一个基于“请求与响应”模式的、无状态的应用层协议
- HTTP协议采用URL作为定位网络资源的标识，URL格式如下：
```
http://host[:port][path]
```
> host: 合法的Internet主机域名或IP地址  
> port: 端口号，缺省端口为80  
> path: 请求资源的路径  

- HTTP协议对资源的操作

|方法 |说明|
|:-----:|:-----|
|GET| 请求获取URL位置的资源|
|HEAD| 请求获取URL位置资源的响应消息报告，即获得该资源的头部信息|
|POST |请求向URL位置的资源后附加新的数据|
|PUT| 请求向URL位置存储一个资源，覆盖原URL位置的资源|
|PATCH |请求局部更新URL位置的资源，即改变该处资源的部分内容|
|DELETE |请求删除URL位置存储的资源|

** PATCH和PUT方法的区别 **

- 假设URL位置有一组数据UserInfo，包括UserID、UserName等20个字段
- 需求：用户修改了UserName，其他不变
    - 采用PATCH，仅向URL提交UserName的局部更新请求
    - 采用PUT，必须将所有20个字段一并提交到URL，未提交字段被删除    
> PATCH的最主要好处：节省网络带宽

** head()方法 **

In [3]:
r = requests.head('http://httpbin.org/get')
r.headers

{'Access-Control-Allow-Origin': '*', 'Content-Length': '267', 'Via': '1.1 vegur', 'Access-Control-Allow-Credentials': 'true', 'Content-Type': 'application/json', 'Connection': 'keep-alive', 'Date': 'Tue, 18 Apr 2017 14:54:06 GMT', 'Server': 'gunicorn/19.7.1'}

In [4]:
r.text

''

** post()方法 **

In [7]:
payload = {'key1':'value1','key2':'value2' }
r = requests.post('http://httpbin.org/post', data = payload)
print(r.text)
#向URL POST一个字典
#自动编码为form（表单）

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Connection": "close", 
    "Content-Length": "23", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.13.0"
  }, 
  "json": null, 
  "origin": "111.195.213.99", 
  "url": "http://httpbin.org/post"
}



In [8]:
r = requests.post('http://httpbin.org/post', data = 'ABC')
print(r.text)

#向URL POST一个字符串
#自动编码为data

{
  "args": {}, 
  "data": "ABC", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Connection": "close", 
    "Content-Length": "3", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.13.0"
  }, 
  "json": null, 
  "origin": "111.195.213.99", 
  "url": "http://httpbin.org/post"
}



** put()方法 **

In [10]:
payload = {'key1':'value1','key2':'value2' }
r = requests.put('http://httpbin.org/put', data = payload)
print(r.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Connection": "close", 
    "Content-Length": "23", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.13.0"
  }, 
  "json": null, 
  "origin": "111.195.213.99", 
  "url": "http://httpbin.org/put"
}



## Requests库只要方法解析

###  requests.request(method, url, \*\*kwargs) 

- method : 请求方式，对应get/put/post等7种
- url : 拟获取页面的url链接
- `**kwargs`: 控制访问的参数，共13个

** method : 请求方式 **

r = requests.request('GET', url, \*\*kwargs)      
r = requests.request('HEAD', url, \*\*kwargs)   
r = requests.request('POST', url, \*\*kwargs)   
r = requests.request('PUT', url, \*\*kwargs)   
r = requests.request('PATCH', url, \*\*kwargs)   
r = requests.request('delete', url, \*\*kwargs)   
r = requests.request('OPTIONS', url, \*\*kwargs)   

** \*\*kwargs:控制访问的参数(共13个)，均为可选项  **

- params：字典或者字节序列，作为参数增加到url中

In [11]:
kv = {'key1':'value1','key2':'value2' }
r = requests.request('GET', 'http://python123.io/ws', params=kv)
print(r.url)

http://python123.io/ws?key2=value2&key1=value1


- data: 字典、字节序列或文件对象，作为Request的内容

```python
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST', 'http://python123.io/ws', data=kv)
body = '主体内容'
r = requests.request('POST', 'http://python123.io/ws', data=body)
```

- json:JSON格式的数据，最为Request的内容
- headers：字典，HTTP定制头
- cookies : 字典或CookieJar，Request中的cookie
- auth : 元组，支持HTTP认证功能
- files : 字典类型，传输文件
- timeout : 设定超时时间，秒为单位
- proxies : 字典类型，设定访问代理服务器，可以增加登录认证
- allow_redirects : True/False，默认为True，重定向开关
- stream : True/False，默认为True，获取内容立即下载开关
- verify : True/False，默认为True，认证SSL证书开关
- cert : 本地SSL证书路径

### requests.get(url, params=None, \*\*kwargs)

- url : 拟获取页面的url链接
- params : url中的额外参数，字典或字节流格式，可选
- \*\*kwargs: 12个控制访问的参数(除了params)

### requests.head(url, \*\*kwargs)

- url : 拟获取页面的url链接
- \*\*kwargs: 13个控制访问的参数

### requests.post(url, data=None, json=None, \*\*kwargs)

- url : 拟更新页面的url链接
- data : 字典、字节序列或文件，Request的内容
- json : JSON格式的数据，Request的内容
- \*\*kwargs: 12个控制访问的参数

### requests.put(url, data=None, \*\*kwargs)

- url : 拟更新页面的url链接
- data : 字典、字节序列或文件，Request的内容
- \*\*kwargs: 12个控制访问的参数

### requests.patch(url, data=None, \*\*kwargs)

- url : 拟更新页面的url链接
- data : 字典、字节序列或文件，Request的内容
- \*\*kwargs: 12个控制访问的参数

### requests.delete(url, \*\*kwargs)

- url : 拟删除页面的url链接
- \*\*kwargs: 12个控制访问的参数