# requests库学习

## 1. 爬取网页的通用代码框架
异常处理很关键

作用：更有效地爬取网页

In [1]:
import requests # 导入requests包，注意结尾加s

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30) # 获取url网页信息，如时间超过30秒，引发异常
        r.raise_for_status() # 若状态不是200，引发异常
        r.encoding = r.apparent_encoding # 用更加靠谱的编码方式
        return r.text # 该函数返回的是网页的文本信息
    except:
        return "产生异常"
    

In [15]:
import requests 
r = requests.get("http://www.baidu.com")
print(r.status_code) # 打印网页状态码

200


值为200，表示访问网页成功

In [5]:
type(r) # 查看下requests.get()函数返回的对象是什么

requests.models.Response

r是由`requests.get()`**返回**的一个包含服务器资源的Response对象



### Response对象的属性

<font color="orange">**务必要牢记**</font>

| 属性                 | 说明                                             |
| -------------------- | ------------------------------------------------ |
| r.status_code        | HTTP请求的返回状态，200表示连接成功，404表示失败 |
| r.text               | HTTP响应内容的<font color="red">**字符串**</font>形式，即，url对应的页面内容  |
| r.encoding           | 从HTTP header中猜测的响应内容编码方式            |
| r.apparent_enconding | 从内容中分析出的响应内容编码方式（备选编码方式） |
| r.content            | HTTP响应内容的二进制形式                         |
| r.headers            | 返回url页面的头部信息                            |

In [16]:
r.status_code

200

url页面的头部信息

In [20]:
r.text[:500] # 全部显示的话字符串太长了，只显示前500个字符

'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>ç\x99¾åº¦ä¸\x80ä¸\x8bï¼\x8cä½\xa0å°±ç\x9f¥é\x81\x93</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www'

发现有许多乱码，看不懂是什么意思，用encoding查看一下编码

In [12]:
r.encoding

'ISO-8859-1'

In [21]:
r.apparent_encoding # 从内容中分析出的响应内容编码方式（备选编码方式）

'utf-8'

In [23]:
r.encoding = r.apparent_encoding # 替换编码方式
r.text[:500] # 再次查看网页头部

'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>百度一下，你就知道</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_'

这时候就可以查看中文了

In [24]:
url = "www.baidu.com"
print(getHTMLText(url))

产生异常


## 2. Requests库的异常

| 异常                     | 说明                                      |
| ------------------------ | ----------------------------------------- |
| request.ConnectionError  | 网络连接错误异常，如DNS查询失败、拒绝连接 |
| request.HTTPError        | HTTP错误异常                              |
| request.URLRequired      | URL缺失异常                               |
| request.TooManyRedirects | 超过最大重定向次数，产生重定向异常        |
| request.ConnectTimeout   | 连接远程服务器超时异常                    |
| request.Timeout          | 请求URL超时，产生超时异常                 |

`r.raise_for_staturs()`: r.status_code如果不是200，产生异常request.HTTPError

## 3. HTTP协议及Requests库方法

HTTP,超文本传输协议

| 方法   | 说明                                                      |
| ------ | --------------------------------------------------------- |
| GET    | 请求获取URL位置的资源                                     |
| HEAD   | 请求获取URL位置资源的响应消息报告，即获得该资源的头部信息 |
| POST   | 请求向URL位置的资源后附加新的数据                         |
| PUT    | 请求向URL位置存储一个资源，覆盖原URL位置的资源            |
| PATCH  | 请求局部更新URL位置的资源，即改变该处资源的部分内容       |
| DELETE | 请求删除URL位置存储的资源                                 |

PATCH与PUT的区别

PATCH：更节省带宽资源


### 3.1 `head()`

In [22]:
r = requests.head("http://httpbin.org/get")

In [23]:
r.headers

{'Access-Control-Allow-Credentials': 'true', 'Access-Control-Allow-Origin': '*', 'Content-Encoding': 'gzip', 'Content-Type': 'application/json', 'Date': 'Sat, 06 Jul 2019 12:09:49 GMT', 'Referrer-Policy': 'no-referrer-when-downgrade', 'Server': 'nginx', 'X-Content-Type-Options': 'nosniff', 'X-Frame-Options': 'DENY', 'X-XSS-Protection': '1; mode=block', 'Connection': 'keep-alive'}

In [24]:
r.text

''

用head()方法不获取text的信息，可以节约网络带宽

### 3.2 `post()`

In [40]:
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=payload)

In [41]:
print(r.text[:120]) # 第四行form增加了我们post的内容,后面还有内容，为了版面简洁这里就只放120个字符了

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "headers


In [34]:
r = requests.post("http://httpbin.org/post", data="ABC") # 这次是第二行data增加了内容
print(r.text[:120])

{
  "args": {}, 
  "data": "ABC", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encod


put()方法也类似，但是会覆盖原本的内容

## 4. requests库主要方法解析

`requests.reuqest(method,url,**kwargs)`
- `medthd`: 请求方式，GET/PUT/POST等
- `url`: 连接
- `**kwargs`: 13个控制请求方式
    - params: 字典或字节序列，作为参数增加到url中（修改url的字段）
    - data: 字典、字节序列或文件对象，作为Request的内容
    - json: 作为requeset的内容
    - headers: HTTP定制头
    
    - cookies: 字典或CookieJar, request中的cookie
    - auth: 元组，支持HTTP认证功能
    - files: 字典类型，传输文件
    - timeout: 设置超时时间
    - proxies: 设定访问代理服务器，可以增加登录认证
    
    - stream: Ture/False, 重定向开关
    - verify: Ture/Fals, 获取内容立即下载开关
    - allow_redirects: Ture/Fals, 认证SSL证书开关
    - cert: 本地SSL证书路径

method的功能，跟.get()之类的方法一样

`requests.get(url, params=None, **kwargs)` 12个

`requests.head(url, **kwargs)` 13全有

`requests.post(url, data=None, json=None, **kwargs)` 11个

`requests.put(url, data=None, **kwargs)` 12个

`requests.patch(url, data=None, **kwargs)` 12个

`requests.delete(url, **kwargs)` 13个



### 4.1 `params`
字典或字节序列，作为参数增加到url中（修改url的字段）

In [33]:
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('GET', "http://python123.io/ws", params=kv)
print(r.url)

https://python123.io/ws?key1=value1&key2=value2


可以通过这样的方式把一些键值对增加到url中

这样不仅访问服务器，还可以附带一些参数

### 4.2 `data`
字典、字节序列或文件对象，作为Request的内容

In [46]:
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST', "http://python123.io/ws", data=kv)
r.headers

{'Allow': 'GET,HEAD,OPTIONS', 'Content-Type': 'text/plain; charset=utf-8', 'Content-Length': '0', 'Date': 'Mon, 08 Jul 2019 04:48:11 GMT', 'Connection': 'keep-alive'}

In [42]:
body = "main content"
r = requests.request('GET', "http://python123.io/ws", data=body)
r.text

'<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">\n<title>405 Method Not Allowed</title>\n<h1>Method Not Allowed</h1>\n<p>The method is not allowed for the requested URL.</p>\n'

### 4.3 `headers`
HTTP定制头

In [42]:
hd = {'user-agent':'Chrome/10'}
r = requests.request('GET', "http://python123.io/ws", headers=hd)

### 4.4 `files`
字典类型，传输文件

In [45]:
#fs = {'file': open('data.csv','rb')}
#r = requests.request('POST',"http://python123.io/ws",files=fs)

### 4.5 `proxies`
设定访问代理服务器，可以增加登录认证

In [47]:
#pxs = {'http': 'http://user:pass@10.10.10.1:1234',
#      'https': 'https://10.10.10.1:4321'}
#r = requests.request("GET","http://www.baidu.com", proxies=pxs)

## 5. requests库网络爬虫实战

见实例文件夹

In [48]:
import requests
import os
url ='https://files.yande.re/sample/e55d59ed56233b93e67192082385cc00/yande.re%20549458%20sample%20ass%20bikini%20fate_extella_link%20fate_grand_order%20nekoshoko%20saber_extra%20swimsuits%20thong%20topless.jpg'
root = 'D://pics//dd'
path = root + url.split('/')[-1]
try:
    if not os.path.exists(root):
        #os.mkdir(root)
        os.makedirs(root)
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path, 'wb') as f:
            f.write(r.content)
            f.close()
            print('文件保存成功')
    else:
        print('文件已存在')
except:
    print('爬取失败')


文件已存在
