大纲
-
1. 基本用法
    1. GET 请求
        - 基本实例
        - 获取 JSON 格式数据（将 JSON 结果转为字典）
        - 抓取网页
        - 抓取二进制数据
    2. POST 请求

urllib 库是 Python 内置的 HTTP 请求库，也就是说不需要额外安装即可使用。
它包含如下 4 个模块。

- request：它是最基本的 HTTP 请求模块，可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样，只需要给库方法传入 URL 以及额外的参数，就可以模拟实现这个过程了。
- error：异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作以保证程序不会意外终止。
- parse：一个工具模块，提供了许多 URL 处理方法，比如拆分、解析、合并等。
- robotparser：主要是用来识别网站的 robots.txt 文件，然后判断哪些网站可以爬，哪些网站不可以爬，它其实用得比较少。


### 1. 基本用法

In [None]:
import urllib.request

r = urllib.request.urlopen('https://www.baidu.com/')
print('响应:', r)
print('响应类型:', type(r))
print('状态码:', r.status)
print('响应结果', r.reason)
print('所有请求头:', r.getheaders())
print('单个请求头:', r.getheader('Content-Type'))
print('响应内容:', r.read())
print('内容类型:', type(r.read()))

#### 1.1 GET 请求

##### 基本实例
首先，构建一个最简单的 GET 请求，请求的链接为 http://httpbin.org/get，该网站会判断如果客户端发起的是 GET 请求的话，它返回相应的请求信息：

In [None]:
import urllib.request

r = urllib.request.urlopen('http://httpbin.org/get?name=germey&age=22')
print(type(r))
# print(r.read())
# print(r.read().decode('utf-8'))

编码参数

In [None]:
from urllib import parse
from urllib import request

data = {  
    'name': 'germey',  
    'age': 22  
}  
encoded_args = parse.urlencode(data)
print('Encoded:', encoded_args)

url = 'http://httpbin.org/get?' + encoded_args
r = request.urlopen(url)
print(r.read().decode('utf-8'))

##### 获取 JSON 格式数据（将 JSON 结果转为字典）

In [None]:
import json
from urllib import parse
from urllib import request

data = {  
    'name': 'germey',  
    'age': 22  
}

url = 'http://httpbin.org/get?' + parse.urlencode(data)
r = request.urlopen(url).read().decode('utf-8')
# 可以看到结果是字符串
print(type(r))
dict_res = json.loads(r)
print(dict_res)
print(dict_res['args'])
# 结果已经转换成字典
print(type(dict_res))

##### 抓取网页

In [None]:
import urllib.request
import re

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}

req = urllib.request.Request("https://www.zhihu.com/explore", headers=headers)
r = urllib.request.urlopen(req)
pattern = re.compile('ExploreSpecialCard-contentTitle.*?>(.*?)</a>', re.S)
titles = re.findall(pattern, r.read().decode('utf-8'))
print(titles)

我们知道利用 `urlopen` 方法可以实现最基本请求的发起，但这几个简单的参数并不足以构建一个完整的请求。如果请求中需要加入 Headers 等信息，就可以利用更强大的 `Request 类`来构建。

类参数如下：
`class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)`

##### 抓取二进制数据

In [None]:
import urllib.request

r = urllib.request.urlopen("https://github.com/favicon.ico")
with open('./static/urllib_github.ico', 'wb') as f:
    f.write(r.read())

#### 1.2 POST 请求
第一种需要将编码后的查询参数作为数据传递给 urlopen() 函数

In [None]:
from urllib import parse
from urllib import request

data = {'name':'shanks', 'age':36}
encoded_args = parse.urlencode(data).encode('utf-8')
print(request.urlopen('http://httpbin.org/post', encoded_args).read().decode('utf-8'))

第二种需要构造request对象

In [None]:
import urllib.request

data = {'name':'shanks', 'age':36}
data = bytes(parse.urlencode(data).encode('utf-8'))
req = urllib.request.Request("http://httpbin.org/post", data=data, method='POST')
print(urllib.request.urlopen(req).read().decode('utf-8'))