# urllib

## 包含的模块
- urllib.request：基本的HTTP请求模块，用来模拟发送请求
- urllib.error：包含urllib.request产生的常见的错误，使用try捕获
- urllib.parse：一个工具模块，提供了许多URL处理方法，比如拆分、解析、合并等
- urllib.robotparse：解析robots.txt文件

## request模块
- 提供了最基本的构造HTTP请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理授权验证、重定向、浏览器Cookie以及其他内容

### urlopen方法
- 完成最基本的简单网页的GET请求抓取

In [None]:
'''
urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)
data：传递了这个参数，则请求方式变为POST
timeout：设置超时时间，单位为秒，如果超出了设置的这个时间，还没有得到响应，就会抛出异常（urllib.error.URLError）
context：必须为ssl.SSLContext类型，用来指定SSL设置
'''
import urllib.request
response = urllib,request.urlopen('url地址')
print(response.read().decode('utf-8'))

# 传递data的
data = bytes(urllib.parse.urlencode({'word':'hello'}),encoding='utf8')
response = urllib.request.urlopen('url地址',data=data)


### request类

In [None]:
'''
class urllib.request.Request(url,data=None,headers={},origin_req_host=None,unverifiable=False,method=None)
url：用于请求URL，必传参数
data：必须传bytes类型的
headers：请求头，类型为字典
    - User-Agent：用来伪装浏览器，默认的User-Agent是Python-urllib，可以通过修改它的值来伪装浏览器，例如伪装火狐可以设置为 Mozilla/s.o (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11
origin_req_host：请求方的host名称或者IP地址
unverifiable：请求是否是无法验证的，默认为False，用户没有足够权限来选择接收这个请求的结果
method：请求的方式
'''
from urllib import request,parse
url = 'xxxx'
headers = {
    'User-Agent':'xxx',
    'Host':'httpbin.org'
}
dict = {
    'name':'xxx'
}
data = bytes(parse.urlencode(dict),encoding='utf8')
req = request.Request(url=url,data=data,headers=headers,method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

### BaseHandler类
- 各种处理器的父类
- HITPDefaultErrorHandler：用于处理HTTP响应错误，错误会抛出HTTPError类型的异常
- HTTPRedirectHandler：用于处理重定向
- HTTPCookieProcessor：用于处理Cookies
- ProxyHandler：用于设置代理，默认代理为空
- HTTPPasswordMgr：用于管理密码，它维护了用户名和密码的表
- HTTPBasicAuthHandler：用于管理认证，如果一个链接打开时需要认证，那么可以用它来解决认证问题

In [None]:
## 代理
from urllib.error import URLError
from urllib.request import ProxyHandler,build_opener

proxy_handler = ProxyHandler({
    'http':'xxxx',
    'https':'xxx'
})
opener = build_opener(proxy_handler)
try:
    response = opener.open('xxxx')
    print(response.read().decode('utf-8'))
except URLError as e:
    print(e.reason)

In [None]:
## Cookie
import http.cookiejar,urllib.request
cookie = http.cookiejar.CookieJar()
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('xxxx')
for item in cookie:
    print(item.name+'='+item.value)

### 异常
- URLError类：由request模块生成的异常都可以通过捕获这个类来处理
    - reason属性：返回错误的原因
- HTTPError类：URLError的子类，专门用来处理HTTP请求错误
    - code属性：返回HTTP状态码
    - reason属性：同父类
    - headers：返回请求头

### 解析链接 - parse

#### urlparse - 实现URL的识别和分段

In [None]:
'''
scheme://netloc/path ;params?query#fragment
会解析为6部分：
scheme：://前面的，代表协议
netloc：第一个/符号前面的，即域名
path：第一个/符号后面的，即访问路径
params：;分号前面的，即参数
query：?问号后面的，即查询条件，
fragment：#后面的，即锚点
'''
from urllib.parse import urlparse
result = urlparse('xxxx')
print(type(result),result)

#### urlunparse - 根据参数构造url
- 参数为一个可迭代对象，长度必须是6

In [1]:
from urllib.parse import urlunparse
data = ['http','www.baidu.com','index.html','user','a=6','comment']
print(urlunparse(data))

http://www.baidu.com/index.html;user?a=6#comment


#### urlsplit - 类似urlparse
- 只返回5个结果，params会合并到path中

#### urlunsplit - 类似urlunparse
- 传入一个可迭代对象，长度为5

#### urljoin - 合并为url

In [None]:
'''
参数1：base_url - 基础链接
参数2：new_url - 新链接
新连接中不存在的部分会从基础链接补充，如果存在则使用新链接的内容
'''
from urllib.parse import urljoin
print(urljoin('http://www.baidu.com','a,html'))

#### urlencode - 将序列化转为GET请求参数
- 将类似于字典的类型的内容，转为key=value&key=value的形式

#### parse_qs - 反序列化
- 将GET请求参数形式转为序列化形式

#### parse_qsl - 将参数转化为元组组成的列表

#### quote - 将内容转化为URL编码的格式

#### unquote - 将URL编码解码

### robotparser类 - 解析robots.txt
- urllib.robotparser.RobotFileParser(url='') ：传入robots.txt的链接即可

#### set_url - 用来设置robots.txt文件的链接

#### read - 读取robots.txt文件并进行分析

#### parse - 用来解析robots.txt文件某些行的内容

#### can_fetch - 判断该搜索引擎是否可以抓取这个URL
- 参数1：User-agent - 搜索引擎名字
- 参数2：URL - 地址
- 返回True或False

#### mtime - 上次抓取和分析robots.txt的时间

#### modified - 将当前时间设置为上次抓取和分析的时间