# urllib
- 包含模块
    - urllib.request：打开和读取urls
    - urllib.error：包含urllib.request产生的常见的错误，使用try捕获
    - urllib.parse：包含解析url的方法
    - urllib.robotparse：解析robots.txt文件

- 网页编码问题解决
    - chardet可以自动检测页面文件的编码格式，但是可能有误
    - 需要安装：conda install chardet
- urlopen
    - 返回一个对象
    - 对象的方法：
        - geturl：返回请求对象的url
        - info：请求反馈对象的meta信息
        - getcode：返回http code

In [None]:
from urllib import request

if __name__ == '__main__':
    url = "地址"
    # 打开相应url并吧相应页面作为返回
    rsp = request.urlopent(url)
    
    # 返回对象的方法
    print("URL",rsp.geturl())
    print("meta",rsp.info())
    print("code",rsp.getcode())
    
    # 把返回结果读取出来
    # 读取的结果为bytes类型
    
    html = rsp.read()
    
    # 解码
    html = html.decode("utf-8")

- 请求参数
    - 请求方式：get
        - 利用参数给服务器传递信息
        - 参数为dict，然后用parse编码
    - 请求方式：post
        - 一般向服务器传递参数使用
        - 使用post信息，需要用到data参数
        - 使用post，需要改变请求头
            - Content-Type:application/x-www.form-urlencode
            - Content-Length：数据长度
        - 

In [None]:
# 通过get方式获取网页内容
from urllib import request,parse

if __name__ == "__main__":
    url = '地址'
    wd = input("请输入你想要查询的内容")
    
    #请求的参数
    qs = {
        "wd":wd
    }
    
    # 将请求参数转换成url编码形式
    qs = parse.urlencode(qs)
    
    # 完整的url地址
    fullurl = url + qs
    
    # 获取页面内容
    rsp = request.urlopen(fullurl)
    
    html = rsp.read()
    
    # 编码
    html = html.decode()

In [None]:
# 通过post方式获取网页内容
from urllib import request,parse
import json

# 地址
baseurl = '地址'

# 发送给服务器的参数
data = {
    'kw':'xx'
}

# 将参数编码
data = parse.urlencode(data).encode("utf-8")

# 请求头
headers = {
    'Content-Length':len(data)
}

req = request.Request(url=baseurl, data=data, headers=headers)

# 发送请求
#rsp = request.urlopen(baseurl,data=data)

rsp = request.urlopen(req)

# 获取请求后的值
json_data = rep.read().decode('utf-8')
json_data = json.loads(json_data)

- 错误
    - urlError，对应的一般为网络出现的问题：
        - 没网
        - 服务器连接失败
        - 不知道指定服务器
        - 是OSError的子类
    - HTTPError，urlError的一个子类
        - 是对应的HTTP请求的返回码错误，如果返回错误码是400以上，则引起HTTPError

In [None]:
from urllib import request, error


if __name__ == '__main__':

    url = "http:iiiiiiiiidu//www.baidu.com/welcome.html"

    url = "http://www.sipo.gov.cn/www"
    try:

        req = request.Request(url)
        rsp = request.urlopen( req )
        html = rsp.read().decode()
        print(html)

    except error.HTTPError as e:
        print("HTTPError: {0}".format(e.reason))
        print("HTTPError: {0}".format(e))

    except error.URLError as e:
        print("URLError: {0}".format(e.reason))
        print("URLError: {0}".format(e))

    except Exception as e:
        print(e)

- UserAgent
    - UserAgent：用户代理，属于头的一部分，服务器通过UA来判断访问者身份

In [None]:
'''
访问一个网址
更改自己的UserAgent进行伪装
'''
from urllib import request, error


if __name__ == '__main__':

    url = "http://www.baidu.com"


    # 使用head方法伪装UA
    # headers = {}
    # headers['User-Agent'] = 'Mozilla/5.0 (iPad; CPU OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3'
    # req = request.Request( url, headers=headers)

    # 使用add_header方法
    req = request.Request(url)
    req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36")

    # 正常访问
    rsp = request.urlopen( req )
    html = rsp.read().decode()
    print(html)


- ProxyHandler处理（代理服务器）
    - 获取代理服务器地址
        - www.xicidaili.com
        - www.goubanjia.com
    - 基本使用步骤：
        - 设置代理地址 
        - 创建ProxyHandler
        - 创建Opener
        - 安装Opener

In [None]:
from urllib import  request, error


if __name__ == '__main__':

    url = "http://www.baidu.com"

    # 使用代理步骤
    # 1. 设置代理地址
    proxy = {'http': '120.194.18.90:81' }
    # 2. 创建ProxyHandler
    proxy_handler = request.ProxyHandler(proxy)
    # 3. 创建Opener
    opener = request.build_opener(proxy_handler)
    # 4. 安装Opener
    request.install_opener( opener)

    # 现在如果访问url，则使用代理服务器
    try:
        rsp = request.urlopen(url)
        html = rsp.read().decode()
        print(html)
    except error.URLError as e:
        print(e)
    except Exception as e:
        print(e)

- 使用cookie登录
    - 1、直接把cookie复制下来，然后手动放入请求头
    - 2、http模块包含一些关于cookie的模块，可以自动使用cookie
        - CookieJar：管理存储cookie，向传出的http请求添加cookie
            - cookie存储在内存中，cookieJar实例回收后cookie将消失
        - FileCookieJar(filename,delayload=None,policy=None)
            - 使用文件管理cookie

In [None]:
from urllib import request,parse
from http import cookiejar

# 创建cookiejar的实例
cookie = cookiejar.CookieJar()

# 生成cookie的管理器
cookie_handler = request.HTTPCookieProcessor(cookie)

# 创建http请求管理器
http_handler = request.HTTPHandler()

# 生成https管理器
https_handler = request.HTTPHandler()

# 创建请求管理器
opener = request.build_opener(http_handler,https_handler,cookie_handler)

def login():
    '''
    负责初次登录
    需要输入用户名密码，用来获取登录cookie凭证
    '''
    
    # 请求地址
    url = "xxxx"
    
    # 此键值需要从登录form的两个对应input中提取name属性
    data = {
        "email":"xxx",
        "passwd":"sad"
    }
    
    # 数据编码
    data = parse.urlencode(data)
    
    # 创建一个请求对象
    req = request.Request(url,data=data.encode())
    
    # 使用opener发起请求
    rsp = opener.open(req)
    
def getHomePage():
    url = "xxx"
    
    # 如果已经执行了login函数，则opener自动已经包含cookie值
    rsp = opener.open(url)
    
    html = rsp.read().decode()
    
    with open("rsp.html","w") as f:
        f.write(html)
        
if __name__ == '__main__':
    login()
    getHomePage()

- SSL
    - SSL证书就是指遵循SSL安全套阶层协议的服务器数字证书
    - CA：数字证书认证中心，是发放、管理、废除数字证书的收信人的第三方机构

In [None]:
from urllib import request

# 导入pythopn ssl处理模块
import ssl

# 利用非认证上下文环境替换认证的向下文环境
ssl._create_default_https_context = ssl._create_unverified_context

url = "https://www.12306.cn/mormhweb/"
rsp = request.urlopen(url)

html = rsp.read().decode()

print(html)