In [11]:
# -*- coding:utf-8 -*-

import urllib.request

# 1. 指定url
url = 'https://www.sogou.com'

# 2. 发起请求：urlopen可以根据指定的url发起请求，且返回一个响应对象
resp = urllib.request.urlopen(url=url)

# 3. 获取页面数据: read函数返回的就是相应对象中存储的页面数据(bytes)
page_text = resp.read()

# 4. 持久化存储
with open('./src/sogou.html', mode='wb') as f:
    f.write(page_text)
    print('写入成功')

写入成功


In [33]:
# 需求：爬取搜狗词条
import urllib.request
import urllib.parse

url = 'https://www.sogou.com/web?query='
# url特性：url不可以存在非ASCII编码的字符数据
keyword = urllib.parse.quote('周杰伦')
url +=  keyword

resp = urllib.request.urlopen(url=url)
page_text = resp.read()
with open('./src/杰伦.html', mode='wb') as f:
    f.write(page_text)
    print('写入成功')

写入成功


- 反爬机制
- User-Agent(UA): 请求载体的身份标识

In [43]:
import urllib.request
import urllib.parse

url = 'https://www.sogou.com/web?query='
keyword = urllib.parse.quote('周杰伦')
url +=  keyword

# UA伪装，需借助自定义请求对象
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"
}
request = urllib.request.Request(url=url, headers=headers)

resp = urllib.request.urlopen(request)
page_text = resp.read()
with open('./src/杰伦.html', mode='wb') as f:
    f.write(page_text)
    print('写入成功')

写入成功


- urllib模块发起的post请求
- 实例：post请求百度翻译

In [40]:
import urllib.request
import urllib.parse

# 指定url
url = 'https://fanyi.baidu.com/sug'

# post请求携带的参数进行处理, dict str bytex
data = {
    'kw': '西瓜'
}
data = urllib.parse.urlencode(data)
data = data.encode()

# 执行请求
resp = urllib.request.urlopen(url=url, data=data)
with open('./src/melon.json', mode='wb') as f:
    f.write(resp.read())
    print('写入成功')

写入成功


### urllib高级用法
- 代理
- cookie

In [46]:
import urllib.request
import urllib.parse

# 1. 创建处理器对象，在其内部封装代理IP和端口
handler = urllib.request.ProxyHandler(proxies={'http': '106.90.136.204:8123'})

# 2. 创建opener对象，然后使用该对象发起一个请求
opener = urllib.request.build_opener(handler)

url='http://www.baidu.com/s?ie=UTF-8&wd=ip'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
}
request = urllib.request.Request(url, headers=headers)

# 3. 使用opener对象发起请求
resp = opener.open(request)
with open('./src/proxy.html','wb') as fp:
    fp.write(resp.read())
    print('写入成功')

URLError: <urlopen error [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。>

In [50]:
# cookjar使用
import urllib.request
import urllib.parse
import http.cookiejar

cookie_jar = http.cookiejar.CookieJar()

# 创建处理器对象(携带CookieJar对象)
handler = urllib.request.HTTPCookieProcessor(cookie_jar)

# 创建opener对象 （携带CookieJar对象）
opener=urllib.request.build_opener(handler)

data = {
    "payload": "xxxx"
}
data=urllib.parse.urlencode(data).encode()
request=urllib.request.Request(url,data=data)
# 第一次请求
opener.open(request)

# opener会自动处理
second_url = 'second_url'
resp = opener.open(second_url)

<urllib.request.HTTPCookieProcessor object at 0x0000027F79BF3EB8>
