<h2>基本库的使用</h2>

<h3>urllib（Python 内置的 HTTP 请求库）</h3>

包含以下4个模块：

- request：它是最基本的 HTTP 请求模块，可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样，只需要给库方法传入 URL 以及额外的参数，就可以模拟实现这个过程
- error：异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作以保证程序不会意外终止。
- parse：一个工具模块，提供了许多 URL 处理方法，比如拆分、解析、合并等。
- robotparser：主要是用来识别网站的 robots.txt 文件，然后判断哪些网站可以爬，哪些网站不可以爬，它其实用得比较少。

使用 urllib 的 request 模块可以方便地实现请求的发送并得到响应。

urllib.request 模块提供了最基本的构造 HTTP 请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理授权验证（authentication）、重定向（redirection)、浏览器 Cookies 以及其他内容。

In [1]:
import urllib.request  

response = urllib.request.urlopen('https://www.baidu.com')  
print(response.read().decode('utf-8'))

<html>
<head>
	<script>
		location.replace(location.href.replace("https://","http://"));
	</script>
</head>
<body>
	<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>
</body>
</html>


利用 type 方法输出响应的类型

In [3]:
print(type(response))

<class 'http.client.HTTPResponse'>


是一个 HTTPResposne 类型的对象，主要包含 read、readinto、getheader、getheaders、fileno 等方法，以及 msg、version、status、reason、debuglevel、closed 等属性。

得到这个对象之后，把它赋值为 response 变量，然后就可以调用这些方法和属性，得到返回结果的一系列信息了。

例如，调用 read() 方法可以得到返回的网页内容，调用 status 属性可以得到返回结果的状态码，如 200 代表请求成功，404 代表网页未找到等。

In [4]:
print(response.status)  
print(response.getheaders())  
print(response.getheader('Server'))

200
[('Accept-Ranges', 'bytes'), ('Cache-Control', 'no-cache'), ('Content-Length', '227'), ('Content-Security-Policy', "frame-ancestors 'self' https://chat.baidu.com http://mirror-chat.baidu.com https://fj-chat.baidu.com https://hba-chat.baidu.com https://hbe-chat.baidu.com https://njjs-chat.baidu.com https://nj-chat.baidu.com https://hna-chat.baidu.com https://hnb-chat.baidu.com http://debug.baidu-int.com;"), ('Content-Type', 'text/html'), ('Date', 'Tue, 09 Jul 2024 14:20:52 GMT'), ('P3p', 'CP=" OTI DSP COR IVA OUR IND COM "'), ('P3p', 'CP=" OTI DSP COR IVA OUR IND COM "'), ('Pragma', 'no-cache'), ('Server', 'BWS/1.1'), ('Set-Cookie', 'BD_NOT_HTTPS=1; path=/; Max-Age=300'), ('Set-Cookie', 'BIDUPSID=2E0473D50C1C043953E145DBD3E76131; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 'PSTM=1720534852; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 'BAIDUID=2E0473D50C1C0439C9793FB368A1

利用最基本的 urlopen 方法，可以完成最基本的简单网页的 GET 请求抓取。

urlopen 方法的 API 可以给链接传递一些参数

`urllib.request.urlopen(url, data=None, [timeout,]*, cafile=None, capath=None, cadefault=False, context=None)`

可以发现，除了第一个参数可以传递 URL 之外，还可以传递其他内容，比如 data（附加数据）、timeout（超时时间）等。

- data 参数：data 参数是可选的。如果要添加该参数，需要**使用 bytes 方法将参数转化为字节流编码格式的内容**，即 bytes 类型。另外，如果传递了这个参数，则它的请求方式就不再是 GET 方式，而是 **POST** 方式。

In [6]:
import urllib.parse

print(urllib.parse.urlparse('https://www.baidu.com'))  # 解析链接

data = bytes(urllib.parse.urlencode({'word': 'hello'}), encoding='utf8')  
response = urllib.request.urlopen('http://httpbin.org/post', data=data)  
print(response.read())

ParseResult(scheme='https', netloc='www.baidu.com', path='', params='', query='', fragment='')
b'{\n  "args": {}, \n  "data": "", \n  "files": {}, \n  "form": {\n    "word": "hello"\n  }, \n  "headers": {\n    "Accept-Encoding": "identity", \n    "Content-Length": "10", \n    "Content-Type": "application/x-www-form-urlencoded", \n    "Host": "httpbin.org", \n    "User-Agent": "Python-urllib/3.9", \n    "X-Amzn-Trace-Id": "Root=1-668d4b75-0ee2a64b6f72bf6750ac7f25"\n  }, \n  "json": null, \n  "origin": "43.206.235.143", \n  "url": "http://httpbin.org/post"\n}\n'


这里传递了一个参数 word，值是 hello。它需要被转码成 bytes（字节流）类型。其中转字节流采用了 bytes 方法，该方法的第一个参数需要是 str（字符串）类型，需要用 urllib.parse 模块里的 urlencode 方法来将参数字典转化为字符串；第二个参数指定编码格式，这里指定为 utf8。

在这里请求的站点是 httpbin.org，它可以提供 HTTP 请求测试，本次我们请求的 URL 为：http://httpbin.org/post, 用于测试 POST 请求，它可以输出 Request 的一些信息，其中就包含传递的 data 参数。

传递的参数出现在了 form 字段中，这表明是模拟了表单提交的方式，以 POST 方式传输数据。

###### timeout 参数

timeout 参数用于设置超时时间，单位为秒，意思就是如果请求超出了设置的这个时间，还没有得到响应，就会抛出异常。如果不指定该参数，就会使用全局默认时间。它支持 HTTP、HTTPS、FTP 请求。

In [7]:
response = urllib.request.urlopen('http://httpbin.org/get', timeout=1)  
print(response.read())

timeout: timed out

这里设置超时时间是 1 秒。程序 1 秒过后，服务器依然没有响应，于是抛出了 URLError 异常。该异常属于 urllib.error 模块，错误原因是超时。

因此，可以通过设置这个超时时间来控制一个网页如果长时间未响应，就跳过它的抓取。这可以利用 try except 语句来实现，相关代码如下：

In [9]:
import socket  
import urllib.error  

try:
    response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.1)
except urllib.error.URLError as e:
    if isinstance(e.reason, socket.timeout):
        print('TIME OUT Custom')

timeout: timed out

**其他参数**

除了 data 参数和 timeout 参数外，还有 context 参数，它必须是 ssl.SSLContext 类型，用来指定 SSL 设置。

此外，cafile 和 capath 这两个参数分别指定 CA 证书和它的路径，这个在请求 HTTPS 链接时会有用。

cadefault 参数现在已经弃用了，其默认值为 False。

前面讲解了 urlopen 方法的用法，通过这个最基本的方法，可以完成简单的请求和网页抓取。

若需更加详细的信息，可以参见官方文档：https://docs.python.org/3/library/urllib.request.html

利用 urlopen 方法可以实现最基本请求的发起，但这几个简单的参数并不足以构建一个完整的请求。

如果请求中需要加入 Headers 等信息，就可以利用更强大的 Request 类来构建。

In [4]:
import urllib.request  

request = urllib.request.Request('https://python.org')  
response = urllib.request.urlopen(request)  
print(response.read().decode('utf-8'))

<!doctype html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" lang="en" dir="ltr">  <!--<![endif]-->

<head>
    <!-- Google tag (gtag.js) -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-TF35YF9CVH"></script>
    <script>
      window.dataLayer = window.dataLayer || [];
      function gtag(){dataLayer.push(arguments);}
      gtag('js', new Date());
      gtag('config', 'G-TF35YF9CVH');
    </script>
    <!-- Plausible.io analytics -->
    <script defer data-domain="python.org" src="https://plausible.io/js/script.js"></script>

    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">

    <link rel="prefetch" href="//ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js">
    <link rel="prefetch" 

依然是用 urlopen 方法来发送这个请求，只不过这次该方法的参数不再是 URL，而是一个 Request 类型的对象。

通过构造这个数据结构，一方面可以将请求独立成一个对象，另一方面可更加丰富和灵活地配置参数。

Request 的构造方法如下：

```python
class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
```

- 第一个参数 url 用于请求 URL，这是必传参数，其他都是可选参数。
- 第二个参数 data 如果要传，必须传 bytes（字节流）类型的。如果它是字典，可以先用 urllib.parse 模块里的 urlencode() 编码。
- 第三个参数 headers 是一个字典，它就是请求头，可以在构造请求时通过 headers 参数直接构造，也可以通过调用请求实例的 add_header() 方法添加。
  添加请求头最常用的用法就是通过修改 User-Agent 来伪装浏览器，默认的 User-Agent 是 Python-urllib，可以通过修改它来伪装浏览器。
- 第五个参数 unverifiable 表示这个请求是否是无法验证的，默认是 False，意思就是说用户没有足够权限来选择接收这个请求的结果。
  例如请求一个 HTML 文档中的图片，但是没有自动抓取图像的权限，这时 unverifiable 的值就是 True。
- 第六个参数 method 是一个字符串，用来指示请求使用的方法，比如 GET、POST 和 PUT 等。

In [5]:
from urllib import request, parse  

url = 'http://httpbin.org/post'  
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36', 
    'Host': 'httpbin.org'  
}  
dict = {
    'name': 'Germey'
}  
data = bytes(parse.urlencode(dict), encoding='utf8')  
req = request.Request(url=url, data=data, headers=headers, method='POST')  
response = request.urlopen(req)  
print(response.read().decode('utf-8'))

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "name": "Germey"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "11", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-668df2a8-123321885750c79e36d42279"
  }, 
  "json": null, 
  "origin": "43.206.235.143", 
  "url": "http://httpbin.org/post"
}



观察结果可以发现，成功设置了 data、headers 和 method。

另外，headers 也可以用 add_header 方法来添加：

```python
req = request.Request(url=url, data=data, method='POST')  
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
```

**高级用法**

虽然可以构造请求，但是对于一些更高级的操作（比如 Cookies 处理、代理设置等），需要使用 Handler 。

可以把它理解为各种处理器，有专门处理登录验证的，有处理 Cookies 的，有处理代理设置的。

首先，介绍一下 urllib.request 模块里的 BaseHandler 类，它是所有其他 Handler 的父类，它提供了最基本的方法，例如 default_open、protocol_request 等。

接下来，就有各种 Handler 子类继承这个 BaseHandler 类，举例如下。

- HTTPDefaultErrorHandler 用于处理 HTTP 响应错误，错误都会抛出 HTTPError 类型的异常。
- HTTPRedirectHandler 用于处理重定向。
- HTTPCookieProcessor 用于处理 Cookies。
- ProxyHandler 用于设置代理，默认代理为空。
- HTTPPasswordMgr 用于管理密码，它维护了用户名密码的表。
- HTTPBasicAuthHandler 用于管理认证，如果一个链接打开时需要认证，那么可以用它来解决认证问题。

另一个比较重要的类就是 OpenerDirector，我们可以称为 Opener。（urlopen 方法，实际上就是 urllib 提供的一个 Opener）

> 为什么要引入 Opener 呢？
> 
> 因为需要实现更高级的功能。之前使用的 Request 和 urlopen 相当于类库封装好了极其常用的请求方法，利用它们可以完成基本的请求，
> 但是需要实现更高级的功能，要深入一层进行配置，使用更底层的实例来完成操作，所以这里就用到了 Opener。

**利用 Handler 来构建 Opener**

举例：有些网站在打开时就会弹出提示框，直接提示输入用户名和密码，验证成功后才能查看页面。

In [None]:
from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener  
from urllib.error import URLError  

username = 'username'  
password = 'password'  
url = 'http://localhost:5000/'  

p = HTTPPasswordMgrWithDefaultRealm()  
p.add_password(None, url, username, password)  
auth_handler = HTTPBasicAuthHandler(p)  
opener = build_opener(auth_handler)  

try:  
    result = opener.open(url)  
    html = result.read().decode('utf-8')  
    print(html)  
except URLError as e:  
    print(e.reason)

这里首先实例化 HTTPBasicAuthHandler 对象，其参数是 HTTPPasswordMgrWithDefaultRealm 对象，它利用 add_password 方法添加进去用户名和密码，这样就建立了一个处理验证的 Handler。

接下来，利用这个 Handler 并使用 build_opener 方法构建一个 Opener，这个 Opener 在发送请求时就相当于已经验证成功了。

接下来，利用 Opener 的 open 方法打开链接，就可以完成验证了。这里获取到的结果就是验证后的页面源码内容。

**代理**

在做爬虫的时候，免不了要使用代理，如果要添加代理，可以这样做：

In [None]:
from urllib.error import URLError  
from urllib.request import ProxyHandler, build_opener  

proxy_handler = ProxyHandler({  
    'http': 'http://127.0.0.1:9743',  
    'https': 'https://127.0.0.1:9743'  
})  
opener = build_opener(proxy_handler)  
try:  
    response = opener.open('https://www.baidu.com')  
    print(response.read().decode('utf-8'))  
except URLError as e:  
    print(e.reason)

在本地搭建了一个代理，它运行在 9743 端口上。

使用了 ProxyHandler，其参数是一个字典，键名是协议类型（比如 HTTP 或者 HTTPS 等），键值是代理链接，可以添加多个代理。

然后，利用这个 Handler 及 build_opener 方法构造一个 Opener，之后发送请求即可。

**Cookies**

Cookies 处理需要相关的 Handler 。

我们先用实例来看看怎样将网站的 Cookies 获取下来，相关代码如下：

In [6]:
#逐条输出cookie
import http.cookiejar,urllib.request

cookie=http.cookiejar.CookieJar()
handler=urllib.request.HTTPCookieProcessor(cookie)
opener=urllib.request.build_opener(handler)
response=opener.open('http://www.baidu.com')
for item in cookie:
    print(item.name+"="+item.value)

BAIDUID=4CC7D4FF21CF32754DD34191668F4321:FG=1
BIDUPSID=4CC7D4FF21CF3275AFD1972627F8021F
PSTM=1720579656
BDSVRTM=3
BD_HOME=1


过程解析：
- 首先，必须声明一个 CookieJar 对象。
- 接下来，就需要利用 HTTPCookieProcessor 来构建一个 Handler，
- 最后利用 build_opener 方法构建出 Opener，执行 open 函数即可。

Cookies 以文本形式保存方法如下：

In [3]:
#文件形式输出cookie
import http.cookiejar,urllib.request
filename='cookies_LWP.txt'
# cookie=http.cookiejar.MozillaCookieJar(filename)
#MozillaCookieJar是cookieJar的子类 处理Cookies和文件相关的事件 可将cookies保存成Mozilla型浏览器的cookies格式

cookie=http.cookiejar.LWPCookieJar(filename)
#LWP格式的cookies文件
handler=urllib.request.HTTPCookieProcessor(cookie)
opener=urllib.request.build_opener(handler)
response=opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True,ignore_expires=True)

- MozillaCookieJar 是cookieJar的子类 处理Cookies和文件相关的事件 可将cookies保存成Mozilla型浏览器的cookies格式
- LWPCookieJar 可以读取和保存 Cookies，但是保存的格式和 MozillaCookieJar 不一样，它会保存成 libwww-perl(LWP) 格式的 Cookies 文件

以 LWPCookieJar 格式为例进行Cookie文件读取：

In [4]:
#经过上面一段代码 已生成LWP格式的cookies文件（本地） 读取cookies后构建Handler和Opener得到网页源码
import http.cookiejar,urllib.request
cookie=http.cookiejar.LWPCookieJar()
cookie.load('cookies_LWP.txt',ignore_discard=True,ignore_expires=True)
handler=urllib.request.HTTPCookieProcessor(cookie)
opener=urllib.request.build_opener(handler)
response=opener.open('http://www.baidu.com')
print(response.read().decode('utf8'))

<!DOCTYPE html><!--STATUS OK--><html><head><meta http-equiv="Content-Type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta content="always" name="referrer"><meta name="theme-color" content="#ffffff"><meta name="description" content="全球领先的中文搜索引擎、致力于让网民更便捷地获取信息，找到所求。百度超过千亿的中文网页数据库，可以瞬间找到相关的搜索结果。"><link rel="shortcut icon" href="https://www.baidu.com/favicon.ico" type="image/x-icon" /><link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索" /><link rel="icon" sizes="any" mask href="https://www.baidu.com/favicon.ico"><link rel="dns-prefetch" href="//dss0.bdstatic.com"/><link rel="dns-prefetch" href="//dss1.bdstatic.com"/><link rel="dns-prefetch" href="//ss1.bdstatic.com"/><link rel="dns-prefetch" href="//sp0.baidu.com"/><link rel="dns-prefetch" href="//sp1.baidu.com"/><link rel="dns-prefetch" href="//sp2.baidu.com"/><link rel="dns-prefetch" href="//pss.bdstatic.com"/><link rel="apple-touch-

**处理异常**

前一节了解了请求的发送过程，但是在网络不好的情况下，容易出现（超时）异常，这时如果不处理这些异常，程序很可能因报错而终止运行。

urllib 的 error 模块定义了由 request 模块产生的异常。

如果出现了问题，request 模块便会抛出 error 模块中定义的异常。

1. URLError

    URLError 类来自 urllib 库的 error 模块，它继承自 OSError 类，是 error 异常模块的基类，由 request 模块产生的异常都可以通过捕获这个类来处理。

    它具有一个属性 reason，即返回错误的原因。

In [1]:
from urllib import request, error  
try:  
    response = request.urlopen('https://www.csdn.net/no_page.html')  # 打开一个不存在的页面
except error.URLError as e:  
    print(e.reason)

Not Found


程序没有直接报错，而是输出了如上内容，这样通过如上操作，可以避免程序异常终止，同时异常得到了有效处理。

2. HTTPError

    它是 URLError 的子类，专门用来处理 HTTP 请求错误，比如认证请求失败等。它有如下 3 个属性。

    - code：返回 HTTP 状态码，比如 404 表示网页不存在，500 表示服务器内部错误等。
    - reason：同父类一样，用于返回错误的原因。
    - headers：返回请求头。


In [2]:
from urllib import request,error  
try:  
    response = request.urlopen('https://www.csdn.net/no_page.html')  
except error.HTTPError as e:  
    print(e.reason, e.code, e.headers, sep='\n')

Not Found
404
Date: Fri, 12 Jul 2024 14:54:49 GMT
Content-Type: text/html; charset=utf-8
Content-Length: 29969
Connection: close
Set-Cookie: https_waf_cookie=9987b9a5-7c0a-4e5883e97d33b00bbffcadcee1601e68ce5b; Expires=1720803289; Path=/; Secure; HttpOnly
Server: WAF
Vary: Accept-Encoding
Set-Cookie: dc_sid=8d2abe1626bc9b1f57376f02d6f613c1; Expires=Session; Path=/; Domain=.csdn.net;
ETag: "6684b2c2-7511"
Strict-Transport-Security: max-age=0; preload
X-Request-Id: c449c88d8297f6a19d1625e422b4b0ca
X-Cache: BYPASS




因为 URLError 是 HTTPError 的父类，所以可以先选择捕获子类的错误，再去捕获父类的错误，所以上述代码更好的写法如下：

In [3]:
from urllib import request, error  

try:  
    response = request.urlopen('https://www.csdn.net/no_page.html')  
except error.HTTPError as e:  
    print(e.reason, e.code, e.headers, sep='\n')  
except error.URLError as e:  
    print(e.reason)  
else:  
    print('Request Successfully')

Not Found
404
Date: Fri, 12 Jul 2024 14:56:25 GMT
Content-Type: text/html; charset=utf-8
Content-Length: 29969
Connection: close
Set-Cookie: https_waf_cookie=62c50f4f-8da6-48a40ccb767ce1a2cda8b24e1ac8a90c199f; Expires=1720803385; Path=/; Secure; HttpOnly
Server: WAF
Vary: Accept-Encoding
Set-Cookie: dc_sid=73f291155a8c2d9f29056e3983819231; Expires=Session; Path=/; Domain=.csdn.net;
ETag: "6684b2c2-7511"
Strict-Transport-Security: max-age=0; preload
X-Request-Id: a58256929da7e06d56da7a233adf2d20
X-Cache: BYPASS




这样就可以做到先捕获 HTTPError，获取它的错误状态码、原因、headers 等信息。

如果不是 HTTPError 异常，就会捕获 URLError 异常，输出错误原因。最后，用 else 来处理正常的逻辑。这是一个较好的异常处理写法。

有时候，reason 属性返回的不一定是字符串，也可能是一个对象。

> reason 属性的结果是 socket.timeout 类

In [4]:
import socket  
import urllib.error  

try:  
    response = urllib.request.urlopen('https://www.baidu.com', timeout=0.01)  
except urllib.error.URLError as e:  
    print(type(e.reason))  
    if isinstance(e.reason, socket.timeout):  
        print('TIME OUT')

<class 'socket.timeout'>
TIME OUT


**解析链接**

urllib 库里还提供了 parse 模块，它定义了处理 URL 的标准接口，例如实现 URL 各部分的抽取、合并以及链接转换。

它支持如下协议的 URL 处理：file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、prospero、rsync、rtsp、rtspu、sftp、 sip、sips、snews、svn、svn+ssh、telnet 和 wais。

1. urlparse

    该方法可以实现 URL 的识别和分段，比如：

In [5]:
from urllib.parse import urlparse  

result = urlparse('http://www.baidu.com/index.html;user?id=5#comment')  
print(type(result), result)

<class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')


返回结果是一个 ParseResult 类型的对象，它包含 6 个部分，分别是：
- scheme（协议）、netloc（域名）、path（访问路径）、params（参数）
- query（查询条件。一般用作 GET 类型的 URL） 和 fragment（锚点，用于直接定位页面内部的下拉位置）。

一个标准的 URL 都会符合这个规则，利用 urlparse 方法可以将它拆分开来。

它的 API 用法：

`urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)`

- urlstring：这是必填项，即待解析的 URL。
- scheme：它是默认的协议（比如 http 或 https 等）。假如这个链接没有带协议信息，会将这个作为默认的协议。
- allow_fragments：是否忽略 fragment。如果它被设置为 False，fragment 部分就会被忽略，它会被解析为 path、parameters 或者 query 的一部分，而 fragment 部分为空。

In [6]:
from urllib.parse import urlparse  

result = urlparse('www.baidu.com/index.html;user?id=5#comment', scheme='https')  
print(result)

ParseResult(scheme='https', netloc='', path='www.baidu.com/index.html', params='user', query='id=5', fragment='comment')


提供的 URL 没有包含最前面的 scheme 信息，但是通过指定默认的 scheme 参数，返回的结果是 https。

假设带上了 scheme：`result = urlparse('http://www.baidu.com/index.html;user?id=5#comment', scheme='https')`，解析结果为 http

> scheme 参数只有在 URL 中不包含 scheme 信息时才生效。如果 URL 中有 scheme 信息，就会返回解析出的 scheme。

In [7]:
from urllib.parse import urlparse  

result = urlparse('http://www.baidu.com/index.html;user?id=5#comment', allow_fragments=False)  
print(result)

ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5#comment', fragment='')


返回结果 ParseResult 实际上是一个元组，可以用索引顺序来获取，也可以用属性名获取。示例如下：

In [8]:
from urllib.parse import urlparse  

result = urlparse('http://www.baidu.com/index.html#comment', allow_fragments=False)  
print(result.scheme, result[0], result.netloc, result[1], sep='\n')

http
http
www.baidu.com
www.baidu.com


2. urlunparse

    urlparse 的对立方法 urlunparse。它接受的参数是一个可迭代对象，但是长度必须是 6，否则会抛出参数数量不足或者过多的问题。

In [9]:
from urllib.parse import urlunparse  

data = ['http', 'www.baidu.com', 'index.html', 'user', 'a=6', 'comment']  
print(urlunparse(data))

http://www.baidu.com/index.html;user?a=6#comment


3. urlsplit

    和 urlparse 方法非常相似，它不再单独解析 params 这一部分，只返回 5 个结果。上面例子中的 params 会合并到 path 中。

In [10]:
from urllib.parse import urlsplit  

result = urlsplit('http://www.baidu.com/index.html;user?id=5#comment')  
print(result)

SplitResult(scheme='http', netloc='www.baidu.com', path='/index.html;user', query='id=5', fragment='comment')


4. urlunsplit
    
   与 urlunparse 方法类似，也是将链接各个部分组合成完整链接的方法，传入的参数也是一个可迭代对象，例如列表、元组等，唯一的区别是长度必须为 5。

In [11]:
from urllib.parse import urlunsplit  

data = ['http', 'www.baidu.com', 'index.html', 'a=6', 'comment']  
print(urlunsplit(data))

http://www.baidu.com/index.html?a=6#comment


5. urljoin（推荐**）

    urlunparse 和 urlunsplit 方法可以完成链接的合并，不过前提必须要有特定长度的对象，链接的每一部分都要清晰分开。

    而 urljoin 方法解决了这个缺点。
   
    可以提供一个 base_url（基础链接）作为第一个参数，将新的链接作为第二个参数，该方法会分析 base_url 的 scheme、netloc 和 path 这 3 个内容并对新链接缺失的部分进行补充，最后返回结果。

In [12]:
from urllib.parse import urljoin  

print(urljoin('http://www.baidu.com', 'FAQ.html'))  
print(urljoin('http://www.baidu.com', 'https://cuiqingcai.com/FAQ.html'))  
print(urljoin('http://www.baidu.com/about.html', 'https://cuiqingcai.com/FAQ.html'))  
print(urljoin('http://www.baidu.com/about.html', 'https://cuiqingcai.com/FAQ.html?question=2'))  
print(urljoin('http://www.baidu.com?wd=abc', 'https://cuiqingcai.com/index.php'))  
print(urljoin('http://www.baidu.com', '?category=2#comment'))  
print(urljoin('www.baidu.com', '?category=2#comment'))  
print(urljoin('www.baidu.com#comment', '?category=2'))

http://www.baidu.com/FAQ.html
https://cuiqingcai.com/FAQ.html
https://cuiqingcai.com/FAQ.html
https://cuiqingcai.com/FAQ.html?question=2
https://cuiqingcai.com/index.php
http://www.baidu.com?category=2#comment
www.baidu.com?category=2#comment
www.baidu.com?category=2


base_url 提供了三项内容 scheme、netloc 和 path。

如果这 3 项在新的链接里不存在，就予以补充；如果新的链接存在，就使用新的链接的部分。

而 base_url 中的 params、query 和 fragment 是不起作用的。

通过 urljoin 方法，我们可以轻松实现链接的解析、拼合与生成。

6. urlencode（推荐***）

    它在构造 GET 请求参数的时候非常有用

In [13]:
from urllib.parse import urlencode  

params = {  
    'name': 'germey',  
    'age': 22  
}  
base_url = 'http://www.baidu.com?'  
url = base_url + urlencode(params)  
print(url)

http://www.baidu.com?name=germey&age=22


7. parse_qs（推荐**）

    反序列化。利用 parse_qs 方法，将一串 GET 请求参数转回字典

In [14]:
from urllib.parse import parse_qs  

query = 'name=germey&amp;age=22'  
print(parse_qs(query))

{'name': ['germey'], 'amp;age': ['22']}


8. parse_qsl（推荐**）

    用于将参数转化为元组组成的列表

In [15]:
from urllib.parse import parse_qsl  

query = 'name=germey&amp;age=22'  
print(parse_qsl(query))

[('name', 'germey'), ('amp;age', '22')]


9. quote（推荐***）

    该方法可以将内容转化为 URL 编码的格式。
   
    URL 中带有中文参数时，有时可能会导致乱码的问题，此时用这个方法可以将中文字符转化为 URL 编码

In [16]:
from urllib.parse import quote  

keyword = '壁纸'  
url = 'https://www.baidu.com/s?wd=' + quote(keyword)  
print(url)

https://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8


10. unquote（URL 解码）

In [18]:
from urllib.parse import unquote  

url = 'https://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8'  
print(unquote(url))

https://www.baidu.com/s?wd=壁纸


**分析 Robots 协议**

利用 urllib 的 robotparser 模块，可以实现网站 Robots 协议的分析。

1. Robots 协议

    Robots 协议也称作爬虫协议、机器人协议，它的全名叫作网络爬虫排除标准（Robots Exclusion Protocol），用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。它通常是一个叫作 robots.txt 的文本文件，一般放在网站的根目录下。

    当搜索爬虫访问一个站点时，它首先会检查这个站点根目录下是否存在 robots.txt 文件，如果存在，搜索爬虫会根据其中定义的爬取范围来爬取。如果没有找到这个文件，搜索爬虫便会访问所有可直接访问的页面。

下面看一个 robots.txt 的样例：
```
User-agent: *  
Disallow: /  
Allow: /public/
```

这实现了对所有搜索爬虫**只允许爬取 public 目录的功能**，将上述内容保存成 robots.txt 文件，放在网站的根目录下，和网站的入口文件（比如 index.php、index.html 和 index.jsp 等）放在一起。

上面的 User-agent 描述了搜索爬虫的名称，这里将其设置为 * 则代表该协议对任何爬取爬虫有效。比如，可以设置：`User-agent: Baiduspider`

代表设置的规则对百度爬虫是有效的。如果有多条 User-agent 记录，则就会有多个爬虫会受到爬取限制，但至少需要指定一条。

Disallow 指定了不允许抓取的目录，比如上例子中设置为 / 则代表不允许抓取所有页面。

Allow 一般和 Disallow 一起使用，一般不会单独使用，用来排除某些限制。现在我们设置为 **/public/**，则表示所有页面不允许抓取，但可以抓取 public 目录。

另外，直接把 robots.txt 文件留空也是可以的。

禁止所有爬虫访问网站某些目录的代码如下：
```
User-agent: *  
Disallow: /private/  
Disallow: /tmp/
```

只允许某一个爬虫访问的代码如下：
```
User-agent: WebCrawler  
Disallow:  
User-agent: *  
Disallow: /
```

2. 爬虫名称（一些常见的爬虫工具）

    |     爬虫名称     |    名　　称    |        网　　站        |
    |:------------:|:----------:|:------------------:|
    | BaiduSpider  |     百度     |   www.baidu.com    |
    |  Googlebot   |     谷歌     |   www.google.com   |
    |  360Spider   |  	360 搜索   |     www.so.com     |
    |   YodaoBot   |     有道     |  	www.youdao.com   |
    | ia_archiver	 |   Alexa	   |    www.alexa.cn    |
    |   Scooter    | altavista  | www.altavista.com  |

3. robotparser

    了解 Robots 协议之后，可以使用 robotparser 模块来解析 robots.txt。

    该模块提供了一个类 RobotFileParser，可以根据某网站的 robots.txt 文件来判断一个爬取爬虫是否有权限来爬取这个网页。

    使用方法简单，只需要在构造方法里传入 robots.txt 的链接即可。首先看一下它的声明：`urllib.robotparser.RobotFileParser(url='')`

    当然，也可以在声明时不传入，默认为空，最后再使用 set_url() 方法设置一下也可。

    下面列出了这个类常用的几个方法。

    - set_url ：用来设置 robots.txt 文件的链接。如果在创建 RobotFileParser 对象时传入了链接，那么就不需要再使用这个方法设置了。
    - read：读取 robots.txt 文件并进行分析。注意，这个方法执行一个读取和分析操作，如果不调用这个方法，接下来的判断都会为 False，所以一定记得调用这个方法。这个方法不会返回任何内容，但是执行了读取操作。
    - parse：用来解析 robots.txt 文件，传入的参数是 robots.txt 某些行的内容，它会按照 robots.txt 的语法规则来分析这些内容。
    - can_fetch：该方法传入两个参数，第一个是 User-agent，第二个是要抓取的 URL。返回的内容是该搜索引擎是否可以抓取这个 URL，返回结果是 True 或 False。
    - mtime：返回的是上次抓取和分析 robots.txt 的时间，这对于长时间分析和抓取的搜索爬虫是很有必要的，你可能需要定期检查来抓取最新的 robots.txt。
    - modified：它同样对长时间分析和抓取的搜索爬虫很有帮助，将当前时间设置为上次抓取和分析 robots.txt 的时间。

In [19]:
from urllib.robotparser import RobotFileParser
rp = RobotFileParser()
rp.set_url('http://www.jianshu.com/robots.txt')
rp.read()
print(rp.can_fetch('*', 'http://www.jianshu.com/p/b67554025d7d'))
print(rp.can_fetch('*', "http://www.jianshu.com/search?q=python&page=1&type=collections"))

False
False


这里以简书为例，首先创建 RobotFileParser 对象，然后通过 set_url 方法设置了 robots.txt 的链接。

当然，不用这个方法的话，可以在声明时直接用如下方法设置：

`rp = RobotFileParser('http://www.jianshu.com/robots.txt')`

这里同样可以使用 parse 方法执行读取和分析，示例如下：

In [20]:
from urllib.robotparser import RobotFileParser
from urllib.request import urlopen
rp = RobotFileParser()
rp.parse(urlopen('http://www.jianshu.com/robots.txt').read().decode('utf-8').split('\n'))
print(rp.can_fetch('*', 'http://www.jianshu.com/p/b67554025d7d'))
print(rp.can_fetch('*', "http://www.jianshu.com/search?q=python&page=1&type=collections"))

HTTPError: HTTP Error 403: Forbidden

<h3>requests 库</h3>

urllib 在如处理网页验证和 Cookies 时，需要写 Opener 和 Handler 来处理，不太方便。

为了更加方便地实现这些操作，使用更为强大的库 requests，可以 便捷进行 Cookies、登录验证、代理设置等操作。

urllib 库中的 urlopen 方法实际上是以 GET 方式请求网页，而 requests 中相应的方法就是 get 方法

In [2]:
import requests  

r = requests.get('https://www.baidu.com/')  
print(type(r))  
print(r.status_code)  
print(type(r.text))  
print(r.text)  
print(r.cookies)

<class 'requests.models.Response'>
200
<class 'str'>
<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css><title>ç¾åº¦ä¸ä¸ï¼ä½ å°±ç¥é</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxleng

调用 get 方法实现与 urlopen 相同的操作，得到一个 Response 对象，然后分别输出了 Response 的类型、状态码、响应体的类型、内容以及 Cookies。

通过运行结果可以发现，它的返回类型是 requests.models.Response，响应体的类型是字符串 str，Cookies 的类型是 RequestsCookieJar。

使用 get 方法成功实现一个 GET 请求，更方便之处在于其他的请求类型依然可以用一句话来完成，示例如下：

In [3]:
r = requests.post('http://httpbin.org/post')  
r = requests.put('http://httpbin.org/put')  
r = requests.delete('http://httpbin.org/delete')  
r = requests.head('http://httpbin.org/get')  
r = requests.options('http://httpbin.org/get')

首先，构建一个最简单的 GET 请求，请求的链接为 http://httpbin.org/, 该网站会判断发来的请求，如果是 GET 请求的话，它返回相应的请求信息：

In [4]:
import requests  

r = requests.get('http://httpbin.org/get')  
print(r.text)

{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.26.0", 
    "X-Amzn-Trace-Id": "Root=1-66929439-55870afe7f8db25b5d9b81bf"
  }, 
  "origin": "114.84.182.113", 
  "url": "http://httpbin.org/get"
}



返回结果中包含请求头、URL、IP 等信息。

对于 GET 请求，如果要附加额外的信息，一般怎样添加呢？

比如现在想添加两个参数，其中 name 是 germey，age 是 22。

> 可以直接写成 `http://httpbin.org/get?name=germey&age=22`
 
也可以通过以下方式：

In [5]:
import requests  

data = {  
    'name': 'germey',  
    'age': 22  
}  
r = requests.get("http://httpbin.org/get", params=data)  
print(r.text)

{
  "args": {
    "age": "22", 
    "name": "germey"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.26.0", 
    "X-Amzn-Trace-Id": "Root=1-66929499-728e884d2badadc54affebf0"
  }, 
  "origin": "114.84.182.113", 
  "url": "http://httpbin.org/get?name=germey&age=22"
}



网页的返回类型实际上是 str 类型（JSON 格式）。

如果想直接解析返回结果，得到一个字典格式的话，可以直接调用 json 方法。示例如下：

In [6]:
import requests  

r = requests.get("http://httpbin.org/get")  
print(type(r.text))  
print(r.json())  
print(type(r.json()))

<class 'str'>
{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.26.0', 'X-Amzn-Trace-Id': 'Root=1-669294e6-6bd85897252277c059760997'}, 'origin': '114.84.182.113', 'url': 'http://httpbin.org/get'}
<class 'dict'>


调用 json 方法，就可以将返回结果是 JSON 格式的字符串转化为字典。

但需要注意的是，**如果返回结果不是 JSON 格式，便会出现解析错误**，抛出 json.decoder.JSONDecodeError 异常。

**抓取网页**

上面的请求链接返回的是 JSON 形式的字符串，那么如果请求普通的网页，则肯定能获得相应的内容了。

下面以 “知乎”→“发现” 页面为例来看一下：

> 加入了 headers 信息，其中包含了 User-Agent 字段信息，也就是浏览器标识信息。如果不加这个，知乎会禁止抓取。

In [8]:
import requests
import re

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'
}
r = requests.get("https://www.zhihu.com/explore", headers=headers)
pattern = re.compile('ExploreCollectionCard-contentTitle.*?>(.*?)</a>', re.S)
titles = re.findall(pattern, r.text)
print(titles)

['女人喜欢什么样的男人？', '为什么身边很多女性都喜欢上海？', '哪里有可以免费下载的建筑工程资料？', '哪一件事让你意识到打工没出路？', '如何看待2024年6月中国贸易顺差创1990年以来新高？', '如何看待2024年6月中国贸易顺差创1990年以来新高？', '如何看待知乎用户流萤Firefly的文章，认为美国普通人的生活水平是发达国家四流水平?', '新加坡是如何做到廉洁高效的？']


**抓取二进制数据**

在上面的例子抓取的是知乎的一个页面，实际上它返回的是一个 HTML 文档。

而 图片、音频、视频 这些文件本质上都是由二进制码组成的，要拿到它们的二进制码。

下面以 GitHub 的站点图标为例来看一下：

In [9]:
import requests

r = requests.get("https://github.com/favicon.ico")
print(r.text)
print(r.content)

:�������O                                L������                                      ������                                        ������!                                ������4                                @���8���          
��������333                                                ���t�������+R������t                                                                `������R����������                                                                    �������������\                                                                        G������������                                                                          ������

打印了 Response 对象的两个属性，一个是 text，另一个是 content。

乱码 & 被加密

将图片保存到本地（同样地，音频和视频文件也可以用这种方法获取）：

In [10]:
import requests

r = requests.get("https://github.com/favicon.ico")
with open('favicon.ico', 'wb') as f:
    f.write(r.content)

**POST 请求**

前面了解了最基本的 GET 请求，另外一种比较常见的请求方式是 POST。
使用 requests 实现 POST 请求同样非常简单，示例如下：

In [12]:
import requests

data = {'name': 'germey', 'age': '22'}
r = requests.post("http://httpbin.org/post", data=data)
print(r.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "age": "22", 
    "name": "germey"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Content-Length": "18", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.26.0", 
    "X-Amzn-Trace-Id": "Root=1-6692981b-06f061bd79e3cc3b2453c343"
  }, 
  "json": null, 
  "origin": "114.84.182.113", 
  "url": "http://httpbin.org/post"
}



**响应**

发送请求后，得到就是响应。

在上面的实例中，使用 text 和 content 获取了响应的内容。

此外，还有很多属性和方法可以用来获取其他信息，比如状态码、响应头、Cookies 等。示例如下：

In [13]:
import requests

r = requests.get('http://www.jianshu.com')
print(type(r.status_code), r.status_code)
print(type(r.headers), r.headers)
print(type(r.cookies), r.cookies)
print(type(r.url), r.url)
print(type(r.history), r.history)

<class 'int'> 403
<class 'requests.structures.CaseInsensitiveDict'> {'Date': 'Sat, 13 Jul 2024 15:08:26 GMT', 'Content-Type': 'text/html', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Vary': 'Accept-Encoding', 'Strict-Transport-Security': 'max-age=31536000; includeSubDomains; preload', 'Content-Encoding': 'gzip'}
<class 'requests.cookies.RequestsCookieJar'> <RequestsCookieJar[]>
<class 'str'> https://www.jianshu.com/
<class 'list'> [<Response [302]>]


这里分别打印输出 status_code 属性得到状态码，输出 headers 属性得到响应头，输出 cookies 属性得到 Cookies，输出 url 属性得到 URL，输出 history 属性得到请求历史。

因为 session_id 过长，在此简写。可以看到，headers 和 cookies 这两个属性得到的结果分别是 CaseInsensitiveDict 和 RequestsCookieJar 类型。

因为 session_id 过长，在此简写。可以看到，headers 和 cookies 这两个属性得到的结果分别是 CaseInsensitiveDict 和 RequestsCookieJar 类型。

In [1]:
import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'
}
r = requests.get('http://www.jianshu.com', headers=headers)
exit() if not r.status_code == requests.codes.ok else print('Request Successfully')

Request Successfully


通过比较返回码和内置的成功的返回码，来保证请求得到了正常响应，输出成功请求的消息，否则程序终止，

这里用 requests.codes.ok 得到的是成功的状态码 200。

```
# 信息性状态码  
100: ('continue',),  
101: ('switching_protocols',),  
102: ('processing',),  
103: ('checkpoint',),  
122: ('uri_too_long', 'request_uri_too_long'),  

# 成功状态码  
200: ('ok', 'okay', 'all_ok', 'all_okay', 'all_good', '\\o/', '✓'),  
201: ('created',),  
202: ('accepted',),  
203: ('non_authoritative_info', 'non_authoritative_information'),  
204: ('no_content',),  
205: ('reset_content', 'reset'),  
206: ('partial_content', 'partial'),  
207: ('multi_status', 'multiple_status', 'multi_stati', 'multiple_stati'),  
208: ('already_reported',),  
226: ('im_used',),  

# 重定向状态码  
300: ('multiple_choices',),  
301: ('moved_permanently', 'moved', '\\o-'),  
302: ('found',),  
303: ('see_other', 'other'),  
304: ('not_modified',),  
305: ('use_proxy',),  
306: ('switch_proxy',),  
307: ('temporary_redirect', 'temporary_moved', 'temporary'),  
308: ('permanent_redirect',  
      'resume_incomplete', 'resume',), # These 2 to be removed in 3.0  

# 客户端错误状态码  
400: ('bad_request', 'bad'),  
401: ('unauthorized',),  
402: ('payment_required', 'payment'),  
403: ('forbidden',),  
404: ('not_found', '-o-'),  
405: ('method_not_allowed', 'not_allowed'),  
406: ('not_acceptable',),  
407: ('proxy_authentication_required', 'proxy_auth', 'proxy_authentication'),  
408: ('request_timeout', 'timeout'),  
409: ('conflict',),  
410: ('gone',),  
411: ('length_required',),  
412: ('precondition_failed', 'precondition'),  
413: ('request_entity_too_large',),  
414: ('request_uri_too_large',),  
415: ('unsupported_media_type', 'unsupported_media', 'media_type'),  
416: ('requested_range_not_satisfiable', 'requested_range', 'range_not_satisfiable'),  
417: ('expectation_failed',),  
418: ('im_a_teapot', 'teapot', 'i_am_a_teapot'),  
421: ('misdirected_request',),  
422: ('unprocessable_entity', 'unprocessable'),  
423: ('locked',),  
424: ('failed_dependency', 'dependency'),  
425: ('unordered_collection', 'unordered'),  
426: ('upgrade_required', 'upgrade'),  
428: ('precondition_required', 'precondition'),  
429: ('too_many_requests', 'too_many'),  
431: ('header_fields_too_large', 'fields_too_large'),  
444: ('no_response', 'none'),  
449: ('retry_with', 'retry'),  
450: ('blocked_by_windows_parental_controls', 'parental_controls'),  
451: ('unavailable_for_legal_reasons', 'legal_reasons'),  
499: ('client_closed_request',),  

# 服务端错误状态码  
500: ('internal_server_error', 'server_error', '/o\\', '✗'),  
501: ('not_implemented',),  
502: ('bad_gateway',),  
503: ('service_unavailable', 'unavailable'),  
504: ('gateway_timeout',),  
505: ('http_version_not_supported', 'http_version'),  
506: ('variant_also_negotiates',),  
507: ('insufficient_storage',),  
509: ('bandwidth_limit_exceeded', 'bandwidth'),  
510: ('not_extended',),  
511: ('network_authentication_required', 'network_auth', 'network_authentication')
```

**高级用法**

requests 的一些高级用法，如文件上传、Cookies 设置、代理设置等。

**文件上传**

In [1]:
import requests

files = {'file': open('favicon.ico', 'rb')}
r = requests.post('http://httpbin.org/post', files=files)
print(r.text)

{
  "args": {}, 
  "data": "", 
  "files": {
    "file": "data:application/octet-stream;base64,AAABAAIAEBAAAAEAIAAoBQAAJgAAACAgAAABACAAKBQAAE4FAAAoAAAAEAAAACAAAAABACAAAAAAAAAFAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABERE3YTExPFDg4OEgAAAAAAAAAADw8PERERFLETExNpAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABQUFJYTExT8ExMU7QAAABkAAAAAAAAAAAAAABgVFRf/FRUX/xERE4UAAAAAAAAAAAAAAAAAAAAAAAAAABEREsETExTuERERHhAQEBAAAAAAAAAAAAAAAAAAAAANExMU9RUVF/8VFRf/EREUrwAAAAAAAAAAAAAAABQUFJkVFRf/BgYRLA4ODlwPDw/BDw8PIgAAAAAAAAAADw8PNBAQEP8VFRf/FRUX/xUVF/8UFBSPAAAAABAQEDAPDQ//AAAA+QEBAe0CAgL/AgIC9g4ODjgAAAAAAAAAAAgICEACAgLrFRUX/xUVF/8VFRf/FRUX/xERES0UFBWcFBQV/wEBAfwPDxH7DQ0ROwAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA0NEjoTExTnFRUX/xUVF/8SEhKaExMT2RUVF/8VFRf/ExMTTwAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAERERTBUVF/8VFRf/ExMT2hMTFPYVFRf/FBQU8AAAAAIAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAITExTxFRUX/xMTFPYTExT3FRUX/xQUFOEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFBQU4RUVF/8TExT3FBQU3hUVF/8TExT5Dw8PIQAAAAAAAAAAA

返回响应包含 files 这个字段，而 form 字段是空的，这证明文件上传部分会单独有一个 files 字段来标识。

**Cookies**

前面 urllib 处理Cookies的写法比较复杂，而有了 requests，获取和设置 Cookies 只需一步即可完成。

requests 获取 Cookies 的过程：

In [2]:
import requests

r = requests.get('https://www.baidu.com')
print(r.cookies)
for key, value in r.cookies.items():
    print(key + '=' + value)

<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
BDORZ=27315


调用 cookies 属性即可成功得到 Cookies，可以发现它是 RequestCookieJar 类型。

然后用 items 方法将其转化为元组组成的列表，遍历输出每一个 Cookie 的名称和值，实现 Cookie 的遍历解析。

当然，也可以直接用 Cookie 来维持登录状态，下面以知乎为例来说明。首先登录知乎，将 Headers 中的 Cookie 内容复制下来。

In [3]:
import requests

headers = {
    'Cookie': 'YD00517437729195%3AWM_TID=RGZv6gvUFKlEBRAARAOQLsK2qXO%2FeuHr; _xsrf=viucf6rsmjN3da82AFb700v2MU2wpNvC; __snaker__id=mXSY9wOL4TkdoMft; YD00517437729195%3AWM_NI=ik4ICXwUKO%2FrzwZxdBeE7Tm8alXVKSPWoBvRFtFGjeCtAPHC7VbWAATS1xgphUNejf2zUoEVutqvFMitjzzADfurUjJ2WoiULpcg3IQSC4q6UF%2B1ZMHL6aknfGSUcpNndmg%3D; YD00517437729195%3AWM_NIKE=9ca17ae2e6ffcda170e2e6ee91b63ff8b9bda3e87b9a9a8fa6c14f978e9f82c472a9a69a93cd3c85ee89b8b42af0fea7c3b92aabb5fcaac254b58b85b0ae7abaa99699e74aa79bf9b5f034a3b498b7ca599489a1a3f55a86ac8aa8e96f81ac8fb1cb49f58aaeb8c44b988dff99e67cac8b8286e96ef2a69b90c85eb7acbf97c547abaca69bf94b88babb93d8628aee9990ec5f90b0ad88b243938d8dd5f43e979ae5d2d9478c94fa82ea66a6999db6e27c8eb2ac8ee637e2a3; q_c1=6399a25ea22e45e7abd0c2b34434e710|1702535881000|1702535881000; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1712714846; _zap=e3c8c28f-4768-4e92-8d05-721e69f3c490; d_c0=AIBYkJBlmRiPTnZYFhyNRlK30P9fpNlqx5w=|1715391141; z_c0=2|1:0|10:1720176485|4:z_c0|80:MS4xM1hjYUJnQUFBQUFtQUFBQVlBSlZUUm94Wm1kM2FsSktYaDJOMjhVMVdBS2YwOHY4RUhqSTJnPT0=|530a3b3c765926f2c9350204d9dc8529bea8f9459bc23dd9b18fe30f0acb24fb; __zse_ck=001_Jgqm4C2hkm9me4FYvw8qAC6+r/7HD=+Pa0a=DXy=fyJjcoY2cLEDlaEz/5DVgV87VvdGSU+VlRRvDzi/WIs8rF3MNUM4S0TR+JWVZ5JM5iBm1NQR24oVc=JjR88C3L6E; SESSIONID=X9lGVybEwbG5r3UmdrtRmIrIX1ufSux1UT1EQRoVqce; JOID=U1ASBk6uqpkEwxVOLKpnyBOihNY8_5z3Q5FlI2vdwdEzsSISTrZxCGbOE0MuoII8_8b3BdQxfUKvjqfKj7pKfjU=; osd=VFodAEupoJYCxhJEI6xizxmtgtM79ZPxRpZvLG3Yxts8tycVRLl3DWHEHEUrp4gz-cPwD9s3eEWlgaHPiLBFeDA=; tst=r; BEC=6bca8f185b99e85d761c7a0d8d692864',
    'Host': 'www.zhihu.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36',
}
r = requests.get('https://www.zhihu.com', headers=headers)
print(r.text)

<!doctype html>
<html lang="zh" data-hairline="true" class="itcauecng" data-theme="light"><head><meta charSet="utf-8"/><title data-rh="true">首页 - 知乎</title><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"/><meta name="renderer" content="webkit"/><meta name="force-rendering" content="webkit"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><meta name="google-site-verification" content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg"/><meta name="description" property="og:description" content="知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于 2011 年 1 月正式上线，以「让人们更好的分享知识、经验和见解，找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容，聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群，已成为综合性、全品类、在诸多领域具有关键影响力的知识分享社区和创作者聚集的原创内容平台，建立起了以社区驱动的内容变现商业模式。"/><link data-rh="true" rel="apple-touch-icon" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.81060cab.png"/><link data-rh="true" rel="apple-touch-icon" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.

也可以通过 cookies 参数来设置，不过这样就需要构造 RequestsCookieJar 对象，而且需要分割一下 cookies。

这相对烦琐，不过效果是相同的，示例如下：

In [4]:
import requests

cookies = 'YD00517437729195%3AWM_TID=RGZv6gvUFKlEBRAARAOQLsK2qXO%2FeuHr; _xsrf=viucf6rsmjN3da82AFb700v2MU2wpNvC; __snaker__id=mXSY9wOL4TkdoMft; YD00517437729195%3AWM_NI=ik4ICXwUKO%2FrzwZxdBeE7Tm8alXVKSPWoBvRFtFGjeCtAPHC7VbWAATS1xgphUNejf2zUoEVutqvFMitjzzADfurUjJ2WoiULpcg3IQSC4q6UF%2B1ZMHL6aknfGSUcpNndmg%3D; YD00517437729195%3AWM_NIKE=9ca17ae2e6ffcda170e2e6ee91b63ff8b9bda3e87b9a9a8fa6c14f978e9f82c472a9a69a93cd3c85ee89b8b42af0fea7c3b92aabb5fcaac254b58b85b0ae7abaa99699e74aa79bf9b5f034a3b498b7ca599489a1a3f55a86ac8aa8e96f81ac8fb1cb49f58aaeb8c44b988dff99e67cac8b8286e96ef2a69b90c85eb7acbf97c547abaca69bf94b88babb93d8628aee9990ec5f90b0ad88b243938d8dd5f43e979ae5d2d9478c94fa82ea66a6999db6e27c8eb2ac8ee637e2a3; q_c1=6399a25ea22e45e7abd0c2b34434e710|1702535881000|1702535881000; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1712714846; _zap=e3c8c28f-4768-4e92-8d05-721e69f3c490; d_c0=AIBYkJBlmRiPTnZYFhyNRlK30P9fpNlqx5w=|1715391141; z_c0=2|1:0|10:1720176485|4:z_c0|80:MS4xM1hjYUJnQUFBQUFtQUFBQVlBSlZUUm94Wm1kM2FsSktYaDJOMjhVMVdBS2YwOHY4RUhqSTJnPT0=|530a3b3c765926f2c9350204d9dc8529bea8f9459bc23dd9b18fe30f0acb24fb; __zse_ck=001_Jgqm4C2hkm9me4FYvw8qAC6+r/7HD=+Pa0a=DXy=fyJjcoY2cLEDlaEz/5DVgV87VvdGSU+VlRRvDzi/WIs8rF3MNUM4S0TR+JWVZ5JM5iBm1NQR24oVc=JjR88C3L6E; SESSIONID=X9lGVybEwbG5r3UmdrtRmIrIX1ufSux1UT1EQRoVqce; JOID=U1ASBk6uqpkEwxVOLKpnyBOihNY8_5z3Q5FlI2vdwdEzsSISTrZxCGbOE0MuoII8_8b3BdQxfUKvjqfKj7pKfjU=; osd=VFodAEupoJYCxhJEI6xizxmtgtM79ZPxRpZvLG3Yxts8tycVRLl3DWHEHEUrp4gz-cPwD9s3eEWlgaHPiLBFeDA=; tst=r; BEC=6bca8f185b99e85d761c7a0d8d692864'
jar = requests.cookies.RequestsCookieJar()
headers = {
    'Host': 'www.zhihu.com',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36'
}
for cookie in cookies.split(';'):
    key, value = cookie.split('=', 1)
    jar.set(key, value)
r = requests.get('http://www.zhihu.com', cookies=jar, headers=headers)
print(r.text)

<!doctype html>
<html lang="zh" data-hairline="true" class="itcauecng" data-theme="light"><head><meta charSet="utf-8"/><title data-rh="true">首页 - 知乎</title><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"/><meta name="renderer" content="webkit"/><meta name="force-rendering" content="webkit"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><meta name="google-site-verification" content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg"/><meta name="description" property="og:description" content="知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于 2011 年 1 月正式上线，以「让人们更好的分享知识、经验和见解，找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容，聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群，已成为综合性、全品类、在诸多领域具有关键影响力的知识分享社区和创作者聚集的原创内容平台，建立起了以社区驱动的内容变现商业模式。"/><link data-rh="true" rel="apple-touch-icon" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.81060cab.png"/><link data-rh="true" rel="apple-touch-icon" href="https://static.zhihu.com/heifetz/assets/apple-touch-icon-152.

**会话维持**

在 requests 中，如果直接利用 get 或 post 等方法的确可以做到模拟网页的请求，但是这实际上是相当于不同的会话，也就是说相当于用了两个浏览器打开了不同的页面。

设想这样一个场景，第一个请求利用 post 方法登录了某个网站，第二次想获取成功登录后的自己的个人信息，你又用了一次 get 方法去请求个人信息页面。

实际上，这相当于打开了两个浏览器，是两个完全不相关的会话，不能获取个人信息吗？

也可以两次请求时设置一样的 cookies 就可以获得相同的内容，但这样做起来显得很烦琐。

其实解决这个问题的主要方法就是维持同一个会话，也就是相当于打开一个新的浏览器选项卡而不是新开一个浏览器。但是又不想每次设置 cookies，可以利用 ——Session 对象。

维护一个会话，而且不用担心 cookies 的问题，它会帮我们自动处理好。示例如下：

In [5]:
import requests

requests.get('http://httpbin.org/cookies/set/number/123456789')
r = requests.get('http://httpbin.org/cookies')
print(r.text)

{
  "cookies": {}
}



这里我们请求了一个测试网址 http://httpbin.org/cookies/set/number/123456789 ，设置cookie，名称叫作 number，内容是 123456789，

随后又请求了 http://httpbin.org/cookies 此网址可以获取当前的 Cookies。

但是从运行结果可知：

```yaml
{
"cookies": {}
}
```
无法获得cookies。

再用 Session 试试看：

In [6]:
import requests

s = requests.Session()
s.get('http://httpbin.org/cookies/set/number/123456789')
r = s.get('http://httpbin.org/cookies')
print(r.text)

{
  "cookies": {
    "number": "123456789"
  }
}



利用 Session，可以做到模拟同一个会话而不用担心 Cookies 的问题。它通常用于模拟登录成功之后再进行下一步的操作。

Session 在平常用得非常广泛，可以用于模拟在一个浏览器中打开同一站点的不同页面。

**SSL 证书验证**
此外，requests 还提供了证书验证的功能。当发送 HTTP 请求的时候，它会检查 SSL 证书，可以使用 verify 参数控制是否检查此证书。

其实如果不加 verify 参数的话，默认是 True，会自动验证。

In [7]:
import requests

response = requests.get('https://www.12306.cn')
print(response.status_code)

200


如果提示错误 SSLError，表示证书验证错误。如果**请求一个 HTTPS 站点，但是证书验证错误的页面时**，就会报这样的错误，如何避免？

把 verify 参数设置为 False 即可。相关代码如下：
> 但是会弹出警告：
> `InsecureRequestWarning: Unverified HTTPS request is being made to host 'www.12306.cn'. Adding certificate verification is strongly advised.` 

In [4]:
import requests

response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)



200


可以通过设置忽略警告的方式来屏蔽这个警告：

In [5]:
import requests
from requests.packages import urllib3

urllib3.disable_warnings()
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

200


或者通过捕获警告到日志的方式忽略警告：

In [6]:
import logging
import requests
logging.captureWarnings(True)
response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

200


也可以指定一个本地证书用作客户端证书，这可以是单个文件（包含密钥和证书）或一个包含两个文件路径的元组：
```python
import requests

response = requests.get('https://www.12306.cn', cert=('/path/server.crt', '/path/key'))
print(response.status_code)
```

需要有 crt 和 key 文件，并且指定它们的路径。注意，**本地私有证书的 key 必须是解密状态**，加密状态的 key 是不支持的。

**代理设置**

对于某些网站，在测试的时候请求几次，能正常获取内容。但是一旦开始大规模爬取，**对于大规模且频繁的请求，网站可能会弹出验证码，或者跳转到登录认证页面，更甚者可能会直接封禁客户端的 IP**，导致一定时间段内无法访问。

那么，为了防止这种情况发生，需要设置代理来解决这个问题，这就需要用到 proxies 参数。可以用这样的方式设置：

In [7]:
import requests

proxies = {
  'http': 'http://10.10.1.10:3128',
  'https': 'http://10.10.1.10:1080',
}

requests.get('https://www.taobao.com', proxies=proxies)

ProxyError: HTTPSConnectionPool(host='www.taobao.com', port=443): Max retries exceeded with url: / (Caused by ProxyError('Cannot connect to proxy.', NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x0000022AE04484F0>: Failed to establish a new connection: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。')))

上面这个代理可能是无效的，需要换成有效代理试验一下。

若代理需要使用 HTTP Basic Auth，可以使用类似 `http://user:password@host:port` 这样的语法来设置代理，示例如下：

```python
import requests

proxies = {'https': 'http://user:password@10.10.1.10:3128/',}
requests.get('https://www.taobao.com', proxies=proxies)
```

除了基本的 HTTP 代理外，requests 还支持 SOCKS 协议的代理。

首先，需要安装 socks 这个库：`pip install pysocks`

```python
import requests

proxies = {
    'http': 'socks5://user:password@host:port',
    'https': 'socks5://user:password@host:port'
}
requests.get('https://www.taobao.com', proxies=proxies)
```

**超时设置**

在本机网络状况不好或者服务器网络响应太慢甚至无响应时，可能会等待特别久的时间才可能收到响应，甚至到最后收不到响应而报错。

为了防止服务器不能及时响应，应该设置一个超时时间，即超过了这个时间还没有得到响应，那就报错。

这需要用到 timeout 参数。这个时间的计算是**发出请求到服务器返回响应的时间**。示例如下：

In [8]:
import requests

r = requests.get('https://www.taobao.com', timeout=1)
print(r.status_code)

200


实际上，请求分为两个阶段，即连接（connect）和读取（read）。

上面设置的 **timeout 将用作连接和读取这二者的 timeout 总和**。

如果要分别指定，就可以传入一个元组：

In [9]:
r = requests.get('https://www.taobao.com', timeout=(5, 30))

如果想永久等待，可以直接将 timeout 设置为 None，或者不设置直接留空，因为默认是 None。

这样的话，如果服务器还在运行，但是响应特别慢，那就慢慢等吧，它永远不会返回超时错误的。其用法如下：

`r = requests.get('https://www.taobao.com', timeout=None)`

**身份认证**

在访问网站时，我们可能会遇到认证页面（输入用户名密码验证权限信息）。

此时可以使用 requests 自带的身份认证功能，示例如下：

```python
import requests  
from requests.auth import HTTPBasicAuth  

r = requests.get('http://localhost:5000', auth=HTTPBasicAuth('username', 'password'))  
print(r.status_code)
```

如果用户名和密码正确的话，请求时就会自动认证成功，会返回 200 状态码；如果认证失败，则返回 401 状态码。

当然，如果参数都传一个 HTTPBasicAuth 类，就显得有点烦琐了，所以 requests 提供了一个更简单的写法，可以直接传一个元组，它会默认使用 HTTPBasicAuth 这个类来认证。

所以上面的代码可以直接简写如下：
```python
import requests

r = requests.get('http://localhost:5000', auth=('username', 'password'))
print(r.status_code)
```

此外，requests 还提供了其他认证方式，如 OAuth 认证，不过此时需要安装 oauth 包，安装命令如下：`pip3 install requests_oauthlib`

使用 OAuth1 认证的方法如下：

```python
import requests
from requests_oauthlib import OAuth1

url = 'https://api.twitter.com/1.1/account/verify_credentials.json'
auth = OAuth1('YOUR_APP_KEY', 'YOUR_APP_SECRET',
              'USER_OAUTH_TOKEN', 'USER_OAUTH_TOKEN_SECRET')
requests.get(url, auth=auth)
```

参考 requests_oauthlib 的官方文档：https://requests-oauthlib.readthedocs.org/

**Prepared Request**

前面介绍 urllib 时，可以将请求表示为数据结构，其中各个参数都可以通过一个 Request 对象来表示。

在 requests 里同样可以做到，这个数据结构就叫 Prepared Request。实例：

In [10]:
from requests import Request, Session

url = 'http://httpbin.org/post'
data = {'name': 'germey'}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'}
s = Session()  # 会话
req = Request('POST', url, data=data, headers=headers)
prepped = s.prepare_request(req)  # 会话的方法
r = s.send(prepped)  # 调用send方法
print(r.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "name": "germey"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Content-Length": "11", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-66967a43-2dd654d72c61f7740146e610"
  }, 
  "json": null, 
  "origin": "114.84.182.113", 
  "url": "http://httpbin.org/post"
}



更多的用法可以参考 Requests 的官方文档：[http://docs.python-requests.org/](http://docs.python-requests.org/)。

<h3>正则表达式</h3>

正则表达式是处理字符串的强大工具，它有自己特定的语法结构，有了它，可以**实现字符串的检索、替换、匹配验证**都不在话下。可以方便地从 HTML 里提取想要的信息。

开源中国提供的正则表达式测试工具 https://tool.oschina.net/regex/  输入待匹配的文本，然后选择常用的正则表达式，就可以得出相应的匹配结果了。

比如对于 URL 来说，可以正则表达式匹配：`[a-zA-z]+://[^\s]*`

常用的匹配规则
```
模　　式	描　　述
\w	匹配字母、数字及下划线
\W	匹配不是字母、数字及下划线的字符
\s	匹配任意空白字符，等价于 [\t\n\r\f]
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9]
\D	匹配任意非数字的字符
\A	匹配字符串开头
\Z	匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结尾，如果存在换行，同时还会匹配换行符
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配一行字符串的开头
$	匹配一行字符串的结尾
.	匹配任意字符，除了换行符，当 re.DOTALL 标记被指定时，则可以匹配包括换行符的任意字符⭐⭐⭐
[...]	用来表示一组字符，单独列出，比如 [amk] 匹配 a、m 或 k
[^...]	不在 [] 中的字符，比如 [^abc] 匹配除了 a、b、c 之外的字符
*	匹配 0 个或多个表达式⭐⭐⭐
+	匹配 1 个或多个表达式⭐⭐
?	匹配 0 个或 1 个前面的正则表达式定义的片段，非贪婪方式⭐⭐⭐
{n}	精确匹配 n 个前面的表达式
{n, m}	匹配 n 到 m 次由前面正则表达式定义的片段，贪婪方式
a	b
( )	匹配括号内的表达式，也表示一个组⭐⭐⭐
```
其实正则表达式不是 Python 独有的，它也可以用在其他编程语言中。但是 Python 的 `re` 库提供了整个正则表达式的实现，利用这个库，可以在 Python 中使用正则表达式。在 Python 中写正则表达式几乎都用这个库，下面就来了解它的一些常用方法。

**match**

常用的匹配方法 —— match，向它传入要匹配的字符串以及正则表达式，就可以检测这个正则表达式是否匹配字符串。

match 方法会尝试从字符串的起始位置匹配正则表达式，如果匹配，就返回匹配成功的结果；如果不匹配，就返回 None。

示例如下：

In [11]:
import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
print(result.group())  # 匹配内容
print(result.span())  # 匹配范围

41
<re.Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)


**匹配目标**

用 match 方法可以得到匹配到的字符串内容

如果想从字符串中提取一部分内容，可以使用 `()` 括号将想提取的子字符串括起来。`()` 实际上标记了一个子表达式的开始和结束位置，被标记的每个子表达式会依次对应每一个分组，

调用 group 方法传入分组的索引即可获取提取的结果。示例如下：

In [12]:
import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld', content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

<re.Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)


 group(1) 与 group() 有所不同，后者会输出完整的匹配结果，而前者会输出第一个被 `()` 包围的匹配结果。
 
假如正则表达式后面还有 `()` 包括的内容，那么可以依次用 group(2)、group(3) 等来获取。

**通用匹配**

上面的的正则表达式其实比较复杂，出现空白字符 `\s` 匹配，出现数字用 `\d` 匹配，这样的工作量非常大。

其实完全没必要这么做，因为还有一个万能匹配可以用，那就是`.*`（点星）。其中`.`（点）可以匹配任意字符（除换行符），（`*`）代表匹配前面的字符无限次，所以(`.*`)可以匹配任意字符。

接着上面的例子，可以改写一下正则表达式：

In [15]:
import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)
result1 = re.match('^Hello(.*)Demo$', content)
print(result)
print(result.group())
print('(): ', result1.group(1))
print(result.span())

<re.Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
():   123 4567 World_This is a Regex 
(0, 41)


**贪婪与非贪婪**

使用上面的通用匹配 `.*` 时，可能有时候匹配到的并不是预期的结果。看下面的例子：

In [16]:
import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
print(result)
print(result.group(1))

<re.Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7


这里想获取中间的数字，所以中间依然写的是 (\d+)。而数字两侧由于内容比较杂乱，所以想省略来写，都写成 `.*` 最后，组成 `^He.(\d+).*Demo$`，但结果只有 `7` 这个数字

在贪婪匹配下，`.*` 会匹配尽可能多的字符。正则表达式中 `.*` 后面是 `\d+`，也就是至少一个数字，并没有指定具体多少个数字，因此，`.*` 就尽可能匹配多的字符，(**贪婪匹配**)

这里就把 123456 匹配了，给 `\d+` 留下一个可满足条件的数字 7，最后得到的内容就只有数字 7 了。

**非贪婪匹配**的写法是 `.*?`，多了一个 `?`，实例：

In [17]:
import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))

<re.Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567


贪婪匹配是尽可能匹配多的字符，非贪婪匹配就是尽可能匹配少的字符

所以说，在做匹配的时候，**字符串中间尽量使用非贪婪匹配**，也就是用 `.?` 来代替 `.`，以免出现匹配结果缺失的情况。

但这里需要注意，**如果匹配的结果在字符串结尾，`.*?` 就有可能匹配不到任何内容了，因为它会匹配尽可能少的字符**。例如：

In [18]:
import re

content = 'http://weibo.com/comment/kEraCN'
result1 = re.match('http.*?comment/(.*?)', content)
result2 = re.match('http.*?comment/(.*)', content)
print('result1', result1.group(1))
print('result2', result2.group(1))

result1 
result2 kEraCN


**修饰符**

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。用实例来看一下：
> 和上面的例子相仿，在字符串中加了换行符，正则表达式还是一样的，用来匹配其中的数字。

In [19]:
import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content)
print(result.group(1))

AttributeError: 'NoneType' object has no attribute 'group'

运行直接报错，也就是说正则表达式没有匹配到这个字符串（`\n`），返回结果为 None，而调用了 group 方法导致 AttributeError。

因为匹配的是除换行符(`\n`)之外的任意字符，当遇到换行符(`\n`)时，`.*?` 就不能匹配了，所以导致匹配失败。这里只需加一个修饰符 `re.S`，即可修正这个错误：

> 这个 re.S 在网页匹配中经常用到。因为 HTML 节点经常会有换行，加上它，就可以匹配节点与节点之间的换行了。

In [21]:
import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content, re.S)
print(result.group(1))

1234567


其它修饰符：

```
修饰符	描　　述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响 ^ 和 $
re.S	使`.`匹配包括换行在内的所有字符
re.U	根据 Unicode 字符集解析字符。这个标志影响`\w、\W、\b、\B`
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解
```
在网页匹配中，较为常用的有 `re.S` 和 `re.I`。

**转义匹配**

正则表达式定义了许多匹配模式，如。匹配除换行符以外的任意字符，但是如果目标字符串里面就包含要匹配的模式字符（如`.`），就需要用到转义匹配了，示例如下：

In [23]:
import re

content = '(百度) www.baidu.com'
result = re.match('\(百度\) www\.baidu\.com', content)
print(result)

<re.Match object; span=(0, 18), match='(百度) www.baidu.com'>


**`search()` 方法**

match 方法是从字符串的开头开始匹配的，一旦开头不匹配，那么整个匹配就失败了。它更**适合用来检测某个字符串是否符合某个正则表达式的规则**

search 在匹配时会扫描整个字符串，然后返回第一个成功匹配的结果。也就是说，正则表达式可以是字符串的一部分，在匹配时，search 方法会依次扫描字符串，直到找到第一个符合规则的字符串，然后返回匹配内容，如果搜索完了还没有找到，就返回 None。

> 为了匹配方便，可以尽量使用 search 方法。

In [1]:
import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('Hello.*?(\d+).*?Demo', content)
result1 = re.search('Hello.*?(\d+).*?Demo', content)
print(result)
print(result1)

None
<re.Match object; span=(13, 53), match='Hello 1234567 World_This is a Regex Demo'>


通过一段待匹配的 HTML 文本，更进一步了解search 方法的用法：

In [2]:
html = '''
<div id="songs-list">
    <h2 class="title"> 经典老歌 </h2>
    <p class="introduction">经典老歌列表</p>
    <ul id="list" class="list-group">
        <li data-view="2"> 一路上有你 </li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐"> 沧海一声笑 </a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦"> 往事随风 </a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond"> 光辉岁月 </a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳"> 记事本 </a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君"> 但愿人长久 </a>
        </li>
    </ul>
</div>
'''

result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S) 
if result:  
    print(result.group(1), result.group(2))

齐秦  往事随风 


尝试提取 class 为 active 的 li 节点内部的超链接包含的歌手名和歌名，此时需要提取第三个 li 节点下 a 节点的 singer 属性和文本。

此时正则表达式可以以 li 开头，然后寻找一个标志符 active，中间的部分可以用 `.?` 来匹配。

接下来，要提取 singer 这个属性值，所以还需要写入 `singer="(.?)"`，这里需要提取的部分用小括号括起来，以便用 group 方法提取出来，它的两侧边界是双引号。然后还需要匹配 a 节点的文本，其中它的左边界是 `& gt`;，右边界是 `& lt;/a>`。然后目标内容依然用 `(.*?)` 来匹配，所以最后的正则表达式就变成了：`<li.*?active.*?singer="(.*?)">(.*?)</a>`

另外，由于代码有换行，所以这里第三个参数需要传入 `re.S`。[使得 `.*?`可以匹配换行，含有换行的 li 节点被匹配到。]

**`findall()` 方法**

search 可以返回匹配正则表达式的第一个内容，但是如果**想要获取匹配正则表达式的所有内容**，要借助 `findall` 方法了。该方法会**搜索整个字符串，然后返回匹配正则表达式的所有内容**。

还是上面的 HTML 文本，如果想获取所有 a 节点的超链接、歌手和歌名，就可以将 search 方法换成 findall 方法。如果有返回结果的话，就是列表类型，所以需要遍历一下来依次获取每组内容。代码如下：

In [3]:
html = '''
<div id="songs-list">
    <h2 class="title"> 经典老歌 </h2>
    <p class="introduction">经典老歌列表</p>
    <ul id="list" class="list-group">
        <li data-view="2"> 一路上有你 </li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐"> 沧海一声笑 </a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦"> 往事随风 </a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond"> 光辉岁月 </a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳"> 记事本 </a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君"> 但愿人长久 </a>
        </li>
    </ul>
</div>
'''

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)
print(results)  
print(type(results))  
for result in results:  
    print(result)  
    print(result[0], result[1], result[2])

[('/2.mp3', '任贤齐', ' 沧海一声笑 '), ('/3.mp3', '齐秦', ' 往事随风 '), ('/4.mp3', 'beyond', ' 光辉岁月 '), ('/5.mp3', '陈慧琳', ' 记事本 '), ('/6.mp3', '邓丽君', ' 但愿人长久 ')]
<class 'list'>
('/2.mp3', '任贤齐', ' 沧海一声笑 ')
/2.mp3 任贤齐  沧海一声笑 
('/3.mp3', '齐秦', ' 往事随风 ')
/3.mp3 齐秦  往事随风 
('/4.mp3', 'beyond', ' 光辉岁月 ')
/4.mp3 beyond  光辉岁月 
('/5.mp3', '陈慧琳', ' 记事本 ')
/5.mp3 陈慧琳  记事本 
('/6.mp3', '邓丽君', ' 但愿人长久 ')
/6.mp3 邓丽君  但愿人长久 


**`sub()` 方法**

有时候还需要借助正则表达式来修改文本。

比如，想要把一串文本中的所有数字都去掉，如果只用字符串的 replace 方法，那就太烦琐了，这时可以借助 sub 方法。示例如下：
> 给第一个参数传入 `\d+` 来匹配所有的数字，第二个参数为替换成的字符串（如果去掉该参数的话，可以赋值为空），第三个参数是原字符串。

In [4]:
import re

content = '54aK54yr5oiR54ix5L2g'
content = re.sub('\d+', '', content)
print(content)

aKyroiRixLg


在上面的 HTML 文本中，如果想获取所有 li 节点的歌名，直接用正则表达式来提取可能比较烦琐。比如，可以写成这样子：
```python
results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>', html, re.S)
for result in results:
    print(result[1])
```

此时借助 sub 方法就比较简单了。可以先用 sub 方法将 `<a>` 节点去掉，只留下文本，然后再利用 findall 提取就好了：
> 在适当的时候，借助 sub 方法可以起到事半功倍的效果。

In [5]:
html = '''
<div id="songs-list">
    <h2 class="title"> 经典老歌 </h2>
    <p class="introduction">经典老歌列表</p>
    <ul id="list" class="list-group">
        <li data-view="2"> 一路上有你 </li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐"> 沧海一声笑 </a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦"> 往事随风 </a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond"> 光辉岁月 </a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳"> 记事本 </a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君"> 但愿人长久 </a>
        </li>
    </ul>
</div>
'''

html = re.sub('<a.*?>|</a>', '', html)
print(html)
results = re.findall('<li.*?>(.*?)</li>', html, re.S)
for result in results:
    print(result.strip())


<div id="songs-list">
    <h2 class="title"> 经典老歌 </h2>
    <p class="introduction">经典老歌列表</p>
    <ul id="list" class="list-group">
        <li data-view="2"> 一路上有你 </li>
        <li data-view="7">
             沧海一声笑 
        </li>
        <li data-view="4" class="active">
             往事随风 
        </li>
        <li data-view="6"> 光辉岁月 </li>
        <li data-view="5"> 记事本 </li>
        <li data-view="5">
             但愿人长久 
        </li>
    </ul>
</div>

一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久


**`compile()` 方法**

前面所讲的方法都是用来处理字符串的方法，**compile 方法可以将正则字符串编译成正则表达式对象，以便在后面的匹配中复用**。示例代码如下：
> 这里有 3 个日期，想分别将 3 个日期中的时间去掉，这时可以借助 sub 方法。
> 
> 该方法的第一个参数是正则表达式，但是这里没有必要重复写 3 个同样的正则表达式，此时可以借助 compile 方法将正则表达式编译成一个正则表达式对象，以便复用。

In [6]:
import re

content1 = '2016-12-15 12:00'
content2 = '2016-12-17 12:55'
content3 = '2016-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)
print(result1, result2, result3)

2016-12-15  2016-12-17  2016-12-22 


另外，compile 还可以传入修饰符，例如 `re.S` 等修饰符，这样在 search、findall 等方法中就不需要额外传了。

所以，compile 方法可以说是给正则表达式做了一层封装，以便更好地复用。