| [05_spider/02_网页解析和存储.ipynb](https://github.com/shibing624/python-tutorial/blob/master/05_spider/02_网页解析和存储.ipynb)  | 网页工具requests、lxml、BeautifulSoup、Selenium  |[Open In Colab](https://colab.research.google.com/github/shibing624/python-tutorial/blob/master/05_spider/02_网页解析和存储.ipynb) |

# 网页解析

通过上一个章节的讲解，我们已经了解到了开发一个爬虫需要做的工作以及一些常见的问题，下面我们给出一个爬虫开发相关技术的清单以及这些技术涉及到的标准库和第三方库，稍后我们会一一介绍这些内容。

1. 下载数据 - **urllib** / **requests** / **aiohttp** / **httpx**。
2. 解析数据 - **re** / **lxml** / **beautifulsoup4** / **pyquery**。
3. 缓存和持久化 - **mysqlclient** / **sqlalchemy** / **peewee** / **redis** / **pymongo**。
4. 生成数字签名 - **hashlib**。
5. 序列化和压缩 - **pickle** / **json** / **zlib**。
6. 调度器 - **multiprocessing** / **threading** / **concurrent.futures**。

## 使用requests获取页面

对`requests`库的用法做进一步说明。

1. GET请求和POST请求。


In [1]:
import requests
   
resp = requests.get('http://www.baidu.com/index.html')
print(resp.status_code)
print(resp.headers)
print(resp.cookies)
resp.content.decode('utf-8')

200
{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Mon, 06 Sep 2021 07:45:48 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:27:36 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}
<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>


'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>百度一下，你就知道</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span class="bg s_btn_wr"><input type=submit id=su

In [2]:
resp = requests.post('http://httpbin.org/post', data={'name': 'Hao', 'age': 40})
print(resp.text)
data = resp.json()
print(type(data))
data

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "age": "40", 
    "name": "Hao"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "15", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.25.1", 
    "X-Amzn-Trace-Id": "Root=1-6135c72e-53ae8dac1b4603f7047e4623"
  }, 
  "json": null, 
  "origin": "206.161.232.8", 
  "url": "http://httpbin.org/post"
}

<class 'dict'>


{'args': {},
 'data': '',
 'files': {},
 'form': {'age': '40', 'name': 'Hao'},
 'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate',
  'Content-Length': '15',
  'Content-Type': 'application/x-www-form-urlencoded',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.25.1',
  'X-Amzn-Trace-Id': 'Root=1-6135c72e-53ae8dac1b4603f7047e4623'},
 'json': None,
 'origin': '206.161.232.8',
 'url': 'http://httpbin.org/post'}

2. URL参数和请求头。

In [3]:
resp = requests.get(
   url='https://movie.douban.com/top250',
   headers={
       'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) '
                     'AppleWebKit/537.36 (KHTML, like Gecko) '
                     'Chrome/83.0.4103.97 Safari/537.36',
       'Accept': 'text/html,application/xhtml+xml,application/xml;'
                 'q=0.9,image/webp,image/apng,*/*;'
                 'q=0.8,application/signed-exchange;v=b3;q=0.9',
       'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
   }
)
print(resp.status_code)

200


3. 复杂的POST请求（文件上传）。

In [4]:
resp = requests.post(
url='http://httpbin.org/post',
   files={'file': '123'}
)
print(resp.text)

{
  "args": {}, 
  "data": "", 
  "files": {
    "file": "123"
  }, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "143", 
    "Content-Type": "multipart/form-data; boundary=03d4024124e0c144beb31decbaf31f04", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.25.1", 
    "X-Amzn-Trace-Id": "Root=1-6135c72e-3097cafa2307cff613eafde7"
  }, 
  "json": null, 
  "origin": "206.161.232.8", 
  "url": "http://httpbin.org/post"
}



4. 操作Cookie。

In [5]:
cookies = {'key1': 'value1', 'key2': 'value2'}
resp = requests.get('http://httpbin.org/cookies', cookies=cookies)
print(resp.text)

jar = requests.cookies.RequestsCookieJar()
jar.set('tasty_cookie', 'yum', domain='httpbin.org', path='/cookies')
jar.set('gross_cookie', 'blech', domain='httpbin.org', path='/elsewhere')
resp = requests.get('http://httpbin.org/cookies', cookies=jar)
print(resp.text)

{
  "cookies": {
    "key1": "value1", 
    "key2": "value2"
  }
}

{
  "cookies": {
    "tasty_cookie": "yum"
  }
}



5. 设置代理服务器。

In [6]:
r = requests.get('https://movie.douban.com')
r

<Response [418]>

In [7]:
requests.get('https://movie.douban.com', proxies={
   'http': 'http://10.10.1.10:3128',
})

<Response [418]>

> **说明**：关于`requests`库的相关知识，还是强烈建议大家自行阅读它的[官方文档](https://requests.readthedocs.io/zh_CN/latest/)。
   
6. 设置请求超时。

In [8]:
requests.get('https://baidu.com', timeout=10)

<Response [200]>

## 页面内容解析

### 解析方式的比较

| 解析方式       | 对应的模块    | 速度   | 使用难度 | 备注                                        |
| -------------- | ------------- | ------ | -------- | ------------------------------------------- |
| 正则表达式解析 | re            | 快     | 困难     | 常用正则表达式<br/>在线正则表达式测试       |
| XPath解析      | lxml          | 快     | 一般     | 需要安装C语言依赖库<br/>唯一支持XML的解析器 |
| CSS选择器解析  | bs4 / pyquery | 不确定 | 简单     |                                             |

> **说明**：`BeautifulSoup`可选的解析器包括：Python标准库中的`html.parser`、`lxml`的HTML解析器、`lxml`的XML解析器和`html5lib`。


#### 正则表达式解析

获取豆瓣电影Top250”中的中文电影名称：

In [9]:
import random
import re
import time

import requests

PATTERN = re.compile(r'<a[^>]*?>\s*<span class="title">(.*?)</span>')

for page in range(1):
    resp = requests.get(
        url=f'https://movie.douban.com/top250?start={page * 25}',
        headers={
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) '
                          'AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/83.0.4103.97 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;'
                      'q=0.9,image/webp,image/apng,*/*;'
                      'q=0.8,application/signed-exchange;v=b3;q=0.9',
            'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
        },
    )
    items = PATTERN.findall(resp.text)
    for item in items:
        print(item)
    time.sleep(random.randint(1, 5))

肖申克的救赎
霸王别姬
阿甘正传
这个杀手不太冷
泰坦尼克号
美丽人生
千与千寻
辛德勒的名单
盗梦空间
忠犬八公的故事
星际穿越
楚门的世界
海上钢琴师
三傻大闹宝莱坞
机器人总动员
放牛班的春天
无间道
疯狂动物城
大话西游之大圣娶亲
熔炉
教父
当幸福来敲门
龙猫
怦然心动
控方证人


#### XPath解析

In [10]:
from lxml import etree

import requests

for page in range(1):
    resp = requests.get(
        url=f'https://movie.douban.com/top250?start={page * 25}',
        headers={
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) '
                          'AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/83.0.4103.97 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;'
                      'q=0.9,image/webp,image/apng,*/*;'
                      'q=0.8,application/signed-exchange;v=b3;q=0.9',
            'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
        }
    )
    html = etree.HTML(resp.text)
    spans = html.xpath('/html/body/div[3]/div[1]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]')
    for span in spans:
        print(span.text)

肖申克的救赎
霸王别姬
阿甘正传
这个杀手不太冷
泰坦尼克号
美丽人生
千与千寻
辛德勒的名单
盗梦空间
忠犬八公的故事
星际穿越
楚门的世界
海上钢琴师
三傻大闹宝莱坞
机器人总动员
放牛班的春天
无间道
疯狂动物城
大话西游之大圣娶亲
熔炉
教父
当幸福来敲门
龙猫
怦然心动
控方证人


## BeautifulSoup的使用

BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。

1. 遍历文档树
   - 获取标签
   - 获取标签属性
   - 获取标签内容
   - 获取子（孙）节点
   - 获取父节点/祖先节点
   - 获取兄弟节点
2. 搜索树节点
   - find / find_all
   - select_one / select

> **说明**：更多内容可以参考BeautifulSoup的[官方文档](https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/)。


#### CSS选择器解析
下面的例子演示了如何用CSS选择器解析“豆瓣电影Top250”中的中文电影名称。

In [11]:
import random
import time

import bs4
import requests

for page in range(1):
    resp = requests.get(
        url=f'https://movie.douban.com/top250?start={page * 25}',
        headers={
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) '
                          'AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/83.0.4103.97 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;'
                      'q=0.9,image/webp,image/apng,*/*;'
                      'q=0.8,application/signed-exchange;v=b3;q=0.9',
            'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
        },
    )
    soup = bs4.BeautifulSoup(resp.text, 'lxml')
    elements = soup.select('.info>div>a')
    for element in elements:
        span = element.select_one('.title')
        print(span.text)
    time.sleep(random.random() * 5)

肖申克的救赎
霸王别姬
阿甘正传
这个杀手不太冷
泰坦尼克号
美丽人生
千与千寻
辛德勒的名单
盗梦空间
忠犬八公的故事
星际穿越
楚门的世界
海上钢琴师
三傻大闹宝莱坞
机器人总动员
放牛班的春天
无间道
疯狂动物城
大话西游之大圣娶亲
熔炉
教父
当幸福来敲门
龙猫
怦然心动
控方证人


例子：获取知乎发现上的问题链接：

In [12]:
import re
from urllib.parse import urljoin

import bs4
import requests

links_set = set()

def main():
    headers = {'user-agent': 'Baiduspider'}
    base_url = 'https://www.zhihu.com/'
    resp = requests.get(urljoin(base_url, 'explore'), headers=headers)
    soup = bs4.BeautifulSoup(resp.text, 'lxml')
    href_regex = re.compile(r'^/question')
    
    for a_tag in soup.find_all('a', {'href': href_regex}):
        if 'href' in a_tag.attrs:
            href = a_tag.attrs['href']
            full_url = urljoin(base_url, href)
            links_set.add(full_url)
    print('Total %d question pages found.' % len(links_set))
    print(links_set)


main()

Total 19 question pages found.
{'https://www.zhihu.com/question/34846729', 'https://www.zhihu.com/question/484149396', 'https://www.zhihu.com/question/484051164', 'https://www.zhihu.com/question/476716498', 'https://www.zhihu.com/question/39266680', 'https://www.zhihu.com/question/483983107', 'https://www.zhihu.com/question/469309297', 'https://www.zhihu.com/question/483642230', 'https://www.zhihu.com/question/483554401', 'https://www.zhihu.com/question/397141335', 'https://www.zhihu.com/question/435831351', 'https://www.zhihu.com/question/25022797', 'https://www.zhihu.com/question/483642352', 'https://www.zhihu.com/question/20616492', 'https://www.zhihu.com/question/35504318', 'https://www.zhihu.com/question/484209444', 'https://www.zhihu.com/question/378758565', 'https://www.zhihu.com/question/461141381', 'https://www.zhihu.com/question/403034095'}


In [13]:
list(links_set)[0]

'https://www.zhihu.com/question/34846729'

In [14]:
# !curl https://www.zhihu.com/question/484209444 | head

## 使用Selenium动态解析内容

使用自动化测试工具Selenium，它提供了浏览器自动化的API接口，这样就可以通过操控浏览器来获取动态内容。首先可以使用pip来安装Selenium。

In [15]:
! pip install selenium

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple


In [16]:
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys


def main():
    driver = webdriver.Chrome()
    driver.get('https://v.taobao.com/v/content/live?catetype=704&from=taonvlang')
    soup = BeautifulSoup(driver.page_source, 'lxml')
    for img_tag in soup.body.select('img[src]'):
        print(img_tag.attrs['src'])


if __name__ == '__main__':
    main()

https://img.alicdn.com/tfs/TB166h7bEY1gK0jSZFCXXcwqXXa-292-68.png
https://img.alicdn.com/tfs/TB166h7bEY1gK0jSZFCXXcwqXXa-292-68.png
https://img.alicdn.com/tfs/TB1MFjSVET1gK0jSZFrXXcNCXXa-58-62.png
https://img.alicdn.com/tfs/TB1mdLHVEH1gK0jSZSyXXXtlpXa-58-58.png
https://img.alicdn.com/tfs/TB1WHHxVAL0gK0jSZFtXXXQCXXa-58-58.png


从 https://sites.google.com/chromium.org/driver/ 下载 chromedriver，放置于 PATH 环境变量中，然后执行即可。更为简单的办法是把chromedriver直接放在虚拟环境中，跟Python解释器位于同一个路径下就可以了。

在上面的程序中，我们通过Selenium实现对Chrome浏览器的操控，如果要操控其他的浏览器，可以创对应的浏览器对象，例如Firefox、IE等。

In [17]:
! echo $PATH

/Users/xuming/opt/anaconda3/bin:/Users/xuming/opt/anaconda3/condabin:/Users/xuming/opt/anaconda3/bin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin


# 存储

我们可以选择存入文本文件，也可以选择存入[MySQL](http://www.mysql.com/)或[MongoDB](https://www.mongodb.org/)数据库等。  

## 数据缓存

使用Redis缓存网页页面信息，方便下次直接读取缓存的页面数据，不用重新爬取或者下载。


本节完。