# Crawler

In [27]:
# jupyter notebook 同时输出多行
import import_ipynb
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

from urllib.request import urlopen
from bs4 import BeautifulSoup 
import requests

## 1. Requests 库
![image-20220122170248254](https://gitee.com/lockegogo/markdown_photo/raw/master/202201221702363.png)

**HTTP** 协议：超文本传输协议，是一个基于 “**请求与响应**” 模式的、无状态（两次请求间无关联）的应用层协议（高于 TTP 协议）。采用 URL 作为定位网络资源的标识。

**URL**：http://host [:port] [path]

- host：合法的 Internet 主机域名或 IP 地址
- port：端口号，缺省端口为 80
- path：请求资源的路径

### 1.1 HTTP 协议对资源的操作

| 方法   | 说明                                                         |
| ------ | ------------------------------------------------------------ |
| GET    | 请求获取 URL 位置的资源                                      |
| HEAD   | 请求获取 URL 位置资源的响应消息报告，即**获得该资源的头部信息** |
| POST   | 请求向 URL 位置的资源后**附加**新的数据                      |
| PUT    | 请求向 URL 位置存储一个资源，**覆盖**原 URL 位置的资源       |
| PATCH  | 请求局部更新 URL 位置的资源，即改变**该处资源**的部分内容    |
| DELETE | 请求删除 URL 位置存储的资源                                  |


资源较大时，可用 HEAD 获取头部信息；修改部分可用 PATCH，**节省网络带宽**

### 1.2 Requests 库的对象

以 `head()` 方法为例：获取网页头信息


In [4]:
r = requests.head('http://httpbin.org/get')
r. headers

{'Date': 'Sat, 22 Jan 2022 09:11:34 GMT', 'Content-Type': 'application/json', 'Content-Length': '312', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true'}

![image-20220122171237243](https://gitee.com/lockegogo/markdown_photo/raw/master/202201221712292.png)


Requests 库的 `post()` 方法：向 URL POST 一个字典，自动编码为 form (表单)

In [7]:
# 向 URL POST 一个字典，自动编码为 form (表单)
payload = {'key1':'value1', 'key2':'value2'}
r = requests.post('http://httpbin.org/post',data=payload)
print(r.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Content-Length": "23", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.26.0", 
    "X-Amzn-Trace-Id": "Root=1-61ebd200-1ccfea3d1db2e049798a2502"
  }, 
  "json": null, 
  "origin": "202.120.235.176", 
  "url": "http://httpbin.org/post"
}



In [8]:
# 向 URL POST 一个字符串，自动编码为 data
r = requests.post('http://httpbin.org/post',data='ABC')
print(r.text)

{
  "args": {}, 
  "data": "ABC", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Content-Length": "3", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.26.0", 
    "X-Amzn-Trace-Id": "Root=1-61ebddc3-604fe56d406dde15029a68a5"
  }, 
  "json": null, 
  "origin": "202.120.235.176", 
  "url": "http://httpbin.org/post"
}



Requests 库的 `put()` 方法：会将原有数据覆盖掉

In [11]:
payload = {'key1':'value2', 'key2':'value1'}
r = requests.put('http://httpbin.org/put',data=payload)
print(r.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key1": "value2", 
    "key2": "value1"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Content-Length": "23", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.26.0", 
    "X-Amzn-Trace-Id": "Root=1-61ebde75-515c207c622287dc47313eeb"
  }, 
  "json": null, 
  "origin": "202.120.235.176", 
  "url": "http://httpbin.org/put"
}



`r = requests.get(url)`: 构造一个向服务器请求资源的 Requests 对象，服务器返回一个包含服务器资源的 **Response** 对象

**Response 对象**：包含了爬虫返回的全部内容
| 属性                | 说明                                                 |
| ------------------- | ---------------------------------------------------- |
| r.status_code       | HTTP 请求的返回状态，200 表示连接成功，404 表示失败  |
| r.text              | HTTP 响应内容的字符串形式，即 url 对应的页面内容     |
| r.recoding          | 从 HTTP header 中**猜测**的响应内容编码方式          |
| r.apparent_encoding | 从内容中**分析**出的响应内容编码方式（备选编码方式） |
| r.content           | HTTP 响应内容的二进制形式                            |

In [12]:
r = requests.get("http://www.baidu.com")
r.status_code

200

In [13]:
type(r)

requests.models.Response

In [14]:
# 返回头部信息
r.headers

{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Sat, 22 Jan 2022 12:06:56 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:27:36 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}

In [15]:
r.text
# 输出中很多是乱码

'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>ç\x99¾åº¦ä¸\x80ä¸\x8bï¼\x8cä½\xa0å°±ç\x9f¥é\x81\x93</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span cl

In [16]:
# encoding 的编码方式是从 HTTP header 中的 charset 中获得的。若 header 中不存在 charset，则认为编码为 ISO-8859-1
r.encoding

'ISO-8859-1'

In [17]:
# apparent_encoding 从内容分析可能出现的编码形式（备选编码方式）
r.apparent_encoding

'utf-8'

In [18]:
r.encoding = "UTF-8"
r.text
# 可以看到中文字符

'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>百度一下，你就知道</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span class="bg s_btn_wr"><input type=submit id=su

### 1.3 Requests 库的主要方法
Kwargs 参数列表：`requests.request(method, url, **kwargs)`

- method: 请求方式，对应 get/put/post 等 7 种
- url：拟获取页面的 url 链接
- **kwargs：控制访问的参数，共 13 个

In [23]:
# params: 字典或字节序列，作为参数增加到 url 中，服务器根据参数筛选资源返回
kv = {'key1': 'value', 'key2': 'value2'}
r = requests.post('http://python123.io/ws', params=kv)
print(r.url)

http://python123.io/ws?key1=value&key2=value2


In [24]:
# data: 字典、字节序列或文件对象，作为 Request 的内容。向服务器提交资源时使用
body = 'kswl'
r = requests.request('POST', 'http://python123.io/ws', data=body)
# 与 params 不同，不放入 url 链接中，放入 url 对应位置作为数据存储

In [26]:
# json: JSON 格式的数据，作为 Request 的内容
kv = {'key1': 'value'}
r = requests.request('POST', 'http://python123.io/ws', json=kv)

In [27]:
# header: 字典，HTTP 定制头
hd = {'user-agent': 'Chrome/10'}
r = requests.request('POST', 'http://python123.io/ws', headers=hd)

In [None]:
# cookies: 字典或 CookieJar，Request 中的 cookie
# auth: 元组，支持 HTTP 认证功能
# files: 字典类型，传输文件
fs = {'file': open('data.xls','rb')}
r = requests.request('POST', 'http://python123.io/ws', files=fs)

In [None]:
# timeout: 设定超时时间，单位为 s
r = requests.request('GET', 'http://www.baidu.com', timeout=10)
# 若超时无返回值，则会产生 timeout 异常

In [None]:
# proxies: 字典类型，设定访问代理服务器，可以增加登录认证
pxs = {'http': 'http://user:pass@10.10.10.1:1234',  #用户名及密码设置
	   'https': 'http://10.10.10.1:4321' }
r = requests.request('GET', 'http://www.baidu.com', proxies=pxs)

In [None]:
# allow_redirects: 重定向开关，默认为 true
# stream: 获取内容立即下载开关，默认为 true
# verify: 认证 SSL 证书开关，默认为 true
# cert: 本地 SSL 证书路径

#### 1.3.1 get 方法
`r = requests.get(url,params=None,**kwargs)`

- url：拟获取页面的 url 链接
- params：url 中的额外参数，字典或字节流格式，可选
- **kwargs：12 个控制访问的参数

#### 1.3.2 head 方法
`r = requests.head(url,**kwargs)`

- url：拟获取页面的 url 链接
- **kwargs：13 个控制访问的参数

In [None]:
r = requests.head('http://httpbin.org/get')
r.headers
#返回头部信息
r.text
#返回内容为空

#### 1.3.3 post 方法
`r = requests.post(url,**kwargs)`

- url：拟更新页面的 url 链接
- data: 字典、字节序列或文件，Requests 的内容
- json: JSON 格式的数据，Requests 的内容
- **kwargs：11 个控制访问的参数

#### 1.3.4 put 方法
`r = requests.put(url,**kwargs)`

- url：拟更新页面的 url 链接
- data: 字典、字节序列或文件，Requests 的内容
- **kwargs：12 个控制访问的参数

#### 1.3.5 patch 方法
`r = requests.patch(url,**kwargs)`

- url：拟更新页面的 url 链接
- data: 字典、字节序列或文件，Requests 的内容
- **kwargs：12 个控制访问的参数

#### 1.3.6 delete 方法
`r = requests.delete(url,**kwargs)`

- url：拟删除页面的 url 链接
- **kwargs：13 个控制访问的参数

### 1.4 爬取网页的通用代码框架
**几种常见的异常**：
| 异常                      | 说明                                          |
| ------------------------- | --------------------------------------------- |
| requests.ConnectionError  | 网络连接错误异常，如 DNS 查询失败、拒绝连接等 |
| requests.HTTPError        | HTTP 错误异常                                 |
| requests.URLRequired      | URL 缺失异常                                  |
| requests.TooMantRedirects | 超过最大重定向次数，产生重定向异常            |
| requests.ConnectTimeout   | **连接**远程服务器**超时**异常                |
| requests.Timeout          | 请求 **URL 超时**，产生超时异常               |
|r.rasis_for_status()       | 如果不是 200，产生异常 requests.HTTPError    |

In [33]:
import requests

def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status() # 如果不是 200，产生requests.HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

In [37]:

if __name__ == '__main__':
    url="http://www.baidu.cm"
    # url="http://www.baidu.com"
    print(getHTMLText(url))

产生异常


### 1.5 爬虫规模
- 爬取网页：小规模，数据量小，爬取速度不敏感。Requests 库。
- 爬取网站：中规模，数据规模较大，爬取速度敏感。Scrapy 库。
- 爬取全网：大规模，搜索引擎，爬取速度尤其关键。定制开发。

## 2. Robot 协议
- 作用：网站告知网络爬虫哪些页面可以抓取，哪些不行。
- 形式：在网站根目录下的 robots.txt 文件。
- 以京东 Robots 协议为例：https://www.jd.com/robots.txt

|字段|说明|
|----|----|
|User-agent: *|				对于任意user-agent，都应遵循以下协议|
|Disallow: /?*	|			不允许访问以?开头的路径|
|Disallow: /pop/*.html	|	不允许访问pop路径|
|Disallow: /pinpai/*.html?*	|不允许访问pinpai路径|
|User-agent: EtaoSpider	|	不允许该爬虫爬取|
|User-agent: HuihuiSpider	|不允许该爬虫爬取|
|User-agent: GwdangSpider	|不允许该爬虫爬取|
|User-agent: WochachaSpider	|不允许该爬虫爬取|


**网络爬虫的限制：**
1. 来源审查：判断 User-Agent 进行限制（技术方面）
2. 发布公告：Robots 协议（道德方面）


## 3. Request 库爬取实例
### 3.1 京东某商品信息
例如：https://item.jd.com/361348.html

In [1]:
import requests
kv = {'user-agent':'Mozilla/5.0'}	#浏览器身份标识
url = "https://item.jd.com/361348.html"
try:
    r = requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(len(r.text))
except:
    print("爬取失败")

148779


如果不加 `user-agent`，`r.status_code` 依然为 200，但返回结果为登录页面。因为京东对爬虫有一定的限制，如果程序中不写明 `user-agent`，访问者默认为 python 的一个程序，从而访问出错。解决办法只需将程序模拟为浏览器 *Mozilla/5.0*，即可正常访问。

### 3.2 亚马逊某商品信息
例如：https://www.amazon.cn/dp/B094XNKYY4?ref_=Oct_DLandingS_D_e0932e88_60&smid=A3TEGLC21NOO5Y

In [14]:
import requests
kv = {'user-agent':'Mozilla/5.0'}
cookie = {
}
url = "https://www.amazon.cn/dp/B094XNKYY4?ref_=Oct_DLandingS_D_e0932e88_60&smid=A3TEGLC21NOO5Y"
try:
    r = requests.get(url, cookies=cookie, headers=kv)
    print(r.status_code)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[1000:2000])
except:
    print("爬取失败")

200
"onflush");

(function(d,e){function h(f,b){if(!(a.ec>a.mxe)&&f){a.ter.push(f);b=b||{};var c=f.logLevel||b.logLevel;c&&c!==k&&c!==m&&c!==n&&c!==p||a.ec++;c&&c!=k||a.ecf++;b.pageURL=""+(e.location?e.location.href:"");b.logLevel=c;b.attribution=f.attribution||b.attribution;a.erl.push({ex:f,info:b})}}function l(a,b,c,e,g){d.ueLogError({m:a,f:b,l:c,c:""+e,err:g,fromOnError:1,args:arguments},g?{attribution:g.attribution,logLevel:g.logLevel}:void 0);return!1}var k="FATAL",m="ERROR",n="WARN",p="DOWNGRADED",a={ec:0,ecf:0,
pec:0,ts:0,erl:[],ter:[],mxe:50,startTimer:function(){a.ts++;setInterval(function(){d.ue&&a.pec<a.ec&&d.uex("at");a.pec=a.ec},1E4)}};l.skipTrace=1;h.skipTrace=1;h.isStub=1;d.ueLogError=h;d.ue_err=a;e.onerror=l})(ue_csm,window);

ue.stub(ue,"event");ue.stub(ue,"onSushiUnload");ue.stub(ue,"onSushiFlush");

var ue_url='/rd/uedata',
ue_sid='462-0510421-8773939',
ue_mid='AAHKV2X7AFYLW',
ue_sn='www.amazon.cn',
ue_furl='fls-cn.amazon.cn',
ue_surl='https://unagi.amazon.cn/1/event

与京东略有不同，需要将 cookie 写入，否则回应信息会显示被识别为机器人。

cookie 即某些网站为了辨别用户身份，进行 `Session` 跟踪而存储在用户本地终端上的数据（通常经过加密）。

### 3.3 百度 360 搜索关键词提交
- 百度的关键词接口：http://www.baidu.com/s?wd=keyword

- 360的关键词接口：http://www.baidu.com/s?q=keyword

In [1]:
import requests
# 定义搜索关键词：python
kv = {'wd': 'python'}
url = "http://www.baidu.com/s"
try:
    # params: 向 url 中增加相关的内容
    r = requests.get(url, params=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    # 输出 get 获取的 url 链接，可以看到键值对已经附加到了原 url 之后
    print(r.request.url)
    print(len(r.text))
except:
    print("爬取失败")


http://www.baidu.com/s?wd=python
754212


### 3.4 网络图片的爬取和存储
- 网络图片链接的格式：http://www.example.com/picture.jpg
- 国家地理：http://www.nationalgeographic.com.cn

https://gitee.com/lockegogo/markdown_photo/raw/master/202201221702363.png

In [11]:
import requests
import os
root = "D://pics//"
url = "https://gitee.com/lockegogo/markdown_photo/raw/master/202201221702363.png"
path = root + url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.makedirs(root)
    if not os.path.exists(path):
        r = requests.get(url)
        print(r.status_code)
        # 把图片保存为一个文件
        with open(path, 'wb') as f:
            f.write(r.content)  #r.content为返回内容的二进制形式
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("爬取失败")

200
文件保存成功


### 3.5 IP 地址归属地的自动查询
python 没有关于 ip 归属地的库文件。我们可以通过 ip138 进行查询。
- https://www.ip138.com/
- 通过搜索任意一个 ip 地址可以得知，该 url 形式为：https://www.ip138.com/iplookup.asp?ip=ipaddress&action=2

In [13]:
import requests
kv = {'user-agent':'Mozilla/5.0'}
url = "https://www.ip138.com/iplookup.asp?ip="
try:
    r = requests.get(url + '104.225.238.4' + '&action=2',headers=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[1000:2000])
except:
    print("爬取失败")

/cache.ip138.com/static/style/index/iplookup.css"/>
		<script type="text/javascript" src="//cache.ip138.com/static/script/index/iplookup-fun.js" charset="utf-8"></script>
		<script type="text/javascript">
			(function(){
				var u = navigator.userAgent;
				if(u.indexOf('Android') > -1 || u.indexOf('Adr') > -1){
					location.href = 'https://m.ip138.com/iplookup.asp'+location.search;
				}
			})();
			var ip_result = {"ASN归属地":"美国 加利福尼亚 洛杉矶   ", "iP段":"104.225.232.0 - 104.225.239.255", "兼容IPv6地址":"::68E1:EE04", "映射IPv6地址":"::FFFF:68E1:EE04", "ip_c_list":[{"begin":1759635456, "end":1759637503, "ct":"美国", "prov":"加利福尼亚", "city":"洛杉矶", "area":"", "idc":"", "yunyin":"", "net":""}], "zg":1};
			var ip_begin = 1759636996;
		</script>
	</head>
	<body>
		<div class="wrapper">
			<div class="header">
				<div class="mod-head">
					<ul class="link only-pc">
						<li><span class="icon-date"></span></li>
					</ul>
					<a class="logo" href="/"><img src="//cache.ip138.com/sta


## 4. BeautifulSoup 库入门
为什么学习 BeautifulSoup 库？根据前面的学习，我们已经可以做到从网站上爬取需要的内容，并且打印出来，但是局限于这些 html 标签，无法有效利用，后续操作就需要用到 BeautifulSoup，解析 html 代码或是 sml 文档。
### 4.1 示例

In [15]:
import requests
r = requests.get("http://python123.io/ws/demo.html")
demo = r.text
print(demo)

<html><head><title>This is a python demo page</title></head>
<body>
<p class="title"><b>The demo python introduces several python courses.</b></p>
<p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
<a href="http://www.icourse163.org/course/BIT-268001" class="py1" id="link1">Basic Python</a> and <a href="http://www.icourse163.org/course/BIT-1001870001" class="py2" id="link2">Advanced Python</a>.</p>
</body></html>


In [16]:
#从 bs4 中引入一个类，即 BeautifulSoup
from bs4 import BeautifulSoup	
# 除了给出 demo，还需要给出解释器：html.parser (对 demo 进行 html 的解析)
# soup = BeautifulSoup('<p>data</p>', 'html.parser')
soup = BeautifulSoup(demo, 'html.parser')
print(soup.prettify())

# 也可以通过提供文件的方式 
soup2 = BeautifulSoup(open("D://demo.html"), 'html.parser')

<html>
 <head>
  <title>
   This is a python demo page
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The demo python introduces several python courses.
   </b>
  </p>
  <p class="course">
   Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
   <a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">
    Basic Python
   </a>
   and
   <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">
    Advanced Python
   </a>
   .
  </p>
 </body>
</html>


首先源文件，即从浏览器中查看网页源代码或是通过 requests 库 get 到的 text 文件类型都如下图一般，由一对尖括号构成的标签组织起来的，每一对尖括号形成一对标签，标签之间存在上下元关系，从而形成一个标签树。

![image-20220123113636188](https://gitee.com/lockegogo/markdown_photo/raw/master/202201231136253.png)

- p：标签的 Name，成对出现
- class=”title”：属性 Attributes（属性域），包含 0 个或多个属性，用以定义标签的特点，由键值对构成。

Beautiful Soup 库即是解析、遍历、维护 “标签树” 的功能库，也称 beautifulsoup4 或者 bs4

标签树可经 BeautifulSoup 处理转换成 BeautifulSoup 类，通常认为 html 文档，标签树，BeautifulSoup 类三者等价。
 

### 4.2 BeautifulSoup 库的解析器

|解析器|使用方法|条件|
|----|----|----|
|bs4 的 HTML 解析器| BeautifulSoup(mk,'html.parser')|安装 bs4 库|				对于任意user-agent，都应遵循以下协议|
|lxml 的 HTML 解析器| BeautifulSoup(mk,'lxml')|pip install lxml|
|lxml 的 XML 解析器| BeautifulSoup(mk,'xml')|pip install lxml|
|html5lib 的 解析器| BeautifulSoup(mk,'html5lib')|pip install html5lib|



### 4.3 BeautifulSoup 类的基本元素
| 基本元素        | 说明                                                        |
| --------------- | ----------------------------------------------------------- |
| Tag             | 标签，最基本的信息组织单元，分别用 <> 和 </> 标明开头和结尾 |
| Name            | 标签的名字，`<p>...</p>` 的名字是 ’p’，格式：`<tag>.name`    |
| Attributes      | 标签的属性，字典形式组织，格式：`<tag>.attrs`               |
| NavigableString | 标签内非属性字符串，<>…</> 中的字符串，格式：`<tag>.string` |
| Comment         | 标签内字符串的注释部分，一种特殊的 Comment 类型             |

标签的获取方法：

<img src="https://gitee.com/lockegogo/markdown_photo/raw/master/202201231207198.png" alt="image-20220123120708581" style="zoom:50%;" />

In [42]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo, "html.parser")
soup.head
soup.title
# 获取 a 标签：链接标签；只能返回第一个
soup.a   
soup.a.name   # a 标签的名称 "a"
# 获取父标签的名字
soup.a.parent.name
soup.a.parent.parent.name

<head><title>This is a python demo page</title></head>

<title>This is a python demo page</title>

<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>

'a'

'p'

'body'

In [53]:
# 获得标签的属性信息
tag = soup.a
tag.attrs
tag.attrs['href']  # a 标签['href']属性
print('-'*20)
# 查看 标签 和 标签属性 的类型
type(tag)
type(tag.attrs)

{'href': 'http://www.icourse163.org/course/BIT-268001',
 'class': ['py1'],
 'id': 'link1'}

'http://www.icourse163.org/course/BIT-268001'

'Basic Python'

--------------------


bs4.element.Tag

dict

In [69]:
tag.string
tag.contents
# tag.parent.contents

'Basic Python'

['Basic Python']

### 4.4 `prettify()` 方法
辅助作用，在每一个标签后加入换行符’\n’，使得输出文本容易阅读。

In [3]:

import requests
from bs4 import BeautifulSoup
url = "https://www.baidu.com"
r = requests.get(url)
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, "html.parser")
tag = soup.a
print(soup.prettify()[:100])		#标签树
print(tag.prettify())		#每个标签同样适用

<!DOCTYPE html>
<!--STATUS OK-->
<html>
 <head>
  <meta content="text/html;charset=utf-8" http-equiv
<a class="mnav" href="http://news.baidu.com" name="tj_trnews">
 新闻
</a>



### 4.5 标签树的遍历
![image-20220123123333890](https://gitee.com/lockegogo/markdown_photo/raw/master/202201231233201.png)
| 属性         | 说明                                                     |
| ------------ | -------------------------------------------------------- |
| .contents    | 子节点的列表，将 `<tag>` 所有儿子节点存入列表            |
| .children    | 子节点的迭代类型，与.contents 类似，用于循环遍历儿子节点 |
| .descendants | 子孙节点的迭代类型，包含所有子孙节点，用于循环遍历       |
| .parent  | 节点的父亲标签                               |
| .parents | 节点先辈标签的迭代类型，用于循环遍历先辈节点 |
| .next_sibling      | 返回按照 HTML 文本顺序的下一个平行节点标签             |
| .previous_sibling  | 返回按照 HTML 文本顺序的上一个平行节点标签             |
| .next_siblings     | 迭代类型，返回按照 HTML 文本顺序的后续所有平行节点标签 |
| .previous_siblings | 迭代类型，返回按照 HTML 文本顺序的前续所有平行节点标签 |

In [84]:
# url = 'https://baidu.com'
# r = requests.get(url)
# r.encoding = r.apparent_encoding
# soup = BeautifulSoup(r.text,"html.parser")
soup = BeautifulSoup(demo,"html.parser")
# 返回值是列表，可以用下标来获取相关元素
print(soup.prettify())

<html>
 <head>
  <title>
   This is a python demo page
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The demo python introduces several python courses.
   </b>
  </p>
  <p class="course">
   Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
   <a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">
    Basic Python
   </a>
   and
   <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">
    Advanced Python
   </a>
   .
  </p>
 </body>
</html>


In [95]:
## 下行遍历
# 将标签的儿子节点存入列表，.contents 返回列表类型，而 .children 返回 迭代类型
print(soup.body.contents)

for child in soup.body.children:
	print(child)
# print('-'*50)
# for child in soup.body.descendants:
# 	print(child)

['\n', <p class="title"><b>The demo python introduces several python courses.</b></p>, '\n', <p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a> and <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>.</p>, '\n']


<p class="title"><b>The demo python introduces several python courses.</b></p>


<p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a> and <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>.</p>




In [104]:
## 上行遍历
for parent in soup.a.parent:
    print(parent)
    # if parent is None:
    #     print(parent)
    # else:
    #     print(parent.name)

Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:

<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>
 and 
<a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>
.


In [110]:
## 平行遍历
# 输出有可能不是标签，而是文本的形式
for sibling in soup.a.previous_siblings:
    print("a 标签的上一个兄弟标签:", sibling)
for sibling in soup.a.next_siblings:
    print("a 标签的下一个兄弟标签:", sibling)

a 标签的上一个兄弟标签: Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:

a 标签的下一个兄弟标签:  and 
a 标签的下一个兄弟标签: <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>
a 标签的下一个兄弟标签: .


## 5. 信息组织与提取方法
为什么要进行信息标记？假如给出一组信息，'北京理工大学'；'1940'；'北京市海淀区中关村'。我们需要对信息做一定的标记，来理解信息的真实含义。例如:
- `'name': '北京理工大学'`
- `'addr': '北京市海淀区中关村'`
- `'year': '1940'`

1. 标记后的信息可形成信息组织结构，增加了信息维度
2. 标记后的信息可用于通信、存储或展示
3. 标记的结构与信息一样具有重要价值
4. 标记后的信息更利于程序理解和运用

### 5.1 HTML 的信息标记
- HTML 是 WWW（World Wide Web）的信息组织方式，能够将声音 图像 视频等超文本信息嵌入到文本中。
- HTML 通过预定义的 <>…</> 标签形式组织不同类型的信息

### 5.2 信息标记的三种形式
#### 5.2.1 XML：扩展标记语言
- 采用以标签为主来构建信息、表达信息的方式：`<img src="china.jpg" size="10">...</img>`
- 如果标签中没有内容，则可以用空元素的缩写形式：`<img src="china,jpg" size="10" />`

#### 5.2.2 JSON：JavaScript 中对面向对象信息的一种表达形式
- 有类型的键值对 `key:value` 构建的信息表达方式
- `"name": "复旦大学"`
- `"name": ["复旦大学", "南开大学"]`
- `"name": {"newName": "北京理工大学", "oldName": "延安自然科学院"}`

#### 5.2.3 YAML：表达数据序列化的格式
- 使用无类型键值对 `key:value`, eg. `name:北京理工大学`
- 通过缩进的形式表达所属关系
- 使用 `-` 表达并列关系
- 使用 `|` 表达整块数据，信息过多时使用
- 使用 `#` 表达注释

In [111]:
name:
	newName:北京理工大学
	oldName:延安自然科学院

name:
-北京理工大学
-延安自然科学院

SyntaxError: invalid syntax (Temp/ipykernel_24328/1107086886.py, line 1)

#### 5.2.4 三种信息标记形式的比较
- `XML `：最早的通用信息标记语言，可扩展性好，但繁琐。用于 Internet 上的信息交互与传递。
- `JSON`：信息有类型，适合程序处理（js），较 XML 简洁。移动应用云端和节点的信息通信，无注释。
- `YAML`：信息无类型，文本信息比例最高，可读性好。各类系统的配置文件，有注释易读。

In [None]:
# XML 实例：
<person>
    <firstName>Tian</firstName>
    <lastName>Song</lastName>
    <address>
        <streetAddr>中关村</streetAddr>
        <city>北京市</city>
        <zipcode>100081</zipcode>
    </address>
    <prof>Computer System</prof><prof>Security</prof>
</person>

In [None]:
# JSON 实例：
{
    "firstName"	:"Tian",
    "lastName"	:"Song",
    "address"	:{
        			"streetAddr":"中关村南大街5号",
        			"city"		:"北京市",
        			"zipcode"	:"100081"
    			 },
    "prof"	    :["Computer System","Security"]
}


In [None]:
# YAML 实例：
firstName	: Tian
lastName	: Song
address		:
	streetAddr	: 中关村南大街5号
	city		: 北京市
	zipcode"	: 100081
prof	    :
-Computer System
-Security

### 5.3 信息提取的一般方法
#### 5.3.1 完整解析信息的标记形式，再提取关键信息
- 就是用标记解析器去解析 XML JSON YAML 格式，再将其中所需要的信息提取出来
- 例如 bs4 库提供了对标签树的遍历，需要解析什么信息对标签树遍历即可
- 优点：信息解析准确
- 缺点：提取过程繁琐，速度慢

#### 5.3.2 无视标记形似，直接搜索关键信息
- 对信息的文本查找函数即可
- 优点：提取过程简洁，速度较快
- 缺点：提取结果准确性与信息内容相关

#### 5.3.3 结合使用
- 实际使用中通常将两种方法结合起来使用，需要这就需要了**标记解析器**及**文本查找函数**。
- 例如提取 HTML 中所有 URL 链接
  - 搜索到所有 `<a>` 标签
  -  解析 `<a>` 标签格式，提取 href 后的链接内容


In [112]:
for link in soup.find_all('a'):
	print(link.get('href'))

http://www.icourse163.org/course/BIT-268001
http://www.icourse163.org/course/BIT-1001870001


### 5.4 基于 bs4 库的 HTML 内容查找方法

- `find_all()` 方法：`<>.find_all(name,attrs,recursive,string,**kwargs)`，返回列表，存储查找结果
  - `name`: 对标签名称的检索字符串
  - `attrs`：对标签属性值的检索字符串，可标注属性检索
  - `recursive`：是否对子孙全部检索，默认为 True
  - `string`：<>…</> 中字符串区域的检索字符串。

In [123]:
soup.find_all('a')
print('-'*50)
# 无输出值，说明 soup 根节点的子孙节点中含有 a 标签，但其子节点无 a 标签
soup.find_all('a', recursive=False)

[<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>,
 <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>]

--------------------------------------------------


[]

In [115]:
soup.find_all(['a','b'])

[<b>The demo python introduces several python courses.</b>,
 <a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>,
 <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>]

In [116]:
# 传入参数为 True 时，显示文档中所有标签
for tag in soup.find_all(True):
    print(tag.name)

html
head
title
body
p
b
p
a
a


但是这种查找方式必须对属性精确赋值，如果我们想用其中一部分进行查找，就需要用到<font color=pink>正则表达式</font>。

- `re.compile(pattern[, flags])`: 该函数根据包含的正则表达式的字符串创建模式对象，可以实现更有效率的匹配。
  
在直接使用字符串表达的正则表达式进行 `search`，`match` 和 `findall` 操作时，pythnon 会将字符串转换为 正则表达式对象，而使用 compile 完成一次转换后，在每次使用模式的时候就不用重复转换。

In [117]:
# 显示所有以 b 开头的标签：正则表达式
import re
for tag in soup.find_all(re.compile('b')):
    print(tag.name)

body
b


In [119]:
# find_all(name,attrs): course 是属性值
soup.find_all('p','course')

[<p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
 <a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a> and <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>.</p>]

In [120]:
# 查找 id 属性为 link1 的元素
soup.find_all(id = "link1")

[<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>]

In [122]:
import re
# 查找 id 属性值含有 link 的元素
soup.find_all(id = re.compile('link'))

[<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>,
 <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>]

In [126]:
# 对字符串域进行查找
soup.find_all(string = "Basic Python")

for tag in soup.find_all(string = "Basic Python"):
   print(tag)

['Basic Python']

Basic Python


In [127]:
# 同样，利用正则表达式库可以部分检索，把含有 python 的字符串全部检索出来
import re
for tag in soup.find_all(string = re.compile("Python")):
    print(tag)

Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:

Basic Python
Advanced Python


**`find_all()` 扩展方法：**

| 方法                        | 说明                                                      |
| --------------------------- | --------------------------------------------------------- |
| <>.find                     | 搜索且只返回一个结果，字符串类型，同.find_all () 参数     |
| <>.find_parents()           | 在先辈节点中搜索，返回列表类型，同.find_all () 参数       |
| <>.find_parent()            | 在先辈节点中返回一个结果，字符串类型，同.find () 参数     |
| <>.find_next_siblings()     | 在后续平行节点中搜索，返回列表类型，同.find_all () 参数   |
| <>.find_next_sibling()      | 在后续平行节点中返回一个结果，字符串类型，同.find () 参数 |
| <>.find_previous_siblings() | 在前序平行节点中搜索，返回列表类型，同.find_all () 参数   |
| <>.find_previous_sibling()  | 在前序平行节点中返回一个结果，字符串类型，同.find () 参数 |

## 6. 中国大学排名定向爬虫实例
### 6.1 准备工作
- 输入：大学排名 URL 链接
- 输出：大学排名信息的屏幕输出（排名、大学名称、总分）

可分为三个步骤：
1. 从网络上获取大学排名网页内容 `getHTMLText()`
2. 提取网页内容中信息到合适的数据结构 `fillUnivList()`
3. 利用数据结构展示并输出结果 `printUnivList()`

### 6.2 爬虫编写

In [273]:
uni_list = []
url = "https://www.shanghairanking.cn/rankings/bcur/2021"
r = requests.get(url, timeout=30)
r.raise_for_status()
# 修改编码
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, "html.parser")
for tr in soup.find('tbody').children:
    # 通过检查网页源代码，发现这里的每一个 tr 标签都包裹了一个大学的信息
    # 检测 tr 标签的类型，如果不是 bs4 定义的 Tag 会过滤掉
    # isinstance() 函数对变量的类型作出判断
    if isinstance(tr, bs4.element.Tag):
        tds = tr('td')  # 将筛选后的 td 标签加入列表中，这里省略了 tr.find_all('td')
        # print(tds[0].string.strip())
        univ = tr.find('a')  # 找到大学名称标签
        # print(univ.string)
        uni_list.append(
            [tds[0].string.strip(), univ.string, tds[4].string.strip()])
# 只能提取当前页面的 30 个，想翻页怎么办？
print(uni_list)

table = pd.DataFrame()
table = table.append(uni_list[:5])
list = ['排名', '学校名称', '总分']
table.columns = list
# 设置表格左对齐
table = table.style.set_properties(**{'text-align': 'left'})
table.set_table_styles(
    [dict(selector='th', props=[('text-align', 'left')])])


[['1', '清华大学 ', '969.2'], ['2', '北京大学 ', '855.3'], ['3', '浙江大学 ', '768.7'], ['4', '上海交通大学 ', '723.4'], ['5', '南京大学 ', '654.8'], ['6', '复旦大学 ', '649.7'], ['7', '中国科学技术大学 ', '577.0'], ['8', '华中科技大学 ', '574.3'], ['9', '武汉大学 ', '567.9'], ['10', '西安交通大学 ', '537.9'], ['11', '哈尔滨工业大学 ', '522.6'], ['12', '中山大学 ', '519.3'], ['13', '北京师范大学 ', '518.3'], ['14', '四川大学 ', '516.6'], ['15', '北京航空航天大学 ', '513.8'], ['16', '同济大学 ', '508.3'], ['17', '东南大学 ', '488.1'], ['18', '中国人民大学 ', '487.8'], ['19', '北京理工大学 ', '474.0'], ['20', '南开大学 ', '465.3'], ['21', '山东大学 ', '447.0'], ['22', '天津大学 ', '444.3'], ['23', '中南大学 ', '442.2'], ['24', '吉林大学 ', '435.7'], ['25', '西北工业大学 ', '430.5'], ['26', '厦门大学 ', '427.8'], ['27', '华南理工大学 ', '419.8'], ['28', '大连理工大学 ', '418.2'], ['29', '华东师范大学 ', '401.8'], ['30', '中国农业大学 ', '400.4']]


Unnamed: 0,排名,学校名称,总分
0,1,清华大学,969.2
1,2,北京大学,855.3
2,3,浙江大学,768.7
3,4,上海交通大学,723.4
4,5,南京大学,654.8


接下来我们尝试用三个函数来对上述代码进行重构。

In [271]:
import requests
from bs4 import BeautifulSoup
import bs4
import pandas as pd


def getHTMLText(url):
    """
    从网络上获取大学排名网页内容
    """
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "爬取失败"


def fillUnivList(html):
    """
    提取网页内容中信息到合适的数据结构
    """
    uni_list = []
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')  # 将筛选后的 td 标签加入列表中
            univ = tr.find('a')  # 找到大学名称标签
            uni_list.append(
                [tds[0].string.strip(), univ.string, tds[4].string.strip()])
    return uni_list


def printUnivList(uni_list, num):
    """
    利用数据结构展示并输出结果
    """
    table = pd.DataFrame()
    table = table.append(uni_list[:num])
    list = ['排名', '学校名称', '总分']
    table.columns = list
    # 设置表格左对齐
    table = table.style.set_properties(**{'text-align': 'left'})
    table.set_table_styles(
        [dict(selector='th', props=[('text-align', 'left')])])
    return table
    return table


# prevent parts of code from being run when the modules are imported.
if __name__ == "__main__":
    url = "https://www.shanghairanking.cn/rankings/bcur/2021"
    html = getHTMLText(url)
    uni_list = fillUnivList(html)
    table = printUnivList(uni_list, 10)  # 前 20 名
    table


Unnamed: 0,排名,学校名称,总分
0,1,清华大学,969.2
1,2,北京大学,855.3
2,3,浙江大学,768.7
3,4,上海交通大学,723.4
4,5,南京大学,654.8
5,6,复旦大学,649.7
6,7,中国科学技术大学,577.0
7,8,华中科技大学,574.3
8,9,武汉大学,567.9
9,10,西安交通大学,537.9


## 7. Re 库：正则表达式库
`regular expression`: 通用的字符串表达框架，用来简洁表达一组字符串的表达式。

re 库采用 <font color=pink>raw string</font>  类型 (原生字符串类型，不包含转义符) 表示正则表达式，表示为：`r'text'`，例如邮政编码：`r'[1-9]\d{5}'`，这里的 \ 就不包含转义，如果用 string 类型需要额外添加一个 \

在文本处理中，可用于表达文本类型的特征，同时查找或替换一组字符串，匹配字符串的全部或部分。
### 7.1 Re 库的常用操作符

| 操作符 | 说明                               | 实例                                           |
| :----- | :--------------------------------- | :--------------------------------------------- |
| .      | 表示任何单个字符                   |                                                |
| []     | 字符集，对单个字符给出取值范围     | [abc] 表示 a、b、c，[a-z] 表示 a 到 z 单个字符 |
| [^]    | 非字符集，对单个字符给出排除范围   | [^abc] 表示非 a 或 b 或 c 的单个字符           |
| *      | 前一个字符 0 次或无限次扩展        | abc * 表示 ab、abc、abcc、abccc 等             |
| +      | 前一个字符 1 次或无限次扩展        | abc + 表示 abc、abcc、abccc 等                 |
| ?      | 前一个字符 0 次或 1 次扩展         | abc？表示 ab、abc                              |
| \|     | 左右表达式任意一个                 | abc\|def 表示 abc、def                         |
| {m}    | 扩展前一个字符 m 次                | ab {2} c 表示 abbc                             |
| {m,n}  | 扩展前一个字符 m 至 n 次（含 n）   | ab {1,2} c 表示 abc、abbc                      |
| ^      | 匹配字符串开头                     | ^abc 表示 abc 且在一个字符串的开头             |
| $      | 匹配字符串结尾                     | abc$ 表示 abc 且在一个字符串的结尾             |
| ()     | 分组标记，内部只能使用 “\|” 操作符 | (abc) 表示 abc，(abc\|def)表示 abc、def     |
| \d     | 数字，等价于 [0-9]                 |                                                |
| \w     | 单词字符，等价于 [A-Za-z0-9_]      |                                                |

### 7.2 Re 库的主要功能函数
| 函数          | 说明                                                         |
| :------------ | :----------------------------------------------------------- |
| re.search()   | 在一个字符串中搜索匹配正则表达式的第一个位置，返回 match 对象 |
| re.match()    | 从一个字符串的开始位置起匹配正则表达式，返回 match 对象      |
| re.findall()  | 搜索字符串，以列表类型返回全部能匹配的子串                   |
| re.split()    | 将一个字符串按照正则表达式匹配结果进行分割，返回列表类型     |
| re.finditer() | 搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是 match 对象 |
| re.sub()      | 在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串 |

### 7.3 match 对象
#### 7.3.1 match 对象属性
`re` 库的 `search`，`match`，`finditer` 函数都会返回 `match` 对象，`match` 对象就是一次匹配的结果，包含很多相关信息。

可以通过 `type(match)` 查看属性，介绍以下四种:

| 属性    | 说明                                    |
| ------- | --------------------------------------- |
| .string | 待匹配的文本                            |
| .re     | 匹配时使用的 pattern 对象（正则表达式） |
| .pos    | 正则表达式搜索文本的开始位置            |
| .endpos | 正则表达式搜索文本的结束位置            |

#### 7.3.2 match 对象的方法
| 方法      | 说明                             |
| --------- | -------------------------------- |
| .group(0) | 获得匹配后的字符串               |
| .start()  | 匹配字符串在原始字符串的开始位置 |
| .end()      | 匹配字符串在原始字符串的结束位置 |
| .span()     | 返回 (.start (),.end ())         |


```python
re.search(pattern,string,flags=0)
```
- `pattern`: 正则表达式的字符串或原生字符串表示
- `string`: 待匹配字符串
- `flags`: 正则表达式使用时的控制标记

| 常用标记           | 说明                                                         |
| ------------------ | ------------------------------------------------------------ |
| re.I re.IGNORECASE | 忽略正则表达式的大小写，[A-Z] 能苟匹配小写字符               |
| re.M re.MULTILINE  | 正则表达式中 ^ 操作符能够将给定字符串的每行当做匹配开始      |
| re.S re.DOTALL     | 正则表达式中的 . 操作符能够匹配所有字符，默认匹配除换行外的所有字符 |

In [234]:
# search() 函数
import re
match = re.search(r'[1-9]\d{5}', 'BIT 100081')
if match:
    print(match.group(0))

match.string
match.re
match.pos
match.endpos
print('-'*20)
match.group(0)
match.start()
match.end()
match.span()

100081


'BIT 100081'

re.compile(r'[1-9]\d{5}', re.UNICODE)

0

10

--------------------


'100081'

4

10

(4, 10)

In [226]:
type(match)

re.Match

```python
re.match(pattern,string,flags=0)
```
- match 对象只能返回<font color=pink>第一次匹配</font>的结果
- match 函数从给定字符串的头位置起匹配，如果不符合就会返回空
- search 函数是完整地搜索给定字符串，注意和 match 区别

In [223]:
import re
match = re.match(r'[1-9]\d{5}', '100081 BIT')
if match:
    print(match.group(0))

100081


```python
re.findall(pattern,string,flags=0)
```
- 搜索字符串，以列表类型返回全部能匹配的子串


In [236]:
import re
ls = re.findall(r'[1-9]\d{5}', 'BIT100081 TSU100084')
ls

['100081', '100084']

```python
re.split(pattern,string,maxsplit=0,flags=0)
```
- 将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
- `maxsplit`：最大分割数，剩余部分作为最后一个元素输出

In [240]:
import re
ls = re.split(r'[1-9]\d{5}', 'BIT100081 TSU100084')
ls
print('-'*30)
ls = re.split(r'[1-9]\d{5}', 'BIT100081 TSU100084', maxsplit = 1)
ls

['BIT', ' TSU', '']

------------------------------


['BIT', ' TSU100084']

```python
re.finditer(pattern,string,flags=0)
```
- 搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是 match 对象

In [241]:
import re
for m in re.finditer(r'[1-9]\d{5}', 'BIT100081 TSU100084'):
    if m:
        print(m.group(0))

100081
100084


```python
re.sub(pattern,repl,string,count=0,flags=0)
```
- 在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串
- `repl`: 替换匹配字符串的字符串
- `count`: 匹配的最大替换次数

In [242]:
import re
re.sub(r'[1-9]\d{5}', ':zipcode', 'BIT100081 TSU100084')

'BIT:zipcode TSU:zipcode'

### 7.4 Re 库的另一种等价用法
**函数式用法**：一次性操作
```python
rst = re.search(r'[1-9]\d{5}', 'BIT100081')
```
**面向对象用法**：一次编译，多次操作

```python
pat = re.compile(r'[1-9]\d{5}')
rst = pat.search('BIT100081')
```
注意：将原生字符串编译之后的正则对象，才是真正意义上的字符串，才可以和给定的字符串进行比较。

**补充 compile 函数**: 将正则表达式的字符串形式编译成正则表达式对象
```python
re.compile(pattern,flags=0)
```

### 7.5 Re 库的贪婪匹配和最小匹配

In [243]:
match = re.search(r'PY.*N', 'PYANBNCNDN')
match.group(0)

'PYANBNCNDN'

从输出结果可以看到，如果同时匹配长短不同的多项，Re 库采用贪婪匹配，即输出匹配最长的子串 ’PYANBNCNDN’。

那如何输出最短的子串？

只需将正则表达式修改为 `r'PY.*?N'`

具体介绍最小匹配操作符：
| 操作符 | 说明                                       |
| ------ | ------------------------------------------ |
| *?     | 前一个字符 0 次或无限次扩展，最小匹配      |
| +?     | 前一个字符 1 次或无限次扩展，最小匹配      |
| ??     | 前一个字符 0 次或 1 次扩展，最小匹配       |
| {m,n}? | 扩展前一个字符 m 至 n 次（含 n），最小匹配 |

In [244]:
match = re.search(r'PY.*?N', 'PYANBNCNDN')
match.group(0)

'PYAN'

## 8. 淘宝商品信息定向爬虫实例
### 8.1 准备工作
- 目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格
- 难点：淘宝的搜索接口、翻页的处理
- 工具：`requests-re`

在淘宝搜索书包，起始页 URL 链接：https://s.taobao.com/search?q=电脑&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=2685j.jianhua.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

第二页：https://s.taobao.com/search?q=电脑&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=2685j.jianhua.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=1&ntoffset=1&p4ppushleft=2%2C48&s=44

第三页：https://s.taobao.com/search?q=电脑&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=2685j.jianhua.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=-2&ntoffset=-2&p4ppushleft=2%2C48&s=88

分析出 q 后面是关键词，s 后面为页面标签。

可分为三个步骤：
1. 提交商品搜索请求，循环获取页面 `getHTMLText()`
2. 对于每个页面，提交商品名称和价格信息 `parsepage()`
3. 将信息输出 `printGoodsList()`

该实例的主要问题就是 cookie 如何获取。

cookies 是保存在浏览器中记录我们信息的，但 HTTP 协议是一种无状态协议，在数据交换完毕后，服务端和客户端的链接就会关闭，每次交换数据都需要建立新的链接。浏览器开启到关闭就是一次会话，当关闭浏览器时，会话 cookie 就会跟随浏览器而销毁。

淘宝的 cookies 的查看方式：输入自己的账号密码登录，来到淘宝网首页，之后按 F12 检查元素，然后按下图所示。按下 F12 之后有可能是一片空白，此时需要再次刷新一下当前网页即可，然后，按下图所示查看 Doc 文档，你可以把所有的 Doc 文档都查看一下看看有没有 cookie，然后把它复制到 Python 代码中即可。

### 8.2 爬虫编写

In [274]:
import requests
import re


def getHTMLText(url):
    """
    获取 HTML 页面
    """
    kv = {'User_Agent': 'Mozilla/5.0'}
    # cookies具有有效期！！！
    my_cookies = 'cna=PbzFGbzicFsCAWVdbS1c8F2Q; t=f3fbaa6368deca8340f2c2c7de7a6324; miid=4663826611876598161; tracknick=lk%5Cu6D1B%5Cu514B%5Cu738B; thw=cn; _m_h5_tk=2d1fcbc6447a0f6314dc197627ca1b97_1642939666517; _m_h5_tk_enc=474676ad256734fc8019058c356647b5; _samesite_flag_=true; cookie2=167dc8c0f01efb226e6d7726318171fe; _tb_token_=eb6e1e0db37be; sgcookie=E100BMyHi0mEfK02W9gXoSLt9OAJQdK%2BlOw0wUnEpgJqx6VkfUvgGBMxM2JeE8wwcBP7Txm4CQDCKg6sZWgvdp%2FQOUR27BUhzq4beVg8l5Gj2VHJlF6786jDqW%2FoxyHVH93i; unb=2262605424; uc3=id2=UUpninkmo02BYQ%3D%3D&vt3=F8dCvU14BUG%2FkjJ%2FoXw%3D&nk2=D8hWAT8Y7ro%3D&lg2=U%2BGCWk%2F75gdr5Q%3D%3D; csg=4691c27a; lgc=lk%5Cu6D1B%5Cu514B%5Cu738B; cancelledSubSites=empty; cookie17=UUpninkmo02BYQ%3D%3D; dnk=lk%5Cu6D1B%5Cu514B%5Cu738B; skt=0aa31e605c669ba6; existShop=MTY0MjkzMDAyOQ%3D%3D; uc4=nk4=0%40DeufD8Z34X%2B62bkM5nlRNsaNAA%3D%3D&id4=0%40U2gtG%2BDRUatiDBKhrY4p0LW7SznQ; _cc_=W5iHLLyFfA%3D%3D; _l_g_=Ug%3D%3D; sg=%E7%8E%8B4c; _nk_=lk%5Cu6D1B%5Cu514B%5Cu738B; cookie1=VAn7AhjuAghig2bFrVwdkC%2BR920ayz%2BcKdqNTSNBZfo%3D; enc=S%2BY6frUCv86NWs1Udb87wEPAYmrciV9%2F2ZLmG20rP6yQhm224So1tUA1VHZkhTdLfF8T1OvMPLbJXP3JBSZM1A%3D%3D; mt=ci=62_1; v=0; uc1=pas=0&cookie21=WqG3DMC9Fb5mPLIQo9kR&existShop=false&cookie15=VT5L2FSpMGV7TQ%3D%3D&cookie14=UoewAjeFukbEYQ%3D%3D&cookie16=Vq8l%2BKCLySLZMFWHxqs8fwqnEw%3D%3D; isg=BFZW-tICK8w29R9o72GNFWnKpwxY95oxn4HIUcC_VznUg_YdKIOvQbvxHx9vK5JJ; l=eBPahZvqg7F4ImULBOfanurza77OSIRYYuPzaNbMiOCPO31B5oKfW6KBZHT6C3GVh6lpR3lFyc9kBeYBq7VonxvtIosM_Ckmn'
    my_cookies = my_cookies.split(';')
    cookies = {}
    for cookie in my_cookies:
        name, value = cookie.strip().split('=', 1)
        cookies[name] = value
    try:
        r = requests.get(url, headers=kv, cookies=cookies, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        print("访问成功")
        return r.text
    except:
        print("访问失败")
        return''


def parsepage(data, html):
    """
    从 HTML 页面中获取商品的名称和价格
    """
    # 用 try & except 的结构消灭所有异常情况
    try:
        # 在页面邮件打开源代码，搜索 5099.00 | 联想小新，定位目标元素位置
        # "view_price":"5099.00"
        # "raw_title":"联想小新"
        # \d: [0-9] 在 0 至 9 上取值；
        # \.: 注意这里的点代表小数点而不是正则表达式中的匹配任意字符的点因为有转义符
        # []: 限定这里的取值只能是数字或者小数点
        # []*：* 表示前面的字符可以扩展 0 次至无数次，在本例中，扩展了 7 次
        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)  # 商品价格的正则表达式
        # .: 表示任何单个字符
        # ?：表示前面字符 0 次或 1 次扩展
        # *?: 最小匹配操作符
        tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)  # 商品名称的正则表达式
        # print(plt)
        for i in range(len(plt)):
            # eval 函数可以将字符串的最外层的双引号和单引号去掉
            price = eval(plt[i].split(':')[1])
            title = eval(tlt[i].split(':')[1])
            data.append([title, price])
        print('getdata success')
    except:
        print("getdata fail")


def printGoodsList(data, num):
    """
    利用数据结构展示并输出结果
    """
    table = pd.DataFrame()
    table = table.append(data[:num])
    list = ['商品', '价格（单位：元）']
    table.columns = list
    # 设置表格左对齐
    table = table.style.set_properties(**{'text-align': 'left'})
    table.set_table_styles(
        [dict(selector='th', props=[('text-align', 'left')])])
    return table


keyword = input('请输入爬取的商品的名字：')
# 设置翻页数
depth = 3
start_url = 'https://s.taobao.com/search?q='+keyword
infolist = []
for i in range(depth):
    try:
        # 通过翻页观察页面变化得到的规律：页数 * 44；一个页面所展示的商品刚好就是 44
        url = start_url + "&s=" + str(i*44)
        html = getHTMLText(url)
        parsepage(infolist, html)
    except:
        print('warning')
        # 如果某一个页面出现了问题，我们继续下一个页面的解析而不影响整个程序的执行
        continue
# 如果爬取数目设置的很大但是翻页数很小，最终爬取出来的项目可能达不到想要的数量
table = printGoodsList(infolist, 5)
table


访问成功
getdata success
访问成功
getdata success
访问成功
getdata success


Unnamed: 0,商品,价格（单位：元）
0,华为笔记本电脑MateBook14 轻薄便携笔记本电脑 华为轻薄本,5699.0
1,电竞本拯救者Y9000P 英特尔酷睿,9899.0
2,店长推荐HP/惠普星青春版14 锐龙笔记本电脑,3699.0
3,【店铺爆款】联想小新Air14 英特尔酷睿i5 14英寸全面屏高性能商务办公便携轻薄本学生笔记本电脑 官方旗舰店,5099.0
4,ThinkPad X1 Nano 美版P15 P17 P1X1隐士 X1CarbonG9 T15GT14P14S,10999.0


## 9. 股票数据定向爬虫
### 9.1 准备工作
- 目标：获取上交所和深交所所有股票的名称和交易信息
- 输出：保存到文件中
- 工具：requests-bs4-re

股票信息网站：
- 新浪股票：http://finance.sina.com.cn/stock/
- 选取原则：股票信息静止存在于 HTML 界面中，非 js 代码生成，Robots 协议限制
- 在新浪股票中查看源代码，发现价格并不在源代码中，很可能是 js 代码生成的，换别的网站试试。
- 中财网：http://quote.cfi.cn/stockList.aspx

可以分为三个步骤：
1. 获取股票列表 getStockList()
2. 根据股票列表获取个股信息 getStockInfo()
3. 将结果存储到文件 

### 9.2 爬虫编写

In [2]:
import requests
from bs4 import BeautifulSoup
import re
import traceback

kv = {'user-agent': 'Mozilla/5.0'}


def getHTMLText(url, code='utf-8'):
    try:
        r = requests.get(url, headers=kv, timeout=30)
        r.raise_for_status()
        # r.encoding = r.apparent_encoding
        # 直接赋值，节省时间
        r.encoding = code
        return r.text
    except:
        return ""


def getStockList(lst, stockURL):
    """
    获得股票列表
    """
    html = getHTMLText(stockURL)
    soup = BeautifulSoup(html, 'html.parser')
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(href)
            # lst.append(re.findall(r"[S][HZ]\d{6}", href)[0])
        except:
            continue


def getStockInfo(lst, stockURL, fpath):
    """
    根据股票列表到相关网站上获取股票信息并存储到文件中
    """
    count = 0
    for stock in lst:
        url = stockURL + stock
        html = getHTMLText(url)
        try:
            # 判断是否为空页面
            if html == "":
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            name = soup.find('div', attrs={'class': 'Lfont'})
            infoDict.update({'股票名称': name.text})
            price = soup.find('span', attrs={'id': 'last'})
            infoDict.update({'股票价格': price.text})
            stockInfo = soup.find('table', attrs={'id': 'quotetab_stock'})
            # 找到所有的 td 标签：股票信息，包括今开，最高之类
            list = stockInfo.find_all('td')
            for i in range(len(list)-1):
                key = list[i].text.split(':')[0]
                value = list[i].text.split(':')[1]
                infoDict[key] = value
            with open(fpath, 'a', encoding='utf-8') as f:
                f.write(str(infoDict) + '\n')
                count = count + 1
                # 黑科技：实现不换行的进度条 \r
                print('\r当前完成进度：{:.2f}%'.format(
                    count * 100 / len(lst)), end=" ")
        except:
            traceback.print_exc()
            count = count + 1
            print('\r当前完成进度：{:.2f}%'.format(count * 100 / len(lst)), end=" ")
            continue
        # 全部存取太耗时了，只演示下
        break


def main():
    stock_list_url = 'http://quote.cfi.cn/stockList.aspx'
    stock_info_url = 'https://quote.cfi.cn/'
    output_file = 'D://StockInfo.txt'
    slist = []
    getStockList(slist, stock_list_url)
    getStockInfo(slist, stock_info_url, output_file)

# 昨天还能跑，今天就不能跑了？
main()

## 10. Scrapy 爬虫框架
爬虫框架：
1. 爬虫框架是实现爬虫功能的一个软件结构和功能组件集合
2. 爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫

<img src="https://gitee.com/lockegogo/markdown_photo/raw/master/202201241447115.png" alt="image-20220124144734951" style="zoom:67%;" />

**Engine**：
- 控制所有模块之间的数据流
- 根据条件触发事件
- 不需要用户修改

**Download**：
- 根据请求下载网页
- 不需要用户修改

**Scheduler**：
- 对所有爬取请求进行调度管理
- 不需要用户修改
- 因为这三个模块不需要用户手动配置，Scrapy 添加了一个中间件 Downloader Middleware，可对这三个模块进行用户可配置的控制。
- 用户可通过编写该中间件进行修改、丢弃、新增请求或响应。

**Spider（核心）**：入口
- 解析 Downloader 返回的响应（Response）
- 产生爬取项（scrapyed item）
- 产生额外的爬取请求（Request）
- 在 spider 与 engine 之间有个 Spider Middleware，用以对请求和爬取项的再处理。
- 用户可通过编写该中间件进行修改、丢弃、新增请求或爬取项。

**Item Pipelines**：出口
- 以流水线方式处理 Spider 产生的爬取项
- 由一组操作顺序组成，类似流水线，每个操作是一个 Item Pipeline 类型
- 可能操作包括：清理、检验和查重爬取项中的 HTML 数据、将数据存储到数据库

### 10.1 常用命令
`>scrapy<command>[options][args]`
| 命令             | 说明                | 格式                                        |
| ---------------- | ------------------- | ------------------------------------------- |
| **startproject** | 创建一个新工程      | `scrapy startproject <name> [dir]`          |
| **genspider**    | 创建一个爬虫        | `scrapy genspider [options] <name><domain>` |
| settings         | 获得爬虫配置信息    | `scrapy setting [options]`                  |
| **crawl**        | 运行一个爬虫        | `scrapy crawl <spider>`                     |
| list             | 列出工程中所有爬虫  | `scrapy list`                               |
| shell            | 启动 URL 调试命令行 | `scrapy shell [url]`                        |

为啥 Scrapy 采用命令行创建和运行爬虫？

- 命令行（不是图形界面）更容易自动化，适合脚本控制
- 本质上，Scrapy 是给程序员用的，功能（不是界面）更重要

### 10.2 与 Request 库的比较
**相同点**：
- 两者都可以进行页面请求和爬取，python 爬虫的两个重要技术路线
- 两者可用性都好，文档丰富，入门简单
- 两者都没有处理 js、提交表单、应对验证码等功能（可扩展）

| Requests                 | Scrapy                     |
| ------------------------ | -------------------------- |
| 页面级爬虫               | 网站级爬虫                 |
| 功能库                   | 框架                       |
| 并发性考虑不足，性能较差 | 并发性好，性能较高         |
| 重点在于页面下载         | 重点在于爬虫结构           |
| 定制灵活                 | 一般定制灵活，深度定制困难 |
| 上手十分简单             | 入门稍难                   |

**选用哪个技术路线开发爬虫？**
- 非常小的需求，Requests 库
- 不太小的需求（想形成自己的爬取库），Scrapy 框架
- 定制程度很高的需求（不考虑规模），自搭框架，Requests > Scrapy
  

### 10.3 Scrapy 爬虫基本使用
#### 10.3.1 Scrapy 爬虫的使用步骤
1. 创建一个工程和 Spider 模板
2. 编写 Spider
3. 编写 Item Pipeline
4. 优化配置策略

#### 10.3.2 Scrapy 爬虫的数据类型
##### 10.3.2.1 Request 类
`class scrapy.http.Request()`
- Request 对象表示一个 HTTP 请求
- 由 Spider 生成，由 Downloader 生成

| 属性或方法 | 说明                                                 |
| ---------- | ---------------------------------------------------- |
| .url       | Request 对应的请求 URL 地址                          |
| .method    | 对应的请求方法，’GET’’POST’等                        |
| .headers   | 字典类型风格的请求头                                 |
| .body      | 请求内容主体，字符串类型                             |
| .meta      | 用户添加的扩展信息，在 Scrapy 内部模块间传递信息使用 |
| .copy()    | 复制该请求                                           |

##### 10.3.2.2 Response 类
`class scrapy.http.Response()`
- Response 对象表示一个 HTTP 响应
- 由 Downloader 生成，由 Spider 处理

| 属性或方法 | 说明                                  |
| ---------- | ------------------------------------- |
| .url       | Response 对应的 URL 地址              |
| .status    | HTTP 状态码，默认是 200               |
| .headers   | Response 对应的头部信息               |
| .body      | Response 对应的内容信息，字符串类型   |
| .flags     | 一组标记                              |
| .request   | 产生 Response 类型对应的 Request 对象 |
| .copy      | 复制该响应                            |

##### 10.3.2.3 Item 类
`class scrapy.item.Item()`

- Item 对象表示一个从 HTML 页面中提取的信息内容
- 由 Spider 生成，由 Item Pipeline 处理
- Item 类似字典类型，可以按照字典类型操作

#### 10.3.3 Scrapy 爬虫提取信息的方法
- Beautiful Soup
- lxml
- re
- XPath Selector
- CSS Selector： `<HTML>.css('a::attr(href)').extract()`

#### 10.3.4 yield 关键字
- 生成器是一个不断产生值的函数
- 包含 `yield` 语句的函数是一个生成器
- 生成器每次产生一个值（`yield` 语句），函数被冻结，被唤醒后再产生一个值
- 生成器相比列表（一次列出所有内容）的优势：
  - 更节省存储空间
  - 响应更迅速
  - 使用更灵活

In [26]:
%%time
def gen(n):
    """
    产生所有小于 n 的整数的平方值
    """
    for i in range(n):
        yield i**2

for i in gen(10):
    print(i,'',end='')

0 1 4 9 16 25 36 49 64 81 Wall time: 1 ms


In [16]:
%%time
def square(n):
    ls = [i**2 for i in range(n)]
    return ls

for i in square(10):
    print(i,'',end='')

0 1 4 9 16 25 36 49 64 81 Wall time: 0 ns


### 10.4 Scrapy 爬虫实例
#### 10.4.1 建立一个 Scrapy 爬虫工程
1. 在 cmd 或者 pycharm 中输入 `scrapy startproject python123demo`
2. 以 `python123demo` 定义一个工程目录名称，并会自动生成一系列文件

**生成的工程目录**:

<img src="https://gitee.com/lockegogo/markdown_photo/raw/master/202201241639437.png" alt="image-20220124163942392" style="zoom:80%;" />

#### 10.4.2 在工程中产生一个 Scrapy 爬虫
在 `python123demo` 目录下输入命令 `scrapy genspider demo python123.io` 在 spider 目录下自动生成 `demo.py`（也可手动）


In [None]:
import scrapy

class DemoSpider(scrapy.Spider):
    name = 'demo'
    allowed_domains = ['python123.io']	#用户提交给命令行的域名
    start_urls = ['http://python123.io/']	#所爬取的初始页面

    def parse(self, response):
        """
        处理响应，解析内容形成字典，发现新的 URL 爬取请求。
        """
        pass

#### 10.4.3 配置产生的 spider 爬虫

In [None]:
import scrapy

class DemoSpider(scrapy.Spider):
    name = "demo"
    #allowed_domains = ['python123.io']
    start_urls = ['http://python123.io/ws/demo.html']

    def parse(self, response):
        """
        self 是面向对象类所属关系的标记
        response 是从网页内容所存储或对应的对象
        """
        fname = response.url.split('/')[-1]
        with open(fname, 'wb')  as f:
            f.write(response.body)
        self.log('Save file %s.' % name)

#### 10.4.5 运行爬虫，获取网页
在 `python123demo` 目录下输入命令 `scrapy crawl demo`，可以看到页面文件被存储到 `python123demo` 目录下

### 10.5 股票数据 Scrapy 爬虫实例
与之前的 requests 库爬虫一样的实例，这次换 scrapy 框架实现。
#### 10.5.1 建立工程和 Spider 模板
- `>scrapy startproject scrapyStock`
- `>cd scrapyStock`
- `>scrapy genspider stocks baidu.com`
- 进一步修改 `spiders/stocks.py` 文件

#### 10.5.2 编写 Spider
- 配置 stocks.py 文件
- 修改对返回页面的处理
- 修改对新增 URL 爬取请求的处理

In [None]:
import scrapy
import re

class StocksSpider(scrapy.Spider):
    name = 'stocks'
    start_urls = ['http://quote.eastmoney.com/stock_list.html']

    def parse(self, response):
        for href in response.css('a::attr(href)').extract():
            try:
                stock = re.findall(r"[s][hz]\d{6}", href)[0]
                # e.g. https://gu.qq.com/sh603102/gp
                url = 'http://gu.qq.com/' + stock + '/gp'
                # 重新提交 URL
                yield scrapy.Request(url, callback=self.parse_stock)
            except:
                continue

    def parse_stock(self, response):
        infoDict = {}
        # 找到属性为 title_bg 的区域
        stockName = response.css('.title_bg')
        stockInfo = response.css('.col-2.fr')
        # 然后在这一个区域中进一步检索 col-1-1 并且把相关的字符串提取出来
        # e.g. N 百合
        name = stockName.css('.col-1-1').extract()[0]
        # e.g. 603102.SH
        code = stockName.css('.col-1-2').extract()[0]
        # 进一步搜索名称为 li 的标签
        # 注意搜索属性前面有 ., 而搜索名称没有
        info = stockInfo.css('li').extract()
        for i in info[:13]:
            key = re.findall('>.*?<', i)[1][1:-1]
            key = key.replace('\u2003', '')
            key = key.replace('\xa0', '')
            try:
                val = re.findall('>.*?<', i)[3][1:-1]
            except:
                val = '--'
            infoDict[key] = val
        # 注意 update 和直接赋值都能达到改变字典的目的
        # 但是 update 的实现方式是遍历字典赋值，性能比直接赋值要低
        # 只有在设计两个字典合并的操作，使用 dict1.update(dict2)
        infoDict.update({' 股票名称': re.findall('\>.*\<', name)[0][1:-1] + \
                                 re.findall('\>.*\<', code)[0][1:-1]})
        yield infoDict


#### 10.5.3 编写 Pipeline
- 配置 pipelines.py 文件
- 定义对爬取项（Scrapy Item）的处理类: 将爬取数据存储到文件中
- 配置 ITEM_PIPELINES 选项

In [None]:
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
from itemadapter import ItemAdapter

class ScrapystockPipeline:
    def process_item(self, item, spider):
        return item

class ScrapystockPipeline:
    def open_spider(self, spider):
        self.f = open('stock.txt', 'w')

    def close_spider(self, spider):
        self.f.close()

    def process_item(self, item, spider):
        try:
            line = str(dict(item)) + '\n'
            self.f.write(line)
        except:
            pass
        return item

- settings 配置：

In [None]:
# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    'scrapyStock.pipelines.ScrapystockPipeline': 300,
}

In [None]:
# 最后执行程序
scrapy crwal stocks

##### 10.5.4 Sarapy 爬虫实例优化
配置并发连接选项（settings.py）：

| 选项                           | 说明                                              |
| ------------------------------ | ------------------------------------------------- |
| CONCURRENT_REQUESTS            | Downloader 最大并发请求下载数量，默认 32          |
| CONCURRENT_ITEMS               | Item Pipeline 最大并发 ITEM 处理数量，默认 100    |
| CONCURRENT_REQUESTS_PER_DOMAIN | 每个目标域名最大的并发请求数量，默认 8            |
| CONCURRENT_REQUESTS_PER_IP     | 每个目标 IP 最大的并发请求数量，默认 0，非 0 有效 |

可修改参数以增加或降低爬取速度。