#### 基于bs4的html内容遍历方法

![](spider02.jpg)



**下行遍历**
+ .contents：返回子节点标签的列表
+ .children：返回子节点标签的迭代类型，与.contents类似，仅用于循环遍历
+ .descendants：返回包含所有子孙节点标签的迭代类型，仅用于循环遍历

In [None]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(open('html.html','r',encoding='utf-8'), 'lxml')
type(soup.body.contents)
# print(soup.body.contents)

In [None]:
type(soup.body.children)
for child in soup.body.children:
    print(child)

In [None]:
type(soup.body.descendants)

**上行遍历**
+ .parent：返回当前节点的父节点标签
+ .parents：返回当前节点所有先辈节点标签的迭代类型，仅用于循环遍历

In [None]:
soup.a.parent

In [None]:
soup.a.parents

**平行遍历**
+ .next_sibling：返回按照HTML文本顺序的下一个平行节点标签
+ .previous_sibling：返回按照HTML文本顺序的上一个平行节点标签
+ .next_siblings：迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
+ .previous_siblings：迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

**提取多个节点内容**

对于单个节点的内容可以利用 .string 或 .text 来获得，如果想获得多个内容

In [None]:
soup.ul.text

In [None]:
for t in soup.ul.strings:
    # repr() 函数将对象转化为供解释器读取的形式
    print(repr(t))
#     print(type(t))

In [None]:
for t in soup.ul.stripped_strings:
    print(repr(t))

**Exercise:**
- 请大家练习使用平行遍历方法提取html页面的文本信息。

#### 信息提取的方法

一：完整解析信息的标记形式，再提取关键信息
- 需要标记解析器，例如：bs4库的标签树遍历
- 优点：信息解析准确
- 缺点：提取过程繁琐，速度慢

二：无视标记形式，直接搜索关键信息
- 对信息的文本查找函数即可
- 优点：提取过程简洁，速度较快
- 缺点：提取结果准确性与信息内容相关

#### 基于bs4的html内容查找方法

`<>.find_all(name, attrs, recursive, string, **kwargs)`

`返回一个列表类型，存储查找的结果`
- name: 对标签名称的检索字符串
- attrs: 对标签属性值的检索字符串，可标注属性检索
- recursive: 是否对子孙节点全部检索，默认True，若设为False则仅检索子节点
- string: <>…</>中字符串区域的检索字符串

**检索标签名称**

A. 传入字符串

In [None]:
soup.find_all('a')

In [None]:
soup.find_all(['a','p'])

In [None]:
for tag in soup.find_all(True):
    print(tag.name)

B. 传入正则表达式

如果传入正则表达式作为参数，Beautiful Soup 会通过正则表达式的 match () 来匹配内容。

In [None]:
import re
for tag in soup.find_all(re.compile('t')):
    print(tag.name)

#### 正则表达式(regular expression, regex, RE)

特点：
- 正则表达式是用来简洁表达一组字符串的表达式
- 正则表达式是一种通用的字符串表达框架
- 正则表达式可以用来判断某字符串的特征归属

作用：正则表达式在文本处理中十分常用
- 表达文本类型的特征
- 查找或替换一组字符串
- 匹配字符串的全部或部分

**正则表达式的常用操作符**
```
.    匹配除换行符以外的任意字符
[  ] 字符集，对单个字符给出取值范围
[^ ] 非字符集，对单个字符给出排除范围
^    匹配字符串开头
$    匹配字符串结尾
\d   匹配数字，等价于[0‐9]
\w   匹配字母或数字或下划线单，等价于[A‐Za‐z0‐9_]

```
#### re库的使用

Re库是Python的标准库，主要用于字符串匹配，调用方式：import re

`regex = re.compile(pattern, flags=0)`

`将正则表达式的字符串形式编译成正则表达式对象`
- pattern : 正则表达式的字符串或原生字符串表示
- flags : 正则表达式使用时的控制标记

**检索标签属性和标签内容**

In [None]:
soup.find_all('a','href')

In [None]:
soup.find_all(target='_blank')

In [None]:
soup.find_all(href=re.compile("2020-11-19"))

In [None]:
soup.find_all(href=re.compile("page"))

In [None]:
soup.find_all(string=[re.compile("利好"), re.compile("新高"), re.compile("扩大")])

limit 参数：find_all () 方法返回全部的搜索结构，如果文档树很大那么搜索会很慢。如果我们不需要全部结果，可以使用 limit 参数限制返回结果的数量。

In [None]:
soup.find_all(text=[re.compile("利好"), re.compile("新高"), re.compile("扩大")], limit = 5)

#### find_all的扩展方法

- <>.find()：搜索且只返回一个结果
- <>.find_parents()：在先辈节点中搜索，返回列表类型
- <>.find_parent()：在先辈节点中返回一个结果
- <>.find_next_siblings()：在后续平行节点中搜索，返回列表类型
- <>.find_next_sibling()：在后续平行节点中返回一个结果
- <>.find_previous_siblings()：在前序平行节点中搜索，返回列表类型
- <>.find_previous_sibling()：在前序平行节点中返回一个结果

区别：检索区域和返回结果格式不同

具体请参阅文档 https://beautifulsoup.readthedocs.io/zh_CN/latest/

**Exercise:**

请大家将上述正则表达式与find_all的扩展方法进行排列组合并灵活掌握和熟练运用。例如：

尝试在平行（先辈）节点中搜索以特定方式开头（结尾）的标签（属性）内容。

#### 试试在线爬虫

In [None]:
import requests
from bs4 import  BeautifulSoup
import re

# 使用一个网易的数据页面
url="http://quotes.money.163.com/data/caibao/yjgl_ALL.html?reportdate=20200930&sort=publishdate&order=desc&page=0"

def request_url(url):
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36'
    headers = {'User-Agent': user_agent} 
    
    res = requests.get(url,headers=headers)
    res.encoding = 'utf-8'
    return res.text

In [None]:
soup = BeautifulSoup(request_url(url), 'html.parser')
# print(soup.prettify())
content = soup.find('table',class_='fn_cm_table')
tmp =[i.text for i in content.find_all('a')]
# print(tmp)
code, names = tmp[0::3], tmp[1::3]
names

In [None]:
names = soup.find_all('a', href = re.compile('#11a01'))
[n.text for n in names][1::2]

In [None]:
#### 新浪财经新闻

url = 'https://finance.sina.com.cn/roll/index.d.html?cid=56588&page=1'
soup = BeautifulSoup(request_url(url), 'lxml')
# print(soup.prettify())

#### 因为class是python的保留关键字，若要匹配标签内class的属性，需要特殊的方法，有以下两种：
#### 1. BeautifulSoup自带的特别关键字class_
#### 2. 在attrs属性用字典的方式进行参数传递

# [a['href'] for a in soup.find_all('a', class_ = 'sinatail')]
[a.text for a in soup.find_all('a', attrs = {'class': 'sinatail'})]

**Exercise:**

注意URL中的关键词 page=1，请通过改变URL来实现自动翻页爬取多条信息

**Homework**

基于上述实例，尝试从东方财富网爬取股票的行情数据并存入本地数据库中。