# 搜索文档树

Beutiful Soup定义了很多搜索方法，这里着重介绍2个:find()和find_all()

In [1]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>

<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'lxml')

## 过滤器的类型（filter）

### 字符串

最简单的过滤器是字符串，会查找与字符串完整匹配的内容

In [2]:
soup.find_all('b')

[<b>The Dormouse's story</b>]

如果传入字节码参数，BeautifulSoup会当作UTF-8编码，可以传入一段Unicode编码来避免BeautifulSoup解析编码出错

### 正则表达式

传入正则表达式作为参数，BeautifulSoup会通过正则表达式的match()来匹配内容。下面例子找出了所有以b开头的标签

In [3]:
import re
for tag in soup.find_all(re.compile(r"^b")):
    print(tag.name)

body
b


找出所有名字中包含t的标签

In [4]:
for tag in soup.find_all(re.compile(r"t")):
    print(tag.name)

html
title


### 列表

如果传入列表参数，BeautifulSoup会将与列表中任一元素匹配的内容返回

下面代码找到文档中所有的```<a>```标签和```<b>```标签

In [5]:
soup.find_all(["a", "b"])

[<b>The Dormouse's story</b>,
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

### True

True可以匹配任何值，下面代码查找到所有的tag，但不会返回任何字符串节点

In [6]:
for tag in soup.find_all(True):
    print(tag.name)

html
head
title
body
p
b
p
a
a
a
p


### 方法

还可以传入一个自己定义的方法，方法只接受一个元素参数，如果这个方法返回True表示当前元素匹配并且被找到如果不是则返回False

In [7]:
def has_class_but_not_id(tag):
    return tag.has_attr("class") and not tag.has_attr("id")

In [8]:
soup.find_all(has_class_but_not_id)

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

下面代码找到找到所有被文字包含的节点内容

In [9]:
from bs4 import NavigableString
def surrounded_by_strings(tag):
    return (isinstance(tag.next_element, NavigableString) and isinstance(tag.previous_element, NavigableString))

In [10]:
for tag in soup.find_all(surrounded_by_strings):
    print(tag.name)

p
a
a
a
p


## find_all()

find_all( name , attrs , recursive , text , **kwargs )

find_all()方法搜索当前tag的所有子节点，并判断是否符合过滤器的条件

In [11]:
soup.find_all("title")

[<title>The Dormouse's story</title>]

In [12]:
soup.find_all("p", "title")

[<p class="title"><b>The Dormouse's story</b></p>]

In [13]:
soup.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [14]:
soup.find_all(id="link2")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

In [15]:
import re
soup.find(text=re.compile('sisters'))

'Once upon a time there were three little sisters; and their names were\n'

### name参数

name参数可以查找所有名字为name的tag,字符串对象会被自动忽略掉

In [16]:
soup.find_all("title")

[<title>The Dormouse's story</title>]

**搜索name参数的值可以是任何一个类型的过滤器，字符串，正则表达式，列表，方法或True**

### keyword参数

搜索时会把该参数当作指定名字的tag的属性来搜索，如果包含一个名字为id的参数，BeautifulSoup会搜索每个tag的"id"属性

In [17]:
soup.find_all(id="link2")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

如果传入href参数，会搜索每个tag的href属性

In [18]:
soup.find_all(href=re.compile("elsie"))

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

搜索指定名字的属性时可以使用的参数值包括字符串，正则表达式，列表，True

查找所有包含id属性的tag，无论id的值是什么

In [19]:
soup.find_all(id=True)

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

使用多个指定名字的参数可以同时过滤tag的多个属性

In [20]:
soup.find_all(href=re.compile("elsie"), id="link1")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

有些tag属性在搜索时不能使用，比如HTML5中的data-*属性

In [21]:
data_soup = BeautifulSoup("<div data-foo='value'>foo！</div>", 'lxml')

In [23]:
data_soup.find_all(data-foo='value')

SyntaxError: keyword can't be an expression (<ipython-input-23-cb7f77bd5a5e>, line 1)

但是可以通过find_all()方法的attrs参数定义一个字典参数来搜索包含特殊属性的tag

In [24]:
data_soup.find_all(attrs={"data-foo":"value"})

[<div data-foo="value">foo！</div>]

### 按CSS搜索

按照CSS类名搜索tag的功能非常实用，但标识CSS类名的关键字class在python中时保留字，使用class做参数会导致语法错误

**但是可以使用```class_```参数搜索有指定CSS类名的tag**

In [25]:
soup.find_all("a", class_="sister")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

**```class_```参数同样接受不同类型的过滤器、字符串、正则表达式、方法或True**

In [26]:
soup.find_all(class_=re.compile("itl"))

[<p class="title"><b>The Dormouse's story</b></p>]

In [27]:
def has_six_characters(css_class):
    return css_class is not None and len(css_class) == 6

In [28]:
soup.find_all(class_=has_six_characters)

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

tag的class属性时多值属性时，按照CSS类名搜索tag时，可以分别搜索tag中的每个CSS类名

In [38]:
css_soup = BeautifulSoup('<p class="body strikeout"></p>', 'lxml')
css_soup.find_all("p", class_="strikeout")

[<p class="body strikeout"></p>]

In [39]:
css_soup.find_all("p", class_="body")

[<p class="body strikeout"></p>]

搜索class属性时也可以通过CSS值完全匹配

In [42]:
css_soup.find_all("p", class_="body strikeout")

[<p class="body strikeout"></p>]

完全匹配时如果顺序不一样也搜索不到结果

In [43]:
css_soup.find_all("p", class_="strikeout body")

[]

### text参数

通过text参数可以搜索文档中的字符串内容，与name参数的可选值一样，text参数接受字符串、正则表达式、列表、True

In [44]:
soup.find_all(text="Elsie")

['Elsie']

In [45]:
soup.find_all(text=["Tillie", "Elsie", "Lacie"])

['Elsie', 'Lacie', 'Tillie']

In [46]:
soup.find_all(text=re.compile("Dormouse"))

["The Dormouse's story", "The Dormouse's story"]

In [49]:
def is_the_only_string_within_a_tag(s):
    return (s == s.parent.string)

In [50]:
soup.find_all(text=is_the_only_string_within_a_tag)

["The Dormouse's story",
 "The Dormouse's story",
 'Elsie',
 'Lacie',
 'Tillie',
 '...']

虽然text参数用于搜索字符串，还可以与其他参数混合使用来过滤tag。下面代码用来搜索内容里面包含"Elsie"的```<a>```标签

In [51]:
soup.find_all("a", text="Elsie")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

### limit参数

当搜索到的结果数量到达limit的限制时，就停止搜索返回结果

In [52]:
soup.find_all("a")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [53]:
soup.find_all("a", limit=2)

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

### recursive参数 

调用tag的find_all()方法时，BeautifulSoup会检索当前tag的所有子孙节点，如果只想搜索tag的直接子节点，可以使用参数recursive=False

### 像调用find_all()一样调用tag，即把tag当作一个函数名，直接在后面加括号表示调用find_all()

find_all()对象几乎是BeautifulSoup中最常用的搜索方法，所以定义了它的简写方法

BeautifulSoup对象和tag对象可以被当作一个方法来使用，这个方法的执行结果与调用这个对象的find_all()方法相同

下面的代码等价

In [54]:
soup.find_all("a")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [55]:
soup("a")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

下面两行代码也等价

In [56]:
soup.title.find_all(text=True)

["The Dormouse's story"]

In [57]:
soup.title(text=True)

["The Dormouse's story"]

## find()函数

find(name, attrs, recursive,text,**kwargs)

find_all()方法将返回文档中符合条件的所有tag，尽管有时候我们只想得到一个结果，比如文档中只有一个```<body>```标签 ，那么使用find_all方法来寻找就不太合适，使用find_all()方法并设置limit=1参数不如直接使用find()方法，下面两行代码等价

In [58]:
soup.find_all('title', limit=1)

[<title>The Dormouse's story</title>]

In [59]:
soup.find('title')

<title>The Dormouse's story</title>

**唯一的区别是find_all()方法的返回结果是只包含一个元素的列表，而find()方法直接返回结果**

find_all()方法没有找到目标时返回空列表，find()方法找不到目标时返回None

find()的简写就是.加名字，soup.head.title是tag的名字方法的简写，这个简写的原理就是多次调用当前tag的find()方法

In [60]:
soup.head.title

<title>The Dormouse's story</title>

In [61]:
soup.find('head').find("title")

<title>The Dormouse's story</title>

## find_parents()和find_parent()

find_parents( name , attrs , recursive , text , **kwargs )
find_parent( name , attrs , recursive , text , **kwargs )

与find_all和find方法不同仅仅是它们搜索文档的不同部分

find_all和find只搜索当前节点的所有子节点，孙子节点等，find_parents和find_parent用来搜索当前节点的父辈节点，搜索方法与普通tag的搜索方法相同。

In [76]:
a_string = soup.find(text="Tillie")
a_string

'Tillie'

In [77]:
a_string.find_parents("a")

[<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [78]:
a_string.find_parent("a")

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [79]:
a_string.find_parents("p")

[<p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>]

**间接父辈节点也会被查找**

find_parent() 和 find_parents() 方法会让人联想到 .parent 和 .parents 属性.它们之间的联系非常紧密.搜索父辈节点的方法实际上就是对 .parents 属性的迭代搜索.

## find_next_siblings()和find_next_sibling()

find_next_siblings(name, attrs, recursive, text, **kwargs)
find_next_sibling(name, attrs, recursive, text, **kwargs)

这两个方法通过.next_siblings属性对当前tag的所有后面解析的兄弟tag节点进行迭代，find_next_siblings()方法返回所有符合条件的后面的兄弟节点，find_next_sibling()只返回符合条件的后面的第一个tag节点

In [81]:
first_link = soup.a
first_link

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [82]:
first_link.find_next_siblings("a")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [84]:
first_link.find_next_sibling("a")

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

In [88]:
first_story_paragraph = soup.find("p", "story")
first_story_paragraph.find_next_sibling("p")

<p class="story">...</p>

## find_previous_siblings()和find_previous_sibling()

这两个方法通过.previous_siblings属性对当前tag前面解析的兄弟tag节点进行迭代，find_previous_siblings()方法返回所有符合条件的前面的兄弟节点，find_previous_sibling()方法返回第一个符合条件的前面的兄弟节点

In [95]:
last_link = soup.find('a', id="link3")
last_link

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [96]:
last_link.find_previous_sibling("a")

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

In [97]:
last_link.find_previous_siblings("a")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

In [98]:
first_story_paragraph = soup.find("p", "story")
first_story_paragraph.find_previous_sibling("p")

<p class="title"><b>The Dormouse's story</b></p>

## find_all_next()和find_next()

这两个方法通过.next_elements属性对当前tag的之后的tag和字符串进行迭代

find_all_next()方法返回所有符合条件的节点，find_next()方法返回第一个符合条件的节点

In [100]:
first_link = soup.a
first_link

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [101]:
first_link.find_all_next(text=True)

['Elsie',
 ',\n',
 'Lacie',
 ' and\n',
 'Tillie',
 ';\nand they lived at the bottom of a well.',
 '\n',
 '...',
 '\n']

**此处的Elsie要特别注意，尽管它被包含在我们开始查找的```<a>```标签的里面，但根据解析的顺序还是会被找出来**

In [103]:
first_link.find_next("p")

<p class="story">...</p>

**查找出来的```<p>```标签也被显示出来，尽管与我们开始查找的a标签不属于同一部分中**

## find_all_previous()和find_previous()

这两个方法通过.previous_elements属性对当前节点前面的tag和字符串进行迭代

find_all_previous()返回所有符合条件的节点，find_previous()返回第一个符合条件的节点

In [104]:
first_link = soup.a
first_link

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [105]:
first_link.find_all_previous("p")

[<p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="title"><b>The Dormouse's story</b></p>]

In [106]:
first_link.find_previous("title")

<title>The Dormouse's story</title>

## CSS选择器

目前不了解CSS的选择器