# Beautiful Soup 4.4.0 文档
## 快速开始

In [1]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lace" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup)


<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lace" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>


BeautifulSoup() 会自动修正 HTML 文档中的格式。(如上面的输出显示 BeautifulSoup() 自动为 HTML 文档添加了 \<body\> 和 \<html\> 的关闭标签)

In [2]:
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lace" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [3]:
soup.title

<title>The Dormouse's story</title>

In [4]:
soup.title.name

'title'

In [5]:
soup.title.string

"The Dormouse's story"

In [6]:
soup.title.parent.name

'head'

In [7]:
soup.p

<p class="title"><b>The Dormouse's story</b></p>

In [8]:
soup.p['class']

['title']

In [9]:
soup.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [10]:
soup.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lace" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [11]:
soup.find(id='link3')

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

从文档中找到所有\<a\>标签的链接：

In [12]:
for link in soup.find_all('a'):
    print(link.get('href'))

http://example.com/elsie
http://example.com/lace
http://example.com/tillie


从文档中获取所有文字内容：

In [13]:
print(soup.get_text())


The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



### 如何使用

In [14]:
soup = BeautifulSoup("<html>data</html>")

In [15]:
soup = BeautifulSoup(open("index.html"))

首先，将文档转换为 Unicode，将 HTML 字符实体转换为 Unicode 字符：

In [16]:
BeautifulSoup("Sacr&eacute; bleu!")

<html><body><p>Sacré bleu!</p></body></html>

然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档.

### 对象的种类  

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: `Tag` , `NavigableString` , `BeautifulSoup` , `Comment` .

#### Tag

In [17]:
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b
type(tag)

bs4.element.Tag

**Name**

In [18]:
tag.name

'b'

In [19]:
tag.name = "blockquote"
tag

<blockquote class="boldest">Extremely bold</blockquote>

**Attributes**

tag 的属性的操作方法与字典相同：

In [21]:
tag['class']

['boldest']

In [22]:
tag.attrs

{'class': ['boldest']}

In [23]:
tag['class'] = 'verybold'
tag['id'] = 1
tag

<blockquote class="verybold" id="1">Extremely bold</blockquote>

In [24]:
del tag['class']
del tag['id']
tag

<blockquote>Extremely bold</blockquote>

In [25]:
tag['class']

KeyError: 'class'

In [26]:
print(tag.get('class'))

None


**多值属性**  
在Beautiful Soup中多值属性的返回类型是list:  
在 css 中 class 属性可以有多个值，属于多值属性

In [27]:
css_soup = BeautifulSoup('<p class="body strikeout"></p>')
css_soup.p['class']

['body', 'strikeout']

In [28]:
css_soup = BeautifulSoup('<p class="body"></p>')
css_soup.p['class']

['body']

如果某个属性看起来好像有多个值,但在任何版本的HTML定义中都没有被定义为多值属性,那么Beautiful Soup会将这个属性作为字符串返回

In [29]:
id_soup = BeautifulSoup('<p id="my id"></p>')
id_soup.p['id']

'my id'

In [30]:
rel_soup = BeautifulSoup('<p>Back to the <a rel="index">homepage</a></p>')
rel_soup.a['rel']

['index']

In [31]:
rel_soup.a['rel'] = ['index', 'contents']
print(rel_soup.p)

<p>Back to the <a rel="index contents">homepage</a></p>


如果转换的文档是XML格式,那么tag中不包含多值属性

In [32]:
xml_soup = BeautifulSoup('<p class="body strikeout"></p>', 'xml')
xml_soup.p['class']

'body strikeout'

### 可以遍历的字符串

In [33]:
tag.string

'Extremely bold'

In [34]:
type(tag.string)

bs4.element.NavigableString

一个 `NavigableString` 字符串与Python中的Unicode字符串相同,并且还支持包含在 遍历文档树 和 搜索文档树 中的一些特性. 通过 `str()` 方法可以直接将 `NavigableString` 对象转换成Unicode字符串:

In [36]:
unicode_string = str(tag.string)
unicode_string

'Extremely bold'

In [37]:
type(unicode_string)

str

In [38]:
tag.string.replace_with("No longer bold")
tag

<blockquote>No longer bold</blockquote>

### BeautifulSoup

`BeautifulSoup` 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 `Tag` 对象,它支持 遍历文档树 和 搜索文档树 中描述的大部分的方法.  

因为 `BeautifulSoup` 对象并不是真正的HTML或XML的tag,所以它没有name和attribute属性.但有时查看它的 `.name` 属性是很方便的,所以 `BeautifulSoup` 对象包含了一个值为 “\[document\]” 的特殊属性 `.name`

In [39]:
soup.name

'[document]'

### 注释及特殊字符串

`Tag` , `NavigableString` , `BeautifulSoup` 几乎覆盖了html和xml中的所有内容,但是还有一些特殊对象.容易让人担心的内容是文档的注释部分:

In [40]:
markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(markup)
comment = soup.b.string
type(comment)

bs4.element.Comment

`Comment` 对象是一个特殊类型的 `NavigableString` 对象:

In [41]:
comment

'Hey, buddy. Want to buy a used parser?'

In [42]:
print(soup.b.prettify())

<b>
 <!--Hey, buddy. Want to buy a used parser?-->
</b>


In [43]:
from bs4 import CData
cdata = CData("A CDATA block")
comment.replace_with(cdata)
print(soup.b.prettify())

<b>
 <![CDATA[A CDATA block]]>
</b>


### 遍历文档树

In [44]:
soup = BeautifulSoup(html_doc, 'html.parser')

**子节点**  
一个Tag可能包含多个字符串或其它的Tag,这些都是这个Tag的子节点.Beautiful Soup提供了许多操作和遍历子节点的属性.

**注意:** Beautiful Soup中字符串节点不支持这些属性,因为字符串没有子节点

**tag的名字**  
操作文档树最简单的方法就是告诉它你想获取的tag的name.如果想获取 \<head> 标签,只要用 `soup.head` :

In [45]:
soup.head

<head><title>The Dormouse's story</title></head>

In [46]:
soup.title

<title>The Dormouse's story</title>

这是个获取tag的小窍门,可以在文档树的tag中多次调用这个方法.下面的代码可以获取\<body>标签中的第一个\<b>标签:

In [47]:
soup.body.b

<b>The Dormouse's story</b>

通过点取属性的方式只能获得当前名字的第一个tag:

In [48]:
soup.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

如果想要得到所有的\<a>标签,或是通过名字得到比一个tag更多的内容的时候,就需要用到 *Searching the tree* 中描述的方法,比如: find_all()

In [49]:
soup.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lace" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

**.contents 和 .children**  
tag的 `.contents` 属性可以将tag的子节点以列表的方式输出:

In [50]:
head_tag = soup.head
head_tag

<head><title>The Dormouse's story</title></head>

In [51]:
head_tag.contents

[<title>The Dormouse's story</title>]

In [52]:
title_tag = head_tag.contents[0]
title_tag

<title>The Dormouse's story</title>

In [53]:
title_tag.contents

["The Dormouse's story"]

`BeautifulSoup` 对象本身一定会包含子节点,也就是说\<html>标签也是 `BeautifulSoup` 对象的子节点:

In [54]:
len(soup.contents)

2

In [55]:
soup.contents

['\n',
 <html><head><title>The Dormouse's story</title></head>
 <body>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lace" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>
 <p class="story">...</p>
 </body></html>]

In [56]:
soup.contents[0].name

In [57]:
soup.contents[1].name

'html'

字符串没有 `.contents` 属性,因为字符串没有子节点:

In [58]:
text = title_tag.contents[0]
text

"The Dormouse's story"

In [59]:
text.contents

AttributeError: 'NavigableString' object has no attribute 'contents'

通过tag的 `.children` 生成器,可以对tag的子节点进行循环:

In [60]:
for child in title_tag.children:
    print(child)

The Dormouse's story


**.descendants**

`.contents` 和 `.children` 属性仅包含tag的直接子节点.例如,\<head>标签只有一个直接子节点\<title>

In [61]:
head_tag.contents

[<title>The Dormouse's story</title>]

但是\<title>标签也包含一个子节点:字符串 “The Dormouse’s story”,这种情况下字符串 “The Dormouse’s story”也属于\<head>标签的子孙节点. `.descendants` 属性可以对所有tag的子孙节点进行递归循环:

In [62]:
for child in head_tag.descendants:
    print(child)

<title>The Dormouse's story</title>
The Dormouse's story


上面的例子中, \<head>标签只有一个子节点,但是有2个子孙节点:\<title>节点和\<title>的子节点, BeautifulSoup 只有一个直接子节点(\<html>节点),却有很多子孙节点:

In [65]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lace" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
soup = BeautifulSoup(html_doc, "html.parser")

In [66]:
len(list(soup.children))

1

In [67]:
len(list(soup.descendants))

26

**.string**

如果tag只有一个 `NavigableString` 类型子节点,那么这个tag可以使用 `.string` 得到子节点:

In [69]:
title_tag.string

"The Dormouse's story"

如果一个tag的唯一子节点是另一个tag，并且*该*tag具有 `.string`，那么父tag被认为具有与子节点相同的`.string`：

In [70]:
head_tag.contents

[<title>The Dormouse's story</title>]

In [71]:
head_tag.string

"The Dormouse's story"

In [72]:
title_tag.string

"The Dormouse's story"

如果tag包含了多个子节点,tag就无法确定 `.string` 方法应该调用哪个子节点的内容, `.string` 的输出结果是 `None` :

In [73]:
print(soup.html.string)

None


**.strings 和 stripped_strings**

如果tag中包含多个字符串,可以使用 `.strings` 来循环获取:

In [74]:
for string in soup.strings:
    print(string)

The Dormouse's story




The Dormouse's story


Once upon a time there were three little sisters; and their names were

Elsie
,

Lacie
 and

Tillie
;
and they lived at the bottom of a well.


...




In [75]:
for string in soup.strings:
    print(repr(string))

"The Dormouse's story"
'\n'
'\n'
"The Dormouse's story"
'\n'
'Once upon a time there were three little sisters; and their names were\n'
'Elsie'
',\n'
'Lacie'
' and\n'
'Tillie'
';\nand they lived at the bottom of a well.'
'\n'
'...'
'\n'


输出的字符串中可能包含了很多空格或空行,使用 `.stripped_strings` 可以去除多余空白内容:

In [76]:
for string in soup.stripped_strings:
    print(repr(string))

"The Dormouse's story"
"The Dormouse's story"
'Once upon a time there were three little sisters; and their names were'
'Elsie'
','
'Lacie'
'and'
'Tillie'
';\nand they lived at the bottom of a well.'
'...'


In [77]:
for string in soup.stripped_strings:
    print(string)

The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie
,
Lacie
and
Tillie
;
and they lived at the bottom of a well.
...


全部是空格的行会被忽略掉,段首和段末的空白会被删除

#### 父节点  
继续分析文档树,每个tag或字符串都有父节点:被包含在某个tag中

**.parent**  
通过 `.parent` 属性来获取某个元素的父节点.在例子“爱丽丝”的文档中,\<head>标签是\<title>标签的父节点:

In [78]:
title_tag = soup.title
title_tag

<title>The Dormouse's story</title>

In [79]:
title_tag.parent

<head><title>The Dormouse's story</title></head>

文档title的字符串也有父节点:\<title>标签

In [80]:
title_tag.string.parent

<title>The Dormouse's story</title>

文档的顶层节点比如\<html>的父节点是 `BeautifulSoup` 对象:

In [83]:
html_tag = soup.html
type(html_tag.parent)

bs4.BeautifulSoup

`BeautifulSoup` 对象的 `.parent` 是None:

In [84]:
print(soup.parent)

None


**.parents**  
通过元素的 `.parents` 属性可以递归得到元素的所有父辈节点，此示例使用 `.parents` 从隐藏在文档深处的 \<a> 标记移动到文档的最顶部：

In [85]:
link = soup.a
link

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [86]:
for parent in link.parents:
    print(parent.name)

p
body
html
[document]


#### 兄弟节点

In [87]:
sibling_soup = BeautifulSoup("<a><b>text1</b><c>text2</c></a>", 'html.parser')
print(sibling_soup.prettify())

<a>
 <b>
  text1
 </b>
 <c>
  text2
 </c>
</a>


因为\<b>标签和\<c>标签是同一层:他们是同一个元素的子节点,所以\<b>和\<c>可以被称为兄弟节点.一段文档以标准格式输出时,兄弟节点有相同的缩进级别.在代码中也可以使用这种关系.

**.next_sibling 和 .previous_sibling**  
在文档树中,使用 `.next_sibling` 和 `.previous_sibling` 属性来查询兄弟节点:

In [88]:
sibling_soup.b.next_sibling

<c>text2</c>

In [89]:
sibling_soup.c.previous_sibling

<b>text1</b>

\<b>标签有 `.next_sibling` 属性,但是没有 `.previous_sibling` 属性,因为\<b>标签在同级节点中是第一个.同理,\<c>标签有 `.previous_sibling` 属性,却没有 `.next_sibling` 属性:

In [90]:
print(sibling_soup.b.previous_sibling)

None


In [91]:
print(sibling_soup.c.next_sibling)

None


例子中的字符串“text1”和“text2”不是兄弟节点,因为它们的父节点不同:

In [92]:
sibling_soup.b.string

'text1'

In [93]:
print(sibling_soup.b.string.next_sibling)

None


在实际文档中，tag的 `.next_sibling` 和 `.previous_sibling` 属性通常是字符串或空白. 看看“爱丽丝”文档:

\<a href="http://example.com/elsie" class="sister" id="link1">Elsie\</a>,  
\<a href="http://example.com/lace" class="sister" id="link2">Lacie\</a> and  
\<a href="http://example.com/tillie" class="sister" id="link3">Tillie\</a>;  

如果你以为第一个\<a>标签的 `.next_sibling` 结果是第二个\<a>标签,那就错了,真实结果是第一个\<a>标签和第二个\<a>标签之间的逗号和换行符:

In [95]:
link = soup.a
link

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [96]:
link.next_sibling

',\n'

第二个\<a>标签是逗号的 `.next_sibling` 属性:

In [97]:
link.next_sibling.next_sibling

<a class="sister" href="http://example.com/lace" id="link2">Lacie</a>

**.next_siblings 和 .previous_siblings**  
通过 `.next_siblings` 和 `.previous_siblings` 属性可以对当前节点的兄弟节点迭代输出:

In [98]:
for sibling in soup.a.next_siblings:
    print(repr(sibling))

',\n'
<a class="sister" href="http://example.com/lace" id="link2">Lacie</a>
' and\n'
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
';\nand they lived at the bottom of a well.'


In [99]:
for sibling in soup.find(id='link3').previous_siblings:
    print(repr(sibling))

' and\n'
<a class="sister" href="http://example.com/lace" id="link2">Lacie</a>
',\n'
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
'Once upon a time there were three little sisters; and their names were\n'


### 回退和前进

看一下“爱丽丝” 文档:  

\<html>\<head>\<title>The Dormouse's story\</title>\</head>  
\<p class="title">\<b>The Dormouse's story\</b>\</p>

HTML解析器把这段字符串转换成一连串的事件: “打开\<html>标签”,”打开一个\<head>标签”,”打开一个\<title>标签”,”添加一段字符串”,”关闭\<title>标签”,”打开\<p>标签”,等等.Beautiful Soup提供了重现解析器初始化过程的方法.

**.next_element 和 .previous_element**

`.next_element` 属性指向解析过程中下一个被解析的对象(字符串或tag),结果可能与 `.next_sibling` 相同,但通常是不一样的.  

这是“爱丽丝”文档中最后一个\<a>标签,它的 `.next_sibling` 结果是一个字符串：句子的结尾被开头的\<a>标签中断了:

In [100]:
last_a_tag = soup.find("a", id="link3")
last_a_tag

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [101]:
last_a_tag.next_sibling

';\nand they lived at the bottom of a well.'

但这个\<a>标签的 `.next_element` 属性结果是在\<a>标签被解析之后的解析内容,不是\<a>标签后的句子部分(此处的“\<a>标签”指的是“\<a>...\</a>”，即成对的标签)，应该是字符串”Tillie”:

In [102]:
last_a_tag.next_element

'Tillie'

这是因为在原始文档中,字符串“Tillie” 在分号前出现,解析器先进入\<a>标签,然后是字符串“Tillie”,然后关闭\</a>标签,然后是分号和剩余部分.分号与\<a>标签在同一层级,但是字符串“Tillie”会被先解析.  

`.previous_element` 属性刚好与 `.next_element` 相反,它指向当前被解析的对象的前一个解析对象:

In [103]:
last_a_tag.previous_element

' and\n'

In [104]:
last_a_tag.previous_element.next_element

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

**.next_elements 和 .previous_elements**  
通过 `.next_elements` 和 `.previous_elements` 的迭代器就可以向前或向后访问文档的解析内容,就好像文档正在被解析一样:

In [105]:
for element in last_a_tag.next_elements:
    print(repr(element))

'Tillie'
';\nand they lived at the bottom of a well.'
'\n'
<p class="story">...</p>
'...'
'\n'


### 搜索文档树

Beautiful Soup定义了很多搜索方法,这里着重介绍2个: `find()` 和 `find_all()` .其它方法的参数和用法类似,请读者举一反三.  

再以“爱丽丝”文档作为例子:

In [106]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

使用 `find_all()` 类似的方法可以查找到想要查找的文档内容

#### 过滤器  
介绍 `find_all()` 方法前,先介绍一下过滤器的类型，这些过滤器贯穿整个搜索的API.过滤器可以被用在tag的name中,节点的属性中,字符串中或他们的混合中.  

* 字符串  
* 正则表达式  
* 列表  
* True  
* 函数  
* find_all()    

##### 字符串  
最简单的过滤器是字符串.在搜索方法中传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容,下面的例子用于查找文档中所有的\<b>标签:

In [107]:
soup.find_all('b')

[<b>The Dormouse's story</b>]

如果传入字节码参数,Beautiful Soup会当作UTF-8编码,可以传入一段Unicode 编码来避免Beautiful Soup解析编码出错

##### 正则表达式 

如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的 `search()` 来匹配内容.下面例子中找出所有以b开头的标签,这表示\<body>和\<b>标签都应该被找到:

In [108]:
import re
for tag in soup.find_all(re.compile("^b")):
    print(tag.name)

body
b


下面代码找出所有名字中包含”t”的标签:

In [109]:
for tag in soup.find_all(re.compile("t")):
    print(tag.name)

html
title


##### 列表  
如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.下面代码找到文档中所有\<a>标签和\<b>标签:

In [110]:
soup.find_all(["a", "b"])

[<b>The Dormouse's story</b>,
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

##### True  
`True` 可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点

In [111]:
for tag in soup.find_all(True):
    print(tag.name)

html
head
title
body
p
b
p
a
a
a
p


##### 函数

如果没有合适过滤器,那么还可以定义一个函数,该函数只接受一个元素参数。如果参数匹配则这个函数应返回 `True`，如果不是则返回 `False`。（元素参数,HTML文档中的一个tag节点,不能是文本节点）  

下面的函数检验了当前元素,如果包含 "class" 属性但不包含 "id" 属性,那么将返回 `True`:

In [112]:
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

将这个函数作为参数传入 `find_all()` 方法,将得到所有\<p>标签:  
**注意：** 函数传入时，没有带括号，传入的是函数体  

In [121]:
soup.find_all(has_class_but_no_id)

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

返回结果中只有\<p>标签没有\<a>标签,因为\<a>标签还定义了”id”,没有返回\<html>和\<head>,因为\<html>和\<head>中没有定义”class”属性.

In [122]:
type(soup.find_all(has_class_but_no_id))

bs4.element.ResultSet

In [123]:
len(soup.find_all(has_class_but_no_id))

3

In [124]:
has_class_but_no_id

<function __main__.has_class_but_no_id(tag)>

In [125]:
soup.find_all()

[<html><head><title>The Dormouse's story</title></head>
 <body>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>
 <p class="story">...</p>
 </body></html>,
 <head><title>The Dormouse's story</title></head>,
 <title>The Dormouse's story</title>,
 <body>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bo

通过一个函数来过滤一个特定属性如 `href` 的时候，传递给这个函数的参数是要被过滤的属性的值, 而不是这个标签. 下面的例子是找出 `href` 属性*不*符合指定正则的 `a` 标签.

In [126]:
def not_lacie(href):
    return href and not re.compile("lacie").search(href)


soup.find_all(href=not_lacie)

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

**注意：** 上面的例子中传递给 find_all() 方法的同样是函数体

标签过滤方法可以使用复杂函数. 下面的例子可以过滤出前后都有文字的标签.

In [128]:
from bs4 import NavigableString

def surrounded_by_string(tag):
    return (isinstance(tag.next_element, NavigableString)) and isinstance(tag.previous_element, NavigableString)

for tag in soup.find_all(surrounded_by_string):
    print(tag.name)

body
p
a
a
a
p


In [129]:
print(soup)


<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>


In [130]:
soup.html.previous_element

'\n'

In [131]:
soup.html.next_element

<head><title>The Dormouse's story</title></head>

In [132]:
soup.head.previous_element

<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>

In [133]:
soup.title.previous_element

<head><title>The Dormouse's story</title></head>

In [134]:
soup.body.previous_element

'\n'

In [135]:
soup.body.next_element

'\n'

In [136]:
soup.p.next_element

<b>The Dormouse's story</b>

In [139]:
soup.find('p', {'class': "story"}).next_element

'Once upon a time there were three little sisters; and their names were\n'

In [140]:
soup.find('a', {'id': "link2"}).next_element

'Lacie'

##### find_all()  
find_all( name , attrs , recursive , string , **kwargs )  

`find_all()` 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件.这里有几个例子:

In [141]:
soup.find_all("title")

[<title>The Dormouse's story</title>]

In [142]:
soup.find_all("p", "title")

[<p class="title"><b>The Dormouse's story</b></p>]

In [143]:
soup.find_all("a")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [144]:
soup.find_all(id="link2")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

In [145]:
soup.find_all(string=re.compile("sister"))

['Once upon a time there were three little sisters; and their names were\n']

In [146]:
soup.find(string=re.compile("sisters"))

'Once upon a time there were three little sisters; and their names were\n'

In [147]:
soup.find(string=re.compile("and"))

'Once upon a time there were three little sisters; and their names were\n'

In [148]:
soup.find_all(string=re.compile("and"))

['Once upon a time there were three little sisters; and their names were\n',
 ' and\n',
 ';\nand they lived at the bottom of a well.']

有几个方法很相似,还有几个方法是新的,参数中的 `string` 和 `id` 是什么含义? 为什么 `find_all("p", "title")` 返回的是CSS Class为”title”的\<p>标签? 我们来仔细看一下 `find_all()` 的参数

**name 参数**  
`name` 参数可以查找所有名字为 `name` 的tag,字符串对象会被自动忽略掉.

简单的用法如下:

In [149]:
soup.find_all("title")

[<title>The Dormouse's story</title>]

重申: 搜索 `name` 参数的值可以使任一类型的 过滤器 ,字符串,正则表达式,列表,函数或是 `True` .

**keyword 参数**  
如果一个指定名字的参数不是 find_all() 内置的参数名,搜索时会把该参数当作一个tag的属性来搜索,如果包含一个名字为 `id` 的参数,Beautiful Soup会搜索每个tag的”id”属性.

In [150]:
soup.find_all(id="link2")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

如果传入 `href` 参数,Beautiful Soup会搜索每个tag的”href”属性:

In [151]:
soup.find_all(href=re.compile("elsie"))

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

搜索指定名字的属性时可以使用的参数值包括 字符串 , 正则表达式 , 列表, True .

下面的例子在文档树中查找所有包含 `id` 属性的tag,无论 `id` 的值是什么:

In [152]:
soup.find_all(id=True)

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

使用多个指定名字的参数可以同时过滤tag的多个属性:

In [153]:
soup.find_all(href=re.compile("elsie"), id="link1")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

有些tag属性在搜索不能使用,比如HTML5中的 data-\* 属性:

In [156]:
data_soup = BeautifulSoup('<div data-foo="value">foo!</div>')
data_soup.find_all(data-foo="value")

SyntaxError: expression cannot contain assignment, perhaps you meant "=="? (53685298.py, line 2)

但是可以通过 `find_all()` 方法的 `attrs` 参数定义一个字典参数来搜索包含特殊属性的tag:

In [158]:
data_soup = BeautifulSoup('<div data-foo="value">foo!</div>')

In [159]:
data_soup.find_all(attrs={"data-foo": "value"})

[<div data-foo="value">foo!</div>]

##### 按CSS搜索

按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字 `class` 在Python中是保留字,使用 `class` 做参数会导致语法错误.从Beautiful Soup的4.1.1版本开始,可以通过 `class_` 参数搜索有指定CSS类名的tag:

In [162]:
soup.find_all("a", class_="sister")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

`class_` 参数同样接受不同类型的 过滤器 ,字符串,正则表达式,函数或 `True` :

In [163]:
soup.find_all(class_=re.compile("itl"))

[<p class="title"><b>The Dormouse's story</b></p>]

In [164]:
def has_six_characters(css_class):
    return css_class is not None and len(css_class) == 6

soup.find_all(class_=has_six_characters)

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

tag的 `class` 属性是 多值属性 .按照CSS类名搜索tag时,可以分别搜索tag中的每个CSS类名:

In [165]:
css_soup = BeautifulSoup('<p class="body strikeout"></p>')
css_soup.find_all("p", class_="strikeout")

[<p class="body strikeout"></p>]

In [166]:
css_soup.find_all("p", class_="body")

[<p class="body strikeout"></p>]

搜索 `class` 属性时也可以通过CSS值完全匹配:

In [167]:
css_soup.find_all("p", class_="body strikeout")

[<p class="body strikeout"></p>]

完全匹配 `class` 的值时,如果CSS类名的顺序与实际不符,将搜索不到结果:

In [168]:
css_soup.find_all("p", class_="strikeout body")

[]

如果你想搜索匹配两个或多个 CSS 类的tag，你应该使用 CSS 选择器：

In [169]:
css_soup.select("p.strikeout.body")

[<p class="body strikeout"></p>]

在没有 `class_` 快捷方式的旧版本 Beautiful Soup 中，您可以使用上面提到的 `attrs` 技巧。 创建一个字典，其“class”的值是您要搜索的字符串（或正则表达式，或其他）：

In [170]:
soup.find_all("a", attrs={"class": "sister"})

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

**string 参数**  
通过 `string` 参数可以搜搜文档中的字符串内容.与 `name` 参数的可选值一样, `string` 参数接受 字符串 , 正则表达式 , 列表,函数， True . 看例子:

In [171]:
soup.find_all(string="Elsie")

['Elsie']

In [172]:
soup.find_all(string=["Tillie", "Elsie", "Lacie"])

['Elsie', 'Lacie', 'Tillie']

In [173]:
soup.find_all(string=re.compile("Dormouse"))

["The Dormouse's story", "The Dormouse's story"]

In [174]:
def is_the_only_string_within_a_tag(s):
    """Return True if this string is the only child of its parent tag."""
    return (s == s.parent.string)

soup.find_all(string=is_the_only_string_within_a_tag)

["The Dormouse's story",
 "The Dormouse's story",
 'Elsie',
 'Lacie',
 'Tillie',
 '...']

虽然 `string` 参数用于搜索字符串,还可以与其它参数混合使用来过滤tag。Beautiful Soup会找到 `.string` 方法与 `string` 参数值相符的tag.下面代码用来搜索内容里面包含“Elsie”的\<a>标签:

In [175]:
soup.find_all("a", string="Elsie")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

**limit 参数**  
`find_all()` 方法返回全部的搜索结果,如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 `limit` 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 `limit` 的限制时,就停止搜索返回结果.  

文档树中有3个tag符合搜索条件,但结果只返回了2个,因为我们限制了返回数量:

In [176]:
soup.find_all("a", limit=2)

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

**recursive 参数**  
调用tag的 `find_all()` 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 `recursive=False` 。看区别：

In [177]:
soup.html.find_all("title")

[<title>The Dormouse's story</title>]

In [178]:
soup.html.find_all("title", recursive=False)

[]

这是文件的那一部分：

```
<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
...
```

\<title>标签在 \<html> 标签下, 但并不是直接子节点, \<head> 标签才是直接子节点. 在允许查询所有后代节点时 Beautiful Soup 能够查找到 \<title> 标签. 但是使用了 `recursive=False` 参数之后,只能查找直接子节点,这样就查不到 \<title> 标签了.

Beautiful Soup 提供了多种DOM树搜索方法. 这些方法都使用了类似的参数定义. 比如这些方法: `find_all()`: `name`, `attrs`, `text`, `limit`. 但是只有 `find_all()` 和 `find()` 支持 `recursive` 参数.

**像调用 find_all() 一样调用tag**  
`find_all()` 几乎是Beautiful Soup中最常用的搜索方法,所以我们定义了它的简写方法. `BeautifulSoup` 对象和 `tag` 对象可以被当作一个方法来使用,这个方法的执行结果与调用这个对象的 `find_all()` 方法相同,下面两行代码是等价的:

In [180]:
soup.find_all("a")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [181]:
soup("a")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

这两行代码也是等价的:

In [182]:
soup.title.find_all(string=True)

["The Dormouse's story"]

In [183]:
soup.title(string=True)

["The Dormouse's story"]

##### find()  
find( name , attrs , recursive , string , **kwargs )

`find_all()` 方法将返回文档中符合条件的所有tag,尽管有时候我们只想得到一个结果.比如文档中只有一个\<body>标签,那么使用 `find_all()` 方法来查找\<body>标签就不太合适, 使用 `find_all` 方法并设置 `limit=1` 参数不如直接使用 `find()` 方法.下面两行代码是等价的:

In [184]:
soup.find_all('title', limit=1)  

[<title>The Dormouse's story</title>]

In [185]:
soup.find('title')

<title>The Dormouse's story</title>

唯一的区别是 `find_all()` 方法的返回结果是值包含一个元素的列表,而 `find()` 方法直接返回结果.

`find_all()` 方法没有找到目标是返回空列表, `find()` 方法找不到目标时,返回 `None` .

In [186]:
print(soup.find("nosuchtag"))

None


`soup.head.title` 是 tag的名字 方法的简写.这个简写的原理就是多次调用当前tag的 `find()` 方法:

In [187]:
soup.head.title

<title>The Dormouse's story</title>

In [188]:
soup.find("head")

<head><title>The Dormouse's story</title></head>

In [189]:
type(soup)

bs4.BeautifulSoup

In [190]:
type(soup.find("head"))

bs4.element.Tag

In [191]:
soup.find("head").find("title")

<title>The Dormouse's story</title>

In [192]:
type(soup.find("head").find("title"))

bs4.element.Tag

##### find_parents() 和 find_parent()   
find_parents( name , attrs , recursive , string , **kwargs )

find_parent( name , attrs , recursive , string , **kwargs )

我们已经用了很大篇幅来介绍 `find_all()` 和 `find()` 方法,Beautiful Soup中还有10个用于搜索的API.它们中的五个用的是与 `find_all()` 相同的搜索参数,另外5个与 `find()` 方法的搜索参数类似.区别仅是它们搜索文档的不同部分.

记住: `find_all()` 和 `find()` 只搜索当前节点的所有子节点,孙子节点等. `find_parents()` 和 `find_parent()` 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档包含的内容. 我们从一个文档中的一个叶子节点开始:

In [193]:
a_string = soup.find(string="Lacie")
a_string

'Lacie'

In [194]:
a_string.find_parents("a")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

In [195]:
a_string.find_parent("p")

<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

In [196]:
a_string.find_parents("p", class_="title")

[]

文档中的一个\<a>标签是是当前叶子节点的直接父节点,所以可以被找到.还有一个\<p>标签,是目标叶子节点的间接父辈节点,所以也可以被找到.包含class值为”title”的\<p>标签不是不是目标叶子节点的父辈节点,所以通过 `find_parents()` 方法搜索不到.

`find_parent()` 和 `find_parents()` 方法会让人联想到 `.parent` 和 `.parents` 属性.它们之间的联系非常紧密.搜索父辈节点的方法实际上就是对 `.parents` 属性的迭代搜索.

##### find_next_siblings() 和 find_next_sibling()  
find_next_siblings(name, attrs, string, limit, **kwargs)

find_next_sibling(name, attrs, string, **kwargs)

这2个方法通过 `.next_siblings` 属性对当tag的所有后面解析的兄弟tag节点进行迭代, `find_next_siblings()` 方法返回所有符合条件的后面的兄弟节点, `find_next_sibling()` 只返回符合条件的后面的第一个tag节点.

In [197]:
first_link = soup.a
first_link

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [198]:
first_link.find_next_siblings("a")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [199]:
first_story_paragraph = soup.find("p", "story")

In [200]:
first_story_paragraph.find_next_sibling("p")

<p class="story">...</p>

##### find_previous_siblings() 和 find_previous_sibling()  
find_previous_siblings(name, attrs, string, limit, **kwargs)

find_previous_sibling(name, attrs, string, **kwargs)

这2个方法通过 `.previous_siblings` 属性对当前tag的前面解析的兄弟tag节点进行迭代, `find_previous_siblings()` 方法返回所有符合条件的前面的兄弟节点, `find_previous_sibling()` 方法返回第一个符合条件的前面的兄弟节点:

In [201]:
last_link = soup.find("a", id="link3")
last_link

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [202]:
last_link.find_previous_siblings("a")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

In [203]:
first_story_paragraph = soup.find("p", "story")
first_story_paragraph.find_previous_sibling("p")

<p class="title"><b>The Dormouse's story</b></p>

##### find_all_next() 和 find_next()  
find_all_next(name, attrs, string, limit, **kwargs)

find_next(name, attrs, string, **kwargs)

这2个方法通过 `.next_elements` 属性对当前tag的之后的tag和字符串进行迭代, `find_all_next()` 方法返回所有符合条件的节点, `find_next()` 方法返回第一个符合条件的节点:

In [204]:
first_link = soup.a
first_link

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [205]:
first_link.find_all_next(string=True)

['Elsie',
 ',\n',
 'Lacie',
 ' and\n',
 'Tillie',
 ';\nand they lived at the bottom of a well.',
 '\n',
 '...',
 '\n']

In [206]:
first_link.find_next("p")

<p class="story">...</p>

第一个例子中,字符串 “Elsie”也被显示出来,尽管它被包含在我们开始查找的\<a>标签的里面.第二个例子中,最后一个\<p>标签也被显示出来,尽管它与我们开始查找位置的\<a>标签不属于同一部分.例子中,搜索的重点是要匹配过滤器的条件,并且在文档中出现的顺序而不是开始查找的元素的位置.

##### find_all_previous() 和 find_previous()   
find_all_previous(name, attrs, string, limit, **kwargs)

find_previous(name, attrs, string, **kwargs)

这2个方法通过 `.previous_elements` 属性对当前节点前面的tag和字符串进行迭代, `find_all_previous()` 方法返回所有符合条件的节点, `find_previous()` 方法返回第一个符合条件的节点.

In [207]:
first_link = soup.a
first_link

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [208]:
first_link.find_all_previous("p")

[<p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="title"><b>The Dormouse's story</b></p>]

In [209]:
first_link.find_previous("title")

<title>The Dormouse's story</title>

`find_all_previous("p")` 返回了文档中的第一段(class=”title”的那段),但还返回了第二段,\<p>标签包含了我们开始查找的\<a>标签.不要惊讶,这段代码的功能是查找所有出现在指定\<a>标签之前的\<p>标签,因为这个\<p>标签包含了开始的\<a>标签,所以\<p>标签一定是在\<a>之前出现的.

#### CSS选择器  
Beautiful Soup支持大部分的CSS选择器 http://www.w3.org/TR/CSS2/selector.html , 在 `Tag` 或 `BeautifulSoup` 对象的 `.select()` 方法中传入字符串参数, 即可使用CSS选择器的语法找到tag:

In [210]:
soup.select("title")

[<title>The Dormouse's story</title>]

In [211]:
soup.select("p:nth-of-type(3)")

[<p class="story">...</p>]

通过tag标签逐层查找:

In [212]:
soup.select("body a")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [213]:
soup.select("html head title")

[<title>The Dormouse's story</title>]

找到某个tag标签下的直接子标签：

In [214]:
soup.select("head > title")

[<title>The Dormouse's story</title>]

In [215]:
soup.select("p > a")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [216]:
soup.select("p > a:nth-of-type(2)")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

In [217]:
soup.select("p > #link1")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

In [218]:
soup.select("body > a")

[]

找到兄弟节点标签:

In [219]:
soup.select("#link1 ~ .sister")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [220]:
soup.select("#link1 + .sister")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

In [221]:
soup.select("#link1")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

In [223]:
soup.select("#link1 + .sister")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

通过CSS的类名查找:

In [224]:
soup.select(".sister")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [225]:
soup.select("[class~=sister]")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

通过tag的id查找:

In [226]:
soup.select("#link1")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

In [227]:
soup.select("a#link2")

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

同时用多种CSS选择器查询元素:

In [228]:
soup.select("#link1, #link2")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

通过是否存在某个属性来查找:

In [230]:
soup.select("a[href]")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

通过属性的值来查找:

In [231]:
soup.select("a[href='http://example.com/elsie']")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

In [233]:
soup.select("a[href^='http://example.com/']")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [234]:
soup.select('a[href$="tillie"]')

[<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [235]:
soup.select('a[href*=".com/el"]')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

通过语言设置来查找:

In [236]:
multilingual_markup = """
<p lang="en">Hello</p>
<p lang="en-us">Howdy, y'all</p>
<p lang="en-gb">Pip-pip, old fruit</p>
<p lang="fr">Bonjour mes amis</p>
"""
multilingual_soup = BeautifulSoup(multilingual_markup)
multilingual_soup.select("p[lang|=en]")

[<p lang="en">Hello</p>,
 <p lang="en-us">Howdy, y'all</p>,
 <p lang="en-gb">Pip-pip, old fruit</p>]

返回查找到的元素的第一个

In [237]:
soup.select_one(".sister")

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

如果你解析了定义命名空间的 XML，你可以在 CSS 选择器中使用它们：

In [240]:
xml = """<tag xmlns:ns1="http://namespace1/" xmlns:ns2="http://namespace2/">
 <ns1:child>I'm in namespace 1</ns1:child>
 <ns2:child>I'm in namespace 2</ns2:child>
</tag>"""
soup = BeautifulSoup(xml, "xml")
soup.select("child")

[<ns1:child>I'm in namespace 1</ns1:child>,
 <ns2:child>I'm in namespace 2</ns2:child>]

In [241]:
soup.select("ns1|child")

[<ns1:child>I'm in namespace 1</ns1:child>]

在处理使用命名空间的 CSS 选择器时，Beautiful Soup 总是尝试使用命名空间前缀，这些前缀基于它在解析文档时看到的内容而有意义。 您可以随时提供自己的缩写词词典：

In [242]:
namespaces = dict(first="http://namespace1/", second="http://namespace2/")
soup.select("second|child", namespaces=namespaces)

[<ns2:child>I'm in namespace 2</ns2:child>]

所有这些 CSS 选择器的内容对于已经了解 CSS 选择器语法的人来说是一种便利。 您可以使用 Beautiful Soup API 完成所有这些操作。 如果您只需要 CSS 选择器，您应该使用 `lxml` 解析文档：它要快得多。 但这可以让您将 CSS 选择器与 Beautiful Soup API *结合起来*。

### 修改文档树  
Beautiful Soup的强项是文档树的搜索,但同时也可以方便的修改文档树  

#### 修改tag的名称和属性  
在 Attributes 的章节中已经介绍过这个功能,但是再看一遍也无妨. 重命名一个tag,改变属性的值,添加或删除属性:

In [243]:
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b

tag.name = "blockquote"
tag['class'] = "verybold"
tag['id'] = 1
tag

<blockquote class="verybold" id="1">Extremely bold</blockquote>

In [244]:
del tag['class']
del tag['id']
tag

<blockquote>Extremely bold</blockquote>

#### 修改 .string  
给tag的 `.string` 属性赋值,就相当于用当前的内容替代了原来的内容:

In [245]:
markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup)

tag = soup.a
tag.string = "New link text."
tag

<a href="http://example.com/">New link text.</a>

注意: 如果当前的tag包含了其它tag,那么给它的 `.string` 属性赋值会覆盖掉原有的所有内容包括子tag

#### append()  
`Tag.append()` 方法向tag中添加内容,就好像Python的列表的 `.append()` 方法:

In [246]:
soup = BeautifulSoup("<a>Foo</a>")
soup.a.append("Bar")
soup

<html><body><a>FooBar</a></body></html>

In [247]:
soup.a.contents

['Foo', 'Bar']

#### extend()  
从 Beautiful Soup 4.7.0 开始，`Tag` 还支持一个名为 `.extend()` 的方法，该方法将列表的每个元素按顺序添加到 `Tag` 中：

In [254]:
soup = BeautifulSoup("<a>Soup</a>", 'html.parser')  
soup.a.extend(["'s", " ", "on"])

soup

<a>Soup's on</a>

In [255]:
soup.a.contents

['Soup', "'s", ' ', 'on']

#### NavigableString() 和 .new_tag()  
如果想添加一段文本内容到文档中也没问题,可以调用Python的 `append()` 方法 或调用 `NavigableString` 的构造方法:

In [248]:
soup = BeautifulSoup("<b></b>")
tag = soup.b
tag.append("Hello")
new_string = NavigableString(" there")
tag.append(new_string)
tag

<b>Hello there</b>

In [249]:
tag.contents

['Hello', ' there']

如果想要创建一段注释,或 `NavigableString` 的任何子类, 只要调用 `NavigableString` 的构造方法:

In [250]:
from bs4 import Comment

new_comment = soup.new_string("Nice to see you.", Comment)
tag.append(new_comment)
tag

<b>Hello there<!--Nice to see you.--></b>

In [251]:
tag.contents

['Hello', ' there', 'Nice to see you.']

\# 这是Beautiful Soup 4.4.0 中新增的方法

创建一个tag最好的方法是调用工厂方法 `BeautifulSoup.new_tag()` :

In [252]:
soup = BeautifulSoup("<b></b>")
original_tag = soup.b

new_tag = soup.new_tag("a", href="http://www.example.com")
original_tag.append(new_tag)
original_tag

<b><a href="http://www.example.com"></a></b>

In [253]:
new_tag.string = "Link text."
original_tag

<b><a href="http://www.example.com">Link text.</a></b>

第一个参数作为tag的name,是必填,其它参数选填

#### insert()  
`Tag.insert()` 方法与 `Tag.append()` 方法类似,区别是不会把新元素添加到父节点 `.contents` 属性的最后,而是把元素插入到指定的位置.与Python列表中的 `.insert()` 方法的用法相同：

In [256]:
markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup)
tag = soup.a

tag.insert(1, "but did not endorse ")
tag

<a href="http://example.com/">I linked to but did not endorse <i>example.com</i></a>

In [257]:
tag.contents

['I linked to ', 'but did not endorse ', <i>example.com</i>]

#### insert_before() 和 insert_after()  
`insert_before()` 方法在当前tag或文本节点前插入内容:

In [259]:
soup = BeautifulSoup("<b>stop</b>")
tag = soup.new_tag("i")
tag.string = "Don't"
soup.b.string.insert_before(tag)
soup.b

<b><i>Don't</i>stop</b>

`insert_after()` 方法在当前tag或文本节点后插入内容:

In [260]:
soup.b.i.insert_after(soup.new_string(" ever "))
soup.b

<b><i>Don't</i> ever stop</b>

In [261]:
soup.b.contents

[<i>Don't</i>, ' ever ', 'stop']

#### clear()  
`Tag.clear()` 方法移除当前tag的内容:

In [262]:
markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup)
tag = soup.a

tag.clear()
tag

<a href="http://example.com/"></a>

#### extract()  
`PageElement.extract()` 方法将当前tag移除文档树,并作为方法结果返回:

In [263]:
markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup)
a_tag = soup.a

i_tag = soup.i.extract()

a_tag

<a href="http://example.com/">I linked to </a>

In [264]:
i_tag

<i>example.com</i>

In [265]:
print(i_tag.parent)

None


这个方法实际上产生了2个文档树: 一个是用来解析原始文档的 `BeautifulSoup` 对象,另一个是被移除并且返回的tag.被移除并返回的tag可以继续调用 `extract` 方法:

In [266]:
my_string = i_tag.string.extract()
my_string

'example.com'

In [267]:
print(my_string.parent)

None


In [268]:
i_tag

<i></i>

#### decompose()  
`Tag.decompose()` 方法将当前节点移除文档树并完全销毁:

In [269]:
markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup)
a_tag = soup.a

soup.i.decompose()
a_tag

<a href="http://example.com/">I linked to </a>

#### replace_with()  
`PageElement.replace_with()` 方法移除文档树中的某段内容,并用新tag或文本节点替代它:

In [270]:
markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup)
a_tag = soup.a

new_tag = soup.new_tag("b")
new_tag.string = "example.net"
a_tag.i.replace_with(new_tag)
a_tag

<a href="http://example.com/">I linked to <b>example.net</b></a>

`replace_with()` 方法返回被替代的tag或文本节点,可以用来浏览或添加到文档树其它地方

#### wrap()  
`PageElement.wrap()` 方法可以对指定的tag元素进行包装，并返回包装后的结果:

In [271]:
soup = BeautifulSoup("<p>I wish I was bold.</p>")
soup.p.string.wrap(soup.new_tag("b"))

<b>I wish I was bold.</b>

In [272]:
soup.p.wrap(soup.new_tag("div"))

<div><p><b>I wish I was bold.</b></p></div>

该方法在 Beautiful Soup 4.0.5 中添加

#### unwrap()  
`Tag.unwrap()` 方法与 `wrap()` 方法相反.将移除tag内的所有tag标签,该方法常被用来进行tag的解包:

In [273]:
markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup)
a_tag = soup.a

a_tag.i.unwrap()
a_tag

<a href="http://example.com/">I linked to example.com</a>

与 `replace_with()` 方法一样，`unwrap()` 方法返回被替换的tag。

#### smooth()  
在调用了一堆修改解析树的方法之后，你可能会得到两个或更多的 `NavigableString` 对象并排在一起。 Beautiful Soup 对此没有任何问题，但由于它不会发生在新解析的文档中，因此您可能不会期望以下行为：

In [274]:
soup = BeautifulSoup("<p>A one</p>", 'html.parser')
soup.p.append(", a two")

soup.p.contents

['A one', ', a two']

In [275]:
print(soup.p.encode())

b'<p>A one, a two</p>'


In [276]:
print(soup.p.prettify())

<p>
 A one
 , a two
</p>


您可以调用 `Tag.smooth()` 通过合并相邻字符串来清理解析树：

In [277]:
soup.smooth()
soup.p.contents

['A one, a two']

In [278]:
print(soup.p.prettify())

<p>
 A one, a two
</p>


*此方法是 Beautiful Soup 4.8.0 中的新方法。*

### 输出  
#### 格式化输出  
`prettify()` 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行

In [279]:
markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup)
soup.prettify()

'<html>\n <body>\n  <a href="http://example.com/">\n   I linked to\n   <i>\n    example.com\n   </i>\n  </a>\n </body>\n</html>'

In [280]:
print(soup.prettify())

<html>
 <body>
  <a href="http://example.com/">
   I linked to
   <i>
    example.com
   </i>
  </a>
 </body>
</html>


`BeautifulSoup` 对象和它的tag节点都可以调用 `prettify()` 方法:

In [281]:
print(soup.a.prettify())

<a href="http://example.com/">
 I linked to
 <i>
  example.com
 </i>
</a>


#### 压缩输出  
如果只想得到结果字符串,不重视格式,那么可以对一个 `BeautifulSoup` 对象或 `Tag` 对象使用Python的 `str()` 方法:

In [282]:
str(soup)

'<html><body><a href="http://example.com/">I linked to <i>example.com</i></a></body></html>'

In [284]:
str(soup.a)

'<a href="http://example.com/">I linked to <i>example.com</i></a>'

`str()` 方法返回UTF-8编码的字符串,可以指定 编码 的设置.

还可以调用 `encode()` 方法获得字节码或调用 `decode()` 方法获得Unicode.

#### 输出格式  
Beautiful Soup输出是会将HTML中的实体字符转换成Unicode,比如 “&lquot;”:

In [285]:
soup = BeautifulSoup("&ldquo;Dammit!&rdquo; he said.")
str(soup)

'<html><body><p>“Dammit!” he said.</p></body></html>'

如果您随后将文档转换为字节串，则 Unicode 字符将被编码为 UTF-8。 您将不会再取回 HTML 实体字符：

In [286]:
soup.encode("utf8")

b'<html><body><p>\xe2\x80\x9cDammit!\xe2\x80\x9d he said.</p></body></html>'

默认情况下，唯一在输出时转义的字符是裸 & 和尖括号。 这些会变成 “&amp;”、“&lt;” 和 “&gt;”，这样 Beautiful Soup 就不会无意中生成无效的 HTML 或 XML：

In [287]:
soup = BeautifulSoup("<p>The law firm of Dewey, Cheatem, & Howe</p>", 'html.parser')
soup.p

<p>The law firm of Dewey, Cheatem, &amp; Howe</p>

In [288]:
soup = BeautifulSoup('<a href="http://example.com/?foo=val1&bar=val2">A link</a>', 'html.parser')
soup.a

<a href="http://example.com/?foo=val1&amp;bar=val2">A link</a>

您可以通过为 `prettify()`、`encode()` 或 `decode()` 的 `formatter` 参数提供一个值来更改此行为。 Beautiful Soup 为 `formatter` 识别五个可能的值。

默认值为 `formatter="minimal"`。 字符串只会被处理到足以确保 Beautiful Soup 生成有效的 HTML/XML：

In [289]:
french = "<p>Il a dit &lt;&lt;Sacr&eacute; bleu!&gt;&gt;</p>"
soup = BeautifulSoup(french, 'html.parser')
print(soup.prettify(formatter="minimal"))

<p>
 Il a dit &lt;&lt;Sacré bleu!&gt;&gt;
</p>


如果传入 `formatter="html"`，Beautiful Soup 将尽可能将 Unicode 字符转换为 HTML 实体：

In [290]:
print(soup.prettify(formatter="html"))

<p>
 Il a dit &lt;&lt;Sacr&eacute; bleu!&gt;&gt;
</p>


如果你传入 `formatter="html5"`，它类似于 `formatter="html"`，但 Beautiful Soup 会省略 HTML void 标签中的结束斜线，如“br”：

In [291]:
br = BeautifulSoup("<br>", 'html.parser').br
print(br.encode(formatter="html"))

b'<br/>'


In [292]:
print(br.encode(formatter="html5"))

b'<br>'


此外，任何值为空字符串的属性都将成为 HTML 样式的布尔属性：

In [294]:
option = BeautifulSoup('<option selected=""></option>').option
print(option.encode(formatter="html"))

b'<option selected=""></option>'


In [295]:
print(option.encode(formatter="html5"))

b'<option selected></option>'


*（此行为是 Beautiful Soup 4.10.0 的新行为。）*

如果你传入 `formatter=None`，Beautiful Soup 在输出时根本不会修改字符串。 这是最快的选择，但它可能会导致 Beautiful Soup 生成无效的 HTML/XML，如以下示例所示：

In [296]:
print(soup.prettify(formatter=None))

<p>
 Il a dit <<Sacré bleu!>>
</p>


In [297]:
link_soup = BeautifulSoup('<a href="http://example.com/?foo=val1&bar=val2">A link</a>', 'html.parser')
print(link_soup.a.encode(formatter=None))

b'<a href="http://example.com/?foo=val1&bar=val2">A link</a>'


如果您需要对输出进行更复杂的控制，可以使用 Beautiful Soup 的 `Formatter` 类。 这是一个将字符串转换为大写的 formatter，无论它们出现在文本节点还是属性值中：

In [298]:
from bs4.formatter import HTMLFormatter

def uppercase(str):
    return str.upper()

formatter = HTMLFormatter(uppercase)

print(soup.prettify(formatter=formatter))


<p>
 IL A DIT <<SACRÉ BLEU!>>
</p>


In [299]:
print(link_soup.a.prettify(formatter=formatter))

<a href="HTTP://EXAMPLE.COM/?FOO=VAL1&BAR=VAL2">
 A LINK
</a>


这是一个在 pretty-printing 时增加缩进的格式化程序：

In [300]:
formatter = HTMLFormatter(indent=8)
print(link_soup.a.prettify(formatter=formatter))

<a href="http://example.com/?foo=val1&bar=val2">
        A link
</a>


子类化 `HTMLFormatter` 或 `XMLFormatter` 将使您能够更好地控制输出。 例如，Beautiful Soup 默认对每个标签中的属性进行排序：

In [301]:
attr_soup = BeautifulSoup(b'<p z="1" m="2" a="3"></p>', 'html.parser')
print(attr_soup.p.encode())

b'<p a="3" m="2" z="1"></p>'


要关闭此功能，您可以继承 `Formatter.attributes()` 方法，该方法控制输出哪些属性以及输出顺序。 此实现还过滤掉无论何时出现的名为“m”的属性：

In [302]:
class UnsortedAttributes(HTMLFormatter):
    def attributes(self, tag):
        for k, v in tag.attrs.items():
            if k == "m":
                continue
            yield k, v

print(attr_soup.p.encode(formatter=UnsortedAttributes()))

b'<p z="1" a="3"></p>'


最后一个警告：如果您创建一个 `CData` 对象，则该对象内的文本始终*完全按照它的外观呈现，没有任何格式*。 Beautiful Soup 将调用您的实体替换函数，以防万一您编写了一个自定义函数来计算文档中的所有字符串或其他内容，但它会忽略返回值：

In [303]:
from bs4.element import CData
soup = BeautifulSoup("<a></a>", 'html.parser')
soup.a.string = CData("one < three")
print(soup.a.prettify(formatter="html"))

<a>
 <![CDATA[one < three]]>
</a>


#### get_text()  
如果只想得到tag中包含的文本内容,那么可以调用 `get_text()` 方法,这个方法获取到tag中包含的所有文本内容包括子孙tag中的内容,并将结果作为Unicode字符串返回:

In [304]:
markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'
soup = BeautifulSoup(markup)

soup.get_text()

'\nI linked to example.com\n'

In [305]:
soup.i.get_text()

'example.com'

可以通过参数指定tag的文本内容的分隔符:

In [306]:
soup.get_text("|")

'\nI linked to |example.com|\n'

还可以去除获得文本内容的前后空白:

In [307]:
soup.get_text("|", strip=True)

'I linked to|example.com'

或者使用 `.stripped_strings` 生成器,获得文本列表后手动处理列表:

In [308]:
[text for text in soup.stripped_strings]

['I linked to', 'example.com']

### 指定文档解析器  
如果仅是想要解析HTML文档,只要用文档创建 `BeautifulSoup` 对象就可以了.Beautiful Soup会自动选择一个解析器来解析文档.但是还可以通过参数指定使用那种解析器来解析当前文档.

`BeautifulSoup` 第一个参数应该是要被解析的文档字符串或是文件句柄,第二个参数用来标识怎样解析文档.如果第二个参数为空,那么Beautiful Soup根据当前系统安装的库自动选择解析器,解析器的优先数序: lxml, html5lib, Python标准库.在下面两种条件下解析器优先顺序会变化:

* 要解析的文档是什么类型: 目前支持, “html”, “xml”, 和 “html5”  
* 指定使用哪种解析器: 目前支持, “lxml”, “html5lib”, 和 “html.parser”  

安装解析器 章节介绍了可以使用哪种解析器,以及如何安装.

如果指定的解析器没有安装,Beautiful Soup会自动选择其它方案.目前只有 lxml 解析器支持XML文档的解析,在没有安装lxml库的情况下,创建 `beautifulsoup` 对象时无论是否指定使用lxml,都无法得到解析后的对象

#### 解析器之间的区别  
Beautiful Soup为不同的解析器提供了相同的接口,但解析器本身时有区别的.同一篇文档被不同的解析器解析后可能会生成不同结构的树型文档.区别最大的是HTML解析器和XML解析器,看下面片段被解析成HTML结构:

In [309]:
BeautifulSoup("<a><b /></a>")

<html><body><a><b></b></a></body></html>

因为空标签\<b />不符合HTML标准,所以解析器把它解析成\<b>\</b>

同样的文档使用XML解析如下(解析XML需要安装lxml库).注意,空标签\<b />依然被保留,并且文档前添加了XML头,而不是被包含在\<html>标签内:

In [310]:
BeautifulSoup("<a><b /></a>", "xml")

<?xml version="1.0" encoding="utf-8"?>
<a><b/></a>

HTML解析器之间也有区别,如果被解析的HTML文档是标准格式,那么解析器之间没有任何差别,只是解析速度不同,结果都会返回正确的文档树.

但是如果被解析文档不是标准格式,那么不同的解析器返回结果可能不同.下面例子中,使用lxml解析错误格式的文档,结果\</p>标签被直接忽略掉了:

In [311]:
BeautifulSoup("<a></p>", "lxml")

<html><body><a></a></body></html>

使用html5lib库解析相同文档会得到不同的结果:

In [2]:
from bs4 import BeautifulSoup

BeautifulSoup("<a></p>", "html5lib")

<html><head></head><body><a><p></p></a></body></html>

html5lib库没有忽略掉\</p>标签,而是自动补全了标签,还给文档树添加了\<head>标签.

使用pyhton内置库解析结果如下:

In [3]:
BeautifulSoup("<a></p>", "html.parser")

<a></a>

与 lxml 库类似的,Python内置库忽略掉了\</p>标签,与html5lib库不同的是标准库没有尝试创建符合标准的文档格式或将文档片段包含在\<body>标签内,与lxml不同的是标准库甚至连\<html>标签都没有尝试去添加.

因为文档片段“\<a>\</p>”是错误格式,所以以上解析方式都能算作”正确”,html5lib库使用的是HTML5的部分标准,所以最接近”正确”.不过所有解析器的结构都能够被认为是”正常”的.

不同的解析器可能影响代码执行结果,如果在分发给别人的代码中使用了 BeautifulSoup ,那么最好注明使用了哪种解析器,以减少不必要的麻烦.

### 编码  
任何HTML或XML文档都有自己的编码方式,比如ASCII 或 UTF-8,但是使用Beautiful Soup解析后,文档都被转换成了Unicode:

In [4]:
markup = "<h1>Sacr\xc3\xa9 bleu!</h1>"
soup = BeautifulSoup(markup)
soup.h1

<h1>SacrÃ© bleu!</h1>

In [5]:
soup.h1.string

'SacrÃ© bleu!'

In [6]:
soup = BeautifulSoup(markup, 'html.parser')
soup.h1

<h1>SacrÃ© bleu!</h1>

In [7]:
soup.h1.string

'SacrÃ© bleu!'

这不是魔术(但很神奇),Beautiful Soup用了 编码自动检测 子库来识别当前文档编码并转换成Unicode编码. `BeautifulSoup` 对象的 `.original_encoding` 属性记录了自动识别编码的结果:

In [8]:
soup.original_encoding

In [9]:
print(soup.original_encoding)

None


编码自动检测 功能大部分时候都能猜对编码格式,但有时候也会出错.有时候即使猜测正确,也是在逐个字节的遍历整个文档后才猜对的,这样很慢.如果预先知道文档编码,可以设置编码参数来减少自动检查编码出错的概率并且提高文档解析速度.在创建 `BeautifulSoup` 对象的时候设置 `from_encoding` 参数.

下面一段文档用了ISO-8859-8编码方式,这段文档太短,结果Beautiful Soup以为文档是用ISO-8859-7编码:

In [10]:
markup = b'<h1>\xed\xe5\xec\xf9</h1>'
soup = BeautifulSoup(markup)
soup.h1

<h1>翴檛</h1>

In [11]:
soup.original_encoding

'Big5'

通过传入 `from_encoding` 参数来指定编码方式:

In [12]:
soup = BeautifulSoup(markup, from_encoding="iso-8859-8")
soup.h1

<h1>םולש</h1>

In [13]:
soup.original_encoding

'iso-8859-8'

如果仅知道文档采用了Unicode编码, 但不知道具体编码. 可以先自己猜测, 猜测错误(依旧是乱码)时, 可以把错误编码作为 `exclude_encodings` 参数, 这样文档就不会尝试使用这种编码了解码了. 译者备注: 在没有指定编码的情况下, BS会自己猜测编码, 把不正确的编码排除掉, BS就更容易猜到正确编码.

In [16]:
soup = BeautifulSoup(markup, exclude_encodings=["Big5"])
soup.h1

<h1>íåìù</h1>

In [17]:
soup.original_encoding

'windows-1252'

猜测结果是 Windows-1255 编码, 猜测结果可能不够准确, 但是 Windows-1255 编码是 ISO-8859-8 的扩展集, 所以猜测结果已经十分接近了, 并且不影响使用. (`exclude_encodings` 参数是 4.4.0版本的新功能)

少数情况下(通常是UTF-8编码的文档中包含了其它编码格式的文件),想获得正确的Unicode编码就不得不将文档中少数特殊编码字符替换成特殊Unicode编码,“REPLACEMENT CHARACTER” (U+FFFD, �) . 如果Beautifu Soup猜测文档编码时作了特殊字符的替换,那么Beautiful Soup会把 `UnicodeDammit` 或 `BeautifulSoup` 对象的 `.contains_replacement_characters` 属性标记为 `True` .这样就可以知道当前文档进行Unicode编码后丢失了一部分特殊内容字符.如果文档中包含�而 `.contains_replacement_characters` 属性是 `False` ,则表示�就是文档中原来的字符,不是转码失败.

#### 输出编码  
通过Beautiful Soup输出文档时,不管输入文档是什么编码方式,输出编码均为UTF-8编码,下面例子输入文档是Latin-1编码:

In [18]:
markup = b'''
<html>
  <head>
    <meta content="text/html; charset=ISO-Latin-1" http-equiv="Content-type">
  </head>
  <body>
    <p>Sacr\xe9 bleu!</p>
  </body>
</html>
'''
soup = BeautifulSoup(markup)
print(soup.prettify())

<html>
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
 </head>
 <body>
  <p>
   Sacré bleu!
  </p>
 </body>
</html>



注意,输出文档中的\<meta>标签的编码设置已经修改成了与输出编码一致的UTF-8.

如果不想用UTF-8编码输出,可以将编码方式传入 `prettify()` 方法:

In [19]:
print(soup.prettify("latin-1"))

b'<html>\n <head>\n  <meta content="text/html; charset=latin-1" http-equiv="Content-type"/>\n </head>\n <body>\n  <p>\n   Sacr\xe9 bleu!\n  </p>\n </body>\n</html>\n'


还可以调用 `BeautifulSoup` 对象或任意节点的 `encode()` 方法,就像Python的字符串调用 `encode()` 方法一样:

In [20]:
soup.p.encode("latin-1")

b'<p>Sacr\xe9 bleu!</p>'

In [21]:
soup.p.encode("utf-8")

b'<p>Sacr\xc3\xa9 bleu!</p>'

如果文档中包含当前编码不支持的字符,那么这些字符将被转换成一系列XML特殊字符引用,下面例子中包含了Unicode编码字符SNOWMAN:

In [22]:
markup = u"<b>N{SNOWMAN}</b>"
snowman_soup = BeautifulSoup(markup)
tag = snowman_soup.b

SNOWMAN字符在UTF-8编码中可以正常显示(看上去像是☃),但有些编码不支持SNOWMAN字符,比如ISO-Latin-1或ASCII,那么在这些编码中SNOWMAN字符会被转换成“&#9731”:

In [23]:
print(tag.encode("utf-8"))

b'<b>N{SNOWMAN}</b>'


In [26]:
print(tag.encode("latin-1"))

b'<b>N{SNOWMAN}</b>'


In [27]:
tag

<b>N{SNOWMAN}</b>

In [28]:
print(tag.encode("utf-8"))

b'<b>N{SNOWMAN}</b>'


In [29]:
print(tag.encode("latin-1"))

b'<b>N{SNOWMAN}</b>'


In [30]:
print(tag.encode("ascii"))

b'<b>N{SNOWMAN}</b>'


### Unicode, Dammit! (乱码, 靠!)  
译者备注: UnicodeDammit 是BS内置库, 主要用来猜测文档编码.

编码自动检测 功能可以在Beautiful Soup以外使用,检测某段未知编码时,可以使用这个方法:

In [31]:
from bs4 import UnicodeDammit
dammit = UnicodeDammit("Sacr\xc3\xa9 bleu!")
print(dammit.unicode_markup)

SacrÃ© bleu!


In [32]:
dammit.original_encoding

In [33]:
print(dammit.original_encoding)

None


如果Python中安装了 `chardet` 或 `cchardet` 那么编码检测功能的准确率将大大提高. 输入的字符越多,检测结果越精确,如果事先猜测到一些可能编码, 那么可以将猜测的编码作为参数,这样将优先检测这些编码:

In [34]:
dammit = UnicodeDammit("Sacr\xe9 bleu!", ["latin-1", "iso-8859-1"])
print(dammit.unicode_markup)

Sacré bleu!


In [35]:
dammit.original_encoding

In [36]:
print(dammit.original_encoding)

None


编码自动检测 功能中有2项功能是Beautiful Soup库中用不到的

#### 智能引号    
使用Unicode时,Beautiful Soup还会智能的把引号转换成HTML或XML中的特殊字符:

In [37]:
markup = b"<p>I just \x93love\x94 Microsoft Word\x92s smart quotes</p>"

UnicodeDammit(markup, ["windows-1252"], smart_quotes_to="html").unicode_markup

'<p>I just &ldquo;love&rdquo; Microsoft Word&rsquo;s smart quotes</p>'

In [38]:
UnicodeDammit(markup, ["windows-1252"], smart_quotes_to="xml").unicode_markup

'<p>I just &#x201C;love&#x201D; Microsoft Word&#x2019;s smart quotes</p>'

也可以把引号转换为ASCII码:

In [39]:
UnicodeDammit(markup, ["wiindows-1252"], smart_quotes_to="ascii").unicode_markup

'<p>I just “love” Microsoft Word’s smart quotes</p>'

很有用的功能,但是Beautiful Soup没有使用这种方式.默认情况下,Beautiful Soup把引号转换成Unicode:

In [40]:
UnicodeDammit(markup, ["windows-1252"]).unicode_markup

'<p>I just “love” Microsoft Word’s smart quotes</p>'

#### 矛盾的编码  
有时文档的大部分都是用UTF-8,但同时还包含了Windows-1252编码的字符,就像微软的智能引号一样. 一些包含多个信息的来源网站容易出现这种情况. `UnicodeDammit.detwingle()` 方法可以把这类文档转换成纯UTF-8编码格式,看个简单的例子:

In [49]:
snowmen = (u"\N{SNOWMAN}" * 3)
quote = (u"\N{LEFT DOUBLE QUOTATION MARK}I like snowmen!\N{RIGHT DOUBLE QUOTATION MARK}")
doc = snowmen.encode("utf8") + quote.encode("windows_1252")

这段文档很杂乱,snowmen是UTF-8编码,引号是Windows-1252编码,直接输出时不能同时显示snowmen和引号,因为它们编码不同:

In [50]:
print(doc)

b'\xe2\x98\x83\xe2\x98\x83\xe2\x98\x83\x93I like snowmen!\x94'


In [51]:
print(doc.decode("windows-1252"))

â˜ƒâ˜ƒâ˜ƒ“I like snowmen!”


如果对这段文档用UTF-8解码就会得到 `UnicodeDecodeError` 异常,如果用Windows-1252解码就会得到一堆乱码. 幸好, `UnicodeDammit.detwingle()` 方法会把这段字符串转换成UTF-8编码,允许我们同时显示出文档中的snowmen和引号:

In [52]:
new_doc = UnicodeDammit.detwingle(doc)
print(new_doc.decode("utf8"))

☃☃☃“I like snowmen!”


`UnicodeDammit.detwingle()` 方法只能解码包含在UTF-8编码中的Windows-1252编码内容,但这解决了最常见的一类问题.

在创建 `BeautifulSoup` 或 `UnicodeDammit` 对象前一定要先对文档调用 `UnicodeDammit.detwingle()` 确保文档的编码方式正确.如果尝试去解析一段包含Windows-1252编码的UTF-8文档,就会得到一堆乱码,比如: â˜ƒâ˜ƒâ˜ƒ“I like snowmen!”.

`UnicodeDammit.detwingle()` 方法在Beautiful Soup 4.1.0版本中新增

### 比较对象是否相同  
两个 `NavigableString` 或 `Tag` 对象具有相同的HTML或XML结构时, Beautiful Soup就判断这两个对象相同. 这个例子中, 2个 \<b> 标签在 BS 中是相同的, 尽管他们在文档树的不同位置, 但是具有相同的表象: “\<b>pizza\</b>”

In [53]:
markup = "<p>I want <b>pizza</b> and more <b>pizza</b>!</p>"
soup = BeautifulSoup(markup, 'html.parser')
first_b, second_b = soup.find_all('b')
print(first_b == second_b)

True


In [54]:
print(first_b.previous_element == second_b.previous_element)

False


如果想判断两个对象是否严格的指向同一个对象可以通过 `is` 来判断

In [55]:
print(first_b is second_b)

False


### 复制Beautiful Soup对象  
`copy.copy()` 方法可以复制任意 `Tag` 或 `NavigableString` 对象

In [56]:
import copy

p_copy = copy.copy(soup.p)
print(p_copy)

<p>I want <b>pizza</b> and more <b>pizza</b>!</p>


复制后的对象跟与对象是相等的, 但指向不同的内存地址

In [57]:
print(soup.p == p_copy)

True


In [58]:
print(soup.p is p_copy)

False


源对象和复制对象的区别是源对象在文档树中, 而复制后的对象是独立的还没有添加到文档树中. 复制后对象的效果跟调用了 `extract()` 方法相同.

In [59]:
print(p_copy.parent)

None


这是因为相等的对象不能同时插入相同的位置

### 解析部分文档  
如果仅仅因为想要查找文档中的\<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把\<a>标签以外的东西都忽略掉. `SoupStrainer` 类可以定义文档的某段内容,这样搜索文档时就不必先解析整篇文档,只会解析在 `SoupStrainer` 中定义过的文档. 创建一个 `SoupStrainer` 对象并作为 `parse_only` 参数传递给 `BeautifulSoup` 的构造方法即可.

#### SoupStrainer  
`SoupStrainer` 类接受与典型搜索方法相同的参数：name , attrs , recursive , string , **kwargs 。下面举例说明三种 `SoupStrainer` 对象：

In [61]:
from bs4 import SoupStrainer

only_a_tags = SoupStrainer("a")
only_tags_with_id_link2 = SoupStrainer(id="link2")

def is_short_string(string):
    return len(string) < 10

only_short_strings = SoupStrainer(string=is_short_string)

再拿“爱丽丝”文档来举例，来看看使用三种 `SoupStrainer` 对象做参数会有什么不同:

In [62]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
    <body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
print(BeautifulSoup(html_doc, "html.parser", parse_only=only_a_tags).prettify())

<a class="sister" href="http://example.com/elsie" id="link1">
 Elsie
</a>
<a class="sister" href="http://example.com/lacie" id="link2">
 Lacie
</a>
<a class="sister" href="http://example.com/tillie" id="link3">
 Tillie
</a>


In [63]:
print(BeautifulSoup(html_doc, "html.parser", parse_only=only_tags_with_id_link2).prettify())

<a class="sister" href="http://example.com/lacie" id="link2">
 Lacie
</a>


In [64]:
print(BeautifulSoup(html_doc, "html.parser", parse_only=only_short_strings).prettify())

Elsie
,
Lacie
and
Tillie
...



还可以将 `SoupStrainer` 作为参数传入 搜索文档树 中提到的方法.这可能不是个常用用法,所以还是提一下:

In [65]:
soup = BeautifulSoup(html_doc)
soup.find_all(only_short_strings)

['\n',
 '\n',
 '\n',
 'Elsie',
 ',\n',
 'Lacie',
 ' and\n',
 'Tillie',
 '\n',
 '...',
 '\n']

### 常见问题  
#### 代码诊断  
如果想知道Beautiful Soup到底怎样处理一份文档,可以将文档传入 `diagnose()` 方法(Beautiful Soup 4.2.0中新增),Beautiful Soup会输出一份报告,说明不同的解析器会怎样处理这段文档,并标出当前的解析过程会使用哪种解析器:

In [67]:
from bs4.diagnose import diagnose
data = open("index.html").read()
diagnose(data)

Diagnostic running on Beautiful Soup 4.11.1
Python version 3.10.4 (tags/v3.10.4:9d38120, Mar 23 2022, 23:13:41) [MSC v.1929 64 bit (AMD64)]
Found lxml version 4.8.0.0
Found html5lib version 1.1

Trying to parse your markup with html.parser
Here's what html.parser did with the markup:
<html>
 data
</html>

--------------------------------------------------------------------------------
Trying to parse your markup with html5lib
Here's what html5lib did with the markup:
<html>
 <head>
 </head>
 <body>
  data
 </body>
</html>
--------------------------------------------------------------------------------
Trying to parse your markup with lxml
Here's what lxml did with the markup:
<html>
 <body>
  <p>
   data
  </p>
 </body>
</html>

--------------------------------------------------------------------------------
Trying to parse your markup with lxml-xml
Here's what lxml-xml did with the markup:
<?xml version="1.0" encoding="utf-8"?>
<html>
 data
</html>
------------------------------------

In [68]:
with open("index.html") as fp:
    data = fp.read()

diagnose(data)

Diagnostic running on Beautiful Soup 4.11.1
Python version 3.10.4 (tags/v3.10.4:9d38120, Mar 23 2022, 23:13:41) [MSC v.1929 64 bit (AMD64)]
Found lxml version 4.8.0.0
Found html5lib version 1.1

Trying to parse your markup with html.parser
Here's what html.parser did with the markup:
<html>
 data
</html>

--------------------------------------------------------------------------------
Trying to parse your markup with html5lib
Here's what html5lib did with the markup:
<html>
 <head>
 </head>
 <body>
  data
 </body>
</html>
--------------------------------------------------------------------------------
Trying to parse your markup with lxml
Here's what lxml did with the markup:
<html>
 <body>
  <p>
   data
  </p>
 </body>
</html>

--------------------------------------------------------------------------------
Trying to parse your markup with lxml-xml
Here's what lxml-xml did with the markup:
<?xml version="1.0" encoding="utf-8"?>
<html>
 data
</html>
------------------------------------

`diagnose()` 方法的输出结果可能帮助你找到问题的原因,如果不行,还可以把结果复制出来以便寻求他人的帮助