前面所讲的选择方法都是通过属性来选择的，这种方法非常快，但是如果进行比较复杂的选择的话，它就比较烦琐，不够灵活了。幸好，Beautiful Soup还为我们提供了一些查询方法，比如find_all()和find()等，调用它们，然后传入相应的参数，就可以灵活查询了。

## 1 find_all()

查询所有符合条件的元素。给它传入一些属性或文本，就可以得到符合条件的元素，它的功能十分强大。

find_all(name , attrs , recursive , text , **kwargs)

(1)name

In [8]:
html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')

In [14]:
soup.div.ul.li.string

'Foo'

In [15]:
html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.find_all(name='ul'))
print(type(soup.find_all(name='ul')[0]))

[<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>, <ul class="list list-small" id="list-2">
<li class="element">Foo</li>
<li class="element">Bar</li>
</ul>]
<class 'bs4.element.Tag'>


In [16]:
soup.find_all(name='li')

[<li class="element">Foo</li>,
 <li class="element">Bar</li>,
 <li class="element">Jay</li>,
 <li class="element">Foo</li>,
 <li class="element">Bar</li>]

In [18]:
[el.string for el in soup.find_all(name='li')]

['Foo', 'Bar', 'Jay', 'Foo', 'Bar']

这里我们调用了find_all()方法，传入name参数，其参数值为ul。也就是说，我们想要查询所有ul节点，返回结果是列表类型，长度为2，每个元素依然都是bs4.element.Tag类型。

因为都是Tag类型，所以依然可以进行嵌套查询。还是同样的文本，这里查询出所有ul节点后，再继续查询其内部的li节点：

In [3]:
for ul in soup.find_all(name='ul'):
    print(ul.find_all(name='li'))

[<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>]
[<li class="element">Foo</li>, <li class="element">Bar</li>]


返回结果是列表类型，列表中的每个元素依然还是Tag类型。
接下来，就可以遍历每个li，获取它的文本了：

In [4]:
for ul in soup.find_all(name='ul'):
    print(ul.find_all(name='li'))
    for li in ul.find_all(name='li'):
        print(li.string)

[<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>]
Foo
Bar
Jay
[<li class="element">Foo</li>, <li class="element">Bar</li>]
Foo
Bar


(2)attrs

除了根据节点名进行点名查询，还可以传入一些属性来查询。

In [5]:
html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1" name="elements">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.find_all(attrs={'id': 'list-1'}))
print(soup.find_all(attrs={'name': 'elements'}))

[<ul class="list" id="list-1" name="elements">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>]
[<ul class="list" id="list-1" name="elements">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>]


attrs参数，参数的类型是字典类型。比如，要查询id为list-1的节点，可以传入attrs={'id': 'list-1'}的查询条件，得到的结果是列表形式，包含的内容就是符合id为list-1的所有节点。在上面的例子中，符合条件的元素个数是1，所以结果是长度为1的列表。

对于一些常用的属性，比如id和class等，我们可以不用attrs来传递。比如，要查询id为list-1的节点，可以直接传入id这个参数。还是上面的文本，我们换一种方式来查询：

In [6]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.find_all(id='list-1'))
print(soup.find_all(class_='element'))

[<ul class="list" id="list-1" name="elements">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>]
[<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>, <li class="element">Foo</li>, <li class="element">Bar</li>]


这里直接传入id='list-1'，就可以查询id为list-1的节点元素了。而对于class来说，由于class在Python里是一个关键字，所以后面需要加一个下划线，即class_='element'，返回的结果依然还是Tag组成的列表。

(3)text

text参数可用来匹配节点的文本，传入的形式可以是字符串，可以是正则表达式对象，

In [10]:
import re
html='''
<div class="panel">
    <div class="panel-body">
        <a>Hello, this is a link</a>
        <a>Hello, this is a link, too</a>
    </div>
</div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.find_all(text=re.compile('is')))

['Hello, this is a link', 'Hello, this is a link, too']


In [11]:
import re
html='''
<div class="panel">
    <div class="panel-body">
        <a>Hello, this is a link</a>
        <a>Hello, this is a link, too</a>
    </div>
</div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.find_all(text=re.compile('too')))

['Hello, this is a link, too']


这里有两个a节点，其内部包含文本信息。这里在find_all()方法中传入text参数，该参数为正则表达式对象，结果返回所有匹配正则表达式的节点文本组成的列表。

## 2 find()

除了find_all()方法，还有find()方法，只不过后者返回的是单个元素，也就是第一个匹配的元素，而前者返回的是所有匹配的元素组成的列表。

In [12]:
html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.find(name='ul'))
print(type(soup.find(name='ul')))
print(soup.find(class_='list'))#与关键词class避免冲突，class_

<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>
<class 'bs4.element.Tag'>
<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>


这里的返回结果不再是列表形式，而是第一个匹配的节点元素，类型依然是Tag类型

另外，还有许多查询方法，其用法与前面介绍的find_all()、find()方法完全相同，只不过查询范围不同，这里简单说明一下。

find_parents()和find_parent()：前者返回所有祖先节点，后者返回直接父节点。

find_next_siblings()和find_next_sibling()：前者返回后面所有的兄弟节点，后者返回后面第一个兄弟节点。

find_previous_siblings()和find_previous_sibling()：前者返回前面所有的兄弟节点，后者返回前面第一个兄弟节点。

find_all_next()和find_next()：前者返回节点后所有符合条件的节点，后者返回第一个符合条件的节点。

find_all_previous()和find_previous()：前者返回节点后所有符合条件的节点，后者返回第一个符合条件的节点。


实训案例-1

In [13]:
 html_example = """
 <!DOCTYPE html>
 <html>
     <head>
         <meta charset="UTF-8">
         <title>《滕王阁序》</title>
         <script type="text/javascript"></script>
     </head>
     <body>
         <h3>《滕王阁序》</h3>
         <p class="chaodai">唐</p>
         <p class="author" id="author"><b>王勃</b></p>
         <p class="poem">落霞与孤鹭齐飞，</p>
         <p class="poem">秋水共长天一色。</p>
         <p class="poem">渔舟晚唱，</p>
         <p class="poem">想穷彭傲之滨，</p>
         <p class="poem">雁阵惊寒，</p>
         <p class="poem">声断衡阳之浦。</p>
     </body>
 </html>
 """

下面我们再详细看看一个特定的标签（Tag）：
<p class="author" id="author">王勃</p>
<p>...</p>，
它的名字（Name）为p；
它的属性（Attributes）包括class和id两种属性；
两个标签之间的文字（String）是王勃。

针对以上网页，实现以下操作：

In [None]:
1、格式化代码，自动补全代码，进行容错的处理。

<bound method Tag.prettify of <!DOCTYPE html>
<html>
<head>
<meta charset="utf-8"/>
<title>《滕王阁序》</title>
<script type="text/javascript"></script>
</head>
<body>
<h3>《滕王阁序》</h3>
<p class="chaodai">唐</p>
<p class="author" id="author"><b>王勃</b></p>
<p class="poem">落霞与孤鹭齐飞，</p>
<p class="poem">秋水共长天一色。</p>
<p class="poem">渔舟晚唱，</p>
<p class="poem">想穷彭傲之滨，</p>
<p class="poem">雁阵惊寒，</p>
<p class="poem">声断衡阳之浦。</p>
</body>
</html>
>


2、找出title标签的名字、属性、内容

<title>《滕王阁序》</title>
title
{}
《滕王阁序》


3、找出P标签

<p class="chaodai">唐</p>
p
{'class': ['chaodai']}
唐


4、直接使用标签只能提取第一个P标签， 如何定位到所有标签？

[<p class="chaodai">唐</p>, <p class="author" id="author"><b>王勃</b></p>, <p class="poem">落霞与孤鹭齐飞，</p>, <p class="poem">秋水共长天一色。</p>, <p class="poem">渔舟晚唱，</p>, <p class="poem">想穷彭傲之滨，</p>, <p class="poem">雁阵惊寒，</p>, <p class="poem">声断衡阳之浦。</p>]


<p class="chaodai">唐</p>
<p class="author" id="author"><b>王勃</b></p>
<p class="poem">落霞与孤鹭齐飞，</p>
<p class="poem">秋水共长天一色。</p>
<p class="poem">渔舟晚唱，</p>
<p class="poem">想穷彭傲之滨，</p>
<p class="poem">雁阵惊寒，</p>
<p class="poem">声断衡阳之浦。</p>


5、获取文档中的所有文字内容

唐
王勃
落霞与孤鹭齐飞，
秋水共长天一色。
渔舟晚唱，
想穷彭傲之滨，
雁阵惊寒，
声断衡阳之浦。





《滕王阁序》



《滕王阁序》
唐
王勃
落霞与孤鹭齐飞，
秋水共长天一色。
渔舟晚唱，
想穷彭傲之滨，
雁阵惊寒，
声断衡阳之浦。



