## 字符串

最简单的过滤器就是字符串，在搜索方法中传入一个字符串参数，*BeautifulSoup* 会查找与字符串**完全匹配**的内容

下面的例子用于查找文档中所有的 `<b>` 标签：

In [None]:
soup.find_all('b')

## 正则表达式

如果传入正则表达式作为参数，*BeautifulSoup* 会通过正则表达式的 `match()` 来匹配内容

下面的例子中找出所有以 **b** 开头的标签，这表示 `<body>` 和 `<b>` 标签都应该被找到：

In [None]:
import re
for tag in soup.find_all(re.compile("^b")):
    print(tag.name)

下面代码找出所有名字中包含 **t** 的标签：

In [None]:
for tag in soup.find_all(re.compile("t")):
    print(tag.name)

## 列表

当以列表为参数传入，*BeautifulSoup* 会将与列表中任一元素匹配的内容返回。

下面的例子中找到所有 `<a>` 标签和 `<b>` 标签

In [None]:
soup.find_all(["a", "b"])

## True

**True** 可以匹配任意值。

下面的例子中找出所有的 `tag`，但是不会返回字符串节点。

In [None]:
for tag in soup.find_all(True):
    print(tag.name)

## 方法

如果没有合适的过滤器，那么定义一个方法来帮助过滤是很有必要的，方法只接受一个元素参数，如果这个方法返回 **True** 表示当前元素匹配并且被找到，如果不是则返回 **False**

下面方法校验了当前元素，如果包含 `class` 属性却不包含 `id` 属性，那么将返回 **True**

In [1]:
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

将这个方法作为参数传入 `find_all()` 方法，将得到所有标签：

In [None]:
soup.find_all(has_class_but_no_id)

# MORE

In [1]:
import requests
from bs4 import BeautifulSoup

元信息

In [2]:
headers = {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}
html = requests.get(url, headers=headers)

NameError: name 'url' is not defined

通过网络获取资源

In [None]:
soup = BeautifulSoup(html.text, 'lxml')

通过本地获取资源

In [None]:
soup = BeautifulSoup(open('index.html'))

用标准 `html` 显示方法打印 

In [None]:
print(soup.prettify())

### `find_all` 方法

与 `soup.find()` 类似，只是返回的是第一个值

`
find_all(name, attrs, recursive, text, **kwags)
`

查找所有的 `<b>` 标签，返回列表

In [None]:
soup.find_all('b')

正则表达式

In [None]:
soup.find_all("^b")

传入列表参数，找到所有的 `<a>` 标签和 `<b>` 标签

In [None]:
soup.find_all(['a', 'b'])

传入 `id` 是 *link2* 的参数，**BeautifulSoup** 会搜索每个 `tag` 的 `id` 属性

In [None]:
soup.find_all('link2')

传入正则表达式，查找所有的 `href` 标签内容中含有 **elsie** 的内容

In [None]:
soup.find_all(href=re.compile('elsie'))

多层过滤，除了 `href` 进行限定外，对 `id` 标签的内容也做了限定

In [None]:
soup.find(href=re.complie('elsie'), id='link1')

最常用的查找技巧，注意 `class_` 加了下滑线，为了与关键字 `class` 区分

In [None]:
soup.find_all('div', class_='sister')

针对 **html5** 中的 *data-* 进行的专项查找

In [None]:
data_soup.find_all(attrs={'data-foo':'value'})

对 `text` 内容进行查找

In [None]:
soup.find_all(text='Elsie')

列表形式进行查找，与上面 `name` 类似

In [None]:
soup.find_all(text=['Tillie', 'Elsie', 'Lacie'])

正则表达式查找 `text`

In [None]:
soup.find_all(text=re.compile('Dormouse'))

找到前两个 `<a>` 标签，`limit` 用来限定次数

In [None]:
soup.find_all('a', limit=2)

### `select` 方法

通常，**标签名**不加任何修饰，**类名**前加点，**`id`** 名前加 *#*, 在 *BeautifulSoup* 中也是这样，`select` 方法返回的类型是 `list`

通过**标签名**查找

In [None]:
soup.select('title')

通过**类名**查找

In [None]:
soup.select('.sister')

通过 **`id`** 名查找

In [None]:
soup.select('#link1')

组合查找

组合查找规则与设计时相同

例如查找 `p` 标签中， `id` 等于 `link1` 的内容，二者需要用空格分开

In [None]:
soup.select('p #link1')

属性查找

查找时还可以加入属性元素，属性需要用中括号括起来。

注意：属性和标签属于同一节点，所以中间不能加空格，否则无法匹配

In [None]:
soup.select('a[class="sister"]')
soup.select('a[href="http://example.com/elsie"]')

### `get_text` 方法

可以用来获取内容

In [None]:
soup = BeautifulSoup(html.text, 'lxml')

print(type(soup.select('tilte')))

获取第一个 `title` 标签的对应内容

In [None]:
print(soup.select('title')[0].get_text())

获取列表中的 `title` 对应内容

In [None]:
for title in soup.select('title'):
    print(title.get_text())