# Python爬虫三大库之BeautifulSoup

## 实验目的

了解BeautifulSoup从HTML或XML文件中提取数据的基本方法。


## 实验要求

掌握BeautifulSoup从HTML或XML文件中提取数据的基本方法。

## 实验原理

BeautifulSoup库是用Python语言编写一个HTML/XML的解释器。它可以很好地处理不规范的标记并生成剖析树，其本身提供了简单又常用的导航、搜索以及修改剖析树的操作，利用它可以大大缩减编程时间。

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

本实验主要介绍如何使用该库处理不规范的标记，按照指定格式输出对应的文档。

## 实验步骤

### BeautifulSoup基本操作

#### 创建BeautifulSoup对象

创建BeautifulSoup对象时，首先得导入其对应的bs4库，代码如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

下面通过一个简单的例子来演示该库的使用
首先创建一个用来完成演示的html字符串，其定义了一个标准的HTML文档，也就是BeautifulSoup对象的数据源，如下所示：
```
html = """
  <html><head><title>The Dormouse's story</title></head>
  <body>
  <p class="title" name="dromouse"><b>The Dormouse's story</b></p>
  <p class="story">Once upon a time there were three little sisters; and their names were
  <a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
  <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
  <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
  and they lived at the bottom of a well.</p>
 <p class="story">...</p>
 """

```
- 请输入上述代码并运行

接下来创建BeautifulSoup对象：

![image.png](attachment:image.png)

- 请输入上述代码并运行

下面通过soup对象的格式化函数格式化输出soup对象中的内容：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

以上便是soup对象格式化输出的方式，prettify()函数是我们通过soup对象分析HTML文档的第一步，大家一定要熟练掌握该函数的用法。

#### BeautifulSoup库的对象
通常，BeautifulSoup库用于将一个复杂HTML文档转换成一个复杂的树形结构，每个节点都是一个Python对象，根据功能划分，将BeautifulSoup库的对象可分为4类，具体包括如下。

① Tag

Tag相当于HTML中的一个标签：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

关于Tag，有name和attrs两个重要的属性，使用方法分别如下。

1.name： 每个Tag对象的name属性就是标签本身的名称。

例如，超链接标签a的name：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下
![image.png](attachment:image.png)

2.attrs：每个Tag对象的attrs属性就是一个字典，包含了标签的全部属性。
例如，超链接a的attrs属性：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下
![image.png](attachment:image.png)

② NavigableString

使用Tag对象，我们已经得到了标签的内容。那么，要想获取标签内部的文字便用 .string 即可，其类型为NavigableString,示例如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

③ BeautifulSoup

BeautifulSoup对象表示的是一个文档的全部内容。大部分时候，可以把它当做Tag对象，是一个特殊的Tag，我们可以分别获取它的名称、类型以及属性。接本实验例子输出如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

④ Comment

Comment对象是一个特殊类型的NavigableString对象，其实际输出的内容仍然不包括注释符号，但是如果不好好处理它，可能会对我们的文本处理造成意想不到的麻烦。从本实验开始所定义的数据源html字符串中，我们找一个带有注释的a标签，如下所示：

![image.png](attachment:image.png)

从而进行相关操作：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

由上述代码运行结果可知，其注释输出只显示其中的内容。

#### 遍历文档

这里重点学习搜索文档树的find_all()方法。参照BeautifulSoup库的帮助文档，find_all()方法的标准格式如下：

`find_all(name, attrs, recursive, text, **kwargs)`

现对其带有指定参数的使用方法通过示例介绍如下。

##### (1) name参数

name参数可以查找所有名字为name的Tag，字符串对象自动忽略。例如，我们搜索文档中name为超链接a的Tag：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

另外，name参数也可是列表、正则式或方法。具体示例分别如下：

第一种， name参数为列表，如本例中的['a','b']。

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

第二种，name参数为正则式，如本例中的'^b',以b开头的标签都能够找到。

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

第三种，传递参数。如果没有合适的过滤器，那么还可以定义一个方法，方法只接受一个元素参数，如果这个方法返回True表示当前元素匹配并且被找到，如果不是则返回False。下面的方法校验了当前元素，如果包含class属性却不包含id属性，那么将返回True，示例代码如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

##### (2) keyword参数
如果一个指定名字的参数不是搜索内置的参数名，搜索时会把该参数当作指定名字Tag的属性来搜索，如果包含一个名字为id的参数，Beautiful Soup会搜索每个Tag的id属性。示例如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

Soup对象会把link2当作标签搜索所有Tag的id属性

如果传入href参数，Beautiful Soup会搜索每个Tag的href属性，示例代码如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

如果使用多个指定名字的参数可以同时过滤Tag的多个属性，示例代码如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

Soup对象只保留同时具有指定限定符的标签。

##### (3) text参数
通过text参数可以搜索文档中的字符串内容，与name参数的可选值一样，text参数接受字符串、正则表达式、列表、True等参数。

示例代码如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

##### (4) limit参数
find_all()方法返回全部的搜索结构，如果文档树很大，那么搜索会很慢。当我们不需要全部结果时，可以使用limit参数限制放回结果的数量，效果与SQL中的limit关键字相似，当搜索到的结果数量达到limit的限制时，就停止搜索返回结果。例如，本实验开始定义的html字符串，文档中有三个Tag符合搜索条件，但结果只返回了两个，这是由于我们限制了返回数量，示例代码如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

##### (5) recursive参数
通常，调用Tag的find_all()方法时，Beautiful Souphui 检索当前的Tag的所有子孙节点，如果只想搜索Tag的直接子节点，可以使用参数recursive=False，示例代码如下：

![image.png](attachment:image.png)

- 请输入上述代码并运行

- 结果如下

![image.png](attachment:image.png)

### 实验结束后

![image.png](attachment:image.png)