# 49. 【Python学习分享文章】\_webCrawler_beutifulSoup

## 综述  

一个第三方库，不需要使用麻烦的正则方法，就可以进行网页 HTML 内容的操作。

【注意】  
终端的安装包名字和软件名字是不一样的，终端的安装名字是 bs4，如下：
```
pip install bs4
```

【建议】  
一个比较好用的依赖的第三方库 ```lxml``` 也可以进行安装，如下：
```
pip install lxml
```

## 目录

### - 格式整理
### - 常用方法
### - 总结

## 格式整理

### - 问题背景

编程查看的源代码，如果不进行整理，格式比较混乱，为了输出标准的 HTML 格式，所以可以使用 ```lxml``` 这个第三方库。

### - 未整理的 HTML 源代码

例子如下：
```
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The dormouse's story</b></p>

<p class="story">Once upon a time there wereadfjaldkfjadkfaskddjf,whatever is all OK
<a href="http://example.com/elsie" class="sister" id="linkSister1">Elsie</a>,
<a href="http://example.com/john" class="sister" id="linkSister2">John</a> and 
<a href="http://example.com/amily" class="sister" id="linkSister3">Amily</a>;

<p class="story:>...</p>
```

这个不是标准的 HTML 语言格式，会比较难寻找到对应标签、结构，所以需要使用 lxml 进行整理。

### - 整理得到标准 HTML 格式

code 如下：

In [1]:
# 认为建立一个例子
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The dormouse's story</b></p>

<p class="story">Once upon a time there wereadfjaldkfjadkfaskddjf,whatever is all OK
<a href="http://example.com/elsie" class="sister" id="linkSister1">Elsie</a>,
<a href="http://example.com/john" class="sister" id="linkSister2">John</a> and 
<a href="http://example.com/amily" class="sister" id="linkSister3">Amily</a>;

<p class="story:>...</p>
"""

from bs4 import BeautifulSoup

# 使用 BeautifulSoup 进行处理
soup = BeautifulSoup(html_doc, 'lxml')  # 第一个参数：导入；第二个参数：按照什么格式解析 HTML 代码。
print(soup.prettify())  # 进行整理格式进行输出。

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there wereadfjaldkfjadkfaskddjf,whatever is all OK
   <a class="sister" href="http://example.com/elsie" id="linkSister1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/john" id="linkSister2">
    John
   </a>
   and
   <a class="sister" href="http://example.com/amily" id="linkSister3">
    Amily
   </a>
   ;
  </p>
  <p class="story:&gt;...&lt;/p&gt; ">
  </p>
 </body>
</html>


【结果分析】  
整理后的排版就是标准的 HTML 格式，可以通过缩进很方便找到对应的区块。

## 常用方法

1. title  
找到 title 的标签。
2. 获取 p 标签
3. 获取 a 标签
4. 找到特定名称的链接标签
5. 找到文档中所有文本的内容

### - 1. title

- 常规操作

如下：

In [2]:
print(soup.title)

<title>The Dormouse's story</title>


- 去掉都为的标记符号

方法如下：

In [3]:
print(soup.title.string)

The Dormouse's story


### - 2. 获取 p 标签

- 常规操作

如下：

In [4]:
print(soup.p)

<p class="title"><b>The dormouse's story</b></p>


- 找到 class 的名字

如下：

In [5]:
print(soup.p['class'])

['title']


### - 3. 获取 a 标签

- 常规操作

如下：

In [6]:
print(soup.a)

<a class="sister" href="http://example.com/elsie" id="linkSister1">Elsie</a>


- 找到所有 a 标签

如下：

In [7]:
print(soup.find_all('a'))

[<a class="sister" href="http://example.com/elsie" id="linkSister1">Elsie</a>, <a class="sister" href="http://example.com/john" id="linkSister2">John</a>, <a class="sister" href="http://example.com/amily" id="linkSister3">Amily</a>]


### - 4. 找到特定名字的链接的标签

- 常规操作

找到 id 为 linkX 的标签，如下：

In [9]:
print(soup.find(id='linkSister3'))

<a class="sister" href="http://example.com/amily" id="linkSister3">Amily</a>


- 找到所有 <a\> 标签的链接

如下：

In [10]:
for link in soup.find_all('a'):
    print(link.get('href'))

http://example.com/elsie
http://example.com/john
http://example.com/amily


### - 5. 找到文档中所有文本的内容

- 常规操作

如下：

In [11]:
print(soup.get_text())

The Dormouse's story

The dormouse's story
Once upon a time there wereadfjaldkfjadkfaskddjf,whatever is all OK
Elsie,
John and 
Amily;




## 总结

beautifulSoup 的使用是十分灵活的，可以根据自己需要找到指定的内容。

---
注：  
个人微信公众号：codeAndWrite