# BS4库基本使用

bs4库 是解析、遍历、维护、“标签树“的功能库。通俗一点说就是： bs4库把html源代码重新进行了**格式化**，从而方便我们对其中的节点、标签、属性等进行操作。

## 安装

``` code
pip install beautifulsoup4
```

## 基本用法

In [1]:
html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.prettify())
print(soup.title.string)

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title" name="dromouse">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    <!-- Elsie -->
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>
The Dormouse's story


bs4库是这样理解一个html源文件的：

- 首先 把html源文件转换为soup类型
- 接着 从中通过特定的方式抓取内容

bs4库之所以能快速的定位我们想要的元素，是因为他能够用一种方式将html文件解析了一遍 ，不同的解析器有不同的效果。bs4库官方推荐我们使用的是lxml解析器，原因是它具有更高的效率，所以我们也将采用lxml解析器。

lxml解析器的安装:

依旧采用pip安装工具来安装。

``` code
pip install lxml
```

bs4 库将复杂的html文档转化为一个复杂的树形结构，每个节点都是Python对象 ，所有对象可以分为以下四个类型：Tag , NavigableString , BeautifulSoup , Comment
我们来逐一解释：

- Tag： 和html中的Tag基本没有区别，可以简单上手使用
- NavigableString： 被包裹在tag内的字符串
- BeautifulSoup： 表示一个文档的全部内容，大部分的时候可以吧他看做一个tag对象，支持遍历文档树和搜索文档树方法。
- Comment：这是一个特殊的NavigableSting对象，在出现在html文档中时，会以特殊的格式输出，比如注释类型。

其他一些非bs4解析方法：

In [None]:
from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
result = etree.tostring(html)
print(result.decode('utf-8'))

In [None]:
# 注意文件名不要命名为pyquery，否则导入包会不成功
html = '''
<div id="container">
    <ul class="list">
         <li class="item-0">first item</li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 </div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('#container .list li'))
print(type(doc('#container .list li')))