### 什么是bs4
1. beautifulsoup４(以下简称bs4)是一个可以从html , xml文档中抽取数据的python库，他可以支持很多的转换器实现文档的导航和查找检索功能，也可以实现修改功能
2. beautiful soup可以使用很多的文档解析器，主要的解析器有html.parser / lxml / html5lib,在这里lxml备受推崇，因为lxml是以C语言为基础速度快，文档容错力强，基本上可以满足我们的所有的需求

## bs4基本使用
### 1.快速开始
1. 库导入 / 例子导入

In [3]:
from bs4 import BeautifulSoup
import lxml    #　导入解析器
html_str = '''
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!--Elsie--></a>,<a href="http://example.com/lacie" class="sister" id="link2"><!--Lacie--></a> and <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they livedat the bottom of a well.</p>
<p class="story">...'''    # lxml , bs4可以自动修正错误或者缺失的ｈｔｍｌ文档代码

### 2.创建BeautifulSoup对象  
    * 字符串创建  
    * 文件创建  
     
   我们需要知道，bs4会默认选择最合适的解析器来解释这段文本，但是也可以手动的定制解析器'lxml'

In [4]:
# 字符串创建
soup = BeautifulSoup(html_str , 'lxml' , from_encoding='utf8')    # 导入例子
# 文件创建
# soup = BeautifulSoup(open('html_str.html') , 'lxml' , from_encoding='utf8')

#　字符串格式化
print(soup.prettify())    # prettify函数生成格式化的字符串以便阅读打印


<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    <!--Elsie-->
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    <!--Lacie-->
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they livedat the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


### 3.bs4主要对象
   * Tag  
        **BeautifulSoup对象比较特殊，我们可以理解为是一个document标记**  
        tag通俗说就是我们的文档中的标记对象，包括标记本身和标记内的子对象(合称为一个Tag对象)  
        Tag对象的两个重要属性
        * name : 标记的名称,并且支持实时修改（影响当前的html_str）
        * attrs : 标记的属性,支持实时修改
            * 直接字典方式获取属性
            * .attrs属性获取所有的属性的字典
        * get_text()：  
        返回所有的子节点的文档串(str的形式保存)，并且可以制定使用分隔符来拼接，默认没有分隔符号,separate参数可以指定(不抓取注释文档串)
        方法不同于string属性，string属性返回的是报转过的字符串对象，这里的获取的是str文本对象  
        **strip属性可以用来多余的空格和换行符号**
   * NavigableString  
       **Tag内部的文档属于NavigableString对象，可以使用str方法将NavigableString对象还原到str字符串的形式**  
       .string方法可以获取Tag对象的NavigableString文档内容对象，string属性的特点是
       * 标记里面没有标记，直接获取标记的文档内容
       * 如果标记里面只有一个唯一的标记string会继续深入查找文档，并遵循第１点找到最里面的内容
       * 但是如果标机里面有很多的子标记，那么string返回None
   * BeautifulSoup  
       bs对象表示的是文档整个内容，可以理解为是文档树的根，大部分的时候我们都把他当做是特殊的Tag对象，虽然没有name,attrs属性但是为了接口同意，bs对象还是有这些属性存在的
   * Comment  
       注释对象是特立独行的，上述的对象基本上涵盖了文档的所有的数据除了注释部分  
       .string可以引用到注释的内容，但是他不是NavigableString对象而是Comment对象，我们在数据提取的时候对这一点需要明确注意
    

In [5]:
# 抽取Tag对象
print('1.' , [soup.title , soup.a])    # 但是这种方式抽取的对象只是文档中的第一出现的Tag对象
print('2.' ,soup.name , soup.title.name)     #　Tag对象的name属性
# soup.title.name = "mytitle"
# print('3.' , soup.title , soup.mytitle)     # 支持实时修改
# soup.mytitle.name = "title"    # 修正回来
print('4.' , soup.p.attrs , soup.p['class'] , soup.p.get('class'))    #　获取Tag的属性
# soup.p['class'] = 'myclass'
# print('5.' , soup.p.attrs)
# soup.p['myclass'] = 'class'

# 从Tag中抽取NavigableString对象
print('6.1' , soup.p.string , type(soup.p.string) , soup.p.string.string)
print('6.2' , str(soup.p.string) , type(str(soup.p.string)))
print('6.3' , soup.p.next_sibling.next_sibling.string)    # 第２个ｐ满足上面的分析的string的特点，返回None

# bs对象的特殊和接口统一化
print('7.' , soup.name , soup.attrs)

# Comment对象的注意
print('8.' , soup.a.string , type(soup.a.string))

1. [<title>The Dormouse's story</title>, <a class="sister" href="http://example.com/elsie" id="link1"><!--Elsie--></a>]
2. [document] title
4. {'class': ['title']} ['title'] ['title']
6.1 The Dormouse's story <class 'bs4.element.NavigableString'> The Dormouse's story
6.2 The Dormouse's story <class 'str'>
6.3 None
7. [document] {}
8. Elsie <class 'bs4.element.Comment'>


### 4.文档树的遍历(**当前节点中包含下层节点**)  
**bs4会将HTML文档转化成文档书来进行搜索，对于属性结构我们引入节点的概念**  　
* 子节点  
    每一个Tag对象我们可以理解成是一种自己点(但还有别的子节点,字符串也属于一种节点)  
    
    **获取子节点**  
    
    * contents 直接子节点列表
    * children 直接子节点迭代器
    * descendants 子孙节点迭代器  

  **子节点数据提取**  
  **我们会发现无论是Tag还是NavigableString对象都存在string属性，这意味着虽然是NavigableString字符串，但是做了接口统一都表示一种特殊的子节点，但是NavigableString的string属性获取的是自己本身**
    * .string : 
        就像上面的描述一样，string属性针对我们的Tag对象/NavigableString对象
    * .strings : 应用于Tag中存在**多个字符串子节点的情况**,抽取该Tag下所有的子节点的所有NavigableString对象（递归抽取，可以理解为这是一种**解析文档**的方法，抽取所有的节点下的正文）,返回迭代器
    * .stripped_strings : 同strings，**但是会去除不必要的换行符号和空白符号单独构成的NavigableString对象**,返回迭代器
* 父节点  
    我们应该认识到，**每一个Tag或者NavigableString对象**都存在父节点（被包含在某一个Tag / soup中）  
    **获取父节点**  
    
    * parent属性获取父节点
    * parents属性获取所有父辈节点,返回迭代器
* 兄弟节点  
    兄弟节点和本节点处于同一个层级范围内，下面的属性获取的时候需要注意，NavigableString对象也属于节点，所有有识货我们想着要用这个方法去获得上一个Tag标签，往往是不尽如人意的
    * next_sibling / next_siblings : 可以获取到下一个兄弟节点，不存在返回None，后者是一个迭代器
    * previous_sibling / previous_siblings : 可以获取到上一个兄弟节点,不存在返回None，后者是一个迭代器
* 前后节点  
    **注释也算作前后结点**  
    我们还是非常有必要来区分一下什么是兄弟节点什么是前后节点的  
    首先兄弟节点表示的平行的关系，但是前后结点表示的递归的深入关系  
    **NavigableString对象**代表着节点的终结，就像叶子节点一样,使用前后节点的搜索策略就相当于是在逐行的解析文档一样
    * next_element : 后节点
    * previous_element : 前节点
    * next_elements : 后节点迭代器
    * previous_elements : 前节点迭代器

In [29]:
# contents属性生成所有的子节点的列表，children生成迭代器方便我们进行迭代
print(soup.body.contents ,'\n', len(soup.body.contents),'\n')
for i,j in enumerate(soup.body.children):
    print(i , j)
# 但是我们会发现，contents / children只包含直接子节点，并不会深入的递归的给出所有的子孙节点
print("---------------------------------------------------------------------------------")
#　如下我们会发现，对所有的自己点进行遍历的时候有些类似于树的深度有限搜索，并且字符串都属于一种节点
for i , j in enumerate(soup.body.descendants):
    print(i,j , '-------->',type(j) , hasattr(j , 'string'))
print("---------------------------------------------------------------------------------")
for i in soup.body.strings:
    print(type(i) , i)
# print(type(soup.body.stripped_strings))
for i in soup.body.stripped_strings:
    print(type(i) , i)

['\n', <p class="title"><b>The Dormouse's story</b></p>, '\n', <p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!--Elsie--></a>,<a class="sister" href="http://example.com/lacie" id="link2"><!--Lacie--></a> and <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they livedat the bottom of a well.</p>, '\n', <p class="story">...</p>, '\n'] 
 7 

0 

1 <p class="title"><b>The Dormouse's story</b></p>
2 

3 <p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!--Elsie--></a>,<a class="sister" href="http://example.com/lacie" id="link2"><!--Lacie--></a> and <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they livedat the bottom of a well.</p>
4 

5 <p class="story">...</p>
6 

------------------------------------------------------------------

In [33]:
# parent属性获取直接父节点
print(soup.a.parent.name , soup.title.parent.name)
# parents属性获取所有父节点,可以看出来soup也是一种特殊的父节点
print(soup.a)
for parents in soup.a.parents:
    print(parents.name)

p head
<a class="sister" href="http://example.com/elsie" id="link1"><!--Elsie--></a>
p
body
html
[document]


In [6]:
# 兄弟节点
print(soup.p.next_sibling)    # \n
print(soup.p.previous_sibling)    # \n
print(soup.p.next_sibling.next_sibling)    # \n的子节点就是下一个p,Tag对象

for i,j in enumerate(soup.p.next_siblings):
    print(i, j)
for i,j in enumerate(soup.p.previous_siblings):
    print(i,type(j) ,j)





<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!--Elsie--></a>,<a class="sister" href="http://example.com/lacie" id="link2"><!--Lacie--></a> and <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they livedat the bottom of a well.</p>
0 

1 <p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!--Elsie--></a>,<a class="sister" href="http://example.com/lacie" id="link2"><!--Lacie--></a> and <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they livedat the bottom of a well.</p>
2 

3 <p class="story">...</p>
0 <class 'bs4.element.NavigableString'> 



In [7]:
# 前后结点

import bs4

print('1.1' , soup.head)
print('1.2' , soup.head.next_element ,soup.head.next_element.next_element)
print('1.3' , soup.head.previous_element.name)

print('2.1')
for i , j in enumerate(soup.a.next_elements):
    print(' '* 4 ,  i , j)

print('2.2')
for i,j in enumerate(soup.a.previous_elements):
    if isinstance( j , bs4.element.Tag) :     # 是标签节点的实例
        print(' ' * 4 , i , j.name)

1.1 <head><title>The Dormouse's story</title></head>
1.2 <title>The Dormouse's story</title> The Dormouse's story
1.3 html
2.1
     0 Elsie
     1 ,
     2 <a class="sister" href="http://example.com/lacie" id="link2"><!--Lacie--></a>
     3 Lacie
     4  and 
     5 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
     6 Tillie
     7 ;
and they livedat the bottom of a well.
     8 

     9 <p class="story">...</p>
     10 ...
2.2
     1 p
     4 b
     5 p
     7 body
     10 title
     11 head
     12 html


### 5.搜索文档树(过滤节点)  
**每一个节点都存在find_all方法可以使用**  
    文档的搜索使用的主要的方法就是find_all / 类find方法，参数基本上都是一致的，这里主要记录find_all的使用方式  
    find_all方法返回列表，列表中元素便是抽取出来的标记(Tag对象)  
    **find_all方法的使用**  
* 参数
    * name 
        name参数在文档中查找所有名字(.name属性)符合的标记对象(**字符串节点忽略不考虑**，只剩下Tag对象)  
        name 可以接收的对象有 : 字符串，正则表达式，列表，True,方法
    * kwargs参数  
        该参数在python中表示键参数，如果使用的是键参数并不是find_all函数的定义的键，那么搜索的时候会把这个键指定成Tag的属性来进行搜索  
        可以使用的是字符串，正则表达式，列表，True   
        有时候我们使用的键是有问题的
        * class        : 因为class是python的保留关键字，我们只能使用class_避免
        * data-foo ... :  
        因为使用'-'符号在python中不成立，我们不能这么使用  
        我们可以使用attrs字典参数指定(见下例子)(在Tag中我们见到过Tag的attrs字典参数，这里同意思)
    * text参数  
        text是用来搜索文档中的字符串内容的，使用字符串，正则表达式，列表，True  
        **但是需要注意的是，抽取出来的文档有可能来自于注释，所以我们对数据的分析的时候需要小心一点**  
    * limite参数  
        find_all搜索的时候会搜索整个文档树，当文档很大的时候会导致处理速度很慢，当我们只需要少量的结果的时候，可以考虑使用Ｌｉｍｉｔｅ参数限制返回的结果的数量，当搜索到的结果到达限制搜索就会停止并返回结果
    * recursive参数  
        正如看到的那样，find_all方法是针对当前的节点搜索其内的所有的子节点（默认的recursive = True），如果我们限定只允许查找直接子节点可以将该参数制成False
        
 

其他的类似的函数的参数设置基本上都是类似的
1. find : 同find_all但是只返回第一个查找结果，结果不是列表,可以理解为是find_all()[0]
2. find_parent , find_next_siblings ....　查找其他的节点的内部

In [56]:
# find_all , name参数
print('1' , soup.find_all(name = 'b') , type(soup.find_all(name = 'b')) , type(soup.find_all(name = 'b')[0]))   #　抽取b标记

# 使用正则表达式搜索的时候，我们传入pattern的re对象，并自动进行匹配操作
print('2.')
import re
for tag in soup.find_all(name = re.compile('t')):
    print(' ' * 4 , tag.name)
    
#　如果传入的是列表，我们会将任何在列表中满足匹配条件的Tag对象插入进列表
print('3.' , soup.find_all(name = ['a' , 'title']))

#　如果传入的参数是True，会匹配所有的对象
print('4.')
for tag in soup.find_all(name = True):
    print(' '* 4 , tag.name)
    
# 如果所有的上述方法还是不能满足需求，我们可以自定义方法作为过滤器,参数接受为Tag对象，返回True表示接收否则是不接受
def haveclass(tag):
    return tag.has_attr('class') and tag.has_attr('id')
    # return hasattr(tag , 'class') and hasattr(tag, 'id') and hasattr(tag, 'href')    #　hasattr不可以过滤，只能用.has_attr过滤
print('5.' , soup.find_all(name = haveclass))

1 [<b>The Dormouse's story</b>] <class 'bs4.element.ResultSet'> <class 'bs4.element.Tag'>
2.
     html
     title
3. [<title>The Dormouse's story</title>, <a class="sister" href="http://example.com/elsie" id="link1"><!--Elsie--></a>, <a class="sister" href="http://example.com/lacie" id="link2"><!--Lacie--></a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
4.
     html
     head
     title
     body
     p
     b
     p
     a
     a
     a
     p
5. [<a class="sister" href="http://example.com/elsie" id="link1"><!--Elsie--></a>, <a class="sister" href="http://example.com/lacie" id="link2"><!--Lacie--></a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


In [75]:
# find_all , kwargs参数
print('1.1' , soup.find_all(href = re.compile('http://*')))    #　href不是find_all的参数名，当做某一个标签的属性来过滤
print('1.2')    #　存在id的Tag对象,class比较特殊，因为class是python保留关键字，所以我们必须要使用class_避免重用
for i in soup.find_all(class_ = True):
    print(' '*4 , i.string , end = '\t')
print('\n2.')
data_soup = BeautifulSoup('<div data-foo="value">foo!</div>' , 'lxml' , from_encoding='utf8')
data_soup.find_all(attrs = {'data-foo' : 'value'})

1.1 [<a class="sister" href="http://example.com/elsie" id="link1"><!--Elsie--></a>, <a class="sister" href="http://example.com/lacie" id="link2"><!--Lacie--></a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
1.2
     The Dormouse's story	     None	     Elsie	     Lacie	     Tillie	     ...	
2.


[<div data-foo="value">foo!</div>]

In [96]:
# find_all , text参数
print('1.' , soup.find_all(text = 'Elsie'))    # 来自注释的ｃｏｍｍｅｎｔ对象
print('2.' , soup.find_all(text = ['Tillie' , 'Elsie' , 'Lacie']))
print('3.' , soup.find_all(text = re.compile(r'\band\b')))

1. ['Elsie']
2. ['Elsie', 'Lacie', 'Tillie']
3. ['Once upon a time there were three little sisters; and their names were\n', ' and ', ';\nand they livedat the bottom of a well.']


In [100]:
# find_all , limite参数
print(soup.html.find_all(name = 'a' , limit=2))    #　符合条件的有３个，但是返回结果只有前两个,本例是针对html的find_all方法

[<a class="sister" href="http://example.com/elsie" id="link1"><!--Elsie--></a>, <a class="sister" href="http://example.com/lacie" id="link2"><!--Lacie--></a>]


In [102]:
# find_all , recursive递归参数
print(soup.find_all(name = 'title'))
print(soup.find_all(name = 'title' , recursive=False))    #　ｓｏｕｐ下直接子节点只有ｈｔｍｌ不存在ｔｉｔｌｅ

[<title>The Dormouse's story</title>]
[]


### **搜索文档树的CSS选择器方法** 
1. SS选择器的检索方法需要我们熟悉CSS选择器参考手册  http://www.w3school.com.cn/cssref/css_selectors.asp  
2. 这样的语法非常的复杂，我们使用使用注意的思想直奔主题，采用FireBug对CSS搜索直接生成，下面的例子采用扒取的baidu的首页

In [108]:
import urllib.request
filename , headers = urllib.request.urlretrieve('http://www.baidu.com','baidu.html')    #　保存在当前目录下作为参考

soup = BeautifulSoup(open('baidu.html') , 'lxml' , from_encoding='utf8')    # 文件生成bs4对象

In [1]:
# e.g.扒取百度一下按钮的文档节点
# FireBug生成的CSS路径是 : #su
# soup.select("#su")
# 查看的网页和扒取的网页不一致的原因 : 不一致不是在反爬虫，是异步加载导致的，右键查看页面源码的时候可能没包含 JS 插进去的内容，比如 Chrome 查看源码会重新页面请求一次，你应该用审查元素来看。
# 异步加载的内容需要通过模拟接口的请求来获取内容。
soup.select("#lg")

NameError: name 'soup' is not defined

## 删除文档树中的节点的方法
decompose方法，对tag对象调用该方法即可在文档书中删除对应的节点对象