# BeautifulSoup4库
和lxml一样，Beautiful Soup也是一个HTML/XML的解析器，主要的功能也是如何解析和提取HTML/XML数据。

lxml只会局部遍历，而BeautifulSoup是基于HTML DOM (Document Object Model)的，会载入整个文档，**解析整个DOM树**，因此时间和内存开销都会大很多，所以性能要低于lxml.  

BeautifulSoup用来解析HTML比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持lxml的XML解析器。 

Beautiful Soup 3 目前已经停止开发，推荐现在的项目使用Beautiful Soup 4。

### **安装**  
pip install bs4

# BeautifulSoup笔记：

## find_all的使用：
1. 在提取标签的时候，第一个参数是标签的名字。然后如果在提取标签的时候想要使用标签属性进行过滤，那么可以在这个方法中通过关键字参数的形式，将属性的名字以及对应的值传进去。或者是使用`attrs`属性，将所有的属性以及对应的值放在一个字典中传给`attrs`属性。
2. 有些时候，在提取标签的时候，不想提取那么多，那么可以使用`limit`参数。限制提取多少个。

## find与find_all的区别：
1. find：找到第一个满足条件的标签就返回。说白了，就是只会返回一个元素。
2. find_all:将所有满足条件的标签都返回。说白了，会返回很多标签（以列表的形式）。

## 使用find和find_all的过滤条件：
1. 关键字参数：将属性的名字作为关键字参数的名字，以及属性的值作为关键字参数的值进行过滤。
2. attrs参数：将属性条件放到一个字典中，传给attrs参数。

## 获取标签的属性：
1. 通过下标获取：通过标签的下标的方式。
    ```python
    href = a['href']
    ```
2. 通过attrs属性获取：示例代码：
    ```python
    href = a.attrs['href']
    ```

## string和strings、stripped_strings属性以及get_text方法：
1. string：获取某个标签下的非标签字符串。返回来的是个字符串。**如果这个标签下有多行字符，那么就不能获取到了**。
2. strings：获取某个标签下的子孙非标签字符串。返回来的是个**生成器**。
2. stripped_strings：获取某个标签下的子孙非标签字符串，会去掉空白字符。返回来的是个**生成器**。
4. get_text：获取某个标签下的子孙非标签字符串。不是以列表的形式返回，是以普通**字符串**返回。


## CSS选择器：
**class用或者id用**  
1. 根据标签的名字选择，示例代码如下：
    ```css
    p{
        background-color: pink;
    }
    ```
2. 根据类名选择，那么要在类的前面加一个点。示例代码如下：
    ```css
    .line{
        background-color: pink;
    }
    ```
3. 根据id名字选择，那么要在id的前面加一个#号。示例代码如下：
    ```css
    #box{
        background-color: pink;
    }
    ```
4. 查找子孙元素。那么要在子孙元素中间有一个空格。示例代码如下：
    ```css
    #box p{
        background-color: pink;
    }
    ```
5. 查找直接子元素。那么要在父子元素中间有一个>。示例代码如下：
    ```css
    #box > p{
        background-color: pink;
    }
    ```
6. 根据属性的名字进行查找。那么应该先写标签名字，然后再在中括号中写属性的值。示例代码如下：
    ```css
    input[name='username']{
        background-color: pink;
    }
    ```
7. 在根据类名或者id进行查找的时候，如果还要根据标签名进行过滤。那么可以在类的前面或者id的前面加上标签名字。示例代码如下：
    ```css
    div#line{
        background-color: pink;
    }
    div.line{
        background-color: pink;
    }
    ```

## BeautifulSop中使用css选择器：
在`BeautifulSoup`中，要使用css选择器，那么应该使用`soup.select()`方法。应该传递一个css选择器的字符串给select方法。


## BeaitufulSoup中常见的四种对象：
1. Tag：BeautifulSoup中所有的标签都是Tag类型，并且BeautifulSoup的对象其实本质上也是一个Tag类型。所以其实一些方法比如find、find_all并不是BeautifulSoup的，而是Tag的。
2. NavigableString：继承自python中的str，用起来就跟使用python的str是一样的。
3. BeautifulSoup：继承自Tag。用来生成BeaufifulSoup树的。对于一些查找方法，比如find、select这些，其实还是Tag的。
4. Comment：这个也没什么好说，就是继承自NavigableString。

## contents和children：
返回某个标签下的直接子元素，其中也包括字符串。他们两的区别是：contents返回来的是一个列表，children返回的是一个迭代器。

# 几大解析工具对比：
- BeautifulSoup: 解析速度：最慢， 使用难读：最简单
- lxml: 解析速度：快， 使用难读：简单 （lxml是C语言编写的）
- 正则: 解析速度：最快， 使用难读：最难

## 1.find和find_all方法：

In [1]:
from bs4 import BeautifulSoup
# BeautifulSoup只能读取文本
# """代表多行的字符串
html = """
<table class="tablelist" cellpadding="0" cellspacing="0">
    <tbody>
        <tr class="h">
            <td class="l" width="374">职位名称</td>
            <td>职位类别</td>
            <td>人数</td>
            <td>地点</td>
            <td>发布时间</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=33824&keywords=python&tid=87&lid=2218">22989-金融云区块链高级研发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=29938&keywords=python&tid=87&lid=2218">22989-金融云高级后台开发</a></td>
            <td>技术类</td>
            <td>2</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=31236&keywords=python&tid=87&lid=2218">SNG16-腾讯音乐运营开发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>2</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=31235&keywords=python&tid=87&lid=2218">SNG16-腾讯音乐业务运维工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=34531&keywords=python&tid=87&lid=2218">TEG03-高级研发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=34532&keywords=python&tid=87&lid=2218">TEG03-高级图像算法研发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=31648&keywords=python&tid=87&lid=2218">TEG11-高级AI开发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>4</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=32218&keywords=python&tid=87&lid=2218">15851-后台开发工程师</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=32217&keywords=python&tid=87&lid=2218">15851-后台开发工程师</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a id="test" class="test" target="_blank" href="position_detail.php?id=34511&keywords=python&tid=87&lid=2218">SNG11-高级业务运维工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
    </tbody>
</table>
"""
# 第二个参数是指定一个解析器
# python => C
# bs4 => lxml
bs = BeautifulSoup(html, "lxml") 
# 解析器有："html.parser"（默认）
        # "html"(速度快容错性强，但需要C语言库）
        # "xml"(速度快唯一支持XML的解析器，但需要C语言库）
        # "html5lib" （容错性最强但速度慢） #碰到奇葩的时候可以用这个
print(bs.prettify())

<html>
 <body>
  <table cellpadding="0" cellspacing="0" class="tablelist">
   <tbody>
    <tr class="h">
     <td class="l" width="374">
      职位名称
     </td>
     <td>
      职位类别
     </td>
     <td>
      人数
     </td>
     <td>
      地点
     </td>
     <td>
      发布时间
     </td>
    </tr>
    <tr class="even">
     <td class="l square">
      <a href="position_detail.php?id=33824&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">
       22989-金融云区块链高级研发工程师（深圳）
      </a>
     </td>
     <td>
      技术类
     </td>
     <td>
      1
     </td>
     <td>
      深圳
     </td>
     <td>
      2017-11-25
     </td>
    </tr>
    <tr class="odd">
     <td class="l square">
      <a href="position_detail.php?id=29938&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">
       22989-金融云高级后台开发
      </a>
     </td>
     <td>
      技术类
     </td>
     <td>
      2
     </td>
     <td>
      深圳
     </td>
     <td>
      2017-11-25
     </td>
    </tr>
    <tr class="even">
  

In [19]:
# 1.获取所有tr标签
# 2.获取第二个tr标签
# 3.获取所有class等于even的tr标签
# 4.将所有id等于test, class也等于test的a标签提取出来
# 5.获取所有a标签的href属性
# 6.获取所有的职位信息（纯文本）

In [2]:
soup = BeautifulSoup(html, "lxml")

# 1.获取所有的tr标签
trs = soup.find_all('tr')
for tr in trs:
    print(type(tr)) #tr是Tag类
    print(tr)
    print("="*30)

<class 'bs4.element.Tag'>
<tr class="h">
<td class="l" width="374">职位名称</td>
<td>职位类别</td>
<td>人数</td>
<td>地点</td>
<td>发布时间</td>
</tr>
<class 'bs4.element.Tag'>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=33824&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">22989-金融云区块链高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
<class 'bs4.element.Tag'>
<tr class="odd">
<td class="l square"><a href="position_detail.php?id=29938&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">22989-金融云高级后台开发</a></td>
<td>技术类</td>
<td>2</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
<class 'bs4.element.Tag'>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=31236&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">SNG16-腾讯音乐运营开发工程师（深圳）</a></td>
<td>技术类</td>
<td>2</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
<class 'bs4.element.Tag'>
<tr class="odd">
<td class="l square"><a href="position_detail.php?id=312

In [3]:
# 2.获取第二个tr标签
tr = soup.find_all('tr', limit=2)[1]
print(tr)

<tr class="even">
<td class="l square"><a href="position_detail.php?id=33824&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">22989-金融云区块链高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>


In [4]:
# 3.获取所有class等于even的tr标签
# _可以和python内置的属性区分
trs = soup.find_all('tr', class_='even')
# 或者：
trs = soup.find_all('tr', attrs={"class":'even'})
for tr in trs:
    print(tr)
    print('='*30)

<tr class="even">
<td class="l square"><a href="position_detail.php?id=33824&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">22989-金融云区块链高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=31236&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">SNG16-腾讯音乐运营开发工程师（深圳）</a></td>
<td>技术类</td>
<td>2</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=34531&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">TEG03-高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=31648&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">TEG11-高级AI开发工程师（深圳）</a></td>
<td>技术类</td>
<td>4</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=32217&amp

In [7]:
# 4.将所有id等于test, class也等于test的a标签提取出来
aList = soup.find_all('a', class_='test', id='test')
for a in aList:
    print(a)

<a class="test" href="position_detail.php?id=34511&amp;keywords=python&amp;tid=87&amp;lid=2218" id="test" target="_blank">SNG11-高级业务运维工程师（深圳）</a>


In [8]:
#或者用attr的方式来写
aList = soup.find_all('a', attrs={"class":'test', "id":'test'})
for a in aList:
    print(a)

<a class="test" href="position_detail.php?id=34511&amp;keywords=python&amp;tid=87&amp;lid=2218" id="test" target="_blank">SNG11-高级业务运维工程师（深圳）</a>


In [11]:
# 5.获取所有a标签的href属性
aList = soup.find_all('a')
for a in aList:
    # 1.通过下表操作的方式
    href = a['href']
    # 2.通过attrs属性的方式
    href = a.attrs['href']
    print(href)

position_detail.php?id=33824&keywords=python&tid=87&lid=2218
position_detail.php?id=29938&keywords=python&tid=87&lid=2218
position_detail.php?id=31236&keywords=python&tid=87&lid=2218
position_detail.php?id=31235&keywords=python&tid=87&lid=2218
position_detail.php?id=34531&keywords=python&tid=87&lid=2218
position_detail.php?id=34532&keywords=python&tid=87&lid=2218
position_detail.php?id=31648&keywords=python&tid=87&lid=2218
position_detail.php?id=32218&keywords=python&tid=87&lid=2218
position_detail.php?id=32217&keywords=python&tid=87&lid=2218
position_detail.php?id=34511&keywords=python&tid=87&lid=2218


In [13]:
# 6.获取所有的职位信息（纯文本）
# 第一种方法
trs = soup.find_all('tr')[1:]
jobs = []

#.strng可以获取文本内容
for tr in trs:
    job={}
    tds = tr.find_all('td')
    title = tds[0].string
    category = tds[1].string
    nums = tds[2].string
    city = tds[3].string
    pubtime = tds[4].string
    job['title'] = title
    job['categoty'] = category
    job['nums'] = nums
    job['city'] = city
    job['pubtime'] = pubtime
    jobs.append(job)
    
print(jobs)

[{'title': '22989-金融云区块链高级研发工程师（深圳）', 'categoty': '技术类', 'nums': '1', 'city': '深圳', 'pubtime': '2017-11-25'}, {'title': '22989-金融云高级后台开发', 'categoty': '技术类', 'nums': '2', 'city': '深圳', 'pubtime': '2017-11-25'}, {'title': 'SNG16-腾讯音乐运营开发工程师（深圳）', 'categoty': '技术类', 'nums': '2', 'city': '深圳', 'pubtime': '2017-11-25'}, {'title': 'SNG16-腾讯音乐业务运维工程师（深圳）', 'categoty': '技术类', 'nums': '1', 'city': '深圳', 'pubtime': '2017-11-25'}, {'title': 'TEG03-高级研发工程师（深圳）', 'categoty': '技术类', 'nums': '1', 'city': '深圳', 'pubtime': '2017-11-24'}, {'title': 'TEG03-高级图像算法研发工程师（深圳）', 'categoty': '技术类', 'nums': '1', 'city': '深圳', 'pubtime': '2017-11-24'}, {'title': 'TEG11-高级AI开发工程师（深圳）', 'categoty': '技术类', 'nums': '4', 'city': '深圳', 'pubtime': '2017-11-24'}, {'title': '15851-后台开发工程师', 'categoty': '技术类', 'nums': '1', 'city': '深圳', 'pubtime': '2017-11-24'}, {'title': '15851-后台开发工程师', 'categoty': '技术类', 'nums': '1', 'city': '深圳', 'pubtime': '2017-11-24'}, {'title': 'SNG11-高级业务运维工程师（深圳）', 'categoty': '技术类', 'nums': '1

In [14]:
# 第二种方式
trs = soup.find_all('tr')[1:]
jobs = []

# .strings可以把所有文本内容提取出来
for tr in trs:
    job = {}
    # infos = tr.strings #是一个生成器
    # .stripped_strings 可以把所有空白的换行内容都给去掉
    infos = tr.stripped_strings
    infos = list(infos) #把生成器转换成列表
    job['title'] = infos[0]
    job['category'] = infos[1]
    job['nums'] = infos[2]
    job['city'] = infos[3]
    job['pubtime'] = infos[4]
    jobs.append(job)

print(jobs)

[{'title': '22989-金融云区块链高级研发工程师（深圳）', 'category': '技术类', 'nums': '1', 'city': '深圳', 'pubtime': '2017-11-25'}, {'title': '22989-金融云高级后台开发', 'category': '技术类', 'nums': '2', 'city': '深圳', 'pubtime': '2017-11-25'}, {'title': 'SNG16-腾讯音乐运营开发工程师（深圳）', 'category': '技术类', 'nums': '2', 'city': '深圳', 'pubtime': '2017-11-25'}, {'title': 'SNG16-腾讯音乐业务运维工程师（深圳）', 'category': '技术类', 'nums': '1', 'city': '深圳', 'pubtime': '2017-11-25'}, {'title': 'TEG03-高级研发工程师（深圳）', 'category': '技术类', 'nums': '1', 'city': '深圳', 'pubtime': '2017-11-24'}, {'title': 'TEG03-高级图像算法研发工程师（深圳）', 'category': '技术类', 'nums': '1', 'city': '深圳', 'pubtime': '2017-11-24'}, {'title': 'TEG11-高级AI开发工程师（深圳）', 'category': '技术类', 'nums': '4', 'city': '深圳', 'pubtime': '2017-11-24'}, {'title': '15851-后台开发工程师', 'category': '技术类', 'nums': '1', 'city': '深圳', 'pubtime': '2017-11-24'}, {'title': '15851-后台开发工程师', 'category': '技术类', 'nums': '1', 'city': '深圳', 'pubtime': '2017-11-24'}, {'title': 'SNG11-高级业务运维工程师（深圳）', 'category': '技术类', 'nums': '1

In [17]:
# get_text 以str字符串的形式返回
#而string/strings/stripped_strings返回的是生成器（可以转换成列表）
tr = soup.find_all('tr')[1]
text = tr.get_text()
print(type(text))
print(text) 

<class 'str'>

22989-金融云区块链高级研发工程师（深圳）
技术类
1
深圳
2017-11-25



## 2.select方法：
使用以上方法可以方便的找出元素。但有时候使用```css```选择器的方式可以更加的方便。使用```css```选择器的语法，应该使用```select```方法。以下列出几种常用的```css```选择器方法：

In [18]:
html = """
<table class="tablelist" cellpadding="0" cellspacing="0">
    <tbody>
        <tr class="h">
            <td class="l" width="374">职位名称</td>
            <td>职位类别</td>
            <td>人数</td>
            <td>地点</td>
            <td>发布时间</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=33824&keywords=python&tid=87&lid=2218">22989-金融云区块链高级研发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=29938&keywords=python&tid=87&lid=2218">22989-金融云高级后台开发</a></td>
            <td>技术类</td>
            <td>2</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=31236&keywords=python&tid=87&lid=2218">SNG16-腾讯音乐运营开发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>2</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=31235&keywords=python&tid=87&lid=2218">SNG16-腾讯音乐业务运维工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=34531&keywords=python&tid=87&lid=2218">TEG03-高级研发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=34532&keywords=python&tid=87&lid=2218">TEG03-高级图像算法研发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=31648&keywords=python&tid=87&lid=2218">TEG11-高级AI开发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>4</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=32218&keywords=python&tid=87&lid=2218">15851-后台开发工程师</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=32217&keywords=python&tid=87&lid=2218">15851-后台开发工程师</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a id="test" class="test" target="_blank" href="position_detail.php?id=34511&keywords=python&tid=87&lid=2218">SNG11-高级业务运维工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
    </tbody>
</table>
"""

In [20]:
# 1.获取所有tr标签
# 2.获取第二个tr标签
# 3.获取所有class等于even的tr标签
# 4.将所有id等于test, class也等于test的a标签提取出来
# 5.获取所有a标签的href属性
# 6.获取所有的职位信息（纯文本）

In [23]:
soup = BeautifulSoup(html, 'lxml')

# 1.获取所有tr标签
trs = soup.select("tr")
for tr in trs: #这里tr也是Tag的数据类型
    print(type(tr))
    print(tr)
    break

<class 'bs4.element.Tag'>
<tr class="h">
<td class="l" width="374">职位名称</td>
<td>职位类别</td>
<td>人数</td>
<td>地点</td>
<td>发布时间</td>
</tr>


In [27]:
# 2.获取第二个tr标签
tr = soup.select('tr')[1]
print(tr)

<tr class="even">
<td class="l square"><a href="position_detail.php?id=33824&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">22989-金融云区块链高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>


In [29]:
# 3.获取所有class等于even的tr标签
trs = soup.select(".even") #css选择的方法
# 或者
trs = soup.select("tr[class='even']")
for tr in trs:
    print(tr)

<tr class="even">
<td class="l square"><a href="position_detail.php?id=33824&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">22989-金融云区块链高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=31236&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">SNG16-腾讯音乐运营开发工程师（深圳）</a></td>
<td>技术类</td>
<td>2</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=34531&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">TEG03-高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=31648&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">TEG11-高级AI开发工程师（深圳）</a></td>
<td>技术类</td>
<td>4</td>
<td>深圳</td>
<td>2017-11-24</td>
</tr>
<tr class="even">
<td class="l square"><a href="position_detail.php?id=32217&amp

In [30]:
# 4.将所有id等于test, class也等于test的a标签提取出来
# 在css选择器中实现不了

In [31]:
# 5.获取所有a标签的href属性
# 在css选择器中实现不了，但是在bs中可以
aList = soup.select('a')
for a in aList:
    href = a['href']
    print(href)

position_detail.php?id=33824&keywords=python&tid=87&lid=2218
position_detail.php?id=29938&keywords=python&tid=87&lid=2218
position_detail.php?id=31236&keywords=python&tid=87&lid=2218
position_detail.php?id=31235&keywords=python&tid=87&lid=2218
position_detail.php?id=34531&keywords=python&tid=87&lid=2218
position_detail.php?id=34532&keywords=python&tid=87&lid=2218
position_detail.php?id=31648&keywords=python&tid=87&lid=2218
position_detail.php?id=32218&keywords=python&tid=87&lid=2218
position_detail.php?id=32217&keywords=python&tid=87&lid=2218
position_detail.php?id=34511&keywords=python&tid=87&lid=2218


In [35]:
# 6.获取所有的职位信息（纯文本）
trs = soup.select('tr')
for tr in trs:
    infos = list(tr.stripped_strings) #css选择器本身做不了，这还是依靠bs提供的功能
    print(infos)

['职位名称', '职位类别', '人数', '地点', '发布时间']
['22989-金融云区块链高级研发工程师（深圳）', '技术类', '1', '深圳', '2017-11-25']
['22989-金融云高级后台开发', '技术类', '2', '深圳', '2017-11-25']
['SNG16-腾讯音乐运营开发工程师（深圳）', '技术类', '2', '深圳', '2017-11-25']
['SNG16-腾讯音乐业务运维工程师（深圳）', '技术类', '1', '深圳', '2017-11-25']
['TEG03-高级研发工程师（深圳）', '技术类', '1', '深圳', '2017-11-24']
['TEG03-高级图像算法研发工程师（深圳）', '技术类', '1', '深圳', '2017-11-24']
['TEG11-高级AI开发工程师（深圳）', '技术类', '4', '深圳', '2017-11-24']
['15851-后台开发工程师', '技术类', '1', '深圳', '2017-11-24']
['15851-后台开发工程师', '技术类', '1', '深圳', '2017-11-24']
['SNG11-高级业务运维工程师（深圳）', '技术类', '1', '深圳', '2017-11-24']


## BeaitufulSoup中常见的四种对象：

### 1.Tag

In [48]:
soup = BeautifulSoup(html, 'lxml')
print(type(soup)) 
# BeautifulSoup这个类继承Tag这个类
# 所以，soup.find_all(“tr”)能用，table.find_all(“tr”)也能用
table = soup.find('table')
print(type(table))

<class 'bs4.BeautifulSoup'>
<class 'bs4.element.Tag'>


### 2.NavigableString

In [50]:
html = """
<table class="tablelist" cellpadding="0" cellspacing="0">
    <tbody>
        <tr class="h">
            <td class="l" width="374">职位名称</td>
            <td>职位类别</td>
            <td>人数</td>
            <td>地点</td>
            <td>发布时间</td>
        </tr>
    </tbody>
</table>
<div>
我是div中的文本
</div>
"""

soup = BeautifulSoup(html, 'lxml')
div = soup.find('div')
print(type(div.string))

<class 'bs4.element.NavigableString'>


### 3.BeautifulSoup
继承于Tag

### 4.Comment

In [62]:
html = """
<table class="tablelist" cellpadding="0" cellspacing="0">
    <tbody>
        <tr class="h">
            <td class="l" width="374">职位名称</td>
            <td>职位类别</td>
            <td>人数</td>
            <td>地点</td>
            <td>发布时间</td>
        </tr>
    </tbody>
</table>
<p><!--我是注释字符串--></p>
"""
soup = BeautifulSoup(html, 'lxml')
p = soup.find('p')
print(p.string)
print(type(p.string)) #是一个Comment类型 #继承于NavigableString

我是注释字符串
<class 'bs4.element.Comment'>


## contents和children

### 1.contents

In [54]:
html = """
<table class="tablelist" cellpadding="0" cellspacing="0">
    <tbody>
        <tr class="h">
            <td class="l" width="374">职位名称</td>
            <td>职位类别</td>
            <td>人数</td>
            <td>地点</td>
            <td>发布时间</td>
        </tr>
    </tbody>
</table>
<p><!--我是注释字符串--></p>
"""

soup = BeautifulSoup(html, 'lxml')
p = soup.find('p')
print(p.string)

我是注释字符串


In [57]:
# 如果把注释不写同一行
html = """
<table class="tablelist" cellpadding="0" cellspacing="0">
    <tbody>
        <tr class="h">
            <td class="l" width="374">职位名称</td>
            <td>职位类别</td>
            <td>人数</td>
            <td>地点</td>
            <td>发布时间</td>
        </tr>
    </tbody>
</table>
<p>
<!--我是注释字符串-->
</p>
"""

soup = BeautifulSoup(html, 'lxml')
p = soup.find('p')
print(p.string)
# 如果存在多个文本（包括换行符），.string就获取不到了

None


In [59]:
# 那么该怎么办呢？
# 可以用.contents
p = soup.find('p')
print(p.contents)

['\n', '我是注释字符串', '\n']


### 2.children

In [74]:
html = """
<table class="tablelist" cellpadding="0" cellspacing="0">
    <tbody>
        <tr class="h">
            <td class="l" width="374">职位名称</td>
            <td>职位类别</td>
            <td>人数</td>
            <td>地点</td>
            <td>发布时间</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=33824&keywords=python&tid=87&lid=2218">22989-金融云区块链高级研发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=29938&keywords=python&tid=87&lid=2218">22989-金融云高级后台开发</a></td>
            <td>技术类</td>
            <td>2</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=31236&keywords=python&tid=87&lid=2218">SNG16-腾讯音乐运营开发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>2</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=31235&keywords=python&tid=87&lid=2218">SNG16-腾讯音乐业务运维工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-25</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=34531&keywords=python&tid=87&lid=2218">TEG03-高级研发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=34532&keywords=python&tid=87&lid=2218">TEG03-高级图像算法研发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=31648&keywords=python&tid=87&lid=2218">TEG11-高级AI开发工程师（深圳）</a></td>
            <td>技术类</td>
            <td>4</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a target="_blank" href="position_detail.php?id=32218&keywords=python&tid=87&lid=2218">15851-后台开发工程师</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="even">
            <td class="l square"><a target="_blank" href="position_detail.php?id=32217&keywords=python&tid=87&lid=2218">15851-后台开发工程师</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
        <tr class="odd">
            <td class="l square"><a id="test" class="test" target="_blank" href="position_detail.php?id=34511&keywords=python&tid=87&lid=2218">SNG11-高级业务运维工程师（深圳）</a></td>
            <td>技术类</td>
            <td>1</td>
            <td>深圳</td>
            <td>2017-11-24</td>
        </tr>
    </tbody>
</table>
<p>
<!--我是注释字符串-->
</p>
"""

soup = BeautifulSoup(html, 'lxml')
tbody = soup.find('tbody')
print(type(tbody.contents))
print(type(tbody.children))

<class 'list'>
<class 'list_iterator'>


In [77]:
for element in tbody.contents:
    print(element)
    print("="*30)



<tr class="h">
<td class="l" width="374">职位名称</td>
<td>职位类别</td>
<td>人数</td>
<td>地点</td>
<td>发布时间</td>
</tr>


<tr class="even">
<td class="l square"><a href="position_detail.php?id=33824&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">22989-金融云区块链高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>


<tr class="odd">
<td class="l square"><a href="position_detail.php?id=29938&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">22989-金融云高级后台开发</a></td>
<td>技术类</td>
<td>2</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>


<tr class="even">
<td class="l square"><a href="position_detail.php?id=31236&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">SNG16-腾讯音乐运营开发工程师（深圳）</a></td>
<td>技术类</td>
<td>2</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>


<tr class="odd">
<td class="l square"><a href="position_detail.php?id=31235&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">SNG16-腾讯音乐业务运维工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<

In [78]:
for element in tbody.children:
    print(element)
    print("="*30)



<tr class="h">
<td class="l" width="374">职位名称</td>
<td>职位类别</td>
<td>人数</td>
<td>地点</td>
<td>发布时间</td>
</tr>


<tr class="even">
<td class="l square"><a href="position_detail.php?id=33824&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">22989-金融云区块链高级研发工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>


<tr class="odd">
<td class="l square"><a href="position_detail.php?id=29938&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">22989-金融云高级后台开发</a></td>
<td>技术类</td>
<td>2</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>


<tr class="even">
<td class="l square"><a href="position_detail.php?id=31236&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">SNG16-腾讯音乐运营开发工程师（深圳）</a></td>
<td>技术类</td>
<td>2</td>
<td>深圳</td>
<td>2017-11-25</td>
</tr>


<tr class="odd">
<td class="l square"><a href="position_detail.php?id=31235&amp;keywords=python&amp;tid=87&amp;lid=2218" target="_blank">SNG16-腾讯音乐业务运维工程师（深圳）</a></td>
<td>技术类</td>
<td>1</td>
<