# 一、CSS选择器

Beautiful Soup还提供了另外一种选择器，那就是CSS选择器。CSS选择器可以参考http://www.w3school.com.cn/cssref/css_selectors.asp了解。

CSS是层叠样式表(英文全称：Cascading Style Sheets)是一种用来表现HTML（标准通用标记语言的一个应用）或XML（标准通用标记语言的一个子集）等文件样式的计算机语言。CSS不仅可以静态地修饰网页，还可以配合各种脚本语言动态地对网页各元素进行格式化。 [1] 

在网络爬虫的页面解析中，CCS选择器实际上是一把效率甚高的利器。

使用CSS选择器的优势：

使用CSS选择器时，只需要调用select()方法，传入相应的CSS选择器即可。

In [2]:
html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.select('.panel .panel-heading'))

[<div class="panel-heading">
<h4>Hello</h4>
</div>]


In [3]:
print(soup.select('ul'))

[<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>, <ul class="list list-small" id="list-2">
<li class="element">Foo</li>
<li class="element">Bar</li>
</ul>]


In [4]:
print(soup.select('#list-2 .element'))

[<li class="element">Foo</li>, <li class="element">Bar</li>]


In [5]:
print(type(soup.select('ul')[0]))

<class 'bs4.element.Tag'>


这里我们用了3次CSS选择器，返回的结果均是符合CSS选择器的节点组成的列表。例如，select('ul li')则是选择所有ul节点下面的所有li节点，结果便是所有的li节点组成的列表。

这里我们用了3次CSS选择器，返回的结果均是符合CSS选择器的节点组成的列表。例如，select('ul li')则是选择所有ul节点下面的所有li节点，结果便是所有的li节点组成的列表。

最后一句打印输出了列表中元素的类型。可以看到，类型依然是Tag类型。

# 二、CSS基本语法

### 1、元素选择器：

直接选择文档元素：比如head，p

### 2、类选择器

## <img src="图1.png">

### 3、ID选择器：

## <img src="图2.png">

### 4、属性选择器：

## <img src="图3.png">

### 5、后代（包含）选择器：

## <img src="图4.png">

### 6、子元素选择器：

## <img src="图5.png">

# 四、CSS选择器的使用方法介绍

## 1、嵌套选择

select()方法支持嵌套选择。例如，先选择所有ul节点，再遍历每个ul节点，选择其li节点，样例如下：

In [4]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')

In [5]:
soup.select('ul')#选择出了所有标签为ul的，以列表形式存储

[<ul class="list" id="list-1">
 <li class="element">Foo</li>
 <li class="element">Bar</li>
 <li class="element">Jay</li>
 </ul>, <ul class="list list-small" id="list-2">
 <li class="element">Foo</li>
 <li class="element">Bar</li>
 </ul>]

In [7]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for ul in soup.select('ul'):
    print(ul.select('li'))

[<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>]
[<li class="element">Foo</li>, <li class="element">Bar</li>]


这里正常输出了所有ul节点下所有li节点组成的列表。

## 2、获取属性值

节点类型是Tag类型，所以获取属性还可以用原来的方法。仍然是上面的HTML文本，这里尝试获取每个ul节点的id属性：

In [8]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
soup.select('ul')

[<ul class="list" id="list-1">
 <li class="element">Foo</li>
 <li class="element">Bar</li>
 <li class="element">Jay</li>
 </ul>, <ul class="list list-small" id="list-2">
 <li class="element">Foo</li>
 <li class="element">Bar</li>
 </ul>]

In [10]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for ul in soup.select('ul'):
    print(ul['id'])
    print(ul.attrs['id'])

    

list-1
list-1
list-2
list-2


直接传入中括号和属性名，以及通过attrs属性获取属性值，都可以成功。

## 3、获取文本

要获取文本，当然也可以用前面所讲的string属性。此外，还有一个方法，那就是get_text()，示例如下

In [13]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for li in soup.select('li'):
    print('Get Text:', li.get_text())
    print('String:', li.string)

Get Text: Foo
String: Foo
Get Text: Bar
String: Bar
Get Text: Jay
String: Jay
Get Text: Foo
String: Foo
Get Text: Bar
String: Bar


到此，Beautiful Soup的用法基本就介绍完了，最后做一下简单的总结。

1）推荐使用lxml解析库，必要时使用html.parser。

2）节点选择筛选功能弱但是速度快。

3）建议使用find()或者find_all()查询匹配单个结果或者多个结果。

4）如果对CSS选择器熟悉的话，可以使用select()方法选择。