# Beautiful Soup 基本语法
### CSS选择器
- select()方法

In [2]:
# 用于解析 HTML 文档的库
from bs4 import BeautifulSoup  

html = '''
<div class="panel">
  <div class="panel-heading">
    <h4>Hello</h4>
  </div>
  <div class="panel-body">
    <ul class="list" id="list-1">
      <li class="element">Foo</li>
      <li class="element">Bar</li>
      <li class="element">Jay</li>
    </ul>
    <ul class="list list-small" id="list-2">
      <li class="element">Foo</li>
      <li class="element">Bar</li>
    </ul>
  </div>
</div>
'''

# 解析 HTML 内容，并将其转换为树形结构（即 BeautifulSoup 对象）
# 'lxml'：使用 lxml 解析库
soup = BeautifulSoup(html, 'lxml')

print(soup.select('div[class="panel-heading"]'))  # 选择所有 class 属性为 "panel-heading" 的 div 元素
print("-----------------")
print(soup.select('.panel .panel-heading'))       # .：选择所有位于 class="panel" 元素内部的 class="panel-heading" 元素
print("-----------------")
print(soup.select('ul li'))                       # 选择标签
print("-----------------")
print(soup.select('#list-2 .element'))            # "#"：选择 id
print("-----------------")
print(soup.select('ul')[0])                       # [0]：输出列表中的元素
print("-----------------")
print(type(soup.select('ul')[0]))                 # 输出列表中元素的类型（Tag 类型）  

[<div class="panel-heading">
<h4>Hello</h4>
</div>]
-----------------
[<div class="panel-heading">
<h4>Hello</h4>
</div>]
-----------------
[<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>, <li class="element">Foo</li>, <li class="element">Bar</li>]
-----------------
[<li class="element">Foo</li>, <li class="element">Bar</li>]
-----------------
<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>
-----------------
<class 'bs4.element.Tag'>


- 获取属性

In [3]:
# 获取每个 ul 节点的 id 属性
for ul in soup.select('ul'):
    print(ul.get('id'))
    print(ul.attrs['id'])  # 同上
    print("-------------")

list-1
list-1
-------------
list-2
list-2
-------------


- 获取文本

In [14]:
for li in soup.select('li'):
    print('Get Text：', li.get_text())
    print('String：', li.string)  # 同上
    print("-------------")

Get Text： Foo
String： Foo
-------------
Get Text： Bar
String： Bar
-------------
Get Text： Jay
String： Jay
-------------
Get Text： Foo
String： Foo
-------------
Get Text： Bar
String： Bar
-------------


In [31]:
html_str = """
<html>
<head>
  <meta charset="utf-8">
  <title>爬虫教程</title>
</head>
<body>
<div>
  <h1>我的第一个标题1</h1>

  <p>我的第一个段落1</p>
  <p>我的第一个段落2</p>
  <p>我的第一个段落3</p>
  <p>我的第一个段落4</p>
  <p>我的第一个段落5</p>
  <p>我的第一个段落6</p>

  <a href="http://www.baidu.com">这是一个链接</a>
  <a>这是一个链接</a>
  <a class="yellow" id="banana" src="http://www.baidu.com/">这是一个链接</a>
  <a class="green" id="grass">这是二个链接</a>
  <a class="red" id="apple">这是一个苹果</a>
</div> 
</body>
</html>
"""
# 解析 HTML 内容，并将其转换为树形结构（即 BeautifulSoup 对象）
# 'lxml'：使用 lxml 解析库
soup = BeautifulSoup(html_str, 'lxml')

ps = soup.select('p')  # p代表标签（如果没有 # 或者 . 则代表标签名）
for p in ps:
    print(p.string)    # string提取文本

print("-------------")
print(soup.select("#apple"))             # "#"：id 属性，提取节点列表
print("-------------")
print(soup.select("#apple")[0])          # [0]：提取节点
print("-------------")
print(soup.select("#apple")[0].string)   # string：提取文本
print("-------------")
print(soup.select(".red")[0].string)     # .：class 属性
print("-------------") 
print(soup.select("#banana")[0]["src"])  # ["src"]：提取标签属性
print("-------------")
print(soup.select(".yellow")[0]["src"])

我的第一个段落1
我的第一个段落2
我的第一个段落3
我的第一个段落4
我的第一个段落5
我的第一个段落6
-------------
[<a class="red" id="apple">这是一个苹果</a>]
-------------
<a class="red" id="apple">这是一个苹果</a>
-------------
这是一个苹果
-------------
这是一个苹果
-------------
http://www.baidu.com/
-------------
http://www.baidu.com/
