# 解析 bs4的基本使用

## 基本简介

1. BeautifulSoup简称：

    bs4

2. 什么是BeautifulSoup？

    BeautifulSoup和lxml一样，是一个html的解析器，注意功能也是解析和提取数据

3. 优缺点？

    缺点：效率没有lxml高
    
    优点：接口设计人性化，使用方便

## 安装及创建

1. 安装

    ```shell
    pip install bs4
    ```

2. 导入

    ```python
    from bs4 import BeautifulSoup
    ```

3. 创建对象

    1. 从服务器响应的文件生成对象

        ```python
        soup = BeautifulSoup(response.read().decode(), 'lxml')
        ```

    2. 从本地文件生成对象

        ```python
        with open('index.html', 'r') as f:
            soup = BeautifulSoup(f, 'lxml')
        
        soup = BeautifulSoup(open('index.html', 'r'), 'lxml')
        ```

## 节点定位

 1. 根据标签名查找节点
    
    soup.a  【注】只能找到第一个a

        soup.a.name

        soup.a.attrs
        
 2. 函数
    1. find
    2. find_all
    3. select

## 节点信息

1. 获取节点内容：适用于标签中嵌套标签的结构
   
   obj.string
   
   obj.get_text() 【推荐】

2. 节点的属性

    tag.name 获取标签名

        eg:tag = find('li')
            
            print(tag.name)

    tag.attrs 将属性值作为一个字典返回

3. 获取节点的属性值
   
    obj.attrs.get('title') 【常用】

    obj.get('title')
    
    obj['title']

In [51]:
from bs4 import BeautifulSoup

# 通过解析本地文件 讲解bs4的基本语法
# 默认打开的文件的编码格式是gbk，所以在打开文件的时候需要制定编码
soup = BeautifulSoup(open('075_解析_bs4的基本使用.html', encoding="utf-8"), 'lxml')

# print(soup)

In [52]:
# 根据标签名查找节点
# 找到的是第一个符合条件的数据
print(soup.a)

# 获取标签的属性和属性值
print(soup.a.attrs)

<a class="a1" href="" id="">尚硅谷</a>
{'href': '', 'id': '', 'class': ['a1']}


### bs4的一些函数
 (1) find

 (2) find_all

 (3) select

In [53]:
# (1) find
# 返回的是第一个符合条件的数据
print(soup.find('a'))


# 根据标签属性的值找到对应的标签对象  E.g.,:

# 根据title的值来找到对应的标签对象
print(soup.find('a', title="a2"))

# 根据class的值来找到对应的标签对象     注意： class -> class_
print(soup.find('a', class_="a1"))

<a class="a1" href="" id="">尚硅谷</a>
<a href="" title="a2">百度</a>
<a class="a1" href="" id="">尚硅谷</a>


In [54]:
# (2) find_all  返回的是一个列表    
# 返回所有的a标签
print(soup.find_all('a'))

# 如果想获取的是多个标签的数据，那么需要在find_all的参数中添加的是列表
print(soup.find_all(['a', 'span']))

# limit的作用是查找前几个数据
print(soup.find_all('li', limit=2))

[<a class="a1" href="" id="">尚硅谷</a>, <a href="" title="a2">百度</a>]
[<a class="a1" href="" id="">尚硅谷</a>, <span>哈哈哈</span>, <a href="" title="a2">百度</a>, <span>
            哈哈哈
        </span>]
[<li id="l1">张三</li>, <li id="l2">李四</li>]


In [55]:
# (3) select（推荐）
# select()方法返回的是一个列表  并且会返回多个数据
print(soup.select('a'))

# 可以通过.代表class    我们把这种操作叫做类选择器（前端的一种说法）
print(soup.select('.a1'))

# 可以通过#代表id    
print(soup.select('#l1'))

# 属性选择器---通过属性来寻找对应的标签
# 查找到li标签中有id的标签
print(soup.select('li[id]'))

# 查找li标签中id为l2的标签
print(soup.select('li[id="l2"]'))

# 层级选择器
#  后代选择器
#   找到的是div下面的li
print(soup.select('div li'))

#  子代选择器
#   某标签的第一级子标签
#   注意：很多的计算机编程语言中，如果不加空格不会输出内容，但是在bs4中不会报错，也会输出内容
print(soup.select('div > ul > li'))
print(soup.select('div>ul>li'))

# 找到a标签和li标签的所有的对象
print(soup.select('a, li'))



[<a class="a1" href="" id="">尚硅谷</a>, <a href="" title="a2">百度</a>]
[<a class="a1" href="" id="">尚硅谷</a>]
[<li id="l1">张三</li>]
[<li id="l1">张三</li>, <li id="l2">李四</li>]
[<li id="l2">李四</li>]
[<li id="l1">张三</li>, <li id="l2">李四</li>, <li>王五</li>]
[<li id="l1">张三</li>, <li id="l2">李四</li>, <li>王五</li>]
[<li id="l1">张三</li>, <li id="l2">李四</li>, <li>王五</li>]
[<li id="l1">张三</li>, <li id="l2">李四</li>, <li>王五</li>, <a class="a1" href="" id="">尚硅谷</a>, <a href="" title="a2">百度</a>]


In [56]:
# 节点信息

#   获取节点内容
obj = soup.select('#d1')[0]

# 如果标签对象中只有内容，那么string和get_text()是一样的
# 如果标签对象中除了内容还有标签，那么string就获取不到数据，而get_text()可以获取到数据
# 一般推荐使用get_text()
print(obj.string)
print(obj.get_text())

None


            哈哈哈
        



In [57]:
#   节点的属性
obj = soup.select('#p1')[0]

# name是标签的名字
print(obj.name)
# 将属性值作为一个字典返回
print(obj.attrs)

p
{'id': 'p1', 'class': ['p1']}


In [58]:
# 获取节点的属性
obj = soup.select('#p1')[0]

print(obj.attrs.get('class'))
print(obj.get('class'))
print(obj['class'])

['p1']
['p1']
['p1']
