# BeautifulSoup
用BeautifulSoup解析和提取网页中的数据。

- **解析数据**：浏览器会把服务器返回来的HTML源代码翻译为我们能看懂的样子；
- **提取数据**：把我们需要的数据从众多数据中挑选出来。




# 解析数据

解析数据的用法：
> bs对象 = BeautifulSoup(要解析的文本,  '解析器')

在括号中，要输入两个参数，第0个参数是要被解析的文本，注意了，它必须必须必须是字符串。

括号中的第1个参数用来标识解析器，我们要用的是一个Python内置库：html.parser（它不是唯一的解析器，但是比较简单的）。

In [1]:
import requests
from bs4 import BeautifulSoup

In [2]:
url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html'
res = requests.get(url) 
print(res.status_code)                    # 检查请求是否正确响应，确认是否获取成功

html = res.text
soup = BeautifulSoup(html, 'html.parser') # 把网页解析为BeautifulSoup对象

200


In [3]:
print(type(soup))    # 查看soup的类型
print(soup)          # 打印soup

<class 'bs4.BeautifulSoup'>
<!DOCTYPE html>

<html>
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<title>这个书苑不太冷5.0</title>
<style>
        a {
            text-decoration: none;
        }

        body {
            margin: 0;
            width:100%;
            height: 100%;
        }

        #header {
            background-color:#0c1f27;
            color:#20b2aa;
            text-align:center;
            padding:15px;
        }
        
        #nav {
            line-height:60px;
            background-color:#e0f2f0;
            width:80px;
            padding:30px;
            position: absolute;
            left: 0;
            top:0;
            bottom: 0;
        }

        #footer {
            background-color:#0c1f27;
            color:#20b2aa;
            clear:both;
            text-align:center;
            padding:35px;
        }

        #main {
            margin-left: 140px;
            padding-left: 150px;
            padding-right: 

soup的数据类型是<class 'bs4.BeautifulSoup'>，说明soup是一个BeautifulSoup对象。

soup是我们所请求网页的完整HTML源代码。我们所要提取的书名、链接、书籍内容这些数据都在这里面。

虽然response.text和soup打印出的内容表面上看长得一模一样，却有着不同的内心，它们属于不同的类：<class 'str'> 与<class 'bs4.BeautifulSoup'>。前者是字符串，后者是已经被解析过的BeautifulSoup对象。之所以打印出来的是一样的文本，是因为BeautifulSoup对象在直接打印它的时候会调用该对象内的str方法，所以直接打印 bs 对象显示字符串是str的返回结果。

# 提取数据
## find( )与find_all( )

find()与find_all()是BeautifulSoup对象的两个方法，它们可以匹配html的标签和属性，把BeautifulSoup对象里符合要求的数据都提取出来。

find()只提取首个满足要求的数据，而find_all()提取出的是所有满足要求的数据。
![find](pics/bs_find.png)

括号中的参数：标签和属性可以任选其一，也可以两个一起使用，这取决于我们要在网页中提取的内容。

如果只用其中一个参数就可以准确定位的话，就只用一个参数检索。如果需要标签和属性同时满足的情况下才能准确定位到我们想找的内容，那就两个参数一起使用。

括号里的class_，这里有一个下划线，是为了和python语法中的类 class区分，避免程序冲突。当然，除了用class属性去匹配，还可以使用其它属性，比如style属性等。

In [4]:
# 使用find查找数据

print(res.status_code)

soup = BeautifulSoup(res.text, 'html.parser')
item = soup.find('div')                        # 使用find()方法提取首个<div>元素，并放到变量item里。

print(type(item))                              # 打印item的数据类型，Tag对象
print(item)                                    # 打印item

200
<class 'bs4.element.Tag'>
<div id="header">
<h1 style="font-size:50px;">这个书苑不太冷</h1>
</div>


In [5]:
# 使用find_all查找数据
items = soup.find_all('div') #用find_all()把所有符合要求的数据提取出来，并放在变量items里

print(type(items))           #打印items的数据类型.ResultSet类的对象, 是Tag对象以列表结构储存了起来，可以把它当做列表来处理。
print(items)                 #打印items

<class 'bs4.element.ResultSet'>
[<div id="header">
<h1 style="font-size:50px;">这个书苑不太冷</h1>
</div>, <div id="article">
<div id="nav">
<a class="catlog" href="#type1">科幻小说</a><br/>
<a class="catlog" href="#type2">人文读物</a><br/>
<a class="catlog" href="#type3">技术参考</a><br/>
</div>
<div id="main">
<div class="books">
<h2><a name="type1">科幻小说</a></h2>
<a class="title" href="https://book.douban.com/subject/27077140/">《奇点遗民》</a>
<p class="info">本书精选收录了刘宇昆的科幻佳作共22篇。《奇点遗民》融入了科幻艺术吸引人的几大元素：数字化生命、影像化记忆、人工智能、外星访客……刘宇昆的独特之处在于，他写的不是科幻探险或英雄奇幻，而是数据时代里每个人的生活和情感变化。透过这本书，我们看到的不仅是未来还有当下。</p>
<img class="img" src="./spider-men5.0_files/s29492583.jpg"/>
<br>
<br>
<hr size="1"/>
</br></br></div>
<div class="books">
<h2><a name="type2">人文读物</a></h2>
<a class="title" href="https://book.douban.com/subject/26943161/">《未来简史》</a>
<p class="info">未来，人类将面临着三大问题：生物本身就是算法，生命是不断处理数据的过程；意识与智能的分离；拥有大数据积累的外部环境将比我们自己更了解自己。如何看待这三大问题，以及如何采取应对措施，将直接影响着人类未来的发展。</p>
<img class="img" src="./spider-men5.0_files/s29287103.jpg"/>
<b

## Tag对象

查找和定位：开发者工具的搜索功能，点击Ctrl+F。

查看属性`class_="books"`，搜索一下会发现，整个HTML源代码中，是只有我们要找的三个元素的属性满足，因此，我们这次就可以只使用这个属性来提取。

In [6]:
url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html'
res = requests.get(url)                   # 返回一个response对象，赋值给res
html = res.text                           # 把res的内容以字符串的形式返回
soup = BeautifulSoup(html, 'html.parser') # 把网页解析为BeautifulSoup对象
items = soup.find_all(class_='books')     # 通过定位标签和属性提取我们想要的数据

for item in items:
    print('想找的数据都包含在这里了：\n',item) # 打印item.现在打印出来的东西还不是目标数据，里面含着HTML标签。
    print(type(item))

想找的数据都包含在这里了：
 <div class="books">
<h2><a name="type1">科幻小说</a></h2>
<a class="title" href="https://book.douban.com/subject/27077140/">《奇点遗民》</a>
<p class="info">本书精选收录了刘宇昆的科幻佳作共22篇。《奇点遗民》融入了科幻艺术吸引人的几大元素：数字化生命、影像化记忆、人工智能、外星访客……刘宇昆的独特之处在于，他写的不是科幻探险或英雄奇幻，而是数据时代里每个人的生活和情感变化。透过这本书，我们看到的不仅是未来还有当下。</p>
<img class="img" src="./spider-men5.0_files/s29492583.jpg"/>
<br>
<br>
<hr size="1"/>
</br></br></div>
<class 'bs4.element.Tag'>
想找的数据都包含在这里了：
 <div class="books">
<h2><a name="type2">人文读物</a></h2>
<a class="title" href="https://book.douban.com/subject/26943161/">《未来简史》</a>
<p class="info">未来，人类将面临着三大问题：生物本身就是算法，生命是不断处理数据的过程；意识与智能的分离；拥有大数据积累的外部环境将比我们自己更了解自己。如何看待这三大问题，以及如何采取应对措施，将直接影响着人类未来的发展。</p>
<img class="img" src="./spider-men5.0_files/s29287103.jpg"/>
<br>
<br/>
<hr size="1"/>
</br></div>
<class 'bs4.element.Tag'>
想找的数据都包含在这里了：
 <div class="books">
<h2><a name="type3">技术参考</a></h2>
<a class="title" href="https://book.douban.com/subject/25779298/">《利用Python进行数据分析》</a>
<p class="info">本书含有大

现在打印出来的东西还不是目标数据，里面含着HTML标签。
![tag](pics/bs_tag.png)

In [8]:
# Tag对象可以使用find()与find_all()来继续检索。
items = soup.find_all(class_='books')        # 通过定位标签和属性提取我们想要的数据
for item in items:
    kind = item.find('h2')                   # 在列表中的每个元素里，匹配标签<h2>提取出数据
    title = item.find(class_='title')        # 在列表中的每个元素里，匹配属性class_='title'提取出数据
    brief = item.find(class_='info')         # 在列表中的每个元素里，匹配属性class_='info'提取出数据
    
    print(kind)        # 打印提取出的数据
    print('-'*20)
    print(title)
    print('-'*20)
    print(brief)
    print('-'*40)
    print(type(kind),type(title),type(brief)) # 打印提取出的数据类型
    print('-'*60)

<h2><a name="type1">科幻小说</a></h2>
--------------------
<a class="title" href="https://book.douban.com/subject/27077140/">《奇点遗民》</a>
--------------------
<p class="info">本书精选收录了刘宇昆的科幻佳作共22篇。《奇点遗民》融入了科幻艺术吸引人的几大元素：数字化生命、影像化记忆、人工智能、外星访客……刘宇昆的独特之处在于，他写的不是科幻探险或英雄奇幻，而是数据时代里每个人的生活和情感变化。透过这本书，我们看到的不仅是未来还有当下。</p>
----------------------------------------
<class 'bs4.element.Tag'> <class 'bs4.element.Tag'> <class 'bs4.element.Tag'>
------------------------------------------------------------
<h2><a name="type2">人文读物</a></h2>
--------------------
<a class="title" href="https://book.douban.com/subject/26943161/">《未来简史》</a>
--------------------
<p class="info">未来，人类将面临着三大问题：生物本身就是算法，生命是不断处理数据的过程；意识与智能的分离；拥有大数据积累的外部环境将比我们自己更了解自己。如何看待这三大问题，以及如何采取应对措施，将直接影响着人类未来的发展。</p>
----------------------------------------
<class 'bs4.element.Tag'> <class 'bs4.element.Tag'> <class 'bs4.element.Tag'>
------------------------------------------------------------
<h2><a name="type3">技术参考</a></h2>
--------------------
<a

In [9]:
# Tag.text，和Tag['属性名']。Tag.text提出Tag对象中的文字，用Tag['href']提取出URL。
print(kind.text,'\n',
      title.text,'\n',
      title['href'],'\n',
      brief.text)       # 打印书籍的类型、名字、链接和简介的文字

技术参考 
 《利用Python进行数据分析》 
 https://book.douban.com/subject/25779298/ 
 本书含有大量的实践案例，你将学会如何利用各种Python库（包括NumPy、pandas、matplotlib以及IPython等）高效地解决各式各样的数据分析问题。由于作者Wes McKinney是pandas库的主要作者，所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。


## 过程总结
层层检索的过程有点像是在超市买你想要的零食，比如一包糖果和一包薯片，首先要定位到超市的零食区，然后去糖果区找糖果，再去薯片区找薯片。

每个网页都有自己的结构，我们写爬虫程序，还是得坚持从实际出发，具体问题具体分析。

> **与爬虫大神的距离，还要靠一个一个练习去缩短。编程从来都是一门强调实操实练的学科。**

# 对象的变化过程
![过程](pics/bs_过程.png)
流程其实对应的是爬虫四步的前3步。

<aside>
💡 除了学这些零碎的知识，最重要的是，我们要把所学的知识串成一条线。
</aside>

Python是一门面向对象编程的过程，图中用英文字母的序号来展示的是每一种对象的方法和属性。比如bs对象的方法有find()和find_all()。

操作对象从URL链接到了Response对象。而这一关，我们的操作对象是这样的：**Response对象——字符串——BS对象**。到这里，又产生了两条分岔：一条是BS对象——Tag对象；另一条是BS对象——列表——Tag对象。

> 学无止境，当基础知识都被掌握，而且练习了更多的项目之后，就有余力去自学和拓展更多的知识了。   
> 只要数据在HTML源代码中，你都可以拿到了。

在BeautifulSoup中，不止find()和find_all()，还有select()也可以达到相同目的。

在bs的官方文档中，find()与find_all()的方法，其实不止标签和属性两种，还有这些：

- `find(tag, attributes, recursive, text, keywords)`
- `find_all(tag, attributes, recursive, text, keywords)`