# 爬虫示例



## 运行环境配置

python 3.9

python 默认安装缺省位置：C:\Users\xxx\AppData\Local\Programs\Python\Python39

推荐使用 anaconda 管理 python 环境

[anaconda安装包(windows)](https://ayusummer-my.sharepoint.com/:u:/g/personal/233_ayusummer_onmicrosoft_com/EQexnLnUR6VDoGGRbrqwLtwBxiR3Sceai3t26E5wgado6Q?e=2OggeC)

> ![20211210172132-anaconda Navigator](http:cdn.ayusummer233.top/img/20211210172132.png)
> 记住这里创建的环境名称, 比如图中是 `BigData_nwh`

编辑器方面推荐 VSCode, 安装 python 和 jupyter 扩展

> 比如这份文档就是使用 VSCode 写的 jupyter 文档   
> [VSCode 安装包-windows](https://ayusummer-my.sharepoint.com/:u:/g/personal/233_ayusummer_onmicrosoft_com/EVAabrRr1FdDkjk2FyKAXqEBCNjO8f34EAKb5FcsfCRI6A?e=4t6xms)  
> 在扩展商店安装如下插件:    
> ![20211210172356-汉化](http:cdn.ayusummer233.top/img/20211210172356.png)    
> ![20211210170514-jupyter插件](http:cdn.ayusummer233.top/img/20211210170514.png)     
> ![20211210170554-python插件](http:cdn.ayusummer233.top/img/20211210170554.png)   
> ![20211210172220-terminal](http:cdn.ayusummer233.top/img/20211210172220.png)  





### 换源

国内访问官方源通常会超时(time out), 使用 pip 命令安装库时注意换源(或者直接配置默认源为国内源)

- [winrey/EasyConnectedInChina](https://github.com/winrey/EasyConnectedInChina)[原文链接]

---

#### 源地址

- 阿里云 <https://mirrors.aliyun.com/pypi/simple/>
- 中国科技大学 <https://pypi.mirrors.ustc.edu.cn/simple/>
- 豆瓣(douban) <http://pypi.douban.com/simple/>
- 清华大学 <https://pypi.tuna.tsinghua.edu.cn/simple/>
- 中国科学技术大学 <http://pypi.mirrors.ustc.edu.cn/simple/>
- 华中理工大学 <http://pypi.hustunique.com/>
- 山东理工大学 <http://pypi.sdutlinux.org/>


#### 使用方法


##### 方法一：临时使用

直接在pip后加-i后跟这次使用的源即可，例：

```bash
pip install web.py -i https://mirrors.aliyun.com/pypi/simple/
```

指令中的网址为上方的源地址。

如果出现带有`trusted-host`字样的报错，这是由源不为https协议导致的，使用：

```bash
pip install web.py -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
```

添加信任主机即可。


##### 方法二：更改默认源

创建或修改配置文件（一般都是创建）
- linux与mac的设置的文件在~/.pip/pip.conf，
- 
      vim ~/.pip/pip.conf
- windows在%HOMEPATH%\pip\pip.ini
- 如果没有创建即可。

更改内容：

```
[global]
index-url = https://mirrors.aliyun.com/pypi/simple/
```
或

```
[global]
index-url = http://pypi.douban.com/simple
[install]
trusted-host=pypi.douban.com
```

文件中的网址为上方的源地址。
刚刚下面的内容是http协议源的实例。需要添加信任。
保存退出即可。


##### 方法三：python代码更改安装源
临时使用其他源安装软件包的python脚本如下：

```
#!/usr/bin/python
 
import os
 
package = raw_input("Please input the package which you want to install!\n")
command = "pip install %s -i https://mirrors.aliyun.com/pypi/simple/" % package
# http源的代码实例如下
# command = "pip install %s -i http://pypi.mirrors.ustc.edu.cn/simple --trusted-host pypi.mirrors.ustc.edu.cn" % package
os.system(command)
```


### 升级 pip

在 VSCode 中安装完 `Terminal` 扩展后在右下角打开终端:

![20211210172719-终端](http:cdn.ayusummer233.top/img/20211210172719.png)

激活第一步在 anaconda 中创建的 python 环境

```bash
conda activate BigData_nwh
```

![20211210172856-激活conda环境](http:cdn.ayusummer233.top/img/20211210172856.png)

更新 pip

```bash
pip install --upgrade pip
```

## 数据存储问题(以爬虫程序为例)：数据存入数据库

### 示例内容

爬取当当网图书畅销榜(24h, 近7日, 近30日)(top10)的数据, 并存入数据库

![20211211183517](http:cdn.ayusummer233.top/img/20211211183517.png)

### 安装依赖

在执行下面代码前可以选择通过提供的 requirements.txt 文件安装依赖库, 或者也可以选择执行代码时根据提示自行安装依赖库。



### 配置数据库

老师材料中使用的是 MySQL, 不过作为练手实验并不需要太多数据库功能, sqlite 已经可以满足实验需要, 所以这里以 sqlite3 为例进行建库建表


sqlite3 建库只需要新建个文件, 后缀名为 `.db` 即可

在此示例中, 我们在当前笔记本的同级目录下新建一个 `library.db` 文件

![20211211184229](http:cdn.ayusummer233.top/img/20211211184229.png)

建表需要对各字段进行定义, 我们需要知道我们要新建一个存储哪些数据的表, 并据此确定数据类型

打开 [当当网 24h 图书畅销榜](http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1)

`F12` 查看网页源码, 可以看到畅销榜中一本书的信息包含如下字段:
- `排名`: 该图书在当前榜单中的排名, 可以用一个 integer 字段存储
- `图书封面`: 可以获取到封面图片的 url, 可以用一个 text 字段存储
- `图书名称`: 
  - 可以获取到书名字符串, 可以使用一个 text 字段存储
  - 图书名称是个超链接, 指向图书详情页, 可以使用一个 text 字段存储这个 url
- `评论数目`: 使用一个 integer 字段存储
- `推荐百分比`: 使用一个 float 字段存储
- `作者姓名`: 使用一个 text 字段存储
- `出版社`: 使用一个 text 字段存储
- `出版时间`: 使用一个 datetime 字段存储
- `价格`
  - `原价`: 使用一个 float 字段存储
  - `折扣价`: 使用一个 float 字段存储
  - `折扣率`: 使用一个 float 字段存储
  - `电子书价格`: 使用一个 float 字段存储

![20211211185928-当当网畅销图书榜](http:cdn.ayusummer233.top/img/20211211185928.png)



In [50]:
import sqlite3

# 定义数据库路径, 这里由于 jupyter 直接支持相对路径所以直接用相对路径表示了
# 单个 python 文件执行的话应当注意使用路径拼接来实现相对路径寻址
db_path = './library.db'

# 创建数据库连接(如果数据库不存在则创建)
conn = sqlite3.connect(db_path)

# 创建游标
cursor = conn.cursor()

# 建表 top10_24h(24h 图书畅销榜 Top10)
sql_createDB_top10_24h = '''
    CREATE TABLE IF NOT EXISTS top10_24h(
        rank INTEGER PRIMARY KEY,
        cover_url TEXT,
        book_name TEXT,
        details_url TEXT,
        comment_num INTEGER,
        recommend_percent float,
        author_name TEXT,
        publishing_company TEXT,
        publish_date datetime,
        price_original float,
        price_discount float,
        discount_percent float,
        price_ebook float
    )
'''
cursor.execute(sql_createDB_top10_24h)

# 提交事务
conn.commit()


执行完上面这个代码块后, 当前笔记本的同级目录下会有一个 `library.db` sqlite3 数据库文件

在 VSCode 的扩展中安装 `Sqlite-Viewer`:

![20211211082219-sqlite-viewer](http:cdn.ayusummer233.top/img/20211211082219.png)

在左侧文件树中点击 `library.db` 会提示此文件为二进制文件含不支持的文本编码, 是否仍要打开, 点击蓝色文字

![20211211082403-打开sqlite3数据库](http:cdn.ayusummer233.top/img/20211211082403.png)

在弹出的浮窗中选择 `Sqlite-Viewer` 即可在 VSCode 中查看数据库

![20211211082508-选择Sqlite-Viewer查看](http:cdn.ayusummer233.top/img/20211211082508.png)

![20211211192156-查看sqlite3数据库](http:cdn.ayusummer233.top/img/20211211192156.png)


In [51]:
# 建表 top10_7d(7d 图书畅销榜 Top10)
sql_createDB_top10_7d = '''
    CREATE TABLE IF NOT EXISTS top10_7d(
        rank INTEGER PRIMARY KEY,
        cover_url TEXT,
        book_name TEXT,
        details_url TEXT,
        comment_num INTEGER,
        recommend_percent float,
        author_name TEXT,
        publishing_company TEXT,
        publish_date datetime,
        price_original float,
        price_discount float,
        discount_percent float,
        price_ebook float
    )
'''
cursor.execute(sql_createDB_top10_7d)

# 提交事务
conn.commit()


# 创建 top10_30d(30d 图书畅销榜 Top10)
sql_createDB_top10_30d = '''
    CREATE TABLE IF NOT EXISTS top10_30d(
        rank INTEGER PRIMARY KEY,
        cover_url TEXT,
        book_name TEXT,
        details_url TEXT,
        comment_num INTEGER,
        recommend_percent float,
        author_name TEXT,
        publishing_company TEXT,
        publish_date datetime,
        price_original float,
        price_discount float,
        discount_percent float,
        price_ebook float
    )
'''
cursor.execute(sql_createDB_top10_30d)

# 提交事务
conn.commit()
# 关闭 cursor
cursor.close()
# 关闭数据库连接
conn.close()


## 写爬虫

### requests 库
> [原文链接: requests - 廖雪峰的官方网站 (liaoxuefeng.com)](https://www.liaoxuefeng.com/wiki/1016959663602400/1183249464292448)

---

#### 通过 Get 访问一个页面

> [python爬取网页时返回http状态码HTTP Error 418 - star==== - 博客园 (cnblogs.com)](https://www.cnblogs.com/yunlixingchen/p/12157848.html)

In [52]:
import requests
# 定义请求头(模拟浏览器)[没有请求头的话可能会被反爬, 返回418]
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'
}
r = requests.get('https://www.douban.com/', headers=header)  # 豆瓣首页
print("状态码:", r.status_code)  
print("内容:", r.text)



状态码: 200
内容: 


<!DOCTYPE HTML>
<html lang="zh-cmn-Hans" class="ua-windows ua-webkit">
<head>
<meta charset="UTF-8">
<meta name="google-site-verification" content="ok0wCgT20tBBgo9_zat2iAcimtN4Ftf5ccsh092Xeyw" />
<meta name="description" content="提供图书、电影、音乐唱片的推荐、评论和价格比较，以及城市独特的文化生活。">
<meta name="keywords" content="豆瓣,小组,电影,同城,豆品,广播,登录豆瓣">
<meta property="qc:admins" content="2554215131764752166375" />
<meta property="wb:webmaster" content="375d4a17a4fa24c2" />
<meta name="mobile-agent" content="format=html5; url=https://m.douban.com">
<title>豆瓣</title>
<script>
function set_cookie(t,e,o,n){var i,a,r=new Date;r.setTime(r.getTime()+24*(e||30)*60*60*1e3),i="; expires="+r.toGMTString();for(a in t)document.cookie=a+"="+t[a]+i+"; domain="+(o||"douban.com")+"; path="+(n||"/")}function get_cookie(t){var e,o,n=t+"=",i=document.cookie.split(";");for(e=0;e<i.length;e++){for(o=i[e];" "==o.charAt(0);)o=o.substring(1,o.length);if(0===o.indexOf(n))return o.substring(n.length,o.length).replace(/\"/g,""

#### URL 参数

对于带参数的 URL，传入一个 dict 作为 params 参数




In [53]:
r = requests.get('https://www.douban.com/search',
                 params={'q': 'python', 'cat': '1001'})
r.url  # 实际请求的URL


'https://www.douban.com/search?q=python&cat=1001'

#### 编码

requests自动检测编码，可以使用encoding属性查看

In [54]:
r.encoding


#### bytes 对象

无论响应是文本还是二进制内容，我们都可以用content属性获得bytes对象，然后按照编码解码成字符串

In [55]:
r.content


b''

#### Header

需要传入HTTP Header时，我们传入一个dict作为headers参数：



In [56]:
r = requests.get('https://www.douban.com/', headers={
                 'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit'})
r.text


'\n\n<!DOCTYPE html>\n<html itemscope itemtype="http://schema.org/WebPage" class="ua-mobile ">\n  <head>\n      <meta charset="UTF-8">\n      <title>豆瓣(手机版)</title>\n      <meta name="google-site-verification" content="ok0wCgT20tBBgo9_zat2iAcimtN4Ftf5ccsh092Xeyw" />\n      <meta name="viewport" content="width=device-width, height=device-height, user-scalable=no, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0">\n      <meta name="format-detection" content="telephone=no">\n      <meta name="description" content="读书、看电影、涨知识、学穿搭...，加入兴趣小组，获得达人们的高质量生活经验，找到有相同爱好的小伙伴。">\n      <meta name="keywords" content="豆瓣,手机豆瓣,豆瓣手机版,豆瓣电影,豆瓣读书,豆瓣同城">\n      <link rel="canonical" href="\nhttps://m.douban.com/">\n      <link href="https://img3.doubanio.com/f/talion/4eddaaed2bec5a0baa663274d47d136c54a2c03c/css/card/base.css" rel="stylesheet">\n      \n<script>\n  var saveKey = \'_t_splash\'\n  var day = 3\n  if (Date.now() - window.localStorage.getItem(saveKey) < 1000 * 60 * 60 * 24 * day) {\n    wi

#### Post 请求

要发送 POST 请求，只需要把 get() 方法变成 post()，然后传入 data 参数作为 POST 请求的数据：


In [57]:
r = requests.post('https://accounts.douban.com/login',
                  data={'form_email': 'abc@example.com', 'form_password': '123456'})


requests 默认使用 `application/x-www-form-urlencoded` 对 POST 数据编码。如果要传递 JSON 数据，可以直接传入 json 参数：


In [58]:
params = {'key': 'value'}
r = requests.post(url, json=params)  # 内部自动序列化为JSON


类似的，上传文件需要更复杂的编码格式，但是 requests 把它简化成 files 参数：

In [59]:
upload_files = {'file': open('./library.db', 'rb')}
r = requests.post(url, files=upload_files)


在读取文件时，注意务必使用'rb'即二进制模式读取，这样获取的 bytes 长度才是文件的长度。

把 post() 方法替换为 put()，delete() 等，就可以以 PUT 或 DELETE 方式请求资源。



#### 获取响应头

除了能轻松获取响应内容外，requests 对获取 HTTP 响应的其他信息也非常简单。例如，获取响应头：

In [60]:
r = requests.get('https://www.douban.com/search')
r.headers


{'Date': 'Sat, 11 Dec 2021 23:54:52 GMT', 'Content-Length': '0', 'Connection': 'keep-alive', 'Keep-Alive': 'timeout=30', 'Server': 'dae'}

### BeautifulSoup

> [Beautiful Soup: We called him Tortoise because he taught us. (crummy.com)](https://www.crummy.com/software/BeautifulSoup/)  
> [Beautiful Soup 中文文档 4.4.0](https://beautifulsoup.cn/)   
> [Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation (crummy.com)](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)   
> 中文文档是用户转译的, 最新版本为 4.4.0, BeautifulSoup 最新版本为 4.10, 有条件建议直接读官方文档(最新文档版本为 4.9.0)

Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.




#### quick start

下面的一段HTML代码将作为例子被多次用到.这是 爱丽丝梦游仙境的 的一段内容(以后内容中简称为 爱丽丝 的文档):


In [61]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""


使用 BeautifulSoup 解析这段代码,能够得到一个 BeautifulSoup 的对象,并能按照标准的缩进格式的结构输出:

In [62]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

print(soup.prettify())


<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


几个简单的浏览结构化数据的方法:

In [63]:
soup.title

<title>The Dormouse's story</title>

In [64]:
soup.title.name


'title'

In [65]:
soup.title.string


"The Dormouse's story"

In [66]:
soup.title.parent.name


'head'

In [67]:
soup.p


<p class="title"><b>The Dormouse's story</b></p>

In [68]:
soup.p['class']


['title']

In [69]:
soup.a


<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [70]:
soup.find_all('a')


[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [71]:
soup.find(id="link3")


<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

从文档中获取所有文字内容:

In [72]:
print(soup.get_text())


The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



#### 创建 soup

将一段文档传入 BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.

In [73]:
import requests     # 用于获取网页数据
from bs4 import BeautifulSoup   # 用于解析HTML

# 定义爬取网页链接(24h内图书畅销榜)
url = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'
# Header
headers = {
    'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit',
}
page = requests.get(url, headers=headers)   # 获取网页

# 解析网页
soup = BeautifulSoup(page.text, 'html.parser')
# 输出格式化后的 html
print(soup.prettify())  


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="图书畅销榜,畅销书推荐,畅销书排行榜,畅销书排行榜" name="keywords"/>
  <meta content="当当最新畅销书排行榜-畅销书推荐，提供真实、权威、可信的图书畅销榜数据，查看2014畅销书排行榜，就上DangDang.COM。" name="description"/>
  <title>
   图书畅销榜-近24小时畅销书排行榜-当当畅销图书排行榜
  </title>
  <script src="/books/js/jquery-1.4.2.min.js" type="text/javascript">
  </script>
  <script src="/books/js/common.js" type="text/javascript">
  </script>
  <script src="/books/js/popwin.js" type="text/javascript">
  </script>
  <script src="http://static.ddimg.cn/js/login/LoginWindow.js" type="text/javascript">
  </script>
  <link href="/books/css/bang_list.css" rel="stylesheet" type="text/css"/>
  <script src="/books/js/DD_belatedPNG_0.0.8a.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   DD_belatedPNG.

#### 对象的种类

`Beautiful Soup` 将复杂 `HTML` 文档转换成一个复杂的树形结构, 每个节点都是 `Python` 对象,所有对象可以归纳为 4 种:
- `Tag`
- `NavigableString`
- `BeautifulSoup`
- `Comment`

---

##### `Tag`

`Tag` 对象与 `XML` 或 `HTML` 原生文档中的 `tag` 相同:

> [HTML \<b> 标签 (w3school.com.cn)](https://www.w3school.com.cn/tags/tag_b.asp)

In [74]:
tag = soup.b    # b 标签指加粗的文本
type(tag)


bs4.element.Tag

`Tag` 有很多方法和属性,在 **遍历文档树** 和 **搜索文档树** 中有详细解释.现在介绍一下 `tag` 中最重要的属性: `name` 和 `attributes`

###### Name

每个 `tag` 都有自己的名字,通过 `.name` 来获取:

In [75]:
tag.name

'b'

如果改变了 `tag` 的 `name`, 那将影响所有通过当前 `Beautiful Soup` 对象生成的 `HTML` 文档:

In [76]:
tag.name = "blockquote"
tag

<blockquote id="cart_items_count"></blockquote>

###### Attributes

一个 `tag` 可能有很多个属性. `tag`  `<b id="unpaid_num" style="color:#ff2832;font:bold 12px Arial;"></b>` 有一个 `id` 的属性,值为 `unpaid_num`

`tag` 的属性的操作方法与字典相同:

In [77]:
tag = soup.b    # b 标签指加粗的文本
print(tag)
print("tag['id']:", tag['id'])


<b id="unpaid_num" style="color:#ff2832;font:bold 12px Arial;"></b>
tag['id']: unpaid_num


也可以直接通过 `.attrs` 来获取所有属性字典:

In [78]:
tag.attrs


{'id': 'unpaid_num', 'style': 'color:#ff2832;font:bold 12px Arial;'}

`tag` 的属性可以被添加,删除或修改, 因为 `tag` 的属性操作方法与字典一样:

In [79]:
tag['id'] = 'verybold'
tag['another-attribute'] = 1
tag


<b another-attribute="1" id="verybold" style="color:#ff2832;font:bold 12px Arial;"></b>

In [80]:
del tag['id']
del tag['another-attribute']
tag


<b style="color:#ff2832;font:bold 12px Arial;"></b>

In [81]:
tag['id']


KeyError: 'id'

In [82]:
tag.get('id')


##### 可以遍历的字符串


字符串常被包含在 `tag` 内

`Beautiful Soup` 用 `NavigableString` 类来包装 `tag` 中的字符串:

In [None]:
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', 'html.parser')
tag = soup.b
tag.string


'Extremely bold'

In [None]:
type(tag.string)


bs4.element.NavigableString

一个 `NavigableString` 字符串与 `Python` 中的 `Unicode` 字符串相同,并且还支持包含在 遍历文档树 和 搜索文档树 中的一些特性. 通过 `unicode()` 方法可以直接将 `NavigableString` 对象转换成 `Unicode` 字符串:

In [None]:
unicode_string = str(tag.string)
unicode_string


'Extremely bold'

In [None]:
type(unicode_string)


str

`tag` 中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 `replace_with()` 方法:

In [None]:
tag.string.replace_with("No longer bold")
tag

<b class="boldest">No longer bold</b>

`NavigableString` 对象支持 遍历文档树 和 搜索文档树 中定义的大部分属性, 并非全部.  
尤其是,一个字符串不能包含其它内容(`tag` 能够包含字符串或是其它 `tag`),字符串不支持 `.contents` 或 `.string` 属性或 `find()` 方法.

如果想在 `Beautiful Soup` 之外使用 `NavigableString` 对象,需要调用 `unicode()` 方法,将该对象转换成普通的 `Unicode` 字符串,否则就算 `Beautiful Soup` 已方法已经执行结束,该对象的输出也会带有对象的引用地址.这样会浪费内存.

#### BeautifulSoup

`BeautifulSoup` 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 `Tag` 对象,它支持 遍历文档树 和 搜索文档树 中描述的大部分的方法.

因为 `BeautifulSoup` 对象并不是真正的 `HTML` 或 `XML` 的 `tag`, 所以它没有 `name` 和 `attribute` 属性.但有时查看它的 `.name` 属性是很方便的,所以 `BeautifulSoup` 对象包含了一个值为 `[document]` 的特殊属性 `.name`

In [None]:
soup.name

'[document]'

#### 搜索文档树

Beautiful Soup定义了很多搜索方法,这里着重介绍2个: `find()` 和 `find_all(`

其它方法的参数和用法类似,请读者举一反三.

拿”爱丽丝梦游仙境”的文档来做例子  

In [6]:
from bs4 import BeautifulSoup
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')


使用 `find_all()` 类似的方法可以查找到想要查找的文档内容

In [7]:
from bs4 import BeautifulSoup
html_doc = """
<html><head><title>The Dormouse's story</title></head>
    <body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

soup = BeautifulSoup(html_doc, 'html.parser')


##### 多种 filter

介绍 `find_all()` 方法前, 先介绍一下过滤器的类型, 这些过滤器贯穿整个搜索的 `API`.过滤器可以被用在 `tag` 的 `name` 中, 节点的属性中, 字符串中或他们的混合中.


###### 字符串

最简单的过滤器是字符串.在搜索方法中传入一个字符串参数, `Beautiful Soup` 会查找与字符串完整匹配的内容,下面的例子用于查找文档中所有的 `<a>` 标签:

In [9]:
soup.find_all('a')


[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

此外还可以再添加一个 属性 进一步过滤, 例如过滤出 id="link1" 的 `<a>` 标签:


In [10]:
soup.find_all('a', id='link1')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

除此之外还有使用正则表达式, 列表, 自定义函数等方式查找, 可以在官网文档中继续学习, 本次爬虫示例只需要用到上述方法即可解决问题

---

### 开始写爬虫

选择爬取当当网的热门书单

![20211211180304-当当网第1个h2为图书畅销榜](http:cdn.ayusummer233.top/img/20211211180304.png)

#### 爬取 24h 图书畅销榜中的图书信息并存储在一个列表中

In [2]:
import requests                 # 用于获取网页
from bs4 import BeautifulSoup   # 用于解析网页

# 定义爬取网页链接(24h内图书畅销榜)
url = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'
# Header
headers = {
    'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit',
    }
page = requests.get(url, headers=headers)   # 获取网页

# 解析网页
soup = BeautifulSoup(page.text, 'html.parser')
# 输出格式化后的 html
print(soup.prettify())


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="图书畅销榜,畅销书推荐,畅销书排行榜,畅销书排行榜" name="keywords"/>
  <meta content="当当最新畅销书排行榜-畅销书推荐，提供真实、权威、可信的图书畅销榜数据，查看2014畅销书排行榜，就上DangDang.COM。" name="description"/>
  <title>
   图书畅销榜-近24小时畅销书排行榜-当当畅销图书排行榜
  </title>
  <script src="/books/js/jquery-1.4.2.min.js" type="text/javascript">
  </script>
  <script src="/books/js/common.js" type="text/javascript">
  </script>
  <script src="/books/js/popwin.js" type="text/javascript">
  </script>
  <script src="http://static.ddimg.cn/js/login/LoginWindow.js" type="text/javascript">
  </script>
  <link href="/books/css/bang_list.css" rel="stylesheet" type="text/css"/>
  <script src="/books/js/DD_belatedPNG_0.0.8a.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   DD_belatedPNG.

查看完整的输出后可以找到如下内容:

![20211211213501](http:cdn.ayusummer233.top/img/20211211213501.png)

全选后拷贝到一个新建文件中并将后缀命名为 `.html`, 自动格式化后阅读性会好些

观察层级结构可以看到我们需要获取的 top10 书籍信息所在层级为

`body` -> `div.bang_wrapper` -> `div.bang_content` -> `div.bang_list_box` -> `ul.bang_list.clearfix.bang_list_mode` -> `li`

每一个 `li` 对应一则图书信息, 我们只需要前 10 个 `li` 的信息

> `<li>` 标签定义列表项目。   
> `<li>` 标签可用在有序列表 (`<ol>`) 和无序列表 (`<ul>`) 中。

![20211211220042](http:cdn.ayusummer233.top/img/20211211220042.png)

In [3]:
# `body` -> `div.bang_wrapper` -> `div.bang_content` -> `div.bang_list_box` -> `ul.bang_list.clearfix.bang_list_mode` -> `li`

# 定位到 class = bang_list clearfix bang_list_mode 的 ul
ul = soup.find('ul', class_='bang_list clearfix bang_list_mode')
print(ul)



<ul class="bang_list clearfix bang_list_mode">
<li>
<div class="list_num red">1.</div>
<div class="pic"><a href="http://product.dangdang.com/28992419.html" target="_blank"><img alt="蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）" src="http://img3m9.ddimg.cn/71/33/28992419-1_l_45.jpg" title="蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）"/></a></div>
<div class="name"><a href="http://product.dangdang.com/28992419.html" target="_blank" title="蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）">蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知<span class="dot">...</span></a></div>
<div class="star"><span class="level"><span style="width: 97%;"></span></span><a href="http://product.dangdang.com/28992419.html?point=comment_point" target="_blank">749116条评论</a><span class="tuijian">100%推荐</span></div>
<div class="publisher_info"><a href="http://search.dangdang.com/?key=罗伯特・戴博德" target="_blank" title="罗伯特・戴博德，果麦文化 出品">罗伯特・戴博德</a>，<a href="http://search.dangdang.com/?key=果麦文化" target="_blank" title="罗伯特・戴博德，果麦文化 出品">果

查看结果并拷贝到新建文件自动格式化阅读

可以看到当前获取到的内容已经很接近目标内容了, 需要的内容就在每一个 `<li>` 中

![20211211221743](http:cdn.ayusummer233.top/img/20211211221743.png)

In [4]:
# 定义一个包含 10 个字典元素的列表
top10_book_info_dict_lst = [dict()]*10

# 获取 ul 的第一个 li 存储到 book1_li 中
book1_li = ul.find('li')
print(book1_li)


<li>
<div class="list_num red">1.</div>
<div class="pic"><a href="http://product.dangdang.com/28992419.html" target="_blank"><img alt="蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）" src="http://img3m9.ddimg.cn/71/33/28992419-1_l_45.jpg" title="蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）"/></a></div>
<div class="name"><a href="http://product.dangdang.com/28992419.html" target="_blank" title="蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）">蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知<span class="dot">...</span></a></div>
<div class="star"><span class="level"><span style="width: 97%;"></span></span><a href="http://product.dangdang.com/28992419.html?point=comment_point" target="_blank">749116条评论</a><span class="tuijian">100%推荐</span></div>
<div class="publisher_info"><a href="http://search.dangdang.com/?key=罗伯特・戴博德" target="_blank" title="罗伯特・戴博德，果麦文化 出品">罗伯特・戴博德</a>，<a href="http://search.dangdang.com/?key=果麦文化" target="_blank" title="罗伯特・戴博德，果麦文化 出品">果麦文化</a> 出品</div>
<div class="publisher_info"><s

已经获取到第一本书的序列信息了, 下面需要做的就是将这些信息提取出来

![20211211222355](http:cdn.ayusummer233.top/img/20211211222355.png)

In [5]:
# 初始化一个数目信息字典
book1 = {
    'rank': 0,
    'cover_url': '',
    'book_name': '',
    'details_url': '',
    'comment_num': 0,
    'recommend_percent': 0.0,
    'author_name': '',
    'publishing_company': '',
    'publish_date': '',
    'price_original': 0.0,
    'price_discount': 0.0,
    'discount_percent': 0.0,
    'price_ebook': 0.0,
}

# book1['rank'] 为 <div class="list_num red"> 标签中包裹的信息去掉一个.
book1['rank'] = int(book1_li.find('div', class_='list_num red').get_text().strip('.'))
print("rank:", book1['rank'])

# book1['cover_url'] 为 <img> 标签中的 src 属性
book1['cover_url'] = book1_li.find('img')['src']
print("封面链接", book1['cover_url'])

# book1['book_name'] 为 <img> 标签中的 title 属性
book1['book_name'] = book1_li.find('img')['title']
print("书名:", book1['book_name'])

# book1['details_url'] 为 <a> 标签中的 href 属性
book1['details_url'] = book1_li.find('a')['href']
print("详情链接:", book1['details_url'])

# book1['comment_num'] 和 book1['recommend_percent'] 均为 <div class="star"> 包含的信息
comment_recommend = book1_li.find('div', class_='star').get_text().strip()
print(comment_recommend)
# book1['comment_num'] 是 comment_recommend 中的第一个数字
book1['comment_num'] = int(comment_recommend.split('条评论')[0])
print("评论数:", book1['comment_num'])
# book1['recommend_percent'] 是 comment_recommend 中的第二个数字
book1['recommend_percent'] = float(comment_recommend.split('条评论')[1].split('%推荐')[0])
print("推荐率:", book1['recommend_percent'])

# book1['author_name'] 为 <div class="publisher_info"> 包含的信息
# 不过这个信息有时候还包含出品商的信息, 作者和出品商之间会用 全角逗号隔开
publish_info = book1_li.find('div', class_='publisher_info').get_text()
print(publish_info)
# 若 publish_info 中包含全角逗号, 则分割后的第一个元素为作者名, 否则 publish_info 就是作者名
if '，' in publish_info:
    book1['author_name'] = publish_info.split('，')[0]
else:
    book1['author_name'] = publish_info
print("作者:", book1['author_name'])

# book1['publishing_company'] 为第 2 个 <div class="publisher_info"> 包含的信息的后半段
# 前后半段中间用的空格分开的, 所以只需要 split 下就能获取到元素了
publishing_info = book1_li.find_all('div', class_='publisher_info')[1].get_text().split()
print(publishing_info)
book1['publish_date'] = publishing_info[0]
print("出版日期:", book1['publish_date'])
book1['publishing_company'] = publishing_info[1]
print("出版社:", book1['publishing_company'])

# book1['price_original'] 为 <span class="price_r"> 包含的信息去掉 ¥ 字样
book1['price_original'] =  float(book1_li.find(
    'span', class_='price_r').get_text().strip('¥'))
print("原价:", book1['price_original'])

# book1['price_discount'] 为 <span class="price_n"> 包含的信息去掉 ¥ 字样
book1['price_discount'] = float(book1_li.find(
    'span', class_='price_n').get_text().strip('¥'))
print("折扣价:", book1['price_discount'])

# book1['discount_percent'] 为 <span class="price_s"> 包含的信息中去掉 折 字样
book1['discount_percent'] = float(book1_li.find(
    'span', class_='price_s').get_text().strip('折'))
print("折扣率:", book1['discount_percent'])

# book1['price_ebook'] 为 <p class="price_e"> 包含的信息去掉 电子书：¥ 字样 (注意是全角冒号)
book1['price_ebook'] = float(book1_li.find(
    'p', class_='price_e').get_text().strip('电子书：¥'))
print("电子书价格:", book1['price_ebook'])

# 将 book1 中的信息作为 top10_book_info_dict_lst 的第一个元素
top10_book_info_dict_lst[0] = book1

top10_book_info_dict_lst


rank: 1
封面链接 http://img3m9.ddimg.cn/71/33/28992419-1_l_45.jpg
书名: 蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）
详情链接: http://product.dangdang.com/28992419.html
749116条评论100%推荐
评论数: 749116
推荐率: 100.0
罗伯特・戴博德，果麦文化 出品
作者: 罗伯特・戴博德
['2020-07-01', '天津人民出版社']
出版日期: 2020-07-01
出版社: 天津人民出版社
原价: 38.0
折扣价: 19.0
折扣率: 5.0
电子书价格: 16.99


[{'rank': 1,
  'cover_url': 'http://img3m9.ddimg.cn/71/33/28992419-1_l_45.jpg',
  'book_name': '蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）',
  'details_url': 'http://product.dangdang.com/28992419.html',
  'comment_num': 749116,
  'recommend_percent': 100.0,
  'author_name': '罗伯特・戴博德',
  'publishing_company': '天津人民出版社',
  'publish_date': '2020-07-01',
  'price_original': 38.0,
  'price_discount': 19.0,
  'discount_percent': 5.0,
  'price_ebook': 16.99},
 {},
 {},
 {},
 {},
 {},
 {},
 {},
 {},
 {}]

到此为止我们就完整得爬到了一本书的基本信息, 那么接下来再爬 9 本书的新信息即可

首先我们应当创建 9 本书的信息字典, 并将书名和书的链接信息存储在列表中

我们已经知道这 9 本书的信息字典字段是完全相同的, 那么我们可以考虑构造一个标准化的"空"字典, 然后利用这个空字典来构造 9 本书的信息字典

在 C 中我们通常会定义一个结构体来实现这个目的, 在 python 中并没有专门定义结构体的方法, 但是我们可以先创建一个包含所有字段信息为默认值的字典然后通过深度拷贝来构造 9 本书的信息字典

In [6]:
# 创建一个标准化的书籍信息字典
book = {
    'rank': 0,
    'cover_url': '',
    'book_name': '',
    'details_url': '',
    'comment_num': 0,
    'recommend_percent': 0.0,
    'author_name': '',
    'publishing_company': '',
    'publish_date': '',
    'price_original': 0.0,
    'price_discount': 0.0,
    'discount_percent': 0.0,
    'price_ebook': 0.0,
}

# 通过深度拷贝 book 初始化 top10_book_info_dict_lst 中其他 9 个元素的信息
import copy
top10_book_info_dict_lst[1:] = [copy.deepcopy(book) for _ in range(9)]

top10_book_info_dict_lst

[{'rank': 1,
  'cover_url': 'http://img3m9.ddimg.cn/71/33/28992419-1_l_45.jpg',
  'book_name': '蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）',
  'details_url': 'http://product.dangdang.com/28992419.html',
  'comment_num': 749116,
  'recommend_percent': 100.0,
  'author_name': '罗伯特・戴博德',
  'publishing_company': '天津人民出版社',
  'publish_date': '2020-07-01',
  'price_original': 38.0,
  'price_discount': 19.0,
  'discount_percent': 5.0,
  'price_ebook': 16.99},
 {'rank': 0,
  'cover_url': '',
  'book_name': '',
  'details_url': '',
  'comment_num': 0,
  'recommend_percent': 0.0,
  'author_name': '',
  'publishing_company': '',
  'publish_date': '',
  'price_original': 0.0,
  'price_discount': 0.0,
  'discount_percent': 0.0,
  'price_ebook': 0.0},
 {'rank': 0,
  'cover_url': '',
  'book_name': '',
  'details_url': '',
  'comment_num': 0,
  'recommend_percent': 0.0,
  'author_name': '',
  'publishing_company': '',
  'publish_date': '',
  'price_original': 0.0,
  'price_discount': 0.0,
  'disco

在处理第一本书的信息的时候我们不难发现, 所有书籍信息都是存在分别单独的 `<li>` 标签中的, 而对一个 `<li>` 标签中提取出书籍信息的操作是相同的, 所以我们可以将这个操作封装成一个函数

In [7]:
# 首先来看看 book1_li 中的类型
print(type(book1_li))

# 封装一个函数, 用于从 `<li>` 获取每本书的详细信息并传给一个字典
import bs4
def get_book_info(book_li: bs4.element.Tag, book_info: dict) -> None:
    """从 `<li>` 获取每本书的详细信息并传给一个字典
    :param book_li: bs4.element.Tag -> `<li>` 元素
    :param book_info: dict, 存储书籍信息的字典
    :return: None
    """
    
    """book_info['rank'] 为 <div class="list_num red"> 标签中包裹的信息去掉一个 . 字样
    需要注意的是只有前三名书籍才有 <div class="list_num red"> 标签, 其他书籍为 <div class="list_num"> 标签
    (后面 try 报错才发现的, 然后修改了)
    """
    try:
        book_info['rank'] = int(book_li.find(
            'div', class_='list_num red').get_text().strip('.'))
    except Exception as e:
        try:
            book_info['rank'] = int(book_li.find(
                'div', class_='list_num').get_text().strip('.'))
        except Exception as e1:
            print("获取排名失败:{0}".format(e))
            print("获取排名失败:{0}".format(e1))
            print(book_li)


    # book_info['cover_url'] 为 <img> 标签中的 src 属性
    book_info['cover_url'] = book_li.find('img')['src']

    # book_info['book_name'] 为 <img> 标签中的 title 属性
    book_info['book_name'] = book_li.find('img')['title']

    # book_info['details_url'] 为 <a> 标签中的 href 属性
    book_info['details_url'] = book_li.find('a')['href']

    # book_info['comment_num'] 和 book_info['recommend_percent'] 均为 <div class="star"> 包含的信息
    comment_recommend = book_li.find(
        'div', class_='star').get_text().strip()
    # book_info['comment_num'] 是 comment_recommend 中的第一个数字
    book_info['comment_num'] = int(comment_recommend.split('条评论')[0])
    # book_info['recommend_percent'] 是 comment_recommend 中的第二个数字
    book_info['recommend_percent'] = float(
        comment_recommend.split('条评论')[1].split('%推荐')[0])

    # book_info['author_name'] 为 <div class="publisher_info"> 包含的信息
    # 不过这个信息有时候还包含出品商的信息, 作者和出品商之间会用 全角逗号隔开
    publish_info = book_li.find('div', class_='publisher_info').get_text()
    # 若 publish_info 中包含全角逗号, 则分割后的第一个元素为作者名, 否则 publish_info 就是作者名
    if '，' in publish_info:
        book_info['author_name'] = publish_info.split('，')[0]
    else:
        book_info['author_name'] = publish_info

    # book_info['publishing_company'] 为第 2 个 <div class="publisher_info"> 包含的信息的后半段
    # 前后半段中间用的空格分开的, 所以只需要 split 下就能获取到元素了
    publishing_info = book_li.find_all('div', class_='publisher_info')[
        1].get_text().split()
    book_info['publish_date'] = publishing_info[0]
    book_info['publishing_company'] = publishing_info[1]

    # book_info['price_original'] 为 <span class="price_r"> 包含的信息去掉 ¥ 字样
    book_info['price_original'] = float(book_li.find(
        'span', class_='price_r').get_text().strip('¥'))

    # book_info['price_discount'] 为 <span class="price_n"> 包含的信息去掉 ¥ 字样
    book_info['price_discount'] = float(book_li.find(
        'span', class_='price_n').get_text().strip('¥'))

    # book_info['discount_percent'] 为 <span class="price_s"> 包含的信息中去掉 折 字样
    book_info['discount_percent'] = float(book_li.find(
        'span', class_='price_s').get_text().strip('折'))

    # book_info['price_ebook'] 为 <p class="price_e"> 包含的信息去掉 电子书：¥ 字样 (注意是全角冒号)
    # 需要注意的是有的书籍没有电子书价格, price_e 标签内容为空
    try:
        if book_li.find('p', class_='price_e'):
            book_info['price_ebook'] = float(book_li.find(
                'p', class_='price_e').get_text().strip('电子书：¥'))
        else:
            book_info['price_ebook'] = None
    except Exception as e:
        print(book_li.find(
            'p', class_='price_e').get_text())



<class 'bs4.element.Tag'>


提取出 ul 的前 10 个 `<li>`, 包含前 10 本书的信息

In [8]:
# 定义一个列表, 存储 ul 中的前 10 个 `<li>` 元素
book_info_li_list = [None] * 10
for i in range(10):
    # 将每个 `<li>` 元素赋值给 book_info_li_list[i]
    book_info_li_list[i] = ul.find_all('li')[i]

print(book_info_li_list)


[<li>
<div class="list_num red">1.</div>
<div class="pic"><a href="http://product.dangdang.com/28992419.html" target="_blank"><img alt="蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）" src="http://img3m9.ddimg.cn/71/33/28992419-1_l_45.jpg" title="蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）"/></a></div>
<div class="name"><a href="http://product.dangdang.com/28992419.html" target="_blank" title="蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）">蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知<span class="dot">...</span></a></div>
<div class="star"><span class="level"><span style="width: 97%;"></span></span><a href="http://product.dangdang.com/28992419.html?point=comment_point" target="_blank">749116条评论</a><span class="tuijian">100%推荐</span></div>
<div class="publisher_info"><a href="http://search.dangdang.com/?key=罗伯特・戴博德" target="_blank" title="罗伯特・戴博德，果麦文化 出品">罗伯特・戴博德</a>，<a href="http://search.dangdang.com/?key=果麦文化" target="_blank" title="罗伯特・戴博德，果麦文化 出品">果麦文化</a> 出品</div>
<div class="publisher_info"><

In [9]:
top10_book_info_dict_lst


[{'rank': 1,
  'cover_url': 'http://img3m9.ddimg.cn/71/33/28992419-1_l_45.jpg',
  'book_name': '蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）',
  'details_url': 'http://product.dangdang.com/28992419.html',
  'comment_num': 749116,
  'recommend_percent': 100.0,
  'author_name': '罗伯特・戴博德',
  'publishing_company': '天津人民出版社',
  'publish_date': '2020-07-01',
  'price_original': 38.0,
  'price_discount': 19.0,
  'discount_percent': 5.0,
  'price_ebook': 16.99},
 {'rank': 0,
  'cover_url': '',
  'book_name': '',
  'details_url': '',
  'comment_num': 0,
  'recommend_percent': 0.0,
  'author_name': '',
  'publishing_company': '',
  'publish_date': '',
  'price_original': 0.0,
  'price_discount': 0.0,
  'discount_percent': 0.0,
  'price_ebook': 0.0},
 {'rank': 0,
  'cover_url': '',
  'book_name': '',
  'details_url': '',
  'comment_num': 0,
  'recommend_percent': 0.0,
  'author_name': '',
  'publishing_company': '',
  'publish_date': '',
  'price_original': 0.0,
  'price_discount': 0.0,
  'disco

使用 `get_book_info` 函数从 `book_info_li_list[1:10]` 中提取出书籍信息传给 `top10_book_info_dict_lst[1:10]`

In [10]:
# 使用 get_book_info 函数从 book_info_li_list[1:10] 中提取出书籍信息传给 top10_book_info_dict_lst[1:10]
for i in range(1, 10):
    get_book_info(book_info_li_list[i], top10_book_info_dict_lst[i])

top10_book_info_dict_lst









[{'rank': 1,
  'cover_url': 'http://img3m9.ddimg.cn/71/33/28992419-1_l_45.jpg',
  'book_name': '蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）',
  'details_url': 'http://product.dangdang.com/28992419.html',
  'comment_num': 749116,
  'recommend_percent': 100.0,
  'author_name': '罗伯特・戴博德',
  'publishing_company': '天津人民出版社',
  'publish_date': '2020-07-01',
  'price_original': 38.0,
  'price_discount': 19.0,
  'discount_percent': 5.0,
  'price_ebook': 16.99},
 {'rank': 2,
  'cover_url': 'http://img3m4.ddimg.cn/67/33/24184084-1_l_9.jpg',
  'book_name': '次第花开 修订版',
  'details_url': 'http://product.dangdang.com/24184084.html',
  'comment_num': 453669,
  'recommend_percent': 100.0,
  'author_name': '希阿荣博堪布',
  'publishing_company': '海南出版社',
  'publish_date': '2017-02-01',
  'price_original': 39.8,
  'price_discount': 17.6,
  'discount_percent': 4.4,
  'price_ebook': 0.0},
 {'rank': 3,
  'cover_url': 'http://img3m4.ddimg.cn/32/35/23579654-1_l_6.jpg',
  'book_name': '三体：全三册 刘慈欣代表作，亚洲“雨果奖”获奖作品！',

这样就怕去到了 10 本书的信息并存入了一个字典列表中, 那么我们可以将这些信息展示一下, 比如展示前十本书的名称

In [11]:
# 从 top10_book_info_dict_lst 中展示十本书的名称
for i in range(0, 10):
    print(top10_book_info_dict_lst[i]['book_name'])


蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）
次第花开 修订版
三体：全三册 刘慈欣代表作，亚洲“雨果奖”获奖作品！
人生海海（麦家重磅力作，莫言、董卿盛赞，连续两年高居畅销榜，发行量超200万册）
少年读史记（套装全5册）
马尔克斯：百年孤独（50周年纪念版）
走遍中国 图说天下 寻梦之旅
面纱（毛姆关于女性精神觉醒的经典作品，三次改编成电影。2018全新编校+无删减全译本）
你当像鸟飞往你的山（中文版销量超200万册，比尔・盖茨年度特别推荐！登顶《纽约时报》畅销榜80+周，这本书比你听说的还要好！）
给男孩的情绪管理绘本（套装全5册）


处理到这里我们已经获得了 24h 书籍畅销榜中前 10 本书的信息并存入了一个字典列表

那么下一步就是将其存入数据库中

In [16]:
import sqlite3

# 定义数据库文件路径
db_path = './library.db'

# 创建数据库连接
conn = sqlite3.connect(db_path)
# 创建游标
cursor = conn.cursor()


由于将十本书的信息写入到数据库的操作是一致的, 所以我们可以将这个操作封装成一个函数

In [17]:
# 定义一个函数, 将一个书籍信息字典中的信息写入数据库的某个表中
def insert_book_info_to_db(book_info_dict: dict, table_name: str, cursor: sqlite3.Cursor):
    # 定义 SQL 语句
    sql = '''
        INSERT INTO {table_name}(
            rank,
            cover_url,
            book_name,
            details_url,
            comment_num,
            recommend_percent,
            author_name,
            publishing_company,
            publish_date,
            price_original,
            price_discount,
            discount_percent,
            price_ebook
        ) VALUES(
            '{rank}',
            '{cover_url}',
            '{book_name}',
            '{details_url}',
            '{comment_num}',
            '{recommend_percent}',
            '{author_name}',
            '{publishing_company}',
            '{publish_date}',
            '{price_original}',
            '{price_discount}',
            '{discount_percent}',
            '{price_ebook}'
        )
    '''.format(
        table_name=table_name,
        rank=book_info_dict['rank'],
        cover_url=book_info_dict['cover_url'],
        book_name=book_info_dict['book_name'],
        details_url=book_info_dict['details_url'],
        comment_num=book_info_dict['comment_num'],
        recommend_percent=book_info_dict['recommend_percent'],
        author_name=book_info_dict['author_name'],
        publishing_company=book_info_dict['publishing_company'],
        publish_date=book_info_dict['publish_date'],
        price_original=book_info_dict['price_original'],
        price_discount=book_info_dict['price_discount'],
        discount_percent=book_info_dict['discount_percent'],
        price_ebook=book_info_dict['price_ebook']
    )
    # 执行 SQL 语句
    cursor.execute(sql)



现在有了这样一个函数, 我们可以将这个函数应用到所有书籍信息上, 这样就可以将所有书籍信息写入到数据库中


In [19]:
# 调用 insert_book_info_to_db 函数将 top10_book_info_dict_lst 中的书籍信息写入数据库
for i in range(0, 10):
    insert_book_info_to_db(top10_book_info_dict_lst[i], 'top10_24h', cursor)

# 关闭 cursor
cursor.close()
# 提交事务
conn.commit()
# 关闭数据库连接
conn.close()


打开数据库查看下内容

![20211212090626](http:cdn.ayusummer233.top/img/20211212090626.png)

到此位置我们已经做到了爬取 24h 书籍畅销榜 top10 书籍信息, 并将其存入数据库中

后面爬取 7d, 30d 的书籍畅销榜 top10 信息并存入数据库中的操作也是一样的, 只是改变了爬取的链接

那么我们可以尝试着将整个操作过程封装为一个函数

首先把先前封装好的函数拿来晾晾

首先是 get_book_info, 用于从 `<li>` 获取每本书的详细信息并传给一个字典


In [1]:
import requests
import bs4
from bs4 import BeautifulSoup
import sqlite3
import copy


In [2]:
def get_book_info(book_li: bs4.element.Tag, book_info: dict) -> None:
    """从 `<li>` 获取每本书的详细信息并传给一个字典
    :param book_li: bs4.element.Tag -> `<li>` 元素
    :param book_info: dict, 存储书籍信息的字典
    :return: None
    """
    
    """book_info['rank'] 为 <div class="list_num red"> 标签中包裹的信息去掉一个 . 字样
    需要注意的是只有前三名书籍才有 <div class="list_num red"> 标签, 其他书籍为 <div class="list_num"> 标签
    """
    try:
        book_info['rank'] = int(book_li.find(
            'div', class_='list_num red').get_text().strip('.'))
    except Exception as e:
        try:
            book_info['rank'] = int(book_li.find(
                'div', class_='list_num').get_text().strip('.'))
        except Exception as e1:
            print("获取排名失败:{0}".format(e))
            print("获取排名失败:{0}".format(e1))
            print(book_li)


    # book_info['cover_url'] 为 <img> 标签中的 src 属性
    book_info['cover_url'] = book_li.find('img')['src']

    # book_info['book_name'] 为 <img> 标签中的 title 属性
    book_info['book_name'] = book_li.find('img')['title']

    # book_info['details_url'] 为 <a> 标签中的 href 属性
    book_info['details_url'] = book_li.find('a')['href']

    # book_info['comment_num'] 和 book_info['recommend_percent'] 均为 <div class="star"> 包含的信息
    comment_recommend = book_li.find(
        'div', class_='star').get_text().strip()
    # book_info['comment_num'] 是 comment_recommend 中的第一个数字
    book_info['comment_num'] = int(comment_recommend.split('条评论')[0])
    # book_info['recommend_percent'] 是 comment_recommend 中的第二个数字
    book_info['recommend_percent'] = float(
        comment_recommend.split('条评论')[1].split('%推荐')[0])

    # book_info['author_name'] 为 <div class="publisher_info"> 包含的信息
    # 不过这个信息有时候还包含出品商的信息, 作者和出品商之间会用 全角逗号隔开
    publish_info = book_li.find('div', class_='publisher_info').get_text()
    # 若 publish_info 中包含全角逗号, 则分割后的第一个元素为作者名, 否则 publish_info 就是作者名
    if '，' in publish_info:
        book_info['author_name'] = publish_info.split('，')[0]
    else:
        book_info['author_name'] = publish_info

    # book_info['publishing_company'] 为第 2 个 <div class="publisher_info"> 包含的信息的后半段
    # 前后半段中间用的空格分开的, 所以只需要 split 下就能获取到元素了
    publishing_info = book_li.find_all('div', class_='publisher_info')[
        1].get_text().split()
    book_info['publish_date'] = publishing_info[0]
    book_info['publishing_company'] = publishing_info[1]

    # book_info['price_original'] 为 <span class="price_r"> 包含的信息去掉 ¥ 字样
    book_info['price_original'] = float(book_li.find(
        'span', class_='price_r').get_text().strip('¥'))

    # book_info['price_discount'] 为 <span class="price_n"> 包含的信息去掉 ¥ 字样
    book_info['price_discount'] = float(book_li.find(
        'span', class_='price_n').get_text().strip('¥'))

    # book_info['discount_percent'] 为 <span class="price_s"> 包含的信息中去掉 折 字样
    book_info['discount_percent'] = float(book_li.find(
        'span', class_='price_s').get_text().strip('折'))

    # book_info['price_ebook'] 为 <p class="price_e"> 包含的信息去掉 电子书：¥ 字样 (注意是全角冒号)
    # 需要注意的是有的书籍没有电子书价格, price_e 标签内容为空
    try:
        if book_li.find('p', class_='price_e'):
            book_info['price_ebook'] = float(book_li.find(
                'p', class_='price_e').get_text().strip('电子书：¥'))
        else:
            book_info['price_ebook'] = None
    except Exception as e:
        print(book_li.find(
            'p', class_='price_e').get_text())
    

然后是 `insert_book_info_to_db`, 用于将一个书籍信息字典中的信息写入数据库的某个表中

In [3]:
# 定义一个函数, 将一个书籍信息字典中的信息写入数据库的某个表中
def insert_book_info_to_db(book_info_dict: dict, table_name: str, cursor: sqlite3.Cursor):
    # 定义 SQL 语句
    sql = '''
        INSERT INTO {table_name}(
            rank,
            cover_url,
            book_name,
            details_url,
            comment_num,
            recommend_percent,
            author_name,
            publishing_company,
            publish_date,
            price_original,
            price_discount,
            discount_percent,
            price_ebook
        ) VALUES(
            '{rank}',
            '{cover_url}',
            '{book_name}',
            '{details_url}',
            '{comment_num}',
            '{recommend_percent}',
            '{author_name}',
            '{publishing_company}',
            '{publish_date}',
            '{price_original}',
            '{price_discount}',
            '{discount_percent}',
            '{price_ebook}'
        )
    '''.format(
        table_name=table_name,
        rank=book_info_dict['rank'],
        cover_url=book_info_dict['cover_url'],
        book_name=book_info_dict['book_name'],
        details_url=book_info_dict['details_url'],
        comment_num=book_info_dict['comment_num'],
        recommend_percent=book_info_dict['recommend_percent'],
        author_name=book_info_dict['author_name'],
        publishing_company=book_info_dict['publishing_company'],
        publish_date=book_info_dict['publish_date'],
        price_original=book_info_dict['price_original'],
        price_discount=book_info_dict['price_discount'],
        discount_percent=book_info_dict['discount_percent'],
        price_ebook=book_info_dict['price_ebook']
    )
    # 执行 SQL 语句
    try:
        cursor.execute(sql)
    except Exception as e:
        print(sql)
        print(e)



In [4]:
# 封装函数, 从书籍畅销榜 url 中提取 top10 书籍信息并存储到指定数据库的指定表中
def get_top10_book_info_from_url(url: str, db_path: str,table_name: str):
    import requests
    import bs4
    from bs4 import BeautifulSoup
    import sqlite3
    import copy

    # 定义爬取网页链接
    url = url

    # Header
    headers = {
        'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit',
    }
    page = requests.get(url, headers=headers)   # 获取网页

    # 解析网页
    soup = BeautifulSoup(page.text, 'html.parser')

    # 定位到 class = bang_list clearfix bang_list_mode 的 ul
    ul = soup.find('ul', class_='bang_list clearfix bang_list_mode')

    # 创建一个标准化的书籍信息字典
    book = {
        'rank': 0,
        'cover_url': '',
        'book_name': '',
        'details_url': '',
        'comment_num': 0,
        'recommend_percent': 0.0,
        'author_name': '',
        'publishing_company': '',
        'publish_date': '',
        'price_original': 0.0,
        'price_discount': 0.0,
        'discount_percent': 0.0,
        'price_ebook': 0.0,
    }

    # 通过深度拷贝 book 定义一个包含 10 个书籍信息字典元素的列表
    top10_book_info_dict_lst = [copy.deepcopy(book) for i in range(10)]

    # 定义一个列表, 存储 ul 中的前 10 个 `<li>` 元素
    book_info_li_list = [None] * 10
    for i in range(10):
        # 将每个 `<li>` 元素赋值给 book_info_li_list[i]
        book_info_li_list[i] = ul.find_all('li')[i]

    # 使用 get_book_info 函数从 book_info_li_list 中提取出书籍信息传给 top10_book_info_dict_lst
    for i in range(10):
        get_book_info(book_info_li_list[i], top10_book_info_dict_lst[i])

    # 从 top10_book_info_dict_lst 中展示十本书的排名和名称
    for i in range(0, 10):
        print(top10_book_info_dict_lst[i]['rank'], top10_book_info_dict_lst[i]['book_name'])

    # 定义数据库文件路径
    db_path = db_path

    # 创建数据库连接
    conn = sqlite3.connect(db_path)
    # 创建游标
    cursor = conn.cursor()

    # 将 top10_book_info_dict_lst 中的书籍信息存储到数据库中
    for i in range(0, 10):
        insert_book_info_to_db(book_info_dict=top10_book_info_dict_lst[i], cursor=cursor, table_name=table_name)

    # 关闭 cursor
    cursor.close()
    # 提交事务
    conn.commit()
    # 关闭数据库连接
    conn.close()



下面我们通过调用 `get_top10_book_info_from_url` 来从 当当网近7日图书畅销榜中提取 top10 书籍数据存储到当前笔记本同级目录下的 `library.db` 数据库的 `top10_7d` 表中


In [10]:
# 通过调用 `get_top10_book_info_from_url` 来从 当当网近7日图书畅销榜中提取 top10 书籍数据存储到当前笔记本同级目录下的 `library.db` 数据库的 `top10_7d` 表中
get_top10_book_info_from_url('http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1', './library.db', 'top10_7d')






1 小熊和最好的爸爸（全7册）
2 蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）
3 次第花开 修订版
4 月光落在左手上（精装珍藏版）
5 走遍中国 图说天下 寻梦之旅
6 三体：全三册 刘慈欣代表作，亚洲“雨果奖”获奖作品！
7 人生海海（麦家重磅力作，莫言、董卿盛赞，连续两年高居畅销榜，发行量超200万册）
8 马尔克斯：百年孤独（50周年纪念版）
9 你当像鸟飞往你的山（中文版销量超200万册，比尔・盖茨年度特别推荐！登顶《纽约时报》畅销榜80+周，这本书比你听说的还要好！）
10 少年读史记（套装全5册）


完成

![20211212095257](http:cdn.ayusummer233.top/img/20211212095257.png)

In [5]:
# 通过调用 `get_top10_book_info_from_url` 来从 当当网近 30 日图书畅销榜中提取 top10 书籍数据存储到当前笔记本同级目录下的 `library.db` 数据库的 `top10_7d` 表中
get_top10_book_info_from_url(
    'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-1', './library.db', 'top10_30d')







1 蛤蟆先生去看心理医生（年销200万册！英国经典心理咨询入门书，知名心理学家李松蔚强烈推荐）
2 走遍中国 图说天下 寻梦之旅
3 马尔克斯：百年孤独（50周年纪念版）
4 人生海海（麦家重磅力作，莫言、董卿盛赞，连续两年高居畅销榜，发行量超200万册）
5 你当像鸟飞往你的山（中文版销量超200万册，比尔・盖茨年度特别推荐！登顶《纽约时报》畅销榜80+周，这本书比你听说的还要好！）
6 三体：全三册 刘慈欣代表作，亚洲“雨果奖”获奖作品！
7 少年读史记（套装全5册）
8 沟通的方法（别怕，沟通是场无限游戏。得到CEO脱不花为你备好的沟通心法，助你在职场上一路开挂）团购电话:4001066666转6
9 古代人的日常生活（古代的光棍多吗？古人怎么擦屁屁？古人夏天如何驱蚊？满足你对古人日常生活的全部好奇！）（当当典藏版）
10 次第花开 修订版


完成

![20211212095708](http:cdn.ayusummer233.top/img/20211212095708.png)