下载后打开Chrome扩展配置页面
chrome://extensions/
如下图所示做好配置:
使用扩展爬取豆瓣图书信息只是作为一个实验,实际上这并不是一个高效爬虫的实现
进入豆瓣读书页面 https://book.douban.com/
可以看到右下角部分功能按钮:
- 选择文件 选择需要导入的数据文件,然后点击【导入数据】
- 导出数据 用于把抓取的数据导出来
- 提取标签 第一次使用需要先根据标签提取部分图书作为根,后续的抓取会根据这部分图书进行广度或深度搜索
- 爬取图书 进行图书的爬取