- 本系统通过对豆瓣图书的标签进行搜索,将标签相匹配的书目保存到本地,并以 GUI 形式显示。
- 使用者可点击感兴趣的书目,之后系统将获取对应书目的书评并存储到本地。
-
开发语言
- Python 2.7
-
第三方库
- 爬虫
- Requests
- BeautifulSoup
- urllib
- GUI
- Tkinter
- 爬虫
- 用户输入书目名称,爬虫检索到对应标签的豆瓣图书检索页面 URL,爬取每一个书目名称和对应的 URL,保存在 ./booklist.txt中
- 系统读取 ./booklist.txt 文件,打印出搜索到的书目名,点击对应书目名,系统返回这本书的 URL 给爬虫
- 爬虫爬取对应页面中的所有书评,保存在 ./bookcomment.txt 中
- 系统读取 ./bookcomment.txt 文件,打印书评
- 网络依赖性:考虑到豆瓣上书籍数目巨大,本系统未将所有数据爬取下来放在本地,而是选择查询一个爬取一个的动态存储思路,所以再系统进行查询的速度受网速所限。
- 非增量存储:在数据的保存上,采取的是数据覆盖的方式,使得 ./booklist.txt 和 ./bookcomment.txt 两个文件的容量不会持续增加。但相对的会导致系统在对书目重复查询时也需要重新爬取,较费时。