Skip to content

ItoSchum/HDU_Course_MassiveData_DoubanSpider

 
 

Repository files navigation

基于标签信息的豆瓣图书信息搜索系统

1. 系统功能

  1. 本系统通过对豆瓣图书的标签进行搜索,将标签相匹配的书目保存到本地,并以 GUI 形式显示。
  2. 使用者可点击感兴趣的书目,之后系统将获取对应书目的书评并存储到本地。

2. 开发环境

  • 开发语言

    • Python 2.7
  • 第三方库

    • 爬虫
      • Requests
      • BeautifulSoup
      • urllib
    • GUI
      • Tkinter

3. 系统使用说明

  1. 用户输入书目名称,爬虫检索到对应标签的豆瓣图书检索页面 URL,爬取每一个书目名称和对应的 URL,保存在 ./booklist.txt中
  2. 系统读取 ./booklist.txt 文件,打印出搜索到的书目名,点击对应书目名,系统返回这本书的 URL 给爬虫
  3. 爬虫爬取对应页面中的所有书评,保存在 ./bookcomment.txt 中
  4. 系统读取 ./bookcomment.txt 文件,打印书评

4. 系统改进方向

  1. 网络依赖性:考虑到豆瓣上书籍数目巨大,本系统未将所有数据爬取下来放在本地,而是选择查询一个爬取一个的动态存储思路,所以再系统进行查询的速度受网速所限。
  2. 非增量存储:在数据的保存上,采取的是数据覆盖的方式,使得 ./booklist.txt 和 ./bookcomment.txt 两个文件的容量不会持续增加。但相对的会导致系统在对书目重复查询时也需要重新爬取,较费时。

About

Personal Crawler Practice

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%