基于标签信息的豆瓣图书信息搜索系统

1. 系统功能

本系统通过对豆瓣图书的标签进行搜索，将标签相匹配的书目保存到本地，并以 GUI 形式显示。
使用者可点击感兴趣的书目，之后系统将获取对应书目的书评并存储到本地。

2. 开发环境

开发语言
- Python 2.7
第三方库
- 爬虫
  - Requests
  - BeautifulSoup
  - urllib
- GUI
  - Tkinter

3. 系统使用说明

用户输入书目名称，爬虫检索到对应标签的豆瓣图书检索页面 URL，爬取每一个书目名称和对应的 URL，保存在 ./booklist.txt中
系统读取 ./booklist.txt 文件，打印出搜索到的书目名，点击对应书目名，系统返回这本书的 URL 给爬虫
爬虫爬取对应页面中的所有书评，保存在 ./bookcomment.txt 中
系统读取 ./bookcomment.txt 文件，打印书评

4. 系统改进方向

网络依赖性：考虑到豆瓣上书籍数目巨大，本系统未将所有数据爬取下来放在本地，而是选择查询一个爬取一个的动态存储思路，所以再系统进行查询的速度受网速所限。
非增量存储：在数据的保存上，采取的是数据覆盖的方式，使得 ./booklist.txt 和 ./bookcomment.txt 两个文件的容量不会持续增加。但相对的会导致系统在对书目重复查询时也需要重新爬取，较费时。

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
.idea		.idea
README.md		README.md
bookcomment.py		bookcomment.py
bookcomment.txt		bookcomment.txt
booklist.py		booklist.py
booklist.txt		booklist.txt
douban_comment.py		douban_comment.py
gui.py		gui.py
gui2.py		gui2.py
test.py		test.py
text1.txt		text1.txt
yuer_logo.ico		yuer_logo.ico

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.idea

.idea

README.md

README.md

bookcomment.py

bookcomment.py

bookcomment.txt

bookcomment.txt

booklist.py

booklist.py

booklist.txt

booklist.txt

douban_comment.py

douban_comment.py

gui.py

gui.py

gui2.py

gui2.py

test.py

test.py

text1.txt

text1.txt

yuer_logo.ico

yuer_logo.ico

Repository files navigation

基于标签信息的豆瓣图书信息搜索系统

1. 系统功能

2. 开发环境

3. 系统使用说明

4. 系统改进方向

About

Releases

Packages

Languages

ItoSchum/HDU_Course_MassiveData_DoubanSpider

Folders and files

Latest commit

History

Repository files navigation

基于标签信息的豆瓣图书信息搜索系统

1. 系统功能

2. 开发环境

3. 系统使用说明

4. 系统改进方向

About

Resources

Stars

Watchers

Forks

Languages