doubanReaderCrawl

Scrapy编写的豆瓣阅读爬虫

使用Mysql存储数据（Redis也可以用来任性）

Scrapy初始化时加载自定义的扩展。主要是查询数据库获取已经爬取的数据，保存在内存中用于后续去重

Scrapy 筛选出未爬取页面，进行递归爬取

Scrapy 在Items中去重，使用pyv8引擎运行js解析豆瓣加密数据

将解析到的数据保存在数据库中

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
douban		douban
img/full		img/full
README.md		README.md
douban.zip		douban.zip
items.json		items.json
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

douban

douban

img/full

img/full

README.md

README.md

douban.zip

douban.zip

items.json

items.json

scrapy.cfg

scrapy.cfg

Repository files navigation

doubanReaderCrawl

About

Releases

Packages

Languages

zhoufanqq/doubanReaderCrawl

Folders and files

Latest commit

History

Repository files navigation

doubanReaderCrawl

About

Resources

Stars

Watchers

Forks

Languages