GitHub - Guoozz/douban_movie_scrapy: douban movie scrapy

#介绍使用scrapy框架爬取豆瓣电影 #如何使用

git clone https://github.com/Guoozz/douban_movie_scrapy.git
cd douban_movie_scrapy
scrapy crawl douban_movie

#爬取的信息在哪里保存在mongo数据库中 #注意事项必须安装scrapy框架安装方法很简单,在终端下输入

pip install scrapy

需要安装Pillow

pip install pillow

需要安装MongoDB

sudo apt-get install mongodb

#Version ###0.1 参考scrapy官方tutorial写的第一个爬虫，功能很基础。爬取1000多部电影后 request被重定向或出现403error ###0.11 在继承CrawlSpider的基础上进行代码重构,代码结构更清晰，依然没有解决403or301error ###0.12 将爬取的数据保存在mongo数据库中，去除冗余代码 ###1.0 加入Douban.middlewares.DoubanCaptchaDownloadMiddleware类处理403验证码，当网站需要验证码时，会自动打开验证码图片，在终端中输入验证码，爬虫会继续运行 ###1.01 设置爬虫中间状态保存路径,默认保存在project根目录states文件夹下 ###1.02 添加ItemLoader对提取的信息进行过滤 ###1.1 解决并发请求下，返回多个验证码的问题。添加对导演，别名等信息的爬取 ###1.2 添加对电影封面的爬取，默认保存在project根目录covers文件夹下 ###1.21 默认不下载电影cover,需要在settings中手动设置picture pipeline 和ALLOW_COVER

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
Douban		Douban
.gitignore		.gitignore
README.md		README.md
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

Guoozz/douban_movie_scrapy

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages