Skip to content

Guoozz/douban_movie_scrapy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 

Repository files navigation

#介绍 使用scrapy框架爬取豆瓣电影 #如何使用

git clone https://github.com/Guoozz/douban_movie_scrapy.git
cd douban_movie_scrapy
scrapy crawl douban_movie

#爬取的信息在哪里 保存在mongo数据库中 #注意事项 必须安装scrapy框架 安装方法很简单,在终端下输入

pip install scrapy

需要安装Pillow

pip install pillow

需要安装MongoDB

sudo apt-get install mongodb

#Version ###0.1 参考scrapy官方tutorial写的第一个爬虫,功能很基础。爬取1000多部电影后 request被重定向或出现403error ###0.11 在继承CrawlSpider的基础上进行代码重构,代码结构更清晰,依然没有解决403or301error ###0.12 将爬取的数据保存在mongo数据库中,去除冗余代码 ###1.0 加入Douban.middlewares.DoubanCaptchaDownloadMiddleware类处理403验证码, 当网站需要验证码时,会自动打开验证码图片,在终端中输入验证码,爬虫会继续运行 ###1.01 设置爬虫中间状态保存路径,默认保存在project根目录states文件夹下 ###1.02 添加ItemLoader对提取的信息进行过滤 ###1.1 解决并发请求下,返回多个验证码的问题。 添加对导演,别名等信息的爬取 ###1.2 添加对电影封面的爬取,默认保存在project根目录covers文件夹下 ###1.21 默认不下载电影cover,需要在settings中手动设置picture pipeline 和ALLOW_COVER

About

douban movie scrapy

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages