#介绍 使用scrapy框架爬取豆瓣电影 #如何使用
git clone https://github.com/Guoozz/douban_movie_scrapy.git
cd douban_movie_scrapy
scrapy crawl douban_movie
#爬取的信息在哪里 保存在mongo数据库中 #注意事项 必须安装scrapy框架 安装方法很简单,在终端下输入
pip install scrapy
需要安装Pillow
pip install pillow
需要安装MongoDB
sudo apt-get install mongodb
#Version ###0.1 参考scrapy官方tutorial写的第一个爬虫,功能很基础。爬取1000多部电影后 request被重定向或出现403error ###0.11 在继承CrawlSpider的基础上进行代码重构,代码结构更清晰,依然没有解决403or301error ###0.12 将爬取的数据保存在mongo数据库中,去除冗余代码 ###1.0 加入Douban.middlewares.DoubanCaptchaDownloadMiddleware类处理403验证码, 当网站需要验证码时,会自动打开验证码图片,在终端中输入验证码,爬虫会继续运行 ###1.01 设置爬虫中间状态保存路径,默认保存在project根目录states文件夹下 ###1.02 添加ItemLoader对提取的信息进行过滤 ###1.1 解决并发请求下,返回多个验证码的问题。 添加对导演,别名等信息的爬取 ###1.2 添加对电影封面的爬取,默认保存在project根目录covers文件夹下 ###1.21 默认不下载电影cover,需要在settings中手动设置picture pipeline 和ALLOW_COVER