- 大胆去写,无情修改。
- 爬东爬西,无所适从。
- 学习如何下载并保存图片, 使用内建的 ImagesPipeline.
- 根据网页提供的选项,构造 api url.
- 增加错误处理,把失败的 url 记录下来。
- 如何停止一个爬虫,并且下次启动的时候,从上次停下的地方继续爬取。
# Ctrl + C, 可以停止,下次在运行的时候会继续。
class SplashSpider(scrapy.Spider):
name = 'x'
allowed_domains = ['x.com']
custom_settings = {"JOBDIR": "spider_name_01"} # 添加这这一行。
- 武侠:从下载一本书, 到下载一个类目的图书,再到下载全站的图书。
- 99藏书网: 由于原始 html 里面是加盐的,因此需要借助 selenium 来获取 js 处理过的页面。
- 努努书坊: 每本书的内容还是很完整的,只是大部分类型我不喜欢。
- 爬取代理,并校验。 我写一个 一篇文章 介绍这个项目的思路,以及用法。
- 代理这一块,不能花太多时间,因为别人用的都是付费代理,那肯定是一个爽啊。
- 使用 MongoDB 保存数据。
- 目前正在使用 v2ray,感觉很流畅,至于自己这些代理,似乎是没必要了。
- 尝试登陆,但是点击验证码,滑动窗口验证码,以及手机验证码,所以还是使用网页自带的 cookies 来登录。
- 豆瓣,从一个豆瓣话题的主页开始,下载该话题下全部的图片。待完善。
- 简书, 随机游走。
- 知乎, 爬取某个用户的原创图片。
- 搜狐,给出任意一篇搜狐文章的url, 作为入口,下载该用户全部的图片。
- 澎湃, 艺术评论类目下的图片。
- 知乎,按照话题爬问题。看看大家提出了哪些问题,比较关注哪些问题。
- csdn, 基本上同上。
- 掘金, 其实的掘金的插件,整合的已经是很好了。另外,这个网站的爬取也是最有意思的。POST --> api, 需要改写一段 base64 加密的请求信息。
- 也许以后可以添加其他的数据源。
- 尝试简单的数据清洗。clean_data.py
- 一批威客, 实时【任务】监控,看看是否有合适单子可以接。
- 如果图片太小,则不下载。
- 爬一下商城网站
- Windows 10
- Anaconda env
- Scrapy 2.4.1
- requirements.txt