GitHub

Scrapy 小项目

大胆去写，无情修改。
爬东爬西，无所适从。

项目1: wallpaper, 下载 unsplash.com 的图片。

学习如何下载并保存图片，使用内建的 ImagesPipeline.
根据网页提供的选项，构造 api url.
增加错误处理，把失败的 url 记录下来。
如何停止一个爬虫，并且下次启动的时候，从上次停下的地方继续爬取。

# Ctrl + C, 可以停止，下次在运行的时候会继续。
class SplashSpider(scrapy.Spider):
    name = 'x'
    allowed_domains = ['x.com']
    custom_settings = {"JOBDIR": "spider_name_01"}  # 添加这这一行。

项目2: book, 爬几个电子书网站

武侠：从下载一本书, 到下载一个类目的图书，再到下载全站的图书。
99藏书网: 由于原始 html 里面是加盐的，因此需要借助 selenium 来获取 js 处理过的页面。
努努书坊: 每本书的内容还是很完整的，只是大部分类型我不喜欢。

项目3: my_proxy, 自建代理池，多方采集 + 校验。

爬取代理，并校验。我写一个一篇文章介绍这个项目的思路，以及用法。
代理这一块，不能花太多时间，因为别人用的都是付费代理，那肯定是一个爽啊。
使用 MongoDB 保存数据。
目前正在使用 v2ray，感觉很流畅，至于自己这些代理，似乎是没必要了。

项目4: login_websites, 大型网站，小小尝试。

尝试登陆，但是点击验证码，滑动窗口验证码，以及手机验证码，所以还是使用网页自带的 cookies 来登录。
豆瓣，从一个豆瓣话题的主页开始，下载该话题下全部的图片。待完善。
简书, 随机游走。
知乎, 爬取某个用户的原创图片。
搜狐，给出任意一篇搜狐文章的url, 作为入口，下载该用户全部的图片。
澎湃, 艺术评论类目下的图片。

项目5: python_ideas, 爬取与 python 有关的文章，整合到一起。

知乎，按照话题爬问题。看看大家提出了哪些问题，比较关注哪些问题。
csdn，基本上同上。
掘金, 其实的掘金的插件，整合的已经是很好了。另外，这个网站的爬取也是最有意思的。POST --> api, 需要改写一段 base64 加密的请求信息。
也许以后可以添加其他的数据源。
尝试简单的数据清洗。clean_data.py

项目5: shopping, 爬一些商城的数据

一批威客，实时【任务】监控，看看是否有合适单子可以接。

Todo

如果图片太小，则不下载。
爬一下商城网站

运行环境

Windows 10
Anaconda env
Scrapy 2.4.1
requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Scrapy 小项目

项目1: wallpaper, 下载 unsplash.com 的图片。

项目2: book, 爬几个电子书网站

项目3: my_proxy, 自建代理池，多方采集 + 校验。

项目4: login_websites, 大型网站，小小尝试。

项目5: python_ideas, 爬取与 python 有关的文章，整合到一起。

项目5: shopping, 爬一些商城的数据

Todo

运行环境

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
book		book
login_websites		login_websites
my_proxy		my_proxy
python_ideas		python_ideas
utils		utils
wallpaper		wallpaper
.gitignore		.gitignore
readme.md		readme.md
requirements.txt		requirements.txt

buxuele/scrapy_roadmap

Folders and files

Latest commit

History

Repository files navigation

Scrapy 小项目

项目1: wallpaper, 下载 unsplash.com 的图片。

项目2: book, 爬几个电子书网站

项目3: my_proxy, 自建代理池， 多方采集 + 校验。

项目4: login_websites, 大型网站，小小尝试。

项目5: python_ideas, 爬取与 python 有关的文章， 整合到一起。

项目5: shopping, 爬一些商城的数据

Todo

运行环境

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

项目3: my_proxy, 自建代理池，多方采集 + 校验。

项目5: python_ideas, 爬取与 python 有关的文章，整合到一起。

Packages