Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
Baidu_Picture		Baidu_Picture
CSDN_Blog		CSDN_Blog
DouBan_Movie		DouBan_Movie
DouBan_Movie_TOP250		DouBan_Movie_TOP250
IT_Juzi		IT_Juzi
Lagou		Lagou
QiuShi		QiuShi
TaoBao_Lady		TaoBao_Lady
Wikipedia		Wikipedia
ZhiHu		ZhiHu
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Repository files navigation

crawler examples

总结了一下自己学习爬虫过程中做过的小项目。

运行环境

Windows/Linux/Mac OS

Python 3.5.2

可能会用到的第三方库

requests
bs4
pillow
lxml
pymongo
scrapy
Numpy
redis
pillow
matplotlib

可能要用到的其他程序

MongoDB
Redis

内容

Baidu_Picture : 百度贴吧图片爬虫，可以爬取给定帖子内的全部图片。
CSDN_Blog : CSDN博客爬虫，基于scrapy，可以从起始URL开始，抓取博客的标题、内容、作者、修改日期、标签等信息保存到数据库中，并进入下一页继续抓取。
DouBan_Movie_Top250 : 豆瓣电影爬虫，基于scrapy，可以抓取豆瓣电影TOP 250并保存在MongoDB中。
IT_Juzi : IT橘子爬虫，可以从IT桔子网站上抓取近期融资的公司和最近的融资大事件)。
QiuShi : 糗事百科爬虫，可以定时抓取糗事百科上的笑话，并将其推送到手机。
TaoBao_Lady : 淘女郎爬虫，可抓取淘女郎的信息和照片。
Lagou : 拉勾网爬虫，可爬取拉勾网的招聘信息并生成报告。
ZhiHu : 知乎网爬虫，可以抓取知乎用户的个人信息，提供了分布式版本。
Wikipedia : 维基百科爬虫，可以抓取维基百科的词条贡献者的IP，并统计出他们的国家分布，提供了分布式版本。
DouBan_Movie: 豆瓣电影爬虫，可以从豆瓣电影的TOP页开始，抓取所有的电影信息，并保存在MongoDB中。

详细的说明请点开具体的文件夹查看

About

Some classic web crawler projects.一些经典的爬虫

python crawler web spider

Apache-2.0 license

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%