Skip to content

hanxlinsist/crawl_web

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

41 Commits
 
 
 
 
 
 
 
 

Repository files navigation

介绍

这个项目主要用Scrapy抓取目标网站,每个目录下都抓取特定的网站。由于网站类型不同,因此每个特定的spider都有不一样的功能,不同的配置,不同过滤数据的方式。当然了,参照这个仓库的例子,你完全可以定制你自己的爬虫,抓取你自己想要的网站。


版本

下面,是我写这个项目时用到的版本:

Python : 2.7.12

Scrapy : 1.1.0

numpy : 1.11.1

运行爬虫

对应的目录有相应的运行说明

高级特点

  1. 代理IP抓取目标网站
  2. 定制自己的请求客户端
  3. 一个项目下的pipelines只过滤相应的Item

尾言

这个项目只是一个开始,还有非常多要完善的地方。如果大家对这个项目有兴趣的话,可以联系我,我们一起完善这个项目。

About

Scrapy抓取豆瓣图书

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages