Skip to content

hjlarry/bosszhipin

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Boss直聘网爬虫

介绍

项目通过celery实现分布式爬虫,使用redis去重,但BOSS直聘网通过封禁IP的策略进行了封锁影响了爬取的效率,最好另起一个单独的项目服务提供大量的代理IP,Github上有大量这样的项目。每次爬取任务的有效JD大概是30~40万,不断爬取去重后,整个的数据规模也不算很大,尝试通过不同维度的入口文件去执行爬取任务对效果的提升不大。

Releases

No releases published

Packages

No packages published