Skip to content

智联招聘分布式爬虫(基于Scrapy-redis)

Notifications You must be signed in to change notification settings

PluckySaltyfish/Zhilian

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

项目简介

分布式爬虫,爬取智联招聘的信息,双向爬取。

环境及依赖

  • scrapy
  • python 2.7
  • scrapy-redis
  • mysqldb
  • redis

DBMS随意安装,我是rdm+DataGrip。

运行方式

slaver 端

zhilian/zhilian/spiders下运行:

scrapy run zl.py

master 端

运行redis,运行mysql,在mysql中运行crawler.sql

zhilian下运行

python process_item_for_mysql.py

其它说明

类别筛选

该项目爬取的是大数据相关职业,如果要爬取全部职业,可将process_item_for_mysql.py中的url_arg1 = "&kw=大数据&sm=1&p=1"改为url_arg1 =&sm=1&p=1,即删去此筛选。 同理也可以对其它的职位做相应筛选。

分布式实现

用多台服务器(或PC)爬取的时候,需要将slaver端传输数据的IP地址修改成master主机的IP地址,即修改zhilian/zhilian/settings.py中的REMOTE_HOST

About

智联招聘分布式爬虫(基于Scrapy-redis)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages