GitHub - PluckySaltyfish/Zhilian: 智联招聘分布式爬虫（基于Scrapy-redis）

项目简介

分布式爬虫，爬取智联招聘的信息，双向爬取。

环境及依赖

scrapy
python 2.7
scrapy-redis
mysqldb
redis

DBMS随意安装，我是rdm+DataGrip。

运行方式

slaver 端

zhilian/zhilian/spiders下运行：

scrapy run zl.py

master 端

运行redis,运行mysql,在mysql中运行crawler.sql

zhilian下运行

python process_item_for_mysql.py

其它说明

类别筛选

该项目爬取的是大数据相关职业，如果要爬取全部职业，可将process_item_for_mysql.py中的url_arg1 = "&kw=大数据&sm=1&p=1"改为url_arg1 =&sm=1&p=1，即删去此筛选。同理也可以对其它的职位做相应筛选。

分布式实现

用多台服务器（或PC）爬取的时候，需要将slaver端传输数据的IP地址修改成master主机的IP地址，即修改zhilian/zhilian/settings.py中的REMOTE_HOST。

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
zhilian		zhilian
README.md		README.md
__init__.py		__init__.py
begin.py		begin.py
crawler.sql		crawler.sql
process_item_for_mysql.py		process_item_for_mysql.py
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

项目简介

环境及依赖

运行方式

slaver 端

master 端

其它说明

类别筛选

分布式实现

About

Releases

Packages

Languages

PluckySaltyfish/Zhilian

Folders and files

Latest commit

History

Repository files navigation

项目简介

环境及依赖

运行方式

slaver 端

master 端

其它说明

类别筛选

分布式实现

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages