工商在线和离线爬虫系统

项目研发时间：2016年

项目介绍

在线和离线公用的是一同框架，和解析业务，区别在于，在线爬虫而外提供了一个web服务用于接受在线post过来的网络链接而离线则是定时搜索mongodb的url进行爬取，并进行解析根据需要写入到mongodb或者mq中

本项目爬取的是16-17年国家企业信用信息公示系统的38个子站点的数据（每个省份有可能会对应多个网站），并对数据解析放到mongodb中

base dirctory
- gsxt_base_worker.py 所有爬取类的超类，定义了爬取的步骤
- parse_base_worker.py 所有解析网页类的超类，定义了解析的步骤
- task_base_work.py 根据需要启动离线或者在线任务
common 一些无关业务的工具类，包括mongodb，mqclient的封装
config
- conf.py 数据库或者服务的地址
- *.conf 用于配置需要启动的类别，所有的任务（爬取和解析）
task
- 所有站点的爬取类
parser
- 所有站点的解析类别

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
base		base
bin		bin
check		check
common		common
config		config
log		log
parse		parse
task		task
tools		tools
.DS_Store		.DS_Store
README.md		README.md
__init__.py		__init__.py
env.sh		env.sh
logger.py		logger.py
requirements.txt		requirements.txt
start_offline_crawler.py		start_offline_crawler.py
start_offline_detail_process.sh		start_offline_detail_process.sh
start_offline_parse_process.sh		start_offline_parse_process.sh
start_offline_parse_task.py		start_offline_parse_task.py
start_offline_searchlist_process.sh		start_offline_searchlist_process.sh
start_online_crawl.py		start_online_crawl.py
start_online_crawl_process.sh		start_online_crawl_process.sh
start_online_parse_process.sh		start_online_parse_process.sh
start_online_parse_task.py		start_online_parse_task.py
update_offline_parse_process.sh		update_offline_parse_process.sh
update_offline_process.sh		update_offline_process.sh
update_online_parse_process.sh		update_online_parse_process.sh
update_online_process.sh		update_online_process.sh