基于python的分布式爬虫
DEMO: https://fetch.flysay.com
https://www.mongodb.org/downloads 默认端口运行mongoDB
linux 安装
#ubuntu
apt-get install build-essential
apt-get install python-dev
#centos
yum groupinstall "Development Tools"
yum install python-devel
windows 下的 gevent 可能需要安装 Microsoft Visual C++ Compiler for Python 2.7 http://www.microsoft.com/en-us/download/confirmation.aspx?id=44266
pip install requests
pip install pymongo
pip install flask
pip install flask-compress
pip install gevent
pip install tld
pip install click
pip install pybloomfiltermmap
服务器
python service.py
客服端
python client.py
http://127.0.0.1
- 参数可配置化, 还有mongo的连接配置
- slave 执行环境安全
- setup.py
- 列表的时间排序有问题
- 每个项目都可以添加多个url抓取入口
- 项目与爬虫的抓取频率显示
- 结果页面图片浏览模式
- 新建项目且修改代码时,会有缓存且爬虫会使用旧代码进行抓取
- 当有域名403时, mongod CPU占用较高