No description, website, or topics provided.
Python
Switch branches/tags
Nothing to show
Clone or download
gz51837844 Add files via upload
下载这个zip包,可以用pip来安装: pip install gooseeker-2.1.zip
Latest commit 14715d9 Oct 26, 2016
Permalink
Failed to load latest commit information.
core Add files via upload Oct 26, 2016
crawler 上传douban.py, 修改之前的小bug Jul 18, 2016
docs New directory docs, tests created on May 26,2016 May 26, 2016
test 更新了README Jul 19, 2016
README.md 更新了README Jul 19, 2016

README.md

项目名称

=========

gooseeker

集搜客即时模式网络爬虫项目

项目背景

在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间。 网络数据抓取的工作量有80%是在为各种网站的各种数据结构编写抓取规则。

所以我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中。

GooSeeker发布基于xslt的内容提取器,xslt可以通过GooSeeker API获得,让大家能省掉90%的调测正则表达式或者XPath的时间

项目资源

入口页

Python交流园地

知乎专栏

GooSeeker收割模式网络爬虫

项目目录文件说明

gooseeker

- core/gooseeker.py 提取器类
- core/README  说明文件

- crawler/anjuke.py  采集安居客房产经纪人
- crawler/result1.xml  安居客房产经纪人结果文件1
- crawler/result2.xml  安居客房产经纪人结果文件2
- crawler/crawl_gooseeker_bbs.py  采集集搜客论坛内容
- crawler/xslt_bbs.xml  集搜客论坛内容提取本地xslt文件
- crawler/douban.py  采集豆瓣小组讨论话题

- crawler/simpleSpider  一个小爬虫(基于Scrapy开源框架)
- crawler/tmSpider  采集天猫商品信息(基于Scrapy开源框架)

- test/readPdf.py  python读取pdf文档