Skip to content
master
Go to file
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
doc
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

README.md

欢迎使用 Gather Platform 数据采集与分析平台


Readme in English

欢迎加入 Gather Platform交流 QQ群 : 206264662

详细使用方法请参考 在线文档

Build Status

Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.具有以下功能

  • 根据配置的模板进行数据采集,支持Ajax网页采集
  • 在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间
  • 动态字段抽取与静态字段植入
  • 已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据
  • 对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词
  • 含有相关文章推荐,文章中人物、地点之间的关联关系分析

5分钟即可部署完毕,半分钟即可完成一个爬虫,开始数据采集. 不需要进行任何编码就可以完成一个功能强大的爬虫.

show

Windows/Mac/Linux 全平台支持

本系统需要如下依赖:

  • JDK 8 及以上
  • Tomcat 8.3 及以上

可选依赖组件:

 - Elasticsearch 5.0

部署、使用方法、二次开发手册、常见问题等全部迁移至在线文档

联系我

邮箱: 63388@qq.com

You can’t perform that action at this time.