发源链开源分布式”数据挖矿“引擎,致力于挖掘大数据矿山背后的价值!
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
app
data
extend/org
public
runtime
thinkphp
vendor
.gitattributes
.gitignore
.htaccess
LICENSE
LICENSE.txt
README.md
build.php
composer.json
index.php
phpunit.xml
think

README.md

发源链开源云采集引擎节点

发源链云采集引擎是由发源链团队研发的一套开源分布式/去中心化云采集机器人节点引擎,致力于让用户快捷挖掘大数据矿山背后的价值! 发源链云采集引擎集数据采集、清洗、去重、加工于一体的互联网WEB/APP数据采集引擎,支持本地化私有部署,可以打破数据孤岛,快速搭建属于自己的大数据云采集/爬虫系统。用户可以低成本、高效率完成网页中文本,图片等资源信息的采集,并进行过滤加工,挖掘出精准所需的数据,让数据以结构化的文件包、采集规则算法或API接口方式输出,同时可以选择发布到发源链数据交易平台DApp进行交易,或导出为Excel、CSV、SQL等格式的文件保存在本地。

特色功能

  • 国内首款开源云采集引擎:无需安装任何软件程序或浏览器插件
  • 海量免费规则:机器学习并覆盖90%网站及APP内数据采集规则
  • 数据/规则交易:支持源规则及数据的交易,让数据更有价值
  • 开放API接口:云端标准化服务API输出,助您大数据轻松落地
  • 工具化平台:数据采集、数据存储及数据应用的完整闭环
  • 脚本化引擎:支持自定义PHP脚本配置,实现更智能的机器人
  • 多扩展字段:支持50个信息字段采集,多维度获取数据
  • 数据安全:内置多重数据过滤模块,同时支持SQL/XSS过滤方案
  • 分布式采集:开源分布式采集系统,有效提升云采集效率
  • 秒级同步:即时高效的自动化分布式平台,数据即刻获取
  • 私有化部署:支持多服务器私有/本地部署,数据本地化存储
  • 全球高匿名节点:5000+高匿名节点,采集不再受到IP访问限制

V1.3 新增CMS应用模块

  • 文章内容发布/编辑/管理;
  • 文章分类添加/编辑/管理;
  • 文章标签添加/编辑/管理;

V1.2 新增功能

  • 支持文件(图片,视频,文档等)云存储上传/显示;

V1.1 新增功能

  • 支持采集数据本地化存存储;
  • 用户角色/权限/菜单管理设置;
  • 控制台数据统计。

V1.0 功能列表

  • 数据源的发布和管理:创建,复制,导入,导出,运行,调试等;
  • 采集数据的预览,导出,API调用;
  • 网站设置:基本信息,云帐号设置,SEO信息;
  • 会员管理:新增,编辑等。

安装说明

nginx下配置www主机域名主目录设置为[根目录]或[public目录](推荐配置后者)。

以下目录须设置为可写操作权限

  • runtime/
  • data/
  • app/

开发文档

帮助文档链接

关于发源链

发源链是基于DPoS+DPoW“数据挖矿”共识机制的底层公有链,通过数据智能化确权、授权及脱敏,从根本上解决数据版权隐私问题,实现数据价值最大化!

版权信息

本系统遵循Apache2开源协议发布,并提供免费使用。

本项目包含的第三方源码或二进制文件遵循原版权标注。

版权所有Copyright © 2018 by 发源链基金会