Skip to content
Li, Xizhi edited this page May 6, 2017 · 4 revisions

数据搜索与知识库需求

KeepWork 文档导入Mod

开发KeepWork的一个Mod: Web客户端: 用户输入KeepWork上的文件名, 和上传外部文件或网站URL, 通过Server端转换为MD格式的文本,并将文件中的图片, 表格,数学公式,图表等转换为独立的压缩后的图片文件, MD和图片文件都通过KeepWork提供的数据源和API上传到我们的平台上。 方便我们的编辑可以再次编辑。

  • 需要支持得格式为: PDF, Word(doc, docx ), PPT(PPTX), HTML(url,支持js,支持多URL输入)
  • 需要转换的文字内容:MD文件中应该包括:标题,目录, 文本,外部超链接(如果是URL, 视频URL等),MD头部可以包含简单的结构化数据(tag,出处)。
  • 需要变成图片的内容:图片, 表格,数学公式,图表。 需要统一图片格式为png或JPG。并自动命名文件名。 当文件很大时可以选择拆分成几个文件,并自动包含分页。
  • 完成时间:1个月
  • 交付形式: 需要提供全部源代码和Server端Docker镜像

KeepWork Git数据源的全文搜索和Tag搜索

2个方案

  • 黑盒子API方案: KeepWork 后台主动提交数据给搜索引擎,搜索引擎提供高速高并发的API。例如:目前一些第三方或开源平台提供的方案
  • 白盒子定制方案: 直接访问Git数据源硬盘和KeepWork API,建立基于Git 文件系统的全文搜索数据录入和Tag录入。需要能支持记录git的历史数据sha1。 请参考elastic searchGithub建立的全文搜索功能。搜索引擎提供高速高并发的API。
  • 开发一个KeepWork 上下文Mod: 加入个人网站页面后提供对用户当前网页相关的KeepWork内部相关URL列表。
  • KeepWork API: 提供全站搜索API, 提供个人网站内部搜索API。
  • 完成时间:2个月
  • 交付形式: 需要提供全部源代码和Server端Docker镜像

KeepWork之外的中医等百科数据源的镜像存储

  • 镜像我们提供的XXX个数据源的镜像
  • 以MD或某种结构化数据存储数据源的镜像
  • 搜索引擎提供高速高并发的API,并提供前端渲染框架。
  • 开发KeepWork平台上的百科知识库Mod: 自动列出与当前网页相关的外部中医数据源的列表,并点击后可以在我们的网站上展示我们镜像中存储的内容。
  • 提供一个搜索模块,可全站搜索镜像中的内容。
  • 完成时间:3个月
  • 交付形式: 需要提供应用端源代码和Server端Docker镜像, 以及XXX个数据源的镜像和结构化数据。

补充内容

抓取现有网站内容:

将我们提供的网站以及通过这些网站关联的网站内容,包括但不限于网页、文本、图片、视频、其他各类文件,用抓取工具进行内容过滤性抓取原始内容。 抓取的原始内容过滤无效数据后按原始格式保存至数据库。 抓取的网站不只限于中医类,包括儒、释、乐、道、医、武、商、科、俗、百科综合。

提供抓取网站内容工具

提供可支持的开放的抓取工具,以便我方后续自行抓取内容对知识库进行更新和补充。

数据转换

将抓取的所有内容根据每类的知识结构框架转换为MD格式后储存。

建立IDC数据中心

协助我方建立IDC数据中心,所有数据需保存在我方数据中心。

在内外网数据库中进行应用智能分析和挖掘:即形成各类别和模块的知识分析模型、可智能生成的知识地图、各模块的关系模型

所有开发的工具和软件须要提供源代码、知识产权归我方所有

Clone this wiki locally