DataSearch

数据搜索与知识库需求

KeepWork `文档导入Mod`

开发KeepWork的一个Mod： Web客户端: 用户输入KeepWork上的文件名，和上传外部文件或网站URL，通过Server端转换为MD格式的文本，并将文件中的图片，表格，数学公式，图表等转换为独立的压缩后的图片文件， MD和图片文件都通过KeepWork提供的数据源和API上传到我们的平台上。方便我们的编辑可以再次编辑。

需要支持得格式为： PDF, Word(doc, docx ), PPT（PPTX）, HTML(url,支持js，支持多URL输入)
需要转换的文字内容：MD文件中应该包括：标题，目录，文本，外部超链接（如果是URL, 视频URL等），MD头部可以包含简单的结构化数据(tag，出处)。
需要变成图片的内容：图片，表格，数学公式，图表。需要统一图片格式为png或JPG。并自动命名文件名。当文件很大时可以选择拆分成几个文件，并自动包含分页。
完成时间：1个月
交付形式: 需要提供全部源代码和Server端Docker镜像

KeepWork Git数据源的`全文搜索`和Tag搜索

2个方案

黑盒子API方案： KeepWork 后台主动提交数据给搜索引擎，搜索引擎提供高速高并发的API。例如：目前一些第三方或开源平台提供的方案
白盒子定制方案：直接访问Git数据源硬盘和KeepWork API，建立基于Git 文件系统的全文搜索数据录入和Tag录入。需要能支持记录git的历史数据sha1。请参考elastic search为Github建立的全文搜索功能。搜索引擎提供高速高并发的API。
开发一个KeepWork 上下文Mod：加入个人网站页面后提供对用户当前网页相关的KeepWork内部相关URL列表。
KeepWork API：提供全站搜索API，提供个人网站内部搜索API。
完成时间：2个月
交付形式: 需要提供全部源代码和Server端Docker镜像

KeepWork之外的中医等百科数据源的镜像存储

镜像我们提供的XXX个数据源的镜像
以MD或某种结构化数据存储数据源的镜像
搜索引擎提供高速高并发的API，并提供前端渲染框架。
开发KeepWork平台上的百科知识库Mod: 自动列出与当前网页相关的外部中医数据源的列表，并点击后可以在我们的网站上展示我们镜像中存储的内容。
提供一个搜索模块，可全站搜索镜像中的内容。
完成时间：3个月
交付形式: 需要提供应用端源代码和Server端Docker镜像，以及XXX个数据源的镜像和结构化数据。

补充内容

抓取现有网站内容：

将我们提供的网站以及通过这些网站关联的网站内容，包括但不限于网页、文本、图片、视频、其他各类文件，用抓取工具进行内容过滤性抓取原始内容。抓取的原始内容过滤无效数据后按原始格式保存至数据库。抓取的网站不只限于中医类，包括儒、释、乐、道、医、武、商、科、俗、百科综合。

提供抓取网站内容工具

提供可支持的开放的抓取工具，以便我方后续自行抓取内容对知识库进行更新和补充。

数据转换

将抓取的所有内容根据每类的知识结构框架转换为MD格式后储存。

建立IDC数据中心

协助我方建立IDC数据中心，所有数据需保存在我方数据中心。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DataSearch

数据搜索与知识库需求

KeepWork `文档导入Mod`

KeepWork Git数据源的`全文搜索`和Tag搜索

KeepWork之外的中医等百科数据源的镜像存储

抓取现有网站内容：

提供抓取网站内容工具

数据转换

建立IDC数据中心

在内外网数据库中进行应用智能分析和挖掘：即形成各类别和模块的知识分析模型、可智能生成的知识地图、各模块的关系模型

所有开发的工具和软件须要提供源代码、知识产权归我方所有

Clone this wiki locally

DataSearch

数据搜索与知识库需求

KeepWork 文档导入Mod

KeepWork Git数据源的全文搜索和Tag搜索

KeepWork之外的中医等百科数据源的镜像存储

抓取现有网站内容：

提供抓取网站内容工具

数据转换

建立IDC数据中心

在内外网数据库中进行应用智能分析和挖掘：即形成各类别和模块的知识分析模型、可智能生成的知识地图、各模块的关系模型

所有开发的工具和软件须要提供源代码、知识产权归我方所有

Clone this wiki locally

KeepWork `文档导入Mod`

KeepWork Git数据源的`全文搜索`和Tag搜索