-
Notifications
You must be signed in to change notification settings - Fork 18
DataSearch
Li, Xizhi edited this page May 6, 2017
·
4 revisions
开发KeepWork的一个Mod: Web客户端: 用户输入KeepWork上的文件名, 和上传外部文件或网站URL, 通过Server端转换为MD格式的文本,并将文件中的图片, 表格,数学公式,图表等转换为独立的压缩后的图片文件, MD和图片文件都通过KeepWork提供的数据源和API上传到我们的平台上。 方便我们的编辑可以再次编辑。
- 需要支持得格式为:
PDF, Word(doc, docx ), PPT(PPTX), HTML(url,支持js,支持多URL输入)
- 需要转换的文字内容:MD文件中应该包括:标题,目录, 文本,外部超链接(如果是URL, 视频URL等),MD头部可以包含简单的结构化数据(tag,出处)。
- 需要变成图片的内容:
图片, 表格,数学公式,图表
。 需要统一图片格式为png或JPG。并自动命名文件名。 当文件很大时可以选择拆分成几个文件,并自动包含分页。 - 完成时间:1个月
- 交付形式: 需要提供全部源代码和Server端Docker镜像
2个方案
- 黑盒子API方案: KeepWork 后台主动提交数据给搜索引擎,搜索引擎提供高速高并发的API。例如:目前一些第三方或开源平台提供的方案
- 白盒子定制方案: 直接访问Git数据源硬盘和KeepWork API,建立基于Git 文件系统的全文搜索数据录入和Tag录入。需要能支持记录git的历史数据sha1。 请参考
elastic search
为Github
建立的全文搜索功能。搜索引擎提供高速高并发的API。 - 开发一个KeepWork
上下文Mod
: 加入个人网站页面后提供对用户当前网页相关的KeepWork内部相关URL列表。 - KeepWork API: 提供全站搜索API, 提供个人网站内部搜索API。
- 完成时间:2个月
- 交付形式: 需要提供全部源代码和Server端Docker镜像
- 镜像我们提供的XXX个数据源的镜像
- 以MD或某种结构化数据存储数据源的镜像
- 搜索引擎提供高速高并发的API,并提供前端渲染框架。
- 开发KeepWork平台上的
百科知识库Mod
: 自动列出与当前网页相关的外部中医数据源的列表,并点击后可以在我们的网站上展示我们镜像中存储的内容。 - 提供一个搜索模块,可全站搜索镜像中的内容。
- 完成时间:3个月
- 交付形式: 需要提供应用端源代码和Server端Docker镜像, 以及XXX个数据源的镜像和结构化数据。
补充内容
将我们提供的网站以及通过这些网站关联的网站内容,包括但不限于网页、文本、图片、视频、其他各类文件,用抓取工具进行内容过滤性抓取原始内容。 抓取的原始内容过滤无效数据后按原始格式保存至数据库。 抓取的网站不只限于中医类,包括儒、释、乐、道、医、武、商、科、俗、百科综合。
提供可支持的开放的抓取工具,以便我方后续自行抓取内容对知识库进行更新和补充。
将抓取的所有内容根据每类的知识结构框架转换为MD格式后储存。
协助我方建立IDC数据中心,所有数据需保存在我方数据中心。