知识背景仓库

该知识背景仓库是由一群热爱技术的开发者创建的，旨在解决大模型输入受限的问题。目前已经完成的内容是对文章、word、pdf以及网页内容的知识解析并转存为向量库。后期还会增加对图片的解析。目前主要解析的内容的格式包括问答格式以及文本格式。

背景

在大数据时代，我们面临着海量数据的处理问题，而机器学习模型的输入受限于数据的格式和大小。因此，如何有效地处理和利用这些数据成为了一个重要的问题。为了解决这个问题，我们创建了这个知识背景仓库。

功能

该知识背景仓库目前已经完成了对文章、word、pdf以及网页内容的知识解析，并将其转存为向量库，方便后续的处理和利用。后期还会增加对图片的解析。

我们的仓库支持的文件格式包括：

文章：txt、md、html等
Word文档：doc、docx等
PDF文档：pdf
网页内容：html、htm等

我们支持的内容格式包括：

问答格式：支持常见的问答格式，如百度知道、知乎等
文本格式：支持常见的文本格式，如新闻、博客等

我们的目标是将各种格式的知识背景转化为向量，以便于后续的处理和利用。我们使用了先进的自然语言处理技术，包括词向量、句向量、文档向量等，来实现对知识背景的解析和转化。

使用方法

使用该知识背景仓库非常简单，您只需要将需要解析的文件或内容上传到我们的仓库中，我们会自动进行解析并将其转存为向量库。您可以通过API或者Web界面来查询和使用这些向量。

我们提供了以下API：

查询向量：根据关键词或者向量ID查询对应的向量。
相似向量查询：根据一个向量查询与其相似的向量。
向量聚类：将向量进行聚类，方便对知识背景进行分类和分析。

我们的Web界面提供了以下功能：

上传文件：将需要解析的文件上传到我们的仓库中。
查询向量：根据关键词或者向量ID查询对应的向量。
相似向量查询：根据一个向量查询与其相似的向量。
向量聚类：将向量进行聚类，方便对知识背景进行分类和分析。

贡献

我们欢迎各位开发者的贡献，如果您有任何好的想法或建议，欢迎在GitHub上提交issue或者pull request。

联系我们

如果您对该知识背景仓库有任何疑问或建议，欢迎通过以下方式联系我们：

邮箱：liuc85405@163.com
微信：xxxxxx

感谢您的支持和关注！

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.idea		.idea
__pycache__		__pycache__
jieba_dict		jieba_dict
nltk_data/tokenizers		nltk_data/tokenizers
recommender		recommender
static		static
templates		templates
test		test
.DS_Store		.DS_Store
README.md		README.md
app.py		app.py
embeddingTrans.py		embeddingTrans.py
main.py		main.py
textSplit.py		textSplit.py
tmp.py		tmp.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

知识背景仓库

背景

功能

使用方法

贡献

联系我们

About

Releases

Packages

Languages

CL-lau/Knowledge-Background-Vector-Warehouse

Folders and files

Latest commit

History

Repository files navigation

知识背景仓库

背景

功能

使用方法

贡献

联系我们

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages