Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

如何提升根据问题搜索到对应知识的准确率 #136

Closed
clintlong opened this issue Apr 19, 2023 · 5 comments
Closed

如何提升根据问题搜索到对应知识的准确率 #136

clintlong opened this issue Apr 19, 2023 · 5 comments

Comments

@clintlong
Copy link

外链知识库最大的问题在于问题是短文本,知识是中长文本。如何根据问题精准的搜索到对应的知识是个最大的问题。这类本地化项目不像百度,由无数的网页,基本上每个问题都可以找到对应的页面。
企业内部知识库本身就是一个个不怎么规范的文档而已,项目将整段知识向量化很可能导致搜不到或者搜不准。
大家有没有试过利用llm来提升搜索准确率,比如利用llm针对已有知识生成问题,这样子可以加一个问题-问题的匹配方式,然后给予每种匹配方式权重来得到最后的搜索结果。
或者利用llm生成关键词等

@imClumsyPanda
Copy link
Collaborator

imClumsyPanda commented Apr 19, 2023 via email

@alexhmyang
Copy link

外链知识库最大的问题在于问题是短文本,知识是中长文本。如何根据问题精准的搜索到对应的知识是个最大的问题。这类本地化项目不像百度,由无数的网页,基本上每个问题都可以找到对应的页面。 企业内部知识库本身就是一个个不怎么规范的文档而已,项目将整段知识向量化很可能导致搜不到或者搜不准。 大家有没有试过利用llm来提升搜索准确率,比如利用llm针对已有知识生成问题,这样子可以加一个问题-问题的匹配方式,然后给予每种匹配方式权重来得到最后的搜索结果。 或者利用llm生成关键词等

good idea

@Amoteamame
Copy link

这种只能人工预先处理文档,切分文档中段落为qa对,然后补充上下文了吧。

@brealisty
Copy link

这种只能人工预先处理文档,切分文档中段落为qa对,然后补充上下文了吧。

请问,切分为qa对之后,想知道只是出处(原始文档位置),那由该如何处理呢?

@AMAG-AB
Copy link

AMAG-AB commented May 10, 2024

在chat代码基础上还能添加parent_document召回吗。这个应该可以提升检索的效果,不过不知道在哪里添加

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

7 participants