Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

数据集改怎么编写,才能让机器人命中数据集中的内容 #90

Closed
toxmc opened this issue May 18, 2023 · 6 comments
Closed
Labels
💪 good first issue Good first issue for newcomers

Comments

@toxmc
Copy link

toxmc commented May 18, 2023

image
想知道数据集怎么使用,我关联了数据集,但是机器人回答的内容不是我数据集中设置的内容。能否提供一个数据集简单的示例,文档中的没看懂。说明下问题描述,问题答案是什么。谢谢

@toxmc toxmc changed the title 初次接触这方面内容 数据集改怎么编写,才能让机器人命中数据集中的内容 May 18, 2023
@lethe3000
Copy link
Contributor

个人使用建议:

  1. 对数据集的内容进行合理的分段,控制段落的字数和空行格式。这个你可以在segmentation settings的custom设置处进行相应的配置
  2. 数据集各个文档的内容尽可能正交,即每个文档尽可能描述的是不同的领域,这样在进行index查询的时候,不会出现基于你的问题,匹配到的内容过多。
  3. 可以的话尽量以Q&A的形式来组织文档内容,这样你跟机器人的问题就会有较高几率直接匹配到Q。这里的Q相当于是一个锚点,便于向量检索算法的相似度匹配。
    例如,我们的一个文档示例为
问题:设备初始化时,设备提示"与WI-Fi通信失败,请确认其正常工作",应如何处理
答案:1. 近距离尝试热点排除设备问题,如果热点也存在该问题则需要售后协助排查。
2. 若热点没有问题,询问用户路由器和魔镜是否距离过远或者存在穿墙,过远则尽量调整位置,没穿墙改用5G频段减少干扰,穿墙了无法移动则使用2.4G频段增强穿墙能力。
3. 若用户不方便操作,可以建议客户联系运营商协助改善网络环境

@takatost
Copy link
Collaborator

image 想知道数据集怎么使用,我关联了数据集,但是机器人回答的内容不是我数据集中设置的内容。能否提供一个数据集简单的示例,文档中的没看懂。说明下问题描述,问题答案是什么。谢谢

不好意思让您误解了,这块我们初期是开放出来给多数据集 Agent 用的,但是因为耗费时间比较长,体验不好目前禁用了,后期调整好了再放开。

@takatost
Copy link
Collaborator

个人使用建议:

  1. 对数据集的内容进行合理的分段,控制段落的字数和空行格式。这个你可以在segmentation settings的custom设置处进行相应的配置
  2. 数据集各个文档的内容尽可能正交,即每个文档尽可能描述的是不同的领域,这样在进行index查询的时候,不会出现基于你的问题,匹配到的内容过多。
  3. 可以的话尽量以Q&A的形式来组织文档内容,这样你跟机器人的问题就会有较高几率直接匹配到Q。这里的Q相当于是一个锚点,便于向量检索算法的相似度匹配。
    例如,我们的一个文档示例为
问题:设备初始化时,设备提示"与WI-Fi通信失败,请确认其正常工作",应如何处理
答案:1. 近距离尝试热点排除设备问题,如果热点也存在该问题则需要售后协助排查。
2. 若热点没有问题,询问用户路由器和魔镜是否距离过远或者存在穿墙,过远则尽量调整位置,没穿墙改用5G频段减少干扰,穿墙了无法移动则使用2.4G频段增强穿墙能力。
3. 若用户不方便操作,可以建议客户联系运营商协助改善网络环境

您说的没错,QA 数据集、元数据都是我们未来要补全的功能,您的建议非常好

@takatost
Copy link
Collaborator

回到最原始的问题,数据集一方面需要让分段尽可能的保证语意完整,每段尽可能正交,另一方面也需要针对可能出现的问题来优化数据集内容,使之权重更高,比如:
用户问公司几几年成立的?
但数据集中的内容是 "(2000 - 2023)" 这样的,在检索的时候就无法根据语意匹配到,或者匹配的权重不对,所以这边需要调整为:
"成立时间:2000年 - 2023 年"

@crazywoola crazywoola added the 💪 good first issue Good first issue for newcomers label May 19, 2023
@toxmc
Copy link
Author

toxmc commented May 19, 2023

谢谢各位大佬的回复,尝试下成功了。

@linchen111
Copy link

谢谢各位大佬的回复,尝试下成功了。

请教下如何调整成功的

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
💪 good first issue Good first issue for newcomers
Projects
None yet
Development

No branches or pull requests

5 participants