Skip to content

C-MTEB/CmedqaRetrieval 数据集生成方法及可能的标签问题 #357

@james016

Description

@james016

您好,我正在分析 C-MTEB/CmedqaRetrieval 数据集中的一些异常情况,并注意到某些 ground truth 结果似乎与我的常识不符。为了更好地理解这些异常,我想了解数据集的生成过程,特别是以下几点:

  1. 数据集构建流程:数据集是如何从原始数据中提取出 4000 个查询和相应的语料库(大约 7500+ 条目)的?
  2. 相似问题的处理:在处理 4000 个查询时,是否有对相似问题进行清洗或标注?
  3. 负样本的选取:负样本(与查询无关的样本)是如何选取的?是否主要来自网络搜索内容?

我希望通过了解这些信息,能更准确地判断数据集中是否存在标签错误或其他问题。

细节

我验证文献引用的链条 https://arxiv.org/pdf/2309.07597.pdf -> https://arxiv.org/pdf/2203.10232.pdf -> https://github.com/zhangsheng93/cMedQA2 -> https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8548603 找到原始的文章好像是 https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8548603

里面,对数据的描述如下

image

其测试数据集好像是每个 query 有大概 100 个 candidate 的 answers,其中有几个是 gt。预期这 100 个 candidate 中的负样本应该是被标注过,确定与 query 无关的。但是,这 4000 个 query 之间,好像没看到说明他们之间是无关的

我猜测数据生成过程,可能是下面这样的:

  1. 从原始数据获取到 4000 query + 对应的 corpus (共约 7500+)
  2. 清洗 4000 query 中的相似提问(可能需要标注)
  3. 填补无关负样本,好像是很多网络搜索的内容

我不太确定是不是这样做的,尤其是中间是否做过 2 的清洗

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions