C-MTEB/CmedqaRetrieval 数据集生成方法及可能的标签问题

您好，我正在分析 C-MTEB/CmedqaRetrieval 数据集中的一些异常情况，并注意到某些 ground truth 结果似乎与我的常识不符。为了更好地理解这些异常，我想了解数据集的生成过程，特别是以下几点：

1. **数据集构建流程**：数据集是如何从原始数据中提取出 4000 个查询和相应的语料库（大约 7500+ 条目）的？
2. **相似问题的处理**：在处理 4000 个查询时，是否有对相似问题进行清洗或标注？
3. **负样本的选取**：负样本（与查询无关的样本）是如何选取的？是否主要来自网络搜索内容？

我希望通过了解这些信息，能更准确地判断数据集中是否存在标签错误或其他问题。

## 细节

我验证文献引用的链条 https://arxiv.org/pdf/2309.07597.pdf -> https://arxiv.org/pdf/2203.10232.pdf -> https://github.com/zhangsheng93/cMedQA2 -> https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8548603 找到原始的文章好像是 https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8548603

里面，对数据的描述如下

![image](https://github.com/FlagOpen/FlagEmbedding/assets/5147246/b5fbaba8-1f7c-474d-8fc7-ba8c1af1dabf)

其测试数据集好像是每个 query 有大概 100 个 candidate 的 answers，其中有几个是 gt。预期这 100 个 candidate 中的负样本应该是被标注过，确定与 query 无关的。但是，这 4000 个 query 之间，好像没看到说明他们之间是无关的

我猜测数据生成过程，可能是下面这样的：
1. 从原始数据获取到 4000 query + 对应的 corpus （共约 7500+）
2. 清洗 4000 query 中的相似提问（可能需要标注）
3. 填补无关负样本，好像是很多网络搜索的内容

我不太确定是不是这样做的，尤其是中间是否做过 2 的清洗

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

C-MTEB/CmedqaRetrieval 数据集生成方法及可能的标签问题 #357

细节

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

C-MTEB/CmedqaRetrieval 数据集生成方法及可能的标签问题 #357

Description

细节

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions