In [1]:
import json

def extract_jsonl_key_values(jsonl_path, target_key, encoding="utf-8"):
    """
    提取 JSONL 文件中目标 key 的所有 values（一级键）
    :param jsonl_path: JSONL 文件路径
    :param target_key: 要提取的 key（字符串）
    :param encoding: 文件编码（默认 utf-8）
    :return: 目标 key 的所有 values 列表（保留原始类型）
    """
    values = []
    error_lines = []  # 记录错误行（可选，用于调试）
    
    with open(jsonl_path, "r", encoding=encoding) as f:
        for line_num, line in enumerate(f, start=1):
            stripped_line = line.strip()
            if not stripped_line:
                continue  # 跳过空行
            
            try:
                # 解析当前行 JSON
                data = json.loads(stripped_line)
                # 检查是否包含目标 key（仅一级键）
                if isinstance(data, dict) and target_key in data:
                    value = data[target_key]
                    values.append(value)  # 保留原始类型（str/int/list 等）
                else:
                    error_lines.append(f"第{line_num}行：缺少目标 key '{target_key}' 或非字典格式")
            
            except json.JSONDecodeError as e:
                error_lines.append(f"第{line_num}行：JSON 解析错误 - {str(e)}")
            except Exception as e:
                error_lines.append(f"第{line_num}行：未知错误 - {str(e)}")
    
    # 可选：打印错误信息（便于排查问题）
    if error_lines:
        print(f"⚠️  共发现 {len(error_lines)} 行异常（前5条）：")
        for err in error_lines[:5]:
            print(err)
    
    return values



In [2]:
jsonl_file = "RAG.jsonl"  # 替换为你的 JSONL 文件路径
target_key = "task_id"          # 替换为你要提取的 key（如 "name"、"status"）

# 提取 values
all_values_rag = extract_jsonl_key_values(jsonl_file, target_key)
all_values_submission = extract_jsonl_key_values('submission_taskA.jsonl', target_key)

In [4]:
diff = list(set(all_values_rag) - set(all_values_submission))
len(diff)

65