In [10]:
import os
import json

json_dir = '/kaggle/input/usmle'
files_to_merge = ['Mainland_dev.jsonl', 'Mainland_test.jsonl', 'Mainland_train.jsonl']

merged_data = []
all_keys = set()

# 第一步：读取两个文件，收集所有字段
raw_data = []

for filename in files_to_merge:
    file_path = os.path.join(json_dir, filename)
    with open(file_path, 'r', encoding='utf-8') as f:
        for line_num, line in enumerate(f, 1):
            line = line.strip()
            if line:
                try:
                    data = json.loads(line)
                    raw_data.append(data)
                    all_keys.update(data.keys())
                except json.JSONDecodeError as e:
                    print(f"Error decoding {filename} at line {line_num}: {e}")

# 第二步：统一字段结构
for entry in raw_data:
    complete_entry = {key: entry.get(key, None) for key in all_keys}
    merged_data.append(complete_entry)

# 第三步：保存合并结果（在 working 目录）
output_path = '/kaggle/working/merged_USMLE.json'
with open(output_path, 'w', encoding='utf-8') as f:
    json.dump(merged_data, f, ensure_ascii=False, indent=2)

print(f"Merged {len(merged_data)} entries into {output_path}")

Merged 34251 entries into /kaggle/working/merged_USMLE.json


In [11]:
for i, item in enumerate(merged_data[:5], 1):
    print(f"\n=== Entry {i} ===")
    print(json.dumps(item, indent=2, ensure_ascii=False))


=== Entry 1 ===
{
  "meta_info": "第一部分　历年真题",
  "answer": "非甾体抗炎药",
  "question": "男，50岁。吃海鲜后夜间突发左足第一跖趾关节剧烈疼痛1天。查体：关节局部红肿，",
  "options": {
    "A": "苯溴马隆",
    "B": "抗生素",
    "C": "非甾体抗炎药",
    "D": "甲氟蝶呤"
  },
  "answer_idx": "C"
}

=== Entry 2 ===
{
  "meta_info": "医学微生物学",
  "answer": "为真核细胞所特有",
  "question": "关于肽聚糖不正确的是（　　）。",
  "options": {
    "A": "是G+和G-菌的共有组分",
    "B": "为真核细胞所特有",
    "C": "占G-菌细胞壁干重的5%～20%",
    "D": "G-菌的肽聚糖由聚糖骨架和四肽侧链组成"
  },
  "answer_idx": "B"
}

=== Entry 3 ===
{
  "meta_info": "医学心理学",
  "answer": "意志是绝对自由的",
  "question": "下列关于意志说法错误的是（　　）。",
  "options": {
    "A": "克服困难是意志行动的核心",
    "B": "目的是意志行动的前提",
    "C": "意志是绝对自由的",
    "D": "意志是自觉地确定目的"
  },
  "answer_idx": "C"
}

=== Entry 4 ===
{
  "meta_info": "病理学",
  "answer": "良性肿瘤异型性大，恶性肿瘤异型性小",
  "question": "关于良、恶性肿瘤的区别，下列哪项错误？（　　）",
  "options": {
    "A": "良性肿瘤生长慢，恶性肿瘤生长快",
    "B": "良性肿瘤不转移，恶性肿瘤转移",
    "C": "良性肿瘤异型性大，恶性肿瘤异型性小",
    "D": "良性肿瘤无病理核分裂象，恶性肿瘤可见病理核分裂象"
  },
  "answer_idx": "C"
}

=

In [12]:
field_mapping = {
    'question': 'question',
    'answer_idx': 'answer'
}

renamed_data = []

for item in merged_data:
    new_item = {}

    for old_key, new_key in field_mapping.items():
        new_item[new_key] = item.get(old_key, None)

    options = item.get('options', {})
    for option_key in ['A', 'B', 'C', 'D']:
        new_item[option_key] = options.get(option_key, None)

    renamed_data.append(new_item)

for i, item in enumerate(renamed_data[:5], 1):
    print(f"\n=== Entry {i} ===")
    for key in ['question', 'A', 'B', 'C', 'D', 'answer', 'exp']:
        print(f"{key}: {item.get(key)}")


=== Entry 1 ===
question: 男，50岁。吃海鲜后夜间突发左足第一跖趾关节剧烈疼痛1天。查体：关节局部红肿，
A: 苯溴马隆
B: 抗生素
C: 非甾体抗炎药
D: 甲氟蝶呤
answer: C
exp: None

=== Entry 2 ===
question: 关于肽聚糖不正确的是（　　）。
A: 是G+和G-菌的共有组分
B: 为真核细胞所特有
C: 占G-菌细胞壁干重的5%～20%
D: G-菌的肽聚糖由聚糖骨架和四肽侧链组成
answer: B
exp: None

=== Entry 3 ===
question: 下列关于意志说法错误的是（　　）。
A: 克服困难是意志行动的核心
B: 目的是意志行动的前提
C: 意志是绝对自由的
D: 意志是自觉地确定目的
answer: C
exp: None

=== Entry 4 ===
question: 关于良、恶性肿瘤的区别，下列哪项错误？（　　）
A: 良性肿瘤生长慢，恶性肿瘤生长快
B: 良性肿瘤不转移，恶性肿瘤转移
C: 良性肿瘤异型性大，恶性肿瘤异型性小
D: 良性肿瘤无病理核分裂象，恶性肿瘤可见病理核分裂象
answer: C
exp: None

=== Entry 5 ===
question: 4．对D群结核分枝杆菌最敏感的抗结核药物是（　　）。
A: 利福平
B: 吡嗪酰胺
C: 以上都不正确
D: 以上均正确
answer: C
exp: None


In [13]:
# 定义关键词（可根据需要扩展）
keywords_zh = [
    '冠心病', '心绞痛', '稳定型心绞痛', '不稳定型心绞痛',
    '心肌梗死', '心梗', '非ST段抬高心肌梗死', 'ST段抬高心肌梗死',
    '急性冠状动脉综合征', '缺血性心脏病'
]

# 匹配函数：不转小写，直接判断关键词是否出现在问题文本中
def is_cardiovascular_related(text):
    if text is None:
        return False
    return any(kw in text for kw in keywords_zh)

# 过滤符合心血管关键词的记录
cardio_questions = [
    item for item in renamed_data
    if is_cardiovascular_related(item.get('question'))
]
    
# 过滤符合条件的记录
cardio_questions = [
    item for item in renamed_data
    if is_cardiovascular_related(item.get('question'))
]

print(f"Found {len(cardio_questions)} cardiovascular-related entries.")

Found 338 cardiovascular-related entries.


In [14]:
for i, item in enumerate(cardio_questions[:5], 1):
    print(f"\n=== Cardiovascular Entry {i} ===")
    for key in ['question', 'A', 'B', 'C', 'D', 'E', 'answer', 'exp']:
        print(f"{key}: {item.get(key)}")


=== Cardiovascular Entry 1 ===
question: 男，70岁。急性前壁心肌梗死7小时，就诊时突然心悸，无头晕，查体：BP 100／70mmHg，双肺呼吸音清，心率88次/分，律不齐。心电监测示：频发室性期前收缩。2．患者心悸进行性加重，伴喘憋，不能平卧。查体：BP 90／60mmHg，端坐位，急性病容，双下肺可闻及湿性啰音，心率105次/分，律不齐，心电监测提示频发室性期前收缩。该患者喘憋的最可能原因是（　　）。
A: 急性肺部感染
B: 急性左心衰
C: 气胸
D: 支气管哮喘
E: None
answer: B
exp: None

=== Cardiovascular Entry 2 ===
question: 男，56岁，陈旧前壁心肌梗死1年，糖尿病病史3年，无高血压病史，有吸烟史，查体：BP 130/80mmHg，心率67次/min，律齐。该患者血低密度脂蛋白胆固醇的治疗目标值是低于（　　）。
A: 3.37mmol/L
B: 2.59mmol/L
C: 1.40mmol/L
D: 2.07mmol/L
E: None
answer: D
exp: None

=== Cardiovascular Entry 3 ===
question: 男，72岁。排便时突然跌倒，意识丧失，呼吸断续。有陈旧心肌梗死和糖尿病病史，无高血压病史，诊断为心脏骤停。2．心电图示心脏停搏，此时首选的药物是（　　）。
A: 普鲁卡因胺
B: 肾上腺素
C: 胺碘酮
D: 碳酸氢钠
E: None
answer: B
exp: None

=== Cardiovascular Entry 4 ===
question: 心肌梗死后附壁血栓引起的脑血管疾病最常见的是（　　）。
A: 蛛网膜下腔出血
B: 脑血栓形成
C: 脑栓塞
D: 脑动脉炎
E: None
answer: C
exp: None

=== Cardiovascular Entry 5 ===
question: 患者，男，64岁。因阵发性胸闷9年，持续胸痛7小时收入院。入院时血压为150/90mmHg，诊断急性前壁心肌梗死。1．支持诊断的心电图改变为（　　）。
A: Ⅱ、Ⅲ、aVF出现异常Q波，伴ST段弓背向上抬高
B: V1～V4出现异常Q波，伴ST段弓背向上抬高
C: Ⅰ、a

In [15]:
output_path = '/kaggle/working/USMLE_Mainland_cardio.json'

with open(output_path, 'w', encoding='utf-8') as f:
    json.dump(cardio_questions, f, ensure_ascii=False, indent=2)

print(f"Exported {len(cardio_questions)} cardiovascular questions to {output_path}")

Exported 338 cardiovascular questions to /kaggle/working/USMLE_Mainland_cardio.json
