In [19]:
import re
import json

def classify_medical_dialogue(dialogue_list):
    """
    对医患对话列表进行分类，判断是否与肿瘤/癌症相关
    
    Args:
        dialogue_list: 包含医患对话的列表，每个元素是一段对话
    
    Returns:
        list: 包含分类结果的列表，每个元素是(对话内容, 分类结果)的元组
    """
    
    # 定义肿瘤/癌症相关关键词的正则表达式模式
    cancer_patterns = [
        # 一、核心肿瘤术语
        r'肿瘤',
        r'癌症',
        r'癌',
        r'瘤',
        r'恶性肿瘤',
        r'良性肿瘤',
        r'转移癌',
        r'原发癌',
        r'复发癌',
        r'癌变',
        r'肿瘤标志物',

        # 二、具体肿瘤类型
        r'鳞状细胞癌',
        r'腺癌',
        r'肉瘤',
        r'淋巴瘤',
        r'白血病',
        r'黑色素瘤',
        r'神经胶质瘤',
        r'生殖细胞肿瘤',
        r'胚胎性肿瘤',
        r'间皮瘤',

        # 三、治疗相关术语
        r'化疗',
        r'放疗',
        r'靶向治疗',
        r'免疫治疗',
        r'手术切除',
        r'靶向药物',
        r'免疫检查点抑制剂',
        r'化疗药物',
        r'放疗科',
        r'肿瘤科',

        # 五、肿瘤标志物（中英文对照）
        r'癌胚抗原',
        r'cea',
        r'甲胎蛋白',
        r'afp',
        r'前列腺特异性抗原',
        r'psa',
        r'ca125',
        r'ca199',
        r'糖类抗原',

        # 六、预防与筛查术语
        r'癌症筛查',
        r'防癌',
        r'抗癌',
    ]

    # 编译正则表达式模式（不区分大小写）
    compiled_patterns = [re.compile(pattern, re.IGNORECASE) for pattern in cancer_patterns]
    
    results = []
    
    for dialogue in dialogue_list:
        # 检查对话中是否包含任何肿瘤/癌症相关关键词
        str_dia = ','.join(dialogue)
        is_cancer_related = False
        
        for pattern in compiled_patterns:
            if pattern.search(str_dia):
                is_cancer_related = True
                break
        
        # 分类结果
        category = 1 if is_cancer_related else 0
        results.append((dialogue, category))
    
    return results

def save_results_to_json(results, filename='classifications.json'):
    """
    将分类结果保存为JSON文件
    
    Args:
        results: 分类结果列表
        filename: 保存的文件名
    """
    # 将结果转换为字典格式，便于JSON序列化
    results_dict = {
        'classifications': [
            {
                'dialogue_id': i,
                'dialogue_content': dialogue,
                'category': category
            }
            for i, (dialogue, category) in enumerate(results)
        ]
    }
    
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(results_dict, f, ensure_ascii=False, indent=2)
    
    print(f"结果已保存到 {filename}")

# 示例使用
if __name__ == "__main__":

    with open('./train_data.json', 'r', encoding='utf-8') as file:
        raw_data = json.load(file)
    
    # 进行分类
    results = classify_medical_dialogue(raw_data)
    
    # 保存结果到JSON文件
    save_results_to_json(results, 'classifications.json')
    
    # 统计结果
    cancer_related_count = sum([i for _, i  in results])
    non_cancer_count = len(results) - cancer_related_count
    
    print(f"\n统计结果:")
    print(f"肿瘤/癌症相关对话: {cancer_related_count} 条")
    print(f"非肿瘤/癌症相关对话: {non_cancer_count} 条")
    print(f"总对话数: {len(results)} 条")



结果已保存到 classifications.json

统计结果:
肿瘤/癌症相关对话: 369392 条
非肿瘤/癌症相关对话: 2356598 条
总对话数: 2725990 条
