In [22]:
import os
import re

SOURCE_FILE = "20220264新型冠状病毒肺炎：中医医案精选.txt"

def preprocess(lines):
    '''
    @description: 预处理，删除无用行
    @param {list} lines: 每一行的内容
    @return {string}: 预处理后的内容
    '''

    # 移除仅包含数字的一行
    final_lines = []
    for i in range(len(lines)):
        reg = re.compile(r'^\d+\n')
        if re.match(reg, lines[i]):
            continue
        if '第二章' in lines[i]:
            continue
        if '中医药治疗新型冠状病毒肺炎医案' in lines[i]:
            continue
        final_lines.append(lines[i])
    
    result = "".join(final_lines)
    result = result.replace(" ", "") # 删除空格
    result = result.replace("　", "") # 删除全角空格
    result = result.replace("\t", "") # 删除制表符
    return result


def extract(content):
    '''
    @description: 抽取医案
    @param {string} content: 预处理后的内容
    @return {None}:
    '''
    ROOT_DIR = 'Record Collections XG2'
    TARGET_DIR = 'Raw Medical Record'
    if not os.path.exists(ROOT_DIR):
        os.mkdir(ROOT_DIR)
    if not os.path.exists(os.path.join(ROOT_DIR, TARGET_DIR)):
        os.mkdir(os.path.join(ROOT_DIR, TARGET_DIR))

    # 清空目标文件夹
    for file in os.listdir(os.path.join(ROOT_DIR, TARGET_DIR)):
        os.remove(os.path.join(ROOT_DIR, TARGET_DIR, file))

    # 按照`第一节`分割
    reg = re.compile(r'\n第[一二三四五六七八九十]节.*\n')
    start_list = []
    record_list = []
    for match in re.finditer(reg, content):
        start_list.append(match.start())
    for i in range(len(start_list)):
        if i == len(start_list) - 1:
            record_list.append(content[start_list[i]:])
        else:
            record_list.append(content[start_list[i]:start_list[i+1]])
   
    total_count = 0
    reg = re.compile(r'医案(?:[一二三四五六七八九十]|十[一二三四五六七八九]|二十[一二三四五六七八九])+')
    for record in record_list: 
        count = 0
        record_start_list = []
        small_record_list = []
        root_name = record.split('\n')[1]
        del_index = root_name.find('节')
        root_name = root_name[del_index+1:]
        for match in re.finditer(reg, record):
            record_start_list.append(match.start())
        for i in range(len(record_start_list)):
            if i == len(record_start_list) - 1:
                small_record_list.append(record[record_start_list[i]:])
            else:
                small_record_list.append(record[record_start_list[i]:record_start_list[i+1]])
        for small_record in small_record_list:
            count += 1
            total_count += 1
            with open(os.path.join(ROOT_DIR, TARGET_DIR, '{}-{}.txt'.format(root_name,count)), "w", encoding="utf-8") as f:
                f.write(small_record)
            


    print('医案抽取完成，共抽取{}个医案， 存放在{}目录下'.format(total_count, os.path.join(ROOT_DIR, TARGET_DIR)))


with open(SOURCE_FILE, "r", encoding="utf-8") as f:
    lines = f.readlines()
    content = preprocess(lines) # 预处理
    extract(content) # 抽取医案

叵
第一节疑似病例医案
医案一:寒湿困表内有滞，祛湿达表透邪热
［基本资料】
傅某，女,28岁,职员。既往无特殊病史。
［发病过程】
患者2020年1月28日开始出现发热，体温波动在37.5〜38.0工，起初无其他伴随症状，予口服药物后发热反复，后逐渐渐出现咳嗽，干咳少痰。1月30日患者就诊时查胸片未见异常,予退热、止咳处理,此后发热仍有反复，遂于2月4日再次复诊,当时测体温38.0^，伴少许咳嗽咳痰，复查血常规未见异常,超敏C反应蛋白（hs-CRP）24.68mg/L,予奥司他韦胶囊抗病毒治疗。经治疗后患者发热未退，热峰较前上升,最高达38.9工。2月6日急诊查胸部CT提示双肺多发磨玻璃灶，考虑为疑似新型冠状病毒肺炎，收入广东省中医院隔离病区。入院后西医常规给予莫西沙星0.4g（1次/d）x3天、奥司他韦75mg（2次/d）x3天抗感染抗病毒治疗。
入院前辅助检查:血常规示白细胞计数5.79X109/L,中性粒细胞绝对值3.73x10红，淋巴细胞绝对值1.55x1（）9/L；C反应蛋白（CRP）42.03mg/L。胸部CT平扫+三维重建示双肺多发磨玻璃灶（图2-1-1）。
图2-1-12020年2月6日胸部CT平扫
［首诊证候］
2月7日首诊:患者神清，精神疲倦，发热，少许恶寒,稍乏力，时有咳嗽，无痰，无汗出，口干，无头痛，无周身肌肉、关节酸痛，无咽痛，无鼻塞流涕,无胸闷胸痛,无心悸气促,无恶心呕吐，无腹痛腹泻，无尿频尿痛，大便浩，每日1〜2次，纳眠一般。舌淡红胖大，苔白微腻（图2-1・2）,脉滑。
［辨证论治】
病机诊断:寒湿困表,内有湿滞。
治则治法:解表散寒，祛湿化浊。
处方:蕾朴夏苓汤合达原饮加减。
图2-1-2首诊舌象
蕾香15g,厚朴10g,法半夏10g,茯苓15g,白豆蔻10g（后下）,意瑟仁20g,陈皮10g,苍术15g,草果6g,槟榔10g,麻黄6go
（随诊过程】
2月8日二诊：患者神清，精神稍疲倦，仍有发热，热势较前下降，伴恶寒,稍乏力，咳嗽症状同前,伴有少许咳痰，痰白难咯,无汗出，少许口干，无头痛，无周身肌肉、关节酸痛等，大便澹，纳眠一般。舌淡红胖大，苔白微腻（图2-1-3）,脉滑。
处理:患者仍有发热恶寒，热势下降,余症基本同前，继续守方续服。
2月9日三诊:患者精神改善,热势明显下降，低热，体温37.1七，无恶寒,稍乏力，时有咳嗽、咳痰