本リポジトリは第42回医療情報学連合大会で発表した「患者状態表現の病名交換コードへのマッピング」の実験コードです。詳細抄録に掲載されているデータ拡張を用いた実験の再現にはティ辞書企画さまより販売されているシソーラス辞書が必要となります。
- ICD10対応標準病名マスターをダウンロードし、./data/medisにindex504.txtとnmain504.csvを置く。
- シソーラス辞書を使用する場合、tdic_tenkai202111_UTF8.csvを./data/tに置く。
- 万病辞書をダウンロードし、./data/manbyoにMANBYO_20210602.csvを置く。
- python preprocess.py --data_augを実行する(シソーラス辞書がない場合は--data_augをつけない)
- UTH-BERTをダウンロードし、./BERTに置く。
※ フォルダがない場合は以下で作成してください。
mkdir ./data ./BERT ./data/t ./data/medis ./data/manbyo
bash train_medsi.sh
bash eval_medis_wo_unk.sh
bash eval_medis_w_unk.sh
ベースラインを実行する前に必ず機械学習モデルの訓練を実行してください。
# データ拡張なし
python baseline.py --data_path ./results/bert_cls_medis
# データ拡張あり
python baseline.py --data_path ./results/bert_cls_medis_aug
- simstring available from https://github.com/nullnull/simstring.
本リポジトリを参照する場合は以下の文献を引用してください。
柴田 大作, 嶋本 公徳, 篠原 恵美子, 河添 悦昌. 患者状態表現の病名交換コードへのマッピング. 第42回医療情報学連合大会. 2022年11月.