GitHub - CodeByteMe/2019-BDCI-FinancialEntityDiscovery: 2019 BDCI金融新实体发现

目录结构：

Work/
	|transformer-master
	|G4M
	|roberta_zh_ext
	|roberta_finetune_ab2（在微调模型阶段会生成，在训练阶段需要移动到G4M目录下）

在初赛和复赛的数据上微调roberta模型（来自讯飞发布的RoBERTa-wwm-ext Chinese，下载地址，放到Work/roberta_zh_ext目录下解压，并重命名bert_config.json为config.json，这一步已经完成，可以直接用），进入transformer-master目录下: (1) bash preprocess.sh，在data_for_lm目录下会生成a.txt和b.txt (2) 手动拷贝b.txt的内容到a.txt，保存为ab.txt (3) 微调：bash run_lm_finetuning.sh，会在Work目录下生成模型文件夹，需要重命名为roberta_finetune_ab2并移动到G4M目录下（如果不需要从头复现，可以直接使用之前微调好的模型，在G4M目录下，文件夹名称为roberta_finetune_ab2）
进入G4M目录，为了和初赛代码兼容，将复赛的训练集和测试集重命名为Train_Data.csv和Test_Data.csv，并保证数据格式为UTF-8,LF结尾，放在round2_data目录下。
数据预处理：（已放入处理好的数据，可以跳过）

bash scripts/create_data.sh

会在round2_inputs目录下生成训练、验证和测试集数据 4. 训练NER模型：（如果不需要从头训练，可以直接解压outputs目录下的roberta_ext_v25_bak.tar.gz文件，将解压出来的目录重命名为roberta_ext_v25，并直接到第6步，需要执行的命令：

cd outputs
tar zxvf roberta_ext_v25_bak.tar.gz
mv roberta_ext_v25_bak roberta_ext_v25
cd ..

）

bash scripts/train.sh

会在outputs目录下保存模型 5. NER模型融合:

python merge_models.py roberta_ext_v25 best,step5000

bash scripts/predict.sh

python postprocess.py --crf_model=roberta_ext_v25

会在submits目录下生成roberta_ext_v25.csv 复赛A榜最终基础的模型是这个，分数是0.507 如果不考虑后续步骤，可以使用该模型作为最终结果

bash scripts/create_mrc_data.sh

cd outputs
tar zxvf roberta_ext_m11.tar.gz
cd ..

）

bash scripts/train_mrc.sh

bash scripts/predict_mrc.sh

python postprocess.py --crf_model=roberta_ext_m11

会在submits目录下生成roberta_ext_m11.csv 5. 投票：（为了适应只有两个模型投票，已经更改了vote_submits.py的代码）

python vote_submits.py

生成11-21.csv文件作为最终结果

Name		Name	Last commit message	Last commit date
Latest commit History 423 Commits
data		data
models		models
proj_utils		proj_utils
round2_data		round2_data
scripts		scripts
.gitignore		.gitignore
README.md		README.md
check_result.py		check_result.py
create_data.py		create_data.py
create_kfold.py		create_kfold.py
create_mrc_data.py		create_mrc_data.py
create_squad_data.py		create_squad_data.py
create_title_data.py		create_title_data.py
dataset.py		dataset.py
diffusion_predict.py		diffusion_predict.py
kfold_predict.py		kfold_predict.py
merge_models.py		merge_models.py
merge_submits.py		merge_submits.py
model_config.json		model_config.json
mrc_model_config.json		mrc_model_config.json
post_run_squad.py		post_run_squad.py
post_train.py		post_train.py
postprocess.py		postprocess.py
predict.py		predict.py
predict_mrc.py		predict_mrc.py
predict_squad.py		predict_squad.py
preprocess_embeddings.py		preprocess_embeddings.py
preprocess_mrc_task.py		preprocess_mrc_task.py
preprocess_task.py		preprocess_task.py
run_squad.py		run_squad.py
task_metric.py		task_metric.py
tokenization.py		tokenization.py
train.py		train.py
train_mrc.py		train_mrc.py
utils_squad.py		utils_squad.py
utils_squad_evaluate.py		utils_squad_evaluate.py
vote_submits.py		vote_submits.py

CodeByteMe/2019-BDCI-FinancialEntityDiscovery