赛题名称:CCF贝壳房产聊天问答匹配比赛
赛题链接:https://www.datafountain.cn/competitions/474
赛题类型:自然语言处理、文本分类
分享内容:比赛baseline
这里仅作为个人学习的baseline,整体思路如下:
尝试不同预训练模型(单模)作文本匹配,其中包括 BERT-wwm、 BERT-wwm-ext、 RoBERTa-wwm-ext、 RoBERTa-wwm-ext-large、 XLNet-base、 XLNet-mid、 NEZHA、 RoBERTa-zh-Large (前六个模型均来自科大讯飞)
单个模型采用5折交叉验证效果更佳。其中BERT-wwm-ext效果最好,能达到77.5+。
具体实现代码见run_cv.py
详情见
具体实现代码见run_cv_lgb_small.py
采用贝叶斯搜索出lightgbm最优参数,详情见run_bayesopt.py