Skip to content

LewPeng97/ccf_beike_2020

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

赛题名称:CCF贝壳房产聊天问答匹配比赛

赛题链接:https://www.datafountain.cn/competitions/474

赛题类型:自然语言处理、文本分类

分享内容:比赛baseline

这里仅作为个人学习的baseline,整体思路如下:

尝试不同预训练模型(单模)作文本匹配,其中包括 BERT-wwmBERT-wwm-extRoBERTa-wwm-extRoBERTa-wwm-ext-largeXLNet-baseXLNet-midNEZHARoBERTa-zh-Large (前六个模型均来自科大讯飞)

单个模型采用5折交叉验证效果更佳。其中BERT-wwm-ext效果最好,能达到77.5+。

具体实现代码见run_cv.py

模型融合

详情见

CCF贝壳房产聊天问答匹配高分思路

具体实现代码见run_cv_lgb_small.py

采用贝叶斯搜索出lightgbm最优参数,详情见run_bayesopt.py

另一种分类思路

直接将BERT的输出做分类,效果相对会差一点,但比较简单

About

CCF贝壳房产聊天问答匹配比赛baseline

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages