中文特定领域预训练数据集规模 #348

dr-GitHub-account · 2022-11-25T09:19:36Z

自适应预训练 (Adaptive Pretraining) ，即在某一领域的无标签语料上面进行预训练，再在该领域下游任务上进行微调，往往比直接微调通用领域的预训练模型效果更好，典型工作: Don't Stop Pretraining: Adapt Language Models to Domains and Tasks。对应到UER的论文中，即 3.4 中提到的 Stage 2: pre-training on downstream dataset.

目前相关工作有论文发表的 (BioBERT、SciBERT) 基本都是英文数据集。请问有没有用中文特定领域数据集做过自适应预训练，在下游任务取得一定性能提升的朋友可以介绍一下数据集的规模？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

中文特定领域预训练数据集规模 #348

中文特定领域预训练数据集规模 #348

dr-GitHub-account commented Nov 25, 2022 •

edited

Loading

中文特定领域预训练数据集规模 #348

中文特定领域预训练数据集规模 #348

Comments

dr-GitHub-account commented Nov 25, 2022 • edited Loading

dr-GitHub-account commented Nov 25, 2022 •

edited

Loading