From a65091887484e072d74bacf1bb80b0624f444916 Mon Sep 17 00:00:00 2001 From: chenxiaozeng Date: Thu, 12 Jan 2023 22:30:22 +0800 Subject: [PATCH] Update group code and and unimo-text metric (#4462) * update group code and and unimo-text metric * update qianyan introduction --- README_cn.md | 4 ++-- README_en.md | 2 +- examples/text_generation/unimo-text/README.md | 14 ++++++++------ 3 files changed, 11 insertions(+), 9 deletions(-) diff --git a/README_cn.md b/README_cn.md index a624195e6572..ffb4c8eefb85 100644 --- a/README_cn.md +++ b/README_cn.md @@ -49,8 +49,8 @@ - 10G重磅NLP学习大礼包!
- -
+ + ## 特性 diff --git a/README_en.md b/README_en.md index c33f54a4ee8d..596320b20f1d 100644 --- a/README_en.md +++ b/README_en.md @@ -331,7 +331,7 @@ To connect with other users and contributors, welcome to join our [Slack channel Scan the QR code below with your Wechat⬇️. You can access to official technical exchange group. Look forward to your participation.
- +
diff --git a/examples/text_generation/unimo-text/README.md b/examples/text_generation/unimo-text/README.md index 96d21021eb70..0776eccffca7 100644 --- a/examples/text_generation/unimo-text/README.md +++ b/examples/text_generation/unimo-text/README.md @@ -2,13 +2,15 @@ ## 比赛简介 -自然语言生成旨在让机器能够像人一样使用自然语言进行表达和交互,它是人工智能领域重要的前沿课题,近年来受到学术界和工业界广泛关注。 +自然语言生成旨在让机器能够像人一样使用自然语言进行表达和交互,它是人工智能领域重要的前沿课题,也是全球热点技术AIGC(AI Generated Content,人工智能内容生成)的核心问题之一。 -随着神经网络生成模型特别是预训练语言模型的迅速发展,机器生成文本的可读性和流畅性不断提升。然而,自动生成的文本中依然经常出现不符合原文或背景的错误事实描述,这种生成的事实一致性问题是自然语言生成进行落地应用的主要障碍之一,并逐渐受到研究学者的关注。鉴于当前国内外关于事实一致性的生成评测比赛十分匮乏,为了促进自然语言生成的技术发展和实际应用,我们计划组织面向事实一致性的生成评测比赛。 +随着神经网络生成模型特别是预训练语言模型的迅速发展,机器生成文本的可读性和流畅性不断提升。然而,自动生成的文本中依然经常出现不符合原文或背景的错误事实描述,这种生成的事实一致性问题是自然语言生成进行落地应用的主要障碍之一,并逐渐受到研究学者的关注。鉴于当前国内外关于事实一致性的生成评测比赛十分匮乏,为了促进自然语言生成的技术发展和实际应用,[千言](https://www.luge.ai/#/)组织了面向事实一致性的生成评测比赛。 -在[此比赛](https://aistudio.baidu.com/aistudio/competition/detail/105)中,我们将提供三个对事实一致性有较高要求的生成任务,包括文案生成、摘要生成和问题生成。同时,在系统评价中,我们将结合文本流畅性和事实一致性两项指标综合评估参赛生成系统的水平。通过这样的任务设定和评价方式,此评测将有助于研究者和开发者更多关注自然语言生成的事实一致性难题,并为大家提供学术交流平台,从而进一步提升自然语言生成的研究水平,推动相关技术的应用发展。 +第一届面向事实一致性的生成评测比赛,一共吸引了577名高校、企业的参赛者,其中有57支参赛队提交了有效的正式赛结果,30支参赛队自动评测指标超过基线系统,在排名Top10的队伍中,收到9份参赛系统总结报告。在正式赛的人工评估过程中,我们进一步确认了事实一致性问题的广泛存在性,并且通过与参赛队伍的深入交流,也积累了更多对于事实一致性自动和人工评测的宝贵经验。 -本比赛得到中国中文信息学会自然语言生成专业委员会(筹)支持,将在2021年11月7日首届中国自然语言生成大会(CCNLG-2021)召开评测研讨会,并在大会上对获奖团队颁奖。 +2023年,千言举办[第二届面向事实一致性的生成评测比赛](https://aistudio.baidu.com/aistudio/competition/detail/726/0/introduction),在数据集、自动评测指标等方面均有升级。在此比赛中,将提供三个对事实一致性有较高要求的生成任务,包括文案生成、摘要生成和对话生成。同时,在系统评价中,将结合文本流畅性和事实一致性两项指标综合评估参赛生成系统的水平,同时进一步提升事实一致性评测指标的先进性和丰富性。通过这样的任务设定和评价方式,此评测将有助于研究者和开发者更多关注自然语言生成的事实一致性难题,并为大家提供学术交流平台,从而进一步提升自然语言生成的研究水平,推动相关技术的应用发展。 + +本比赛得到中国中文信息学会自然语言生成与智能写作专业委员会(筹)支持,将在2023年7月16日第二届中国自然语言生成与智能写作大会(NLGIW 2023)召开评测研讨会,并在大会上对获奖团队颁奖。 ## 模型简介 本次比赛提供的基线系统,基于百度提出的ERNIE-UNIMO统一模态预训练框架。在本次比赛的三个文本生成任务中,我们基于本基线使用的模型是UNIMO-text,是基于[ERNIE-UNIMO](https://arxiv.org/pdf/2012.15409.pdf)框架在文本数据上预训练得到模型。 @@ -137,6 +139,6 @@ python run_gen.py \ Finetuned baseline的模型在各任务验证集上有如下结果(指标为BLEU-4): -| model_name | LCSTS_new | DuReaderQG | AdvertiseGen | +| model_name | LCSTS_new | DuLeMon | AdvertiseGen | | :-----------------------------: | :---: | :-----------: | :-------------------: | -| finetuned unimo-text-1.0 | 18.82 | 39.78 | 10.03 | +| finetuned unimo-text-1.0 | 18.82 | 5.52 | 10.03 |