Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+, Google Research, INLG'20 #488

AkihikoWatanabe · 2022-09-16T08:05:07Z

https://aclanthology.org/2020.inlg-1.14.pdf

AkihikoWatanabe · 2022-09-22T07:51:06Z

概要

pre-training済みのT5に対して、Data2Textのデータセットでfinetuningを実施する方法を提案。WebNLG（graph-to-text）, ToTTo（table-to-text）, Multiwoz（task oriented dialogue）データにおいて、simpleなTransformerでも洗練されたmulti-stageなpipelined approachをoutperformできることを示した研究。

手法

事前学習済みのT5に対してfine-tuningを実施した。手法はシンプルで、data-to-textタスクをtext-to-textタスクに変換した。具体的には、構造かされたデータをflatな文字列（linearization）で表現することで、text-to-textタスクに変換。各データセットに対するlinearizationのイメージは下図。デリミタや特殊文字を使って構造かされたデータをflatなstringで表現している。

データセット

ToTTo（2020）

Wikipediaのテーブルと自然言語でdescriptionのペアデータ

MultiWoz（2018）

10Kの人間同士のtask-orientedなdialogueデータ。

WebNLG（2017）

subject-object-predicateの3組みをテキスト表現に変換するタスクのデータ

Result

WebNLG

GCNを利用した2020年に提案されたDualEncがSoTAだったらしいが、outperormしている。

ToTTo

こちらのリーダーボードと比較してSoTAを記録

MultiWoz

T5は事前学習済みGPT-2をfinetuningした手法もoutperformした。SC-GPT2は当時のMultiWozでのSoTA

Impact of Model capacity

T5モデルのサイズがどれが良いかについては、データセットのサイズと複雑さに依存することを考察している。たとえば、MultiWozデータは構造化データのバリエーションが最も少なく、データ量も56kと比較的多かった。このため、T5-smallでもより大きいモデルの性能に肉薄できている。
一方、WebNLGデータセットは、18kしか事例がなく、特徴量も約200種類程度のrelationのみである。このような場合、モデルサイズが大きくなるにつれパフォーマンスも向上した（特にUnseen test set）。特にBLEUスコアはT5-smallがT5-baseになると、10ポイントもジャンプしており、modelのcapacityがout-of-domainに対する一般化に対してcriticalであることがわかる。ToTToデータセットでも、SmallからBaseにするとパフォーマンスは改善した。

AkihikoWatanabe · 2022-09-22T08:30:38Z

所感

こんな簡単なfine-tuningでSoTAを達成できてしまうとは、末恐ろしい。ベースラインとして有用。

AkihikoWatanabe added Neural NaturalLanguageGeneration NLP DataToText Transformer labels Sep 16, 2022

AkihikoWatanabe changed the title ~~Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+ Google Research, INLG'20~~ Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+, Google Research, INLG'20 Sep 22, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+, Google Research, INLG'20 #488

Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+, Google Research, INLG'20 #488

AkihikoWatanabe commented Sep 16, 2022

AkihikoWatanabe commented Sep 22, 2022 •

edited

AkihikoWatanabe commented Sep 22, 2022

Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+, Google Research, INLG'20 #488

Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+, Google Research, INLG'20 #488

Comments

AkihikoWatanabe commented Sep 16, 2022

AkihikoWatanabe commented Sep 22, 2022 • edited

概要

手法

データセット

ToTTo（2020）

MultiWoz（2018）

WebNLG（2017）

Result

WebNLG

ToTTo

MultiWoz

Impact of Model capacity

AkihikoWatanabe commented Sep 22, 2022

所感

AkihikoWatanabe commented Sep 22, 2022 •

edited