Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+, Google Research, INLG'20 #488

Open
AkihikoWatanabe opened this issue Sep 16, 2022 · 2 comments

Comments

@AkihikoWatanabe
Copy link
Owner

https://aclanthology.org/2020.inlg-1.14.pdf

@AkihikoWatanabe AkihikoWatanabe changed the title Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+ Google Research, INLG'20 Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+, Google Research, INLG'20 Sep 22, 2022
@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Sep 22, 2022

概要

pre-training済みのT5に対して、Data2Textのデータセットでfinetuningを実施する方法を提案。WebNLG(graph-to-text), ToTTo(table-to-text), Multiwoz(task oriented dialogue)データにおいて、simpleなTransformerでも洗練されたmulti-stageなpipelined approachをoutperformできることを示した研究。

手法

事前学習済みのT5に対してfine-tuningを実施した。手法はシンプルで、data-to-textタスクをtext-to-textタスクに変換した。具体的には、構造かされたデータをflatな文字列(linearization)で表現することで、text-to-textタスクに変換。各データセットに対するlinearizationのイメージは下図。デリミタや特殊文字を使って構造かされたデータをflatなstringで表現している。
image

データセット

ToTTo(2020)

Wikipediaのテーブルと自然言語でdescriptionのペアデータ

MultiWoz(2018)

10Kの人間同士のtask-orientedなdialogueデータ。

WebNLG(2017)

subject-object-predicateの3組みをテキスト表現に変換するタスクのデータ

image

Result

WebNLG

image
GCNを利用した2020年に提案されたDualEncがSoTAだったらしいが、outperormしている。

ToTTo

image
こちらのリーダーボードと比較してSoTAを記録

MultiWoz

image
T5は事前学習済みGPT-2をfinetuningした手法もoutperformした。SC-GPT2は当時のMultiWozでのSoTA

Impact of Model capacity

T5モデルのサイズがどれが良いかについては、データセットのサイズと複雑さに依存することを考察している。たとえば、MultiWozデータは構造化データのバリエーションが最も少なく、データ量も56kと比較的多かった。このため、T5-smallでもより大きいモデルの性能に肉薄できている。
一方、WebNLGデータセットは、18kしか事例がなく、特徴量も約200種類程度のrelationのみである。このような場合、モデルサイズが大きくなるにつれパフォーマンスも向上した(特にUnseen test set)。特にBLEUスコアはT5-smallがT5-baseになると、10ポイントもジャンプしており、modelのcapacityがout-of-domainに対する一般化に対してcriticalであることがわかる。ToTToデータセットでも、SmallからBaseにするとパフォーマンスは改善した。

@AkihikoWatanabe
Copy link
Owner Author

所感

こんな簡単なfine-tuningでSoTAを達成できてしまうとは、末恐ろしい。ベースラインとして有用。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant