Language Models Are Few-Shot Learners #6

shnakazawa · 2022-11-21T07:08:09Z

Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html.

2020年にOpenAIのチームが発表した仕事、GPT-3。そのインパクトは言わずもがな。
NeurIPS ProceedingsバージョンとarXivバージョンがある。本稿ではNeurIPSバージョンを参照する。
- NeurIPSバージョンはarXivバージョンの短縮版（arXiv: 75ページ → NeurIPS: 25ページ）
- 後半の構成も少し異なる
1750億のパラメータ + 少数の教師データ (Few-shot learning)を用いることで多くのNLPタスクで良い成績を出した
- 教師データが少数で良い (10~100例)ので、汎用的に使いやすい！
すでにGPT-3をベースにした様々な応用が世に出ている
- 簡単なテキストによる指示でプログラミングコードを生成 (OpenAI Codex) → GitHub Copilotの裏側はこれ
- 簡単なテキストによる指示でキャッチコピー生成 (Catchy, Copy.ai)
- などなど、他にも多数: https://gpt3demo.com/

Abstract

We demonstrate that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even becoming competitive with prior state-of-the-art fine-tuning approaches. Specifically, we train GPT-3, an autoregressive language model with 175 billion parameters, 10x more than any previous non-sparse language model, and test its performance in the few-shot setting. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model. GPT-3 achieves strong performance on many NLP datasets, including translation, question-answering, and cloze tasks. We also identify some datasets where GPT-3's few-shot learning still struggles, as well as some datasets where GPT-3 faces methodological issues related to training on large web corpora.

(DeepL翻訳)

我々は、言語モデルをスケールアップすることで、タスクにとらわれない少数ショット性能が大幅に向上し、場合によっては、従来の最先端微調整アプローチと競合できることを実証する。具体的には、従来のノンスパース言語モデルの10倍にあたる1750億個のパラメータを持つ自己回帰型言語モデルGPT-3を学習し、その性能を少数点学習でテストします。全てのタスクにおいて、GPT-3は勾配の更新や微調整を行わず、タスクと数ショットのデモは純粋にモデルとのテキスト対話によって指定される。GPT-3は翻訳、質問応答、クロージングタスクを含む多くのNLPデータセットで高い性能を達成する。また、GPT-3のスモールショット学習が苦手とするデータセットや、GPT-3が大規模ウェブコーパスの学習に関する方法論的な問題に直面しているデータセットも確認することができます。

コード

非公開、APIのみ提供

解決した課題/先行研究との比較

自然言語処理技術は、タスクに特化した「表現の学習」や「アーキテクチャの "設計" 」から、タスクに依存しない「事前学習」「アーキテクチャの "使用"」へと移行してきてる。
GPT-2はPre-trainedのモデルに "Translate English to French" のように、実行したいタスクを指示するだけ（= そのタスク用のFine-tuningは一切なし）で、標準的なNLPタスクをある程度の精度で実行できることを実証した。
しかしその性能はほとんどのタスクにおいて、最良の場合でも単純な教師ありベースラインにも遠く及ばないものであった。
本論文の手法「GPT-3」は以下の工夫で、いくつかのタスクにおいてSOTAに匹敵する精度を達成した。

技術・手法のポイント

事前学習アプローチやモデルのアーキテクチャはGPT-2論文 (Radford et al., 2019) と基本的には同じ
GPT-2との違いとして
- データ数が多く、より多様に
- パラメータ数が多い (GPT-2: 1.5B; GPT-3: 175B)
- Few-shot (10~100例) learning

arXiv版Fig.2.1

XXXX-shotのXXXXはモデルに見せるデモンストレーションの数。
- すなわち、難易度的の高さ的には Zero-shot > One-shot > Few-shot
GPT-2はZero-shot, GPT-3はFew-shot
- GPT-2で高い性能が得られなかった要因の一つは、Zero-shotという難易度の高いタスク設計にしていたため
- GPT-2でも少数の例が提示されている？
  - sometimes provide examples of the relevant task in the context
  - この “sometimes” をどう解釈したらよいのかがわからない。
GPT-3は少数の教師データのみで、高い精度でのタスク実行に成功した。

評価指標

Table 3

以下はGPT-3 Few-shotでSOTA

LAMBDA dataset ... GPT-3がSOTAに
TriviaQS ... GPT-3がSOTAに

以下もSOTAでは無いがそこそこ良い

StoryCloze
HellaSwag
WebQS
CoQA
BLEU

ここから下では Fine-tuned などSOTAと割と差がある

NaturalQS
ARC (Easy)
ARC (Challenge)
DROP
SuperGLUE

「そこそこ」「割と」というのは定性的な評価なので、ちゃんと数字でみること。

残された課題・議論

Fine-tuningしたときほどの精度は出ない
同じ意味の文章を繰り返してしまうことがある。
"世の中" に関するコンテキストを欠いている。(See Bisk et al., arXiv 2020)
サイズがものすごく大きいので、広く実用化させるのが難しい。
(GPT-3に限った話ではないが) 差別表現が入ってしまう

重要な引用

GPT-2
- Radford, Alec, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, and Ilya Sutskever. 2019. “Language Models Are Unsupervised Multitask Learners.”
「世の中」に関するコンテキストをどう与えるか
- Yonatan Bisk, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, Angeliki Lazaridou, Jonathan May, Aleksandr Nisnevich, et al. Experience grounds language. arXiv preprint arXiv:2004.10151, 2020.
  - 査読済版：Bisk, Yonatan, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, et al. 2020. “Experience Grounds Language.” In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 8718–35. Online: Association for Computational Linguistics.

参考情報

SlideShare - 深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
SlideShare - ゼロから始める転移学習
楽しみながら理解するAI・機械学習入門 - 【論文解説】OpenAI 「GPT-3」を理解する
Japlo - GPT-3から我々は何を学べばいいのか
Twitter - OpenAI CEOのツイート
Zenn - GPT-3におけるFew-Shot・Zero-Shot
- XXXX-shotという言葉について。同じ機械学習の文脈で、それぞれ別の意味合いで使われる場合があるので注意が必要。

shnakazawa added Natural language processing Papers related to NLP Transformer Papers using transformer labels Nov 21, 2022

snhryt-neo mentioned this issue Jan 4, 2023

Training language models to follow instructions with human feedback #11

Open

kanazashi-s mentioned this issue Apr 10, 2023

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models #18

Open

kanazashi-s mentioned this issue Apr 24, 2023

Is GPT-3 all you need for low-data discovery in chemistry? #19

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Language Models Are Few-Shot Learners #6

Language Models Are Few-Shot Learners #6

shnakazawa commented Nov 21, 2022

Language Models Are Few-Shot Learners #6

Language Models Are Few-Shot Learners #6

Comments

shnakazawa commented Nov 21, 2022

Abstract

コード

解決した課題/先行研究との比較

技術・手法のポイント

評価指標

残された課題・議論

重要な引用

参考情報