Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Language Models Are Few-Shot Learners #6

Open
shnakazawa opened this issue Nov 21, 2022 · 0 comments
Open

Language Models Are Few-Shot Learners #6

shnakazawa opened this issue Nov 21, 2022 · 0 comments
Labels
Natural language processing Papers related to NLP Transformer Papers using transformer

Comments

@shnakazawa
Copy link
Contributor

Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html.

  • 2020年にOpenAIのチームが発表した仕事、GPT-3。そのインパクトは言わずもがな。
  • NeurIPS ProceedingsバージョンarXivバージョンがある。本稿ではNeurIPSバージョンを参照する。
    • NeurIPSバージョンはarXivバージョンの短縮版(arXiv: 75ページ → NeurIPS: 25ページ)
    • 後半の構成も少し異なる
  • 1750億のパラメータ + 少数の教師データ (Few-shot learning)を用いることで多くのNLPタスクで良い成績を出した
    • 教師データが少数で良い (10~100例)ので、汎用的に使いやすい!
  • すでにGPT-3をベースにした様々な応用が世に出ている
    • 簡単なテキストによる指示でプログラミングコードを生成 (OpenAI Codex) → GitHub Copilotの裏側はこれ
    • 簡単なテキストによる指示でキャッチコピー生成 (Catchy, Copy.ai)
    • などなど、他にも多数: https://gpt3demo.com/

Abstract

We demonstrate that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even becoming competitive with prior state-of-the-art fine-tuning approaches. Specifically, we train GPT-3, an autoregressive language model with 175 billion parameters, 10x more than any previous non-sparse language model, and test its performance in the few-shot setting. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model. GPT-3 achieves strong performance on many NLP datasets, including translation, question-answering, and cloze tasks. We also identify some datasets where GPT-3's few-shot learning still struggles, as well as some datasets where GPT-3 faces methodological issues related to training on large web corpora.

(DeepL翻訳)

我々は、言語モデルをスケールアップすることで、タスクにとらわれない少数ショット性能が大幅に向上し、場合によっては、従来の最先端微調整アプローチと競合できることを実証する。具体的には、従来のノンスパース言語モデルの10倍にあたる1750億個のパラメータを持つ自己回帰型言語モデルGPT-3を学習し、その性能を少数点学習でテストします。全てのタスクにおいて、GPT-3は勾配の更新や微調整を行わず、タスクと数ショットのデモは純粋にモデルとのテキスト対話によって指定される。GPT-3は翻訳、質問応答、クロージングタスクを含む多くのNLPデータセットで高い性能を達成する。また、GPT-3のスモールショット学習が苦手とするデータセットや、GPT-3が大規模ウェブコーパスの学習に関する方法論的な問題に直面しているデータセットも確認することができます。

コード

非公開、APIのみ提供

解決した課題/先行研究との比較

  • 自然言語処理技術は、タスクに特化した「表現の学習」や「アーキテクチャの "設計" 」から、タスクに依存しない「事前学習」「アーキテクチャの "使用"」へと移行してきてる。
  • GPT-2はPre-trainedのモデルに "Translate English to French" のように、実行したいタスクを指示するだけ(= そのタスク用のFine-tuningは一切なし)で、標準的なNLPタスクをある程度の精度で実行できることを実証した。
  • しかしその性能はほとんどのタスクにおいて、最良の場合でも単純な教師ありベースラインにも遠く及ばないものであった。
  • 本論文の手法「GPT-3」は以下の工夫で、いくつかのタスクにおいてSOTAに匹敵する精度を達成した。

技術・手法のポイント

  • 事前学習アプローチやモデルのアーキテクチャはGPT-2論文 (Radford et al., 2019) と基本的には同じ
  • GPT-2との違いとして
    • データ数が多く、より多様
    • パラメータ数が多い (GPT-2: 1.5B; GPT-3: 175B)
    • Few-shot (10~100例) learning

Image from Gyazo

arXiv版Fig.2.1

  • XXXX-shotのXXXXはモデルに見せるデモンストレーションの数
    • すなわち、難易度的の高さ的には Zero-shot > One-shot > Few-shot
  • GPT-2はZero-shot, GPT-3はFew-shot
    • GPT-2で高い性能が得られなかった要因の一つは、Zero-shotという難易度の高いタスク設計にしていたため
    • GPT-2でも少数の例が提示されている?
      • sometimes provide examples of the relevant task in the context

      • この “sometimes” をどう解釈したらよいのかがわからない。
  • GPT-3は少数の教師データのみで、高い精度でのタスク実行に成功した。

評価指標

Table 3

以下はGPT-3 Few-shotでSOTA

  • LAMBDA dataset ... GPT-3がSOTAに
  • TriviaQS ... GPT-3がSOTAに

以下もSOTAでは無いがそこそこ良い

  • StoryCloze
  • HellaSwag
  • WebQS
  • CoQA
  • BLEU

ここから下では Fine-tuned などSOTAと割と差がある

  • NaturalQS
  • ARC (Easy)
  • ARC (Challenge)
  • DROP
  • SuperGLUE

「そこそこ」「割と」というのは定性的な評価なので、ちゃんと数字でみること。

残された課題・議論

  • Fine-tuningしたときほどの精度は出ない
  • 同じ意味の文章を繰り返してしまうことがある。
  • "世の中" に関するコンテキストを欠いている。(See Bisk et al., arXiv 2020)
  • サイズがものすごく大きいので、広く実用化させるのが難しい。
  • (GPT-3に限った話ではないが) 差別表現が入ってしまう

重要な引用

  • GPT-2
    • Radford, Alec, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, and Ilya Sutskever. 2019. “Language Models Are Unsupervised Multitask Learners.”
  • 「世の中」に関するコンテキストをどう与えるか
    • Yonatan Bisk, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, Angeliki Lazaridou, Jonathan May, Aleksandr Nisnevich, et al. Experience grounds language. arXiv preprint arXiv:2004.10151, 2020.
      • 査読済版:Bisk, Yonatan, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, et al. 2020. “Experience Grounds Language.” In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 8718–35. Online: Association for Computational Linguistics.

参考情報

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Natural language processing Papers related to NLP Transformer Papers using transformer
Projects
None yet
Development

No branches or pull requests

1 participant