You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
We demonstrate that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even becoming competitive with prior state-of-the-art fine-tuning approaches. Specifically, we train GPT-3, an autoregressive language model with 175 billion parameters, 10x more than any previous non-sparse language model, and test its performance in the few-shot setting. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model. GPT-3 achieves strong performance on many NLP datasets, including translation, question-answering, and cloze tasks. We also identify some datasets where GPT-3's few-shot learning still struggles, as well as some datasets where GPT-3 faces methodological issues related to training on large web corpora.
sometimes provide examples of the relevant task in the context
この “sometimes” をどう解釈したらよいのかがわからない。
GPT-3は少数の教師データのみで、高い精度でのタスク実行に成功した。
評価指標
Table 3
以下はGPT-3 Few-shotでSOTA
LAMBDA dataset ... GPT-3がSOTAに
TriviaQS ... GPT-3がSOTAに
以下もSOTAでは無いがそこそこ良い
StoryCloze
HellaSwag
WebQS
CoQA
BLEU
ここから下では Fine-tuned などSOTAと割と差がある
NaturalQS
ARC (Easy)
ARC (Challenge)
DROP
SuperGLUE
「そこそこ」「割と」というのは定性的な評価なので、ちゃんと数字でみること。
残された課題・議論
Fine-tuningしたときほどの精度は出ない
同じ意味の文章を繰り返してしまうことがある。
"世の中" に関するコンテキストを欠いている。(See Bisk et al., arXiv 2020)
サイズがものすごく大きいので、広く実用化させるのが難しい。
(GPT-3に限った話ではないが) 差別表現が入ってしまう
重要な引用
GPT-2
Radford, Alec, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, and Ilya Sutskever. 2019. “Language Models Are Unsupervised Multitask Learners.”
「世の中」に関するコンテキストをどう与えるか
Yonatan Bisk, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, Angeliki Lazaridou, Jonathan May, Aleksandr Nisnevich, et al. Experience grounds language. arXiv preprint arXiv:2004.10151, 2020.
査読済版:Bisk, Yonatan, Ari Holtzman, Jesse Thomason, Jacob Andreas, Yoshua Bengio, Joyce Chai, Mirella Lapata, et al. 2020. “Experience Grounds Language.” In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 8718–35. Online: Association for Computational Linguistics.
Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” 34th Conference on Neural Information Processing Systems. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html.
Abstract
(DeepL翻訳)
我々は、言語モデルをスケールアップすることで、タスクにとらわれない少数ショット性能が大幅に向上し、場合によっては、従来の最先端微調整アプローチと競合できることを実証する。具体的には、従来のノンスパース言語モデルの10倍にあたる1750億個のパラメータを持つ自己回帰型言語モデルGPT-3を学習し、その性能を少数点学習でテストします。全てのタスクにおいて、GPT-3は勾配の更新や微調整を行わず、タスクと数ショットのデモは純粋にモデルとのテキスト対話によって指定される。GPT-3は翻訳、質問応答、クロージングタスクを含む多くのNLPデータセットで高い性能を達成する。また、GPT-3のスモールショット学習が苦手とするデータセットや、GPT-3が大規模ウェブコーパスの学習に関する方法論的な問題に直面しているデータセットも確認することができます。
コード
非公開、APIのみ提供
解決した課題/先行研究との比較
技術・手法のポイント
arXiv版Fig.2.1
評価指標
Table 3
以下はGPT-3 Few-shotでSOTA
以下もSOTAでは無いがそこそこ良い
ここから下では Fine-tuned などSOTAと割と差がある
「そこそこ」「割と」というのは定性的な評価なので、ちゃんと数字でみること。
残された課題・議論
重要な引用
参考情報
The text was updated successfully, but these errors were encountered: