You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Large language models (LLMs) such as T0, FLAN, and OPT-IML, excel inmulti-tasking under a unified instruction-following paradigm, where they alsoexhibit remarkable generalization abilities to unseen tasks. Despite theirimpressive performance, these LLMs, with sizes ranging from several billion tohundreds of billions of parameters, demand substantial computational resources,making their training and inference expensive and inefficient. Furthermore,adapting these models to downstream applications, particularly complex tasks,is often unfeasible due to the extensive hardware requirements for finetuning,even when utilizing parameter-efficient approaches such as prompt tuning.Additionally, the most powerful multi-task LLMs, such as OPT-IML-175B andFLAN-PaLM-540B, are not publicly accessible, severely limiting theircustomization potential. To address these challenges, we introduce a pretrainedsmall scorer, Cappy, designed to enhance the performance and efficiency ofmulti-task LLMs. With merely 360 million parameters, Cappy functions eitherindependently on classification tasks or serve as an auxiliary component forLLMs, boosting their performance. Moreover, Cappy enables efficientlyintegrating downstream supervision without requiring LLM finetuning nor theaccess to their parameters. Our experiments demonstrate that, when workingindependently on 11 language understanding tasks from PromptSource, Cappyoutperforms LLMs that are several orders of magnitude larger. Besides, on 45complex tasks from BIG-Bench, Cappy boosts the performance of the advancedmulti-task LLM, FLAN-T5, by a large margin. Furthermore, Cappy is flexible tocooperate with other LLM adaptations, including finetuning and in-contextlearning, offering additional performance enhancement.
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
その印象的なパフォーマンスにもかかわらず、これらのLLMsは数十億から数千億のパラメータを持つため、大量の計算リソースを必要とし、トレーニングと推論が高価で効率的ではありません。
さらに、特に複雑なタスクに対してこれらのモデルを適用することは、パラメータ効率の良いアプローチであるプロンプトチューニングを使用していても、ファインチューニングのための広範なハードウェア要件のために実現不可能です。
さらに、OPT-IML-175BやFLAN-PaLM-540Bなどの最も強力なマルチタスクLLMsは一般に公開されておらず、カスタマイズの可能性が著しく制限されています。
これらの課題に対処するために、私たちは事前学習された小規模なスコアラーであるCappyを導入しました。Cappyはわずか3億6000万のパラメータで、分類タスクで独立して機能するか、LLMsの補助コンポーネントとして機能し、パフォーマンスを向上させます。
さらに、CappyはLLMのファインチューニングやパラメータへのアクセスを必要とせずに、ダウンストリームの監視を効率的に統合することができます。
私たちの実験では、PromptSourceの11つの言語理解タスクで独立して作業する場合、Cappyは桁違いに大きなLLMsを上回ります。
さらに、BIG-Benchの45の複雑なタスクでは、Cappyは高度なマルチタスクLLMであるFLAN-T5のパフォーマンスを大幅に向上させます。
さらに、Cappyはファインチューニングやインコンテキスト学習など、他のLLMの適応と柔軟に連携し、追加のパフォーマンス向上を提供します。
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: