You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
State-space models (SSMs), such as Mamba Gu & Dao (2034), have been proposedas alternatives to Transformer networks in language modeling, by incorporatinggating, convolutions, and input-dependent token selection to mitigate thequadratic cost of multi-head attention. Although SSMs exhibit competitiveperformance, their in-context learning (ICL) capabilities, a remarkableemergent property of modern language models that enables task execution withoutparameter optimization, remain underexplored compared to Transformers. In thisstudy, we evaluate the ICL performance of SSMs, focusing on Mamba, againstTransformer models across various tasks. Our results show that SSMs performcomparably to Transformers in standard regression ICL tasks, whileoutperforming them in tasks like sparse parity learning. However, SSMs fallshort in tasks involving non-standard retrieval functionality. To address theselimitations, we introduce a hybrid model, \variant, that combines Mamba withattention blocks, surpassing individual models in tasks where they struggleindependently. Our findings suggest that hybrid architectures offer promisingavenues for enhancing ICL in language models.
AkihikoWatanabe
changed the title
あ
Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning
Tasks, Jongho Park+, N/A, arXiv'24
Feb 11, 2024
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
SSMは競争力のあるパフォーマンスを示していますが、モダンな言語モデルの顕著な新たな特性であるインコンテキスト学習(ICL)能力は、Transformerと比較して未だに十分に探求されていません。
本研究では、Mambaを中心に、さまざまなタスクにおけるSSMのICLパフォーマンスをTransformerモデルと比較評価します。
結果は、SSMが標準的な回帰ICLタスクではTransformerと同等のパフォーマンスを示す一方、スパースパリティ学習などのタスクではTransformerを上回ることを示しています。
ただし、非標準的な検索機能を必要とするタスクでは、SSMは不十分です。
これらの制限に対処するために、Mambaとアテンションブロックを組み合わせたハイブリッドモデルである「\variant」を提案し、個々のモデルが独立して苦労するタスクで、個々のモデルを上回る結果を示しました。
私たちの結果は、ハイブリッドアーキテクチャが言語モデルのICLを向上させる有望な手段を提供することを示唆しています。
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: