You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Existing large language models (LLMs) can only afford fix-sized inputs due tothe input length limit, preventing them from utilizing rich long-contextinformation from past inputs. To address this, we propose a framework, LanguageModels Augmented with Long-Term Memory (LongMem), which enables LLMs tomemorize long history. We design a novel decoupled network architecture withthe original backbone LLM frozen as a memory encoder and an adaptive residualside-network as a memory retriever and reader. Such a decoupled memory designcan easily cache and update long-term past contexts for memory retrievalwithout suffering from memory staleness. Enhanced with memory-augmentedadaptation training, LongMem can thus memorize long past context and uselong-term memory for language modeling. The proposed memory retrieval modulecan handle unlimited-length context in its memory bank to benefit variousdownstream tasks. Typically, LongMem can enlarge the long-form memory to 65ktokens and thus cache many-shot extra demonstration examples as long-formmemory for in-context learning. Experiments show that our method outperformsstrong long-context models on ChapterBreak, a challenging long-context modelingbenchmark, and achieves remarkable improvements on memory-augmented in-contextlearning over LLMs. The results demonstrate that the proposed method iseffective in helping language models to memorize and utilize long-formcontents. Our code is open-sourced at https://aka.ms/LongMem.
Translation (by gpt-3.5-turbo)
現在存在する大規模言語モデル(LLMs)は、入力長の制限により固定サイズの入力しか扱えず、過去の長い文脈情報を活用することができません。この問題に対処するため、本研究では、長期記憶を持つ言語モデルを実現するためのフレームワークである「Language Models Augmented with Long-Term Memory (LongMem)」を提案します。オリジナルのバックボーンLLMをメモリエンコーダとして凍結し、アダプティブなリジュアルサイドネットワークをメモリリトリーバーとリーダーとして使用する新しいデカップルネットワークアーキテクチャを設計します。このようなデカップルメモリ設計により、メモリの古さに苦しむことなく、長期過去の文脈情報を簡単にキャッシュして更新し、メモリリトリーバーによるメモリの取得を可能にします。メモリ拡張適応トレーニングによって強化されたLongMemは、長期過去の文脈を記憶し、言語モデリングに長期記憶を活用することができます。提案されたメモリリトリーバーモジュールは、メモリバンク内の無制限の長さの文脈を扱うことができ、様々なダウンストリームタスクに利益をもたらします。通常、LongMemは長い形式のメモリを65kトークンまで拡張し、多数のデモンストレーション例を長い形式のメモリとしてキャッシュして、コンテキスト内学習に利用することができます。実験結果は、本手法が、長い文脈モデリングの難しいベンチマークであるChapterBreakにおいて、強力な長文脈モデルを上回り、LLMsに比べてメモリ拡張インコンテキスト学習において顕著な改善を達成することを示しています。これらの結果は、提案手法が長い形式のコンテンツを記憶し活用することに効果的であることを示しています。本研究のコードは、https://aka.ms/LongMemでオープンソース化されています。
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: