Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Augmenting Language Models with Long-Term Memory, Weizhi Wang+, N/A, arXiv'23 #724

Open
AkihikoWatanabe opened this issue Jun 16, 2023 · 0 comments
Labels

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Jun 16, 2023

URL

Affiliations

  • Weizhi Wang, N/A
  • Li Dong, N/A
  • Hao Cheng, N/A
  • Xiaodong Liu, N/A
  • Xifeng Yan, N/A
  • Jianfeng Gao, N/A
  • Furu Wei, N/A

Abstract

  • Existing large language models (LLMs) can only afford fix-sized inputs due tothe input length limit, preventing them from utilizing rich long-contextinformation from past inputs. To address this, we propose a framework, LanguageModels Augmented with Long-Term Memory (LongMem), which enables LLMs tomemorize long history. We design a novel decoupled network architecture withthe original backbone LLM frozen as a memory encoder and an adaptive residualside-network as a memory retriever and reader. Such a decoupled memory designcan easily cache and update long-term past contexts for memory retrievalwithout suffering from memory staleness. Enhanced with memory-augmentedadaptation training, LongMem can thus memorize long past context and uselong-term memory for language modeling. The proposed memory retrieval modulecan handle unlimited-length context in its memory bank to benefit variousdownstream tasks. Typically, LongMem can enlarge the long-form memory to 65ktokens and thus cache many-shot extra demonstration examples as long-formmemory for in-context learning. Experiments show that our method outperformsstrong long-context models on ChapterBreak, a challenging long-context modelingbenchmark, and achieves remarkable improvements on memory-augmented in-contextlearning over LLMs. The results demonstrate that the proposed method iseffective in helping language models to memorize and utilize long-formcontents. Our code is open-sourced at https://aka.ms/LongMem.

Translation (by gpt-3.5-turbo)

  • 現在存在する大規模言語モデル(LLMs)は、入力長の制限により固定サイズの入力しか扱えず、過去の長い文脈情報を活用することができません。この問題に対処するため、本研究では、長期記憶を持つ言語モデルを実現するためのフレームワークである「Language Models Augmented with Long-Term Memory (LongMem)」を提案します。オリジナルのバックボーンLLMをメモリエンコーダとして凍結し、アダプティブなリジュアルサイドネットワークをメモリリトリーバーとリーダーとして使用する新しいデカップルネットワークアーキテクチャを設計します。このようなデカップルメモリ設計により、メモリの古さに苦しむことなく、長期過去の文脈情報を簡単にキャッシュして更新し、メモリリトリーバーによるメモリの取得を可能にします。メモリ拡張適応トレーニングによって強化されたLongMemは、長期過去の文脈を記憶し、言語モデリングに長期記憶を活用することができます。提案されたメモリリトリーバーモジュールは、メモリバンク内の無制限の長さの文脈を扱うことができ、様々なダウンストリームタスクに利益をもたらします。通常、LongMemは長い形式のメモリを65kトークンまで拡張し、多数のデモンストレーション例を長い形式のメモリとしてキャッシュして、コンテキスト内学習に利用することができます。実験結果は、本手法が、長い文脈モデリングの難しいベンチマークであるChapterBreakにおいて、強力な長文脈モデルを上回り、LLMsに比べてメモリ拡張インコンテキスト学習において顕著な改善を達成することを示しています。これらの結果は、提案手法が長い形式のコンテンツを記憶し活用することに効果的であることを示しています。本研究のコードは、https://aka.ms/LongMemでオープンソース化されています。

Summary (by gpt-3.5-turbo)

  • 本研究では、長期記憶を持つ言語モデルを実現するための「LongMem」というフレームワークを提案し、メモリリトリーバーとリーダーを使用する新しいデカップルネットワークアーキテクチャを設計しました。LongMemは、長期過去の文脈を記憶し、言語モデリングに長期記憶を活用することができます。提案されたメモリリトリーバーモジュールは、メモリバンク内の無制限の長さの文脈を扱うことができ、様々なダウンストリームタスクに利益をもたらします。実験結果は、本手法が、長い文脈モデリングの難しいベンチマークであるChapterBreakにおいて、強力な長文脈モデルを上回り、LLMsに比べてメモリ拡張インコンテキスト学習において顕著な改善を達成することを示しています。
@AkihikoWatanabe AkihikoWatanabe changed the title Augmenting Language Models with Long-Term Memory, Weizhi Wang+, N/A, arXiv'23 Jun 16, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant