Recurrent Memory Transformer, Bulatov+, NeurIPS'22 #523

AkihikoWatanabe · 2023-04-25T07:29:34Z

AkihikoWatanabe · 2023-04-25T07:37:45Z

TransformerはO(N^2)であり、計算量がNに応じて指数関数的に増加してしまう。一方、sequenceの情報を全てN次元ベクトルに集約しなければならず、計算量の制約によって長い系列のRepresentationを獲得できない。
そこで、Transformerの構造は変えず、Inputにメモリtokenを追加することで、メモリ間の関係性を学習できるような手法を提案。長いトークン列に対しても、トークン列をセグメントとゆばれる単位に区切り、セグメントのInputの頭で、前断のセグメントのメモリtokenを入力し、最終的に現在のセグメントのメモリをoutputし、後断のセグメントに入力とする、といったことを繰り返すことで、長い系列も扱えるようにした。
セグメントをまたいでbackpropagationをかけることで、たとえセグメントとしては独立していても、メモリの情報を考慮することでセグメント間の依存関係を学習することが可能だと思われる。

AkihikoWatanabe added NLP LanguageModel labels Apr 25, 2023

AkihikoWatanabe mentioned this issue Apr 25, 2023

Scaling Transformer to 1M tokens and beyond with RMT, Bulatov+, DeepPavlov, arXiv'23 #529

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Recurrent Memory Transformer, Bulatov+, NeurIPS'22 #523

Recurrent Memory Transformer, Bulatov+, NeurIPS'22 #523

AkihikoWatanabe commented Apr 25, 2023

AkihikoWatanabe commented Apr 25, 2023

Recurrent Memory Transformer, Bulatov+, NeurIPS'22 #523

Recurrent Memory Transformer, Bulatov+, NeurIPS'22 #523

Comments

AkihikoWatanabe commented Apr 25, 2023

AkihikoWatanabe commented Apr 25, 2023