Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Blockwise Parallel Transformer for Long Context Large Models, Hao Liu+, N/A, arXiv'23 #747

Open
AkihikoWatanabe opened this issue Jun 16, 2023 · 0 comments
Labels

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Jun 16, 2023

URL

Affiliations

  • Hao Liu, N/A
  • Pieter Abbeel, N/A

Abstract

  • Transformers have emerged as the cornerstone of state-of-the-art naturallanguage processing models, showcasing exceptional performance across a widerange of AI applications. However, the memory demands posed by theself-attention mechanism and the large feedforward network in Transformerslimit their ability to handle long sequences, thereby creating challenges fortasks involving multiple long sequences or long-term dependencies. We present adistinct approach, Blockwise Parallel Transformer (BPT), that leveragesblockwise computation of self-attention and feedforward network fusion tominimize memory costs. By processing longer input sequences while maintainingmemory efficiency, BPT enables training sequences up to 32 times longer thanvanilla Transformers and 2 to 4 times longer than previous memory-efficientmethods. Extensive experiments on language modeling and reinforcement learningtasks demonstrate the effectiveness of BPT in reducing memory requirements andimproving performance.

Translation (by gpt-3.5-turbo)

  • トランスフォーマーは、最先端の自然言語処理モデルの基盤として登場し、幅広いAIアプリケーションにおいて優れたパフォーマンスを発揮しています。しかし、トランスフォーマーの自己注意機構と大規模なフィードフォワードネットワークによって引き起こされるメモリ要件は、長いシーケンスを扱う能力を制限し、複数の長いシーケンスや長期的な依存関係を必要とするタスクに課題を生じさせます。本研究では、ブロックごとの並列トランスフォーマー(BPT)という独自のアプローチを提案し、自己注意とフィードフォワードネットワークのブロックごとの計算と融合を活用してメモリコストを最小限に抑えます。BPTは、メモリ効率を維持しながらより長い入力シーケンスを処理することにより、バニラトランスフォーマーの32倍、以前のメモリ効率の高い方法の2〜4倍の長さのトレーニングシーケンスを可能にします。言語モデリングや強化学習タスクにおける徹底的な実験により、BPTがメモリ要件を削減し、パフォーマンスを向上させる効果を実証しました。

Summary (by gpt-3.5-turbo)

  • トランスフォーマーの自己注意機構とフィードフォワードネットワークによるメモリ要件の制限を解決するために、ブロックごとの並列トランスフォーマー(BPT)を提案。BPTは、メモリ効率を維持しながらより長い入力シーケンスを処理することができ、徹底的な実験により、言語モデリングや強化学習タスクにおいてパフォーマンスを向上させることが示された。
@AkihikoWatanabe AkihikoWatanabe changed the title Blockwise Parallel Transformer for Long Context Large Models, Hao Liu+, N/A, arXiv'23 Jun 16, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant