Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Exponentially Faster Language Modelling, Peter Belcak+, N/A, arXiv'23 #1163

Open
AkihikoWatanabe opened this issue Nov 23, 2023 · 0 comments

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Nov 23, 2023

URL

Affiliations

  • Peter Belcak, N/A
  • Roger Wattenhofer, N/A

Abstract

  • Language models only really need to use an exponential fraction of theirneurons for individual inferences. As proof, we present UltraFastBERT, a BERTvariant that uses 0.3% of its neurons during inference while performing on parwith similar BERT models. UltraFastBERT selectively engages just 12 out of 4095neurons for each layer inference. This is achieved by replacing feedforwardnetworks with fast feedforward networks (FFFs). While no truly efficientimplementation currently exists to unlock the full acceleration potential ofconditional neural execution, we provide high-level CPU code achieving 78xspeedup over the optimized baseline feedforward implementation, and a PyTorchimplementation delivering 40x speedup over the equivalent batched feedforwardinference. We publish our training code, benchmarking setup, and model weights.

Translation (by gpt-3.5-turbo)

  • 言語モデルは、個々の推論において指数的な割合のニューロンしか必要としない。その証拠として、私たちはUltraFastBERTを提案する。UltraFastBERTは、推論時に0.3%のニューロンしか使用せず、同様のBERTモデルと同等の性能を発揮する。UltraFastBERTは、各レイヤーの推論に4095個のニューロンのうちわずか12個を選択的に使用する。これは、フィードフォワードネットワークを高速フィードフォワードネットワーク(FFF)で置き換えることによって実現される。現在、条件付きニューラル実行の完全な高速化ポテンシャルを引き出すための真に効率的な実装は存在しないが、最適化されたベースラインのフィードフォワード実装に比べて78倍の高速化を実現する高レベルのCPUコードと、バッチ処理されたフィードフォワード推論に対して40倍の高速化を実現するPyTorch実装を提供する。私たちは、トレーニングコード、ベンチマークのセットアップ、およびモデルの重みを公開している。

Summary (by gpt-3.5-turbo)

  • UltraFastBERTは、推論時にわずか0.3%のニューロンしか使用せず、同等の性能を発揮することができる言語モデルです。UltraFastBERTは、高速フィードフォワードネットワーク(FFF)を使用して、効率的な実装を提供します。最適化されたベースラインの実装に比べて78倍の高速化を実現し、バッチ処理された推論に対しては40倍の高速化を実現します。トレーニングコード、ベンチマークのセットアップ、およびモデルの重みも公開されています。
@AkihikoWatanabe AkihikoWatanabe changed the title Exponentially Faster Language Modelling, Peter Belcak+, N/A, arXiv'23 Nov 23, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant