Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

A Simple and Effective Pruning Approach for Large Language Models, Mingjie Sun+, N/A, arXiv'23 #772

Open
AkihikoWatanabe opened this issue Jun 26, 2023 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Jun 26, 2023

URL

Affiliations

  • Mingjie Sun, N/A
  • Zhuang Liu, N/A
  • Anna Bair, N/A
  • J. Zico Kolter, N/A

Abstract

  • As their size increases, Large Languages Models (LLMs) are natural candidatesfor network pruning methods: approaches that drop a subset of network weightswhile striving to preserve performance. Existing methods, however, requireeither retraining, which is rarely affordable for billion-scale LLMs, orsolving a weight reconstruction problem reliant on second-order information,which may also be computationally expensive. In this paper, we introduce anovel, straightforward yet effective pruning method, termed Wanda (Pruning byWeights and activations), designed to induce sparsity in pretrained LLMs.Motivated by the recent observation of emergent large magnitude features inLLMs, our approach prune weights with the smallest magnitudes multiplied by thecorresponding input activations, on a per-output basis. Notably, Wanda requiresno retraining or weight update, and the pruned LLM can be used as is. Weconduct a thorough evaluation of our method on LLaMA across various languagebenchmarks. Wanda significantly outperforms the established baseline ofmagnitude pruning and competes favorably against recent methods involvingintensive weight update. Code is available athttps://github.com/locuslab/wanda.

Translation (by gpt-3.5-turbo)

  • 大規模言語モデル(LLMs)のサイズが増加するにつれて、ネットワークの重みの一部を削除しながら性能を維持するネットワークの剪定方法の自然な候補となります。しかし、既存の方法は、稀に10億スケールのLLMsに対して手頃な再トレーニングが必要であるか、2次情報に依存する重み再構成問題を解決する必要があり、計算コストが高くなる可能性があります。本論文では、事前学習されたLLMsに疎を誘発するために設計された、新しい、簡単で効果的な剪定方法であるWanda(重みと活性化による剪定)を紹介します。最近のLLMsにおける大きなマグニチュード特徴の観察に基づき、我々のアプローチは、出力ごとに、対応する入力活性化によって乗算された最小マグニチュードの重みを剪定します。特筆すべきことに、Wandaは再トレーニングや重みの更新を必要とせず、剪定されたLLMはそのまま使用できます。我々は、さまざまな言語ベンチマークでLLaMA上での我々の方法の徹底的な評価を行いました。Wandaは、大きさに基づく剪定の確立されたベースラインを大幅に上回り、重みの更新に関する最近の方法と競合する優れた性能を発揮します。コードはhttps://github.com/locuslab/wandaで利用可能です。

Summary (by gpt-3.5-turbo)

  • 本論文では、大規模言語モデル(LLMs)の剪定方法であるWandaを紹介している。Wandaは、重みと活性化による剪定を行い、再トレーニングや重みの更新を必要とせず、剪定されたLLMはそのまま使用できる。Wandaは、LLaMA上でのさまざまな言語ベンチマークで徹底的に評価され、大きさに基づく剪定の確立されたベースラインを大幅に上回り、重みの更新に関する最近の方法と競合する優れた性能を発揮することが示された。コードはhttps://github.com/locuslab/wandaで利用可能である。
@AkihikoWatanabe AkihikoWatanabe changed the title A Simple and Effective Pruning Approach for Large Language Models, Mingjie Sun+, N/A, arXiv'23 Jun 26, 2023
@AkihikoWatanabe
Copy link
Owner Author

LLMのネットワークのpruning手法を提案。再訓練、パラメータ更新無しで、性能低下が少なくて刈り込みが可能。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant