Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

The Unreasonable Ineffectiveness of the Deeper Layers, Andrey Gromov+, N/A, arXiv'24 #1292

Open
AkihikoWatanabe opened this issue Apr 22, 2024 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Apr 22, 2024

URL

Affiliations

  • Andrey Gromov, N/A
  • Kushal Tirumala, N/A
  • Hassan Shapourian, N/A
  • Paolo Glorioso, N/A
  • Daniel A. Roberts, N/A

Abstract

  • We empirically study a simple layer-pruning strategy for popular families ofopen-weight pretrained LLMs, finding minimal degradation of performance ondifferent question-answering benchmarks until after a large fraction (up tohalf) of the layers are removed. To prune these models, we identify the optimalblock of layers to prune by considering similarity across layers; then, to"heal" the damage, we perform a small amount of finetuning. In particular, weuse parameter-efficient finetuning (PEFT) methods, specifically quantizationand Low Rank Adapters (QLoRA), such that each of our experiments can beperformed on a single A100 GPU. From a practical perspective, these resultssuggest that layer pruning methods can complement other PEFT strategies tofurther reduce computational resources of finetuning on the one hand, and canimprove the memory and latency of inference on the other hand. From ascientific perspective, the robustness of these LLMs to the deletion of layersimplies either that current pretraining methods are not properly leveraging theparameters in the deeper layers of the network or that the shallow layers playa critical role in storing knowledge.

Translation (by gpt-3.5-turbo)

  • 我々は、一般的なオープンウェイトの事前学習されたLLMのシンプルなレイヤー剪定戦略を実証的に研究し、異なる質問応答ベンチマークでのパフォーマンスの最小の低下を見出しました。最大で半分のレイヤーが削除されるまで、これらのモデルを剪定すると、レイヤー間の類似性を考慮して剪定する最適なブロックを特定し、その後、損傷を修復するためにわずかな微調整を行います。特に、パラメータ効率の微調整(PEFT)手法、具体的には量子化とLow Rank Adapters(QLoRA)を使用し、各実験を単一のA100 GPUで実行できるようにします。実用的な観点から、これらの結果は、レイヤー剪定方法が一方で微調整の計算リソースをさらに削減し、他方で推論のメモリとレイテンシを改善することができることを示唆しています。科学的な観点からは、これらのLLMがレイヤーの削除に対して堅牢であることは、現在の事前学習方法がネットワークのより深いレイヤーのパラメータを適切に活用していないか、浅いレイヤーが知識を格納する上で重要な役割を果たしている可能性があることを意味しています。

Summary (by gpt-3.5-turbo)

  • 一般的なオープンウェイトの事前学習されたLLMのレイヤー剪定戦略を研究し、異なる質問応答ベンチマークでのパフォーマンスの低下を最小限に抑えることを示しました。レイヤーの最大半分を削除することで、最適なブロックを特定し、微調整して損傷を修復します。PEFT手法を使用し、実験を単一のA100 GPUで実行可能にします。これにより、計算リソースを削減し、推論のメモリとレイテンシを改善できることが示唆されます。また、LLMがレイヤーの削除に対して堅牢であることは、浅いレイヤーが知識を格納する上で重要な役割を果たしている可能性を示唆しています。
@AkihikoWatanabe AkihikoWatanabe changed the title The Unreasonable Ineffectiveness of the Deeper Layers, Andrey Gromov+, N/A, arXiv'24 Apr 22, 2024
@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Apr 22, 2024

下記ツイートによると、学習済みLLMから、コサイン類似度で入出力間の類似度が高い層を除いてもタスクの精度が落ちず、特に深い層を2-4割削除しても精度が落ちないとのこと。

参考:https://x.com/hillbig/status/1773110076502368642?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q

VRAMに載せるのが大変なので、このような枝刈り技術が有効だと分かるのはありがたい。LoRAや量子化も利用しているっぽい。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant