LoRA論文解説 #528

AkihikoWatanabe · 2023-04-25T13:37:30Z

AkihikoWatanabe · 2023-04-25T13:39:25Z

ベースとなる事前学習モデルの一部の線形層の隣に、低ランク行列A,Bを導入し、A,Bのパラメータのみをfinetuningの対象とすることで、チューニングするパラメータ数を激減させた上で同等の予測性能を達成し、推論速度も変わらないようにするfinetuning手法の解説

AkihikoWatanabe · 2023-04-25T13:45:19Z

LoRAを使うと、でかすぎるモデルだと、そもそもGPUに載らない問題や、ファインチューニング後のモデルファイルでかすぎワロタ問題が回避できる。

前者は事前学習済みモデルのBPのための勾配を保存しておく必要がなくなるため学習時にメモリ節約になる。後者はA,Bのパラメータだけ保存すればいいので、ストレージの節約になる。

かつ、学習速度が25%程度早くなる。

AkihikoWatanabe · 2023-04-25T13:52:40Z

既存研究であるAdapter（transformerの中に学習可能なMLPを差し込む手法）は推論コストが増加し、prefix tuningは学習が非常に難しく、高い性能を達成するためにprefixとして128 token入れたりしなければならない。

AkihikoWatanabe · 2023-04-25T13:54:29Z

huggingfaceがすでにLoRAを実装している
https://github.com/huggingface/peft

AkihikoWatanabe added Neural Efficiency/SpeedUp NLP LanguageModel Library labels Apr 25, 2023

AkihikoWatanabe added the Adapter/LoRA label Dec 4, 2023

Provide feedback