Update llama.py: kept reset functions and made their names generic

unslothai · pluesclues · Dec 12, 2024 · Dec 17, 2024 · Jan 7, 2025 · Feb 8, 2025
commit d219f2563db45a5f6ab6d0f6d57e7e3bac47d86c
diff --git a/unsloth/models/llama.py b/unsloth/models/llama.py
@@ -1583,12 +1583,13 @@ def _fast_generate(*args, **kwargs):
     return _fast_generate
 pass
 
-original_llama_attention_forward      = LlamaAttention.forward
-original_llama_sdpa_attention_forward = LlamaSdpaAttention.forward
-original_llama_flash_attention2_forward = LlamaFlashAttention2.forward
-original_llama_decoder_layer_forward  = LlamaDecoderLayer.forward
-original_llama_model_forward          = LlamaModel.forward
-original_llama_for_causal_lm_forward  = LlamaForCausalLM.forward
+
+original_attention_forward      = LlamaAttention.forward
+original_sdpa_attention_forward = LlamaSdpaAttention.forward
+original_flash_attention2_forward = LlamaFlashAttention2.forward
+original_decoder_layer_forward  = LlamaDecoderLayer.forward
+original_model_forward          = LlamaModel.forward
+original_for_causal_lm_forward  = LlamaForCausalLM.forward
 original_peft_model_for_causal_lm_forward = PeftModelForCausalLM.forward
 import transformers.models.llama.modeling_llama
 original_LLamaRotaryEmbedding =  transformers.models.llama.modeling_llama.LlamaRotaryEmbedding 
@@ -1607,15 +1608,16 @@ def set_functions():
         transformers.models.llama.modeling_llama.LlamaLinearScalingRotaryEmbedding = LlamaLinearScalingRotaryEmbedding
 
     def reset_functions():
-        LlamaAttention      .forward = original_llama_attention_forward
-        LlamaSdpaAttention  .forward = original_llama_sdpa_attention_forward
-        LlamaFlashAttention2.forward = original_llama_flash_attention2_forward
-        LlamaDecoderLayer   .forward = original_llama_decoder_layer_forward
-        LlamaModel          .forward = original_llama_model_forward
-        LlamaForCausalLM    .forward = original_llama_for_causal_lm_forward
+        LlamaAttention      .forward = original_attention_forward
+        LlamaSdpaAttention  .forward = original_sdpa_attention_forward
+        LlamaFlashAttention2.forward = original_flash_attention2_forward
+        LlamaDecoderLayer   .forward = original_decoder_layer_forward
+        LlamaModel          .forward = original_model_forward
+        LlamaForCausalLM    .forward = original_for_causal_lm_forward
         PeftModelForCausalLM.forward = original_peft_model_for_causal_lm_forward
         transformers.models.llama.modeling_llama.LlamaRotaryEmbedding = original_LLamaRotaryEmbedding 
         transformers.models.llama.modeling_llama.LlamaLinearScalingRotaryEmbedding = original_LLamaLinearScalingRotaryEmbedding
+
     @staticmethod
     def pre_patch():
         init_name, function = patch_llama_rope_scaling(