# Low-Rank Adaption (LoRA)
This Notebook introduces how to apply low-rank adaptation (LoRA) to your model of choice using [Parameter-Efficient Fine-Tuning (PEFT) library developed by Hugging Face](https://huggingface.co/docs/peft/index). 


### Learning Objectives
1. Apply LoRA to a model
1. Fine-tune on your provided dataset
1. Save your model
1. Conduct inference using the fine-tuned model

In [None]:
!pip show ipykernel



In [1]:
!pip install peft==0.4.0

/bin/bash: /home/kookmin/chaewon/LLM-Document_Summarizer/.venv/bin/pip: /home/kookmin/chaewon/LLM_document_summary/.venv/bin/python3: bad interpreter: No such file or directory


In [3]:
!pip install accelerate

/bin/bash: /home/kookmin/chaewon/LLM-Document_Summarizer/.venv/bin/pip: /home/kookmin/chaewon/LLM_document_summary/.venv/bin/python3: bad interpreter: No such file or directory


In [4]:
mkdir cache

mkdir: cannot create directory ‘cache’: File exists


We will re-use the same dataset and model from the demo notebook.

In [5]:
mkdir offload

mkdir: cannot create directory ‘offload’: File exists


In [6]:
mkdir working

mkdir: cannot create directory ‘working’: File exists


In [7]:
!pip install datasets transformers

/bin/bash: /home/kookmin/chaewon/LLM-Document_Summarizer/.venv/bin/pip: /home/kookmin/chaewon/LLM_document_summary/.venv/bin/python3: bad interpreter: No such file or directory


In [None]:
from datasets import load_dataset
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "Bllossom/llama-3.2-Korean-Bllossom-3B"
foundation_model = AutoModelForCausalLM.from_pretrained(model_name, token=os.environ['TOKEN_1'], device_map='cuda', torch_dtype=torch.float32)
tokenizer = AutoTokenizer.from_pretrained(model_name, token=os.environ['TOKEN_1'], device_map='auto', torch_dtype=torch.float32)

data = load_dataset("Abirate/english_quotes", cache_dir="./working/cache"+"/datasets")
data = data.map(lambda samples: tokenizer(samples["quote"]), batched=True)
train_sample = data["train"].select(range(50))
display(train_sample) 

ImportError: Using `low_cpu_mem_usage=True` or a `device_map` requires Accelerate: `pip install 'accelerate>=0.26.0'`

In [4]:
# TODO
import peft
from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=1,  # dimension of the updated matrices
    lora_alpha=4,  # parameter for scaling
    target_modules=[
        "q_proj",
        # "up_proj",
        # "o_proj",
        # "k_proj",
        # "down_proj",
        # "gate_proj",
        # "v_proj"
    ],
    lora_dropout=0.1,  # dropout probability for layers
    bias="none",
    task_type="CAUSAL_LM",
)

In [3]:
# TODO
peft_model = get_peft_model(foundation_model, lora_config)
print(peft_model.print_trainable_parameters())

trainable params: 172,032 || all params: 3,212,921,856 || trainable%: 0.00535437859089966
None


In [3]:
# TODO
import transformers
from transformers import TrainingArguments, Trainer
import os

tokenizer.pad_token = tokenizer.eos_token

output_directory = os.path.join("./cache/working", "peft_lab_outputs")
training_args = TrainingArguments(
    report_to="none",
    output_dir=output_directory,
    auto_find_batch_size=True,
    learning_rate= 3e-2, # Higher learning rate than full fine-tuning.
    num_train_epochs=5,
    # no_cuda=True
)

trainer = Trainer(
    model=peft_model,
    args=training_args,
    train_dataset=train_sample,
    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False)
)
trainer.train()

NameError: name 'tokenizer' is not defined

In [2]:
import time
import os

time_now = time.time()

peft_model_path = os.path.join(output_directory, f"peft_model_{time_now}")

trainer.model.save_pretrained(peft_model_path)

NameError: name 'output_directory' is not defined

In [1]:
import torch
from transformers import BitsAndBytesConfig 
config = BitsAndBytesConfig(
            load_in_4bit=True,
            # bnb_4bit_quant_type="nf4",
            # bnb_4bit_use_double_quant=True,
            # bnb_4bit_compute_dtype=torch.bfloat16
        )

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# TODO
import os
from peft import PeftModel, PeftConfig
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

BASE_MODEL = "meta-llama/Llama-3.2-3B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
        BASE_MODEL,
        device_map="cuda",  # 두 번째 GPU로 할당
        quantization_config=config,
        token="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"
    )
tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, device_map="cuda", token="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")
tokenizer.add_special_tokens({"pad_token": tokenizer.eos_token})  # pad_token 설정
loaded_model = PeftModel.from_pretrained(model, "/workspace/LLM-Document_Summarizer/results/checkpoint-27534", 
                                        is_trainable=False)

Downloading shards: 100%|██████████| 2/2 [02:32<00:00, 76.33s/it] 
Loading checkpoint shards: 100%|██████████| 2/2 [00:10<00:00,  5.23s/it]


In [3]:
tokenizer("<|eot_id|>")

{'input_ids': [128000, 128009], 'attention_mask': [1, 1]}

In [4]:
from transformers import StoppingCriteria, StoppingCriteriaList

# 사용자 정의 StoppingCriteria
class StopOnKeyword(StoppingCriteria):
    def __init__(self, stop_words, tokenizer, max_words=500):
        self.stop_words = stop_words
        self.tokenizer = tokenizer
        self.words = 0
        self.max = max_words

    def __call__(self, input_ids, scores):
        generated_text = self.tokenizer.decode(input_ids[0], skip_special_tokens=True)
        self.words += 1
        if self.words > self.max:
            return any(word in generated_text[-1] for word in self.stop_words)
        return False


In [None]:
import json
with open('dataR.json', 'r') as F:
    d = json.load(F)
d

In [None]:
import os
import re
import torch
from transformers import StoppingCriteriaList

# CUDA 환경 설정 초기화
torch.cuda.empty_cache()
os.environ['CUDA_LAUNCH_BLOCKING'] = "0"
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

# 모델 장치 출력
print(f"Model device: {loaded_model.device}")

# 원본 텍스트
inputs_raw = """40억 달러 ‘딜’ 주인공 김봉진 우아한형제들 대표태풍 뒤의 고요함이랄까.
40억 달러짜리 ‘딜’(거래)을 마친 뒤의 사무실은 조용했다.
음식 배달 앱 ‘배달의민족’ 운영사 ㈜우아한형제들의 서울 송파구 방이동 사옥은 비어 있었다.
전 직원들에게 연말 특별 휴가를 선물한 김봉진(44) 대표는 혼자 출근해 남은 일을 처리하고 있었다.
축하한다는 말을 건네자 “이제 시작인 걸요”라는 답이 돌아왔다.
그에게 기업 매각은 단순한 ‘엑시트’(창업 후 지분 매각으로 이익을 실현하는 일)가 아니었다.
성공 스토리 뒤에는 환희의 무게만큼 고민이 자리 잡고 있었다.
독일계 음식 배달서비스업체 DH(딜리버리 히어로)가 평가한 우아한형제들의 기업가치는 약 4조8000억원.
국내 스타트업 M&A 사상 최대 규모다.
앱 하나로 평가받은 기업가치가 GS나 현대건설의 시가총액과 맞먹는다.
‘매각’이라는 표현을 썼지만, 창업자인 김 대표가 회사를 떠나는 것은 아니다.
오히려 역할이 커졌다.
두 회사가 절반씩 출자해 싱가포르에 세우는 합작법인 ‘우아DH아시아’의 책임자로서 아시아 11개국 사업을 총괄하게 된다.
DH는 우아한형제들의 투자자 지분 87%를 인수하고, 김 대표 등 경영진이 가진 지분 13%는 DH 본사 지분으로 전환하기로 했다.
그렇게 되면 김 대표는 DH 경영진 가운데 개인 최대 주주가 된다.
“더 큰 꿈 위해 글로벌 자본 선택” 김 대표의 고민은 ‘민족’이라는 단어에 닿아 있었다.
회사가 외국 자본에 넘어가면서 민족 브랜드가 어울리지 않게 됐다는 시선 때문이다.
소비자 반응이 긍정적이지만은 않다.
“겸허하게 받아들인다.
DH와는 경쟁 관계이지만 창업 초기부터 지속해서 교류해왔다.
그 과정에서 그들이 지닌 ‘글로벌 DNA’에 놀랐다.
DH는 홈그라운드 격인 독일 사업마저 네덜란드 기업에 넘기고 글로벌 마케팅을 강화해왔다.
그들과 계속 싸울지, 합쳐서 글로벌 무대로 나갈지 마지막까지 고민했다.
더 큰 도전을 위한 선택이라고 이해해줬으면 한다.
국내 상장도 생각해볼 수 있었을 텐데.
국내 상장이 이뤄지지 않아 아쉽긴 하다.
난들 여의도 거래소에서 멋있게 상장 축하 종을 쳐보고 싶지 않았겠나."""

summary_len = len(inputs_raw) // 100 * 10
prompt = f"""
MAKE SURE THAT YOU SUMMARIZE THE FOLLOWING TEXT TO A MAXIMUM OF {summary_len} OF ITS LENGTH. THE SUMMARY CAN BE SHORTER if all essential information is included, ensuring the following rules:

1. **Summary Quality:**
   - The summarized text should have no spelling errors or typos.
   - Avoid repeating similar content. If multiple sentences convey similar ideas, output only one concise sentence to represent them.
   - The text should be logically structured and divided into appropriate paragraphs to maintain readability.

2. **Prevent Duplication:**
   - Do not generate sentences that repeat or convey the same idea as other sentences within the summarized text.
   - If a sentence shares a similar meaning with another, only include the most concise and representative one. The rest must be omitted.
   - The summary does not need to reach a specific target length, as long as all essential information is included without duplication.

Ensure the final summarized text adheres to these rules and retains its readability and logical structure.
"""

inputs_raw = f"""<|begin_of_text|><|start_header_id|>user: <|end_header_id|>{prompt}
{inputs_raw}<|eot_id|><|start_header_id|>assistant: <|end_header_id|>
"""

# 종료 조건 설정
stop_words = ["."]  # 종료를 트리거하는 키워드
stopping_criteria = StoppingCriteriaList([StopOnKeyword(stop_words, tokenizer, summary_len)])

# 입력 토큰화
inputs = tokenizer(inputs_raw, return_tensors="pt").to('cuda')

# 출력 생성
outputs = loaded_model.generate(
    input_ids=inputs["input_ids"], 
    attention_mask=inputs["attention_mask"],
    max_new_tokens=len(inputs_raw) // 100 * 15,
    eos_token_id=128009,
    temperature=0.4,
    no_repeat_ngram_size=7,  # 반복을 방지
    # repetition_penalty = 1.2,
    stopping_criteria=stopping_criteria,  # 사용자 정의 종료 조건
    # early_stopping=True,
    do_sample=True
)

# 불필요한 특수 문자 제거 및 포맷팅
decoded_output = tokenizer.batch_decode(outputs, skip_special_tokens=False)[0]
filtered_output = decoded_output.replace(inputs_raw, '').strip()

# 한자 및 일본어 제거 함수
def remove_non_korean(text):
    """
    한자(중국어) 및 일본어를 제거하는 함수.
    유니코드 범위:
    - 한자: \u4E00-\u9FFF
    - 일본어(히라가나): \u3040-\u309F
    - 일본어(가타카나): \u30A0-\u30FF
    """
    return re.sub(r'[\u4E00-\u9FFF\u3040-\u309F\u30A0-\u30FF]+', '', text)

# 불필요한 문자 제거 및 최종 출력
final_output = remove_non_korean(filtered_output)
print(final_output)


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


Model device: cuda:0


<|begin_of_text|>우아한형제들 대표 김 대표는 DH의 투자자 지분 13%를 DH 본사 지분으로 인수하기로 했다. 김 대표는 DH 경영인 가운데 개인 최대 주주로 된다. 김 대표의 고민은 민족 브랜드가 외국 자본에 넘어가는 것에 닿아 있었다.


In [26]:
print(summary_len)
print(len(inputs_raw))
print(len(final_output))
print(len(inputs_raw) // 100 * 15)

50
2223
141
330


In [18]:
!export CUDA_LAUNCH_BLOCKING=1

UsageError: Cell magic `%%` not found.
