## 참고
https://rocm.blogs.amd.com/artificial-intelligence/llama2-lora/README.html  
https://blog.sionic.ai/finetuning_llama

In [58]:
from datasets import load_dataset, Dataset
import datasets
from random import randrange
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM,TrainingArguments,pipeline, BitsAndBytesConfig, DataCollatorForSeq2Seq
from peft import LoraConfig, prepare_model_for_kbit_training, get_peft_model, AutoPeftModelForCausalLM, PeftModel
from trl import SFTTrainer

In [59]:
import os

current_dir = os.getcwd()
gemma_model_dir = os.path.join(current_dir, "../gemma-2-2b")
gemma_model = "google/gemma-2-2b"

In [60]:

from huggingface_hub import login
login(token="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")

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to C:\Users\kimbo\.cache\huggingface\token
Login successful


In [61]:
use_model = gemma_model_dir
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=use_model,
    torch_dtype=torch.float16,
    device_map='cuda:0',
    use_cache=False,
    )

#Makes training faster but a little less accurate
model.config.pretraining_tp = 1
model.config.use_cache = False

tokenizer = AutoTokenizer.from_pretrained(
    pretrained_model_name_or_path=use_model,
    trust_remote_code=True
)

# 동일한 batch 내에서 입력의 크기를 동일하기 위해서 사용하는 Padding Token을 End of Sequence라고 하는 Special Token으로 사용한다.
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

Loading checkpoint shards: 100%|██████████| 3/3 [00:33<00:00, 11.05s/it]


In [62]:
#train & test.json are in same folder as the jupyter notebook
data_files = {'train':'../preprocessing/train.json','test':'../preprocessing/test.json'}
dataset = load_dataset('json',data_files=data_files)

In [63]:
print(dataset['train'])

Dataset({
    features: ['formal', 'informal'],
    num_rows: 3432
})


## train prompt format

<start_of_turn>user</br>
What is Cramer's Rule?<end_of_turn></br>
<start_of_turn>model</br>
Cramer's Rule is ...<end_of_turn>

## test prompt format

<start_of_turn>user</br>
What is Cramer's Rule?<end_of_turn></br>
<start_of_turn>model</br>

In [64]:
# 첫번째 format 형태
# word =f'Instruction:\n{i['formal']}\n\nResponse:\n{i['informal']}'
train_list = []
test_list = []
for i in dataset['train']:
  word = {'text':f"<start_of_turn>user\n{i['formal']}<end_of_turn>\n<start_of_turn>model\n{i['informal']}<end_of_turn>"}
  train_list.append(word)
for i in dataset['test']:
  word = {'text':f"<start_of_turn>\n{i['formal']}<end_of_turn>\n<start_of_turn>model\n{i['informal']}<end_of_turn>"}
  test_list.append(word)

train_dataset = Dataset.from_list(train_list)
test_dataset = Dataset.from_list(test_list)

In [65]:
def tokenize(prompt, add_eos_token=True):
    cutoff_len = 2048
    
    result = tokenizer(
        prompt,
        truncation=True,
        max_length=cutoff_len,
        padding=False,
        return_tensors=None,
    )
    if (
        result["input_ids"][-1] != tokenizer.eos_token_id
        and len(result["input_ids"]) < cutoff_len
        and add_eos_token
    ):
        result["input_ids"].append(tokenizer.eos_token_id)
        result["attention_mask"].append(1)

    result["labels"] = result["input_ids"].copy()
    result["text"] = prompt

    return result

def generate_and_tokenize_prompt(data_point):
    return tokenize(data_point["text"])

train_data = (
    train_dataset
    .map(generate_and_tokenize_prompt)
    .filter(lambda x: len(x["labels"]) <= 2048)
)

Map: 100%|██████████| 3432/3432 [00:00<00:00, 3531.37 examples/s]
Filter: 100%|██████████| 3432/3432 [00:00<00:00, 6048.66 examples/s]


## Lora 파라미터 설정

In [66]:
# LoRA에서 사용하는 low-rank matrices 어텐션 차원을 정의. 여기서는 64로 설정
# 값이 크면 클수록 더 많은 수정이 이루어지며, 모델이 더 복잡해질 수 있음
lora_r = 64

# LoRA 적용 시 가중치에 곱해지는 스케일링 요소. 여기서는 16으로 설정
# LoRA가 적용될 때 원래 모델의 가중치에 얼마나 영향을 미칠지 결정. 높은 값은 가중치 조정의 강도를 증가시킴
lora_alpha = 16

# Dropout probability for LoRA layers   # LoRA 층에 적용되는 드롭아웃 확률. 여기서는 0.1 (10%)로 설정
lora_dropout = 0.1 # 일부 네트워크 연결을 무작위로 비활성화하여 모델의 강건함에 기여

## bitsandbytes 파라미터 설정

In [67]:
# 4-bit precision 기반의 모델 로드
use_4bit = True

# 4비트 기반 모델에 대한 dtype 계산
bnb_4bit_compute_dtype = "float16"

# 양자화 유형(fp4 또는 nf4)
bnb_4bit_quant_type = "nf4"

# 4비트 기 모델에 대해 중첩 양자화 활성화(이중 양자화)
use_nested_quant = False

## TrainingArguments 파라미터 설정

In [68]:
#모델이 예측한 결과와 체크포인트가 저장될 출력 디렉터리
output_dir = "./results"

# 훈련 에포크 수
num_train_epochs = 1

# fp16/bf16 학습 활성화(A100으로 bf16을 True로 설정)
fp16 = False
bf16 = False

# 훈련용 배치 크기
per_device_train_batch_size = 2

# 평가용 배치 크기
per_device_eval_batch_size = 1

# 그래디언트를 누적할 업데이트 스텝 횟수
gradient_accumulation_steps = 1

# 그래디언트 체크포인트 활성화
gradient_checkpointing = True


# 그래디언트 클리핑을 위한 최대 그래디언트 노름을 설정.
# 그래디언트 클리핑은 그래디언트의 크기를 제한하여 훈련 중 안정성을 높임.
# Maximum gradient normal (그래디언트 클리핑) 0.3으로 설정
max_grad_norm = 0.3

# 초기 학습률 AdamW 옵티마이저
learning_rate = 2e-6

# bias/LayerNorm 가중치를 제외하고 모든 레이어에 적용할 Weight decay 값
weight_decay = 0.001

# 옵티마이저 설정
optim = "paged_adamw_32bit"

# 학습률 스케줄러의 유형 설정, 여기서는 코사인 스케줄러 사용
lr_scheduler_type = "cosine"

# 훈련 스텝 수(num_train_epochs 재정의)
max_steps = -1

# (0부터 learning rate까지) 학습 초기에 학습률을 점진적으로 증가시키 linear warmup 스텝의 Ratio
warmup_ratio = 0.03

# 시퀀스를 동일한 길이의 배치로 그룹화, 메모리 절약 및 훈련 속도를 높임
group_by_length = True

# X 업데이트 단계마다 체크포인트 저장
save_steps = 0

# 매 X 업데이트 스텝 로그
logging_steps = 25

## SFT 파라미터 설정

In [69]:
# 최대 시퀀스 길이 설정
max_seq_length = None

# 동일한 입력 시퀀스에 여러 개의 짧은 예제를 넣어 효율성을 높일 수 있음
packing = False

# GPU 0 전체 모델 로드
device_map = 'cuda:0'

In [70]:
compute_dtype = getattr(torch, bnb_4bit_compute_dtype)
# 모델 계산에 사용될 데이터 타입 결정
bnb_config = BitsAndBytesConfig(
    load_in_4bit=use_4bit,  # 모델을 4비트로 로드할지 여부를 결정
    bnb_4bit_quant_type=bnb_4bit_quant_type, # 양자화 유형을 설정
    bnb_4bit_compute_dtype=compute_dtype,  # 계산에 사용될 데이터 타입을 설정
    bnb_4bit_use_double_quant=use_nested_quant, # 중첩 양자화를 사용할지 여부를 결정
)

## GPU 호환성 확인

In [71]:
# 만약 GPU가 최소한 버전 8 이상이라면 (major >= 8) bfloat16을 지원한다고 메시지를 출력.
# bfloat16은 훈련 속도를 높일 수 있는 데이터 타입.

if compute_dtype == torch.float16 and use_4bit:
    major, _ = torch.cuda.get_device_capability()
    if major >= 8:
        print("=" * 80)
        print("Your GPU supports bfloat16: accelerate training with bf16=True")
        print("=" * 80)

Your GPU supports bfloat16: accelerate training with bf16=True


In [72]:
# Load LoRA configuration
peft_config = LoraConfig(
    lora_alpha=lora_alpha,
    lora_dropout=lora_dropout,
    r=lora_r,
    bias="none",
    task_type="CAUSAL_LM", # 파인튜닝할 태스크를 Optional로 지정할 수 있는데, 여기서는 CASUAL_LM을 지정하였다.
)

In [73]:
# Set training parameters
training_arguments = TrainingArguments(
    output_dir=output_dir,
    num_train_epochs=num_train_epochs,
    per_device_train_batch_size=per_device_train_batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,
    optim=optim,
    save_steps=save_steps,
    logging_steps=logging_steps,
    learning_rate=learning_rate,
    weight_decay=weight_decay,
    fp16=fp16,
    bf16=bf16,
    max_grad_norm=max_grad_norm,
    max_steps=max_steps,
    warmup_ratio=warmup_ratio,
    group_by_length=group_by_length,
    lr_scheduler_type=lr_scheduler_type,
    report_to="tensorboard"
)

In [74]:
# Set supervised fine-tuning parameters
trainer = SFTTrainer(
    model=model,
    train_dataset=train_dataset,
    #eval_dataset=test_dataset,
    peft_config=peft_config,
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    tokenizer=tokenizer,
    args=training_arguments,
    packing=packing,
)


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.


Map: 100%|██████████| 3432/3432 [00:00<00:00, 17873.96 examples/s]


In [75]:
trainer.train()
new_model="gemma-2-lora"
# 훈련이 완료된 모델을 'new_model'에 저장
trainer.model.save_pretrained(new_model)

  0%|          | 0/1716 [00:00<?, ?it/s]It is strongly recommended to train Gemma2 models with the `eager` attention implementation instead of `sdpa`. Use `eager` with `AutoModelForCausalLM.from_pretrained('<path-to-checkpoint>', attn_implementation='eager')`.
  attn_output = torch.nn.functional.scaled_dot_product_attention(
  1%|▏         | 25/1716 [04:19<3:41:22,  7.85s/it]

{'loss': 3.8283, 'grad_norm': 1.2952463626861572, 'learning_rate': 9.615384615384615e-07, 'epoch': 0.01}


  3%|▎         | 50/1716 [06:59<2:23:53,  5.18s/it]

{'loss': 5.7868, 'grad_norm': 3.5349793434143066, 'learning_rate': 1.923076923076923e-06, 'epoch': 0.03}


  4%|▍         | 75/1716 [11:05<3:19:44,  7.30s/it]

{'loss': 3.7656, 'grad_norm': 1.2361879348754883, 'learning_rate': 1.999057349863474e-06, 'epoch': 0.04}


  6%|▌         | 100/1716 [14:01<2:20:00,  5.20s/it]

{'loss': 5.2097, 'grad_norm': 2.463900089263916, 'learning_rate': 1.995896557617091e-06, 'epoch': 0.06}


  6%|▌         | 106/1716 [15:47<6:46:04, 15.13s/it]

In [4]:
base_model = AutoModelForCausalLM.from_pretrained(
    gemma_model_dir,
    low_cpu_mem_usage=True,
    return_dict=True,
    torch_dtype=torch.float16
)
new_model = ".\\results\\checkpoint-1716"
model = PeftModel.from_pretrained(base_model, new_model) # LoRA 가중치를 가져와 기본 모델에 통합

Loading checkpoint shards: 100%|██████████| 3/3 [00:17<00:00,  5.84s/it]


In [5]:
model = model.merge_and_unload()

In [10]:
# 사전 훈련된 토크나이저를 다시 로드
tokenizer = AutoTokenizer.from_pretrained(gemma_model_dir, trust_remote_code=True)

# 토크나이저의 패딩 토큰을 종료 토큰(end-of-sentence token)과 동일하게 설정
tokenizer.pad_token = tokenizer.eos_token

# 패딩을 시퀀스의 오른쪽에 적용
tokenizer.padding_side = "right"

## Test

In [11]:
def tokenize(prompt, add_eos_token=True):
    cutoff_len = 8196
    
    result = tokenizer(
        prompt,
        truncation=True,
        max_length=cutoff_len,
        padding=False,
        return_tensors=None,
    )
    if (
        result["input_ids"][-1] != tokenizer.eos_token_id
        and len(result["input_ids"]) < cutoff_len
        and add_eos_token
    ):
        result["input_ids"].append(tokenizer.eos_token_id)
        result["attention_mask"].append(1)

    result["labels"] = result["input_ids"].copy()
    result["text"] = prompt

    return result

In [16]:
query = "저는 카페테리아에서 제 평범한 샌드위치 한 입 꺼내요. 그리고 요이치와 평범한 작은 대화를 나눴습니다."
format = f"<start_of_turn>user\n{query}<end_of_turn>\n<start_of_turn>model\n"
text_gen = pipeline(
    task="text-generation",
    model=model,
    tokenizer=tokenizer,
    device="cuda:0",)
output = text_gen(format, max_new_tokens=100, return_full_text=False, eos_token_id=tokenizer.eos_token_id)
print(output[0]['generated_text'])

In [None]:
query = "저는 카페테리아에서 제 평범한 샌드위치 한 입 꺼내요. 그리고 요이치와 평범한 작은 대화를 나눴습니다."
format = f"<start_of_turn>user\n{query}<end_of_turn>\n<start_of_turn>model\n"
text_gen = pipeline(
    task="text-generation",
    model=model,
    tokenizer=tokenizer,
    device="cuda:0",)
output = text_gen(
    format, 
    max_new_tokens=100, 
    return_full_text=False, 
    eos_token_id=tokenizer.eos_token_id,
    repetition_penalty=1.2,
    no_repeat_ngram_size=True,
    )
print(output[0]['generated_text'])