## Local training 테스트

- SageMaker managed training을 하기에 앞서 local 환경에서 training을 진행해 보도록 합니다.

### QLoRA 활용

- GPU memory가 적더라도 fine-tuning이 가능하며, 이는 LoRA와 같은 PEFT 를 활용해서 가능합니다.
- 여기서는 4bit quantization을 활용하는 QLoRA 를 사용하였습니다.

In [None]:
%store -r

In [None]:
model_download_path

In [None]:
import sys
import os
import torch
import transformers
from datasets import load_dataset, load_from_disk

In [None]:
from transformers import BitsAndBytesConfig
quant_4bit = True
quant_8bit = False

if quant_4bit:
    nf4_config = BitsAndBytesConfig(
       load_in_4bit=True,
       bnb_4bit_quant_type="nf4",
       bnb_4bit_use_double_quant=True,
       bnb_4bit_compute_dtype=torch.bfloat16
    )
else:
    nf4_config = None

In [None]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

In [None]:
device_map = "auto"

tokenizer = AutoTokenizer.from_pretrained(model_download_path)

model = AutoModelForCausalLM.from_pretrained(
    model_download_path,
    load_in_8bit=True if quant_8bit else False,
    torch_dtype=torch.float16,
    device_map=device_map,
    quantization_config=nf4_config,
)

In [None]:
model

### LoRA 설정

- LoRA 설정은 [여기](https://huggingface.co/docs/peft/main/en/conceptual_guides/lora)를 참고해 주세요
- Target module의 경우 base model 이 무엇이냐에 따라 다를 수 있습니다. 여기서는 base model 이 solar 기반이고 이것은 llama 기반이기 때문에 llama 의 설정을 참고하였습니다. 관련된 내용은 [여기](https://www.reddit.com/r/LocalLLaMA/comments/1578ahb/target_modules_for_llama2_for_better_finetuning/) 를 참고해 주세요.

In [None]:
from peft import (
    LoraConfig,
    get_peft_model,
    get_peft_model_state_dict,
    prepare_model_for_kbit_training,
    set_peft_model_state_dict,
)

model = prepare_model_for_kbit_training(model)

lora_r  = 8
lora_alpha = 32
lora_dropout = 0.05
lora_target_modules = [
    "q_proj",
    "up_proj",
    "o_proj",
    "k_proj",
    "down_proj",
    "gate_proj",
    "v_proj"
  ]

config = LoraConfig(
    r=lora_r,
    lora_alpha=lora_alpha,
    target_modules=lora_target_modules,
    lora_dropout=lora_dropout,
    bias="none",
    task_type="CAUSAL_LM",
)
model = get_peft_model(model, config)

In [None]:
model.print_trainable_parameters()

In [None]:
import os
train_data = load_from_disk(os.path.join("dataset", "train"))
val_data = load_from_disk((os.path.join("dataset", "val")))

In [None]:
print(f"Train set size: {len(train_data)}")
print(f"Val set size: {len(val_data)}")

### 로컬 학습 진행

- 학습과 관련된 파라미터를 세팅하고 학습을 진행합니다.
- bfloat16과 같은 precision은 지원하는 GPU에서는 활용하도록 하여 좀 더 효율적으로 할 수 있습니다.
- HuggingFace transformers의 [Trainer](https://huggingface.co/docs/transformers/main_classes/trainer) 를 사용하면 변수값만 수정하여 쉽게 학습을 진행할 수 있습니다.

In [None]:

num_epochs = 1
batch_size = 2

learning_rate = 3e-5
gradient_accumulation_steps = 2
val_set_size = len(val_data)
output_dir = 'output'
world_size = 1
ddp = world_size != 1
group_by_length = False

In [None]:
bf16 = True if torch.cuda.get_device_capability()[0] == 8 else False
print(f"Use bfloat16: {bf16}")

In [None]:
train_args = transformers.TrainingArguments(
    per_device_train_batch_size=batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,
    warmup_steps=100,
    num_train_epochs=num_epochs,
    learning_rate=learning_rate,
    bf16=bf16,  # g4dn (Nvidia T4) cannot use bf16
    logging_steps=2,
    optim="paged_adamw_8bit",
    evaluation_strategy="steps" if val_set_size > 0 else "no",
    save_strategy="steps",
    eval_steps=20 if val_set_size > 0 else None,
    save_steps=40,
    output_dir=output_dir,
    load_best_model_at_end=True if val_set_size > 0 else False,
    ddp_find_unused_parameters=False if ddp else None,
    report_to="none",
    group_by_length=group_by_length,
)


In [None]:

trainer = transformers.Trainer(
    model=model,
    train_dataset=train_data,
    eval_dataset=val_data,
    args=train_args,
    data_collator=transformers.DataCollatorForSeq2Seq(
        tokenizer, pad_to_multiple_of=8, return_tensors="pt", padding=True
    ),
)

In [None]:
model.config.use_cache = False

# old_state_dict = model.state_dict
# model.state_dict = (lambda self, *_, **__: get_peft_model_state_dict(self, old_state_dict())).__get__(
#     model, type(model)
# )

if torch.__version__ >= "2" and sys.platform != "win32":
    model = torch.compile(model)

train_result = trainer.train()

### 학습이 완료된 경우

- 학습이 완료되면 모델 머지가 필요합니다. 왜냐면 PEFT의 LoRA를 사용했기 때문에, fine-tuning 한 adapter를 base model 에 머지하는 과정이 필요합니다.

In [None]:
metrics = train_result.metrics
trainer.log_metrics("train", metrics)
#trainer.save_metrics("train", metrics)

In [None]:
trainer.model.save_pretrained(output_dir)

In [None]:
# Free memory for merging weights
del model
del trainer
torch.cuda.empty_cache()

In [None]:
from peft import AutoPeftModelForCausalLM

model = AutoPeftModelForCausalLM.from_pretrained(
    output_dir,
    low_cpu_mem_usage=True,
    torch_dtype=torch.float16
)

In [None]:
merged_model = model.merge_and_unload()

In [None]:
merged_path = "merged_model"
os.makedirs(merged_path, exist_ok=True)
merged_model.save_pretrained(merged_path, safe_serialization=True)

In [None]:
%store merged_path