# HuggingFace LLM과 공개 데이터셋을 활용한 RLHF

## **1. Imports**

In [None]:
## ============= Basic Modules =============
import pandas as pd
import numpy as np
import random
import torch
from dataclasses import dataclass, field, fields    ## For TrlParser

## ================ Utility ================
import os
import argparse
import wandb        ## External Training Log Analysis Tool

## ========== Hugging Face Library ==========
from huggingface_hub import login   ## Input Token

import datasets
from datasets import load_dataset

from trl import (
    SFTTrainer, SFTConfig,  ## SFT
    DPOConfig, DPOTrainer,  ## DPO
    TrlParser               ## YAML Parameter Parsing
)

from transformers import (
    AutoModelForCausalLM, AutoTokenizer,    ## Vanilla Model Loading
    HfArgumentParser, TrainingArguments,    ## Tuning Parameter Setting
    BitsAndBytesConfig,                     ## Quantization
    set_seed                                ## Seeding (not recommended)
)

from peft import LoraConfig ## For Low-Rank Adaption

## **2. UltraFeedback Dataset**

* 고품질 AI 피드백 데이터셋. PPO에 활용되는 데이터셋을 이진 선호도 데이터셋으로 변환한 형태(RLAIF)
* 특정 태스크에 목적이 있는 게 아닌, 다양한 주제에서의 채팅 기능 향상을 위한 데이터셋

`-` 데이터셋 로드

In [None]:
## 원시 데이터 로드
ds = load_dataset("argilla/ultrafeedback-binarized-preferences-cleaned")

`-` SFT / DPO 데이터셋 분리

* 본래는 SFT를 위한 데이터셋과 DPO를 위한 데이터셋이 따로 준비되어 있어야 하지만, DPO 데이터셋만 존재하기 때문에 실습을 위해 둘을 분리하여 훈련을 진행합니다.
* 실제 추천 프레임워크

    1. 원하는 태스크의 라벨링된 데이터셋으로 SFT 수행
    2. SFT를 완수한 모델을 이용하여 한 질문에 대하여 두 개 이상의 답변 생성
    3. 생성된 답변을 조합하여 Chosen / Rejected 쌍으로 구성된 선호도 데이터셋 제작(HF or AIF)
    > 해당 과정에서 가장 좋은 답변만을 Chosen으로 설정할 수 있음
    >
    > n개 답변을 생성했다면, 그중 한 개의 답변을 최선으로 설정한 뒤, 이를 Chosen으로 설정. 총 n-1개의 선호도 쌍을 생성 가능
    >
    > 일반적으로 순위를 매긴 뒤, 상위 몇 개의 답변만 Chosen으로 설정한 다음 조합하여 선호도 쌍을 생성
    4. 선호도 데이터셋을 사용하여 SFT를 수행한 모델에 DPO를 이어서 적용

In [None]:
os.makedirs("data", exist_ok = True)    ## 디렉토리 생성

ds_split = ds["train"].train_test_split(test_size = 0.5, seed = 42) ## SFT/DPO 데이터 분할

`-` 데이터셋 전처리

In [None]:
## For SFT
sft_ds = ds_split["train"]
sft_ds = sft_ds.rename_column("chosen", "messages").remove_columns([col for col in sft_ds.column_names if col != "chosen"]).train_test_split(test_size = 0.1, seed = 42)
sft_ds["train"].to_json("./data/sft_train_dataset.json", orient = "records")
sft_ds["test"].to_json("./data/sft_test_dataset.json", orient = "records")

## For DPO: Implicit Prompt -> Explicit Prompt (Recommanded)
dpo_ds = ds_split["test"].map(
    lambda sample: {
        "prompt": [{"role": "user", "content": sample["prompt"]}],
        "chosen": [content for content in sample["chosen"] if content["role"] == "assistant"],
        "rejected": [content for content in sample["rejected"] if content["role"] == "assistant"]
    }
)

dpo_ds = dpo_ds.remove_columns([col for col in dpo_ds.column_names if col not in ["prompt", "chosen", "rejected"]]).train_test_split(test_size = 0.1, seed = 42)
dpo_ds["train"].to_json("./data/dpo_train_dataset.json", orient = "records")
dpo_ds["test"].to_json("./data/dpo_test_dataset.json", orient = "records")

## **3. Model Loading**

* 허깅페이스에 로그인하여 권한을 획득하고, [Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct) 모델을 로드

`-` 허깅페이스에 로그인

In [None]:
login(token = "hf_...")

> 해당 방식은 시연을 위한 방법이고, `login()`으로 작성하여 `token` 파라미터를 사용하지 않은 상태에서 터미널에서 토큰을 입력해 로그인하는 것이 안전합니다.
>
> 일반적으로는 터미널에서 `hf auth login` 명령어를 통해 미리 로그인해주는 것이 편합니다. 이러면 해당 로그인 코드는 필요하지 않습니다.

`-` 모델 및 토크나이저 로드

* 거의 대부분의 모델은 두 개의 객체를 함께 로드합니다.
* 토크나이저(Tokenizer): 텍스트를 단어(실제론 이보다 작은 단위)로 쪼갠 다음(Tokenize), Token ID로 매핑
* 모델(Model): 임베딩 후 생성

    > 양자화 설정을 여기서 수행

In [None]:
## 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained(
    "meta-llama/Llama-3.1-8B-Instruct",
    use_fast = True,            ## Rust로 구현된 Fast Tokenizer 사용 (Qwen, RoPE, ChatGLM 등의 특이한 구조에서는 호환 안됨)
    trust_remote_code = True    ## 모델 코드 전체 다운로드 후 사용
)

## 양자화 설정: 모델의 가중치를 로드할 때 양자화하여 들여옵니다.
bnb_config = BitsAndBytesConfig(
    load_in_4bit = True,                    ## 4비트로 양자화
    bnb_4bit_use_double_quant = True,       ## 추가 양자화(스케일 파라미터 양자화) 활성화. 메모리 절약
    bnb_4bit_quant_type = "nf4",            ## 양자화 데이터 타입 지정: 4비트 기반 모델 훈련 시 사용
    bnb_4bit_compute_dtype = torch.bfloat16 ## 4비트로 로드하지만, attention 연산 시 해당 포맷으로 역양자화하여 처리 (라마 기본 자료형, 거의 대부분의 최신 LLM은 해당 포맷 사용)
)

## 모델 로드
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-3.1-8B-Instruct",         ## 사용 모델명
    device_map = "cuda:0",                      ## GPU 사용
    use_cache = False,                          ## KV 캐시 미사용(VRAM), 추론 속도 저하. gradienc_checkpointing과 동시 사용 불가
    attn_implementation = "flash_attention_2",  ## flash_attention 연산 사용. sdpa가 더 빠르고 효율적일 수도 있음.
    dtype = torch.bfloat16,                     ## 초기 가중치 로드 데이터 타입. Llama-3.1-8B의 자료형으로 설정
    quantization_config = bnb_config            ## 양자화 설정 적용
)

`-` 모델 및 토크나이저 설정

* 토크나이저를 일부 커스터마이징합니다. Chat Template 설정이 주요 요소입니다.
* Chat Template는 기본적인 템플릿이 따로 존재하지만, SFT에서 `assistant_only_loss`로 학습을 위해서는 추가적인 양식이 요구됩니다.

    > `prompt-completion` 포맷의 데이터셋은 `completion_only_loss`를 활성화하는 것만으로도 간단하게 라벨 부분만으로 손실을 계산할 수 있습니다.
    >
    > 일부 모델의 토크나이저에는 `generation` 부분이 템플릿에 포함되어 있어 그대로 사용해도 될 수 있습니다.

In [None]:
tokenizer.pad_token = tokenizer.eos_token       ## 패딩할 토큰 설정 (padding_free 설정 시 큰 의미는 없음)
tokenizer.padding_side = "left"                 ## 디코더이므로 왼쪽을 패딩 (마지막 토큰을 보고 생성)

## 데이터셋에 적합한 chat template 적용: {% generation %} 부분을 추가하여 assistant_only_loss 진행
## 모든 텍스트로 손실을 계산하고자 한다면 tokenizer에 기본으로 할당된 chat template로 충분
## jinja2 template engine 구문. 파이썬 문법과 거의 동일
LLAMA_3_CHAT_TEMPLATE = (
    "{{ bos_token }}"
    "{% for message in messages %}"
        "{% if message['role'] == 'system' %}"
            "{{ '<|start_header_id|>system<|end_header_id|>\n\n' + message['content'] + eos_token }}"
        "{% elif message['role'] == 'user' %}"
            "{{ '<|start_header_id|>user<|end_header_id|>\n\n' + message['content'] +  eos_token }}"
        "{% elif message['role'] == 'assistant' %}"
            "{{ '<|start_header_id|>assistant<|end_header_id|>\n\n'}}"
            "{% generation %}"
            "{{ message['content'] +  eos_token }}"
            "{% endgeneration %}"
        "{% endif %}"
    "{% endfor %}"
    "{%- if add_generation_prompt %}"
    "{{- '<|start_header_id|>assistant<|end_header_id|>\n\n' }}"
    "{%- endif %}"
)

## 새로운 Chat Template 적용
tokenizer.chat_template = LLAMA_3_CHAT_TEMPLATE

> 핵심은 `'assistant'`부분에 `{% generation %} ~ {% endgeneration %}`을 추가하는 것입니다. 이러면 해당 텍스트는 마스킹에서 제외됩니다.
>
> ```Python
> "{{ '<|start_header_id|>assistant<|end_header_id|>\n\n'}}"
> "{% generation %}"
> "{{ message['content'] +  eos_token }}"
> "{% endgeneration %}"
> ```

In [None]:
## 템플릿 적용사항 확인
print("======== Log a few random samples from the processed training set ========")
for index in random.sample(range(len(train_ds)), 2):
    print(tokenizer.apply_chat_template(train_ds[index]["messages"], tokenize = False))

## **4. Supervised Fine Tuning (SFT)**

* 기본 모델을 원하는 태스크에 특화되도록 1차적인 파인튜닝을 시행합니다.
* `YAML` 파일로 하이퍼파라미터를 쉽게 관리할 수 있습니다.

    > 단순 `argparse` 모듈로 파라미터 설정을 할 수도 있지만, 이 경우 `accelerate` 라이브러리를 통한 분산 GPU 환경에서의 학습에 호환되지 않으므로 확장성을 위해 이와 같은 방식을 택했습니다.

In [None]:
## Zombie Process 발생 방지
os.environ["WANDB_MODE"] = "offline"    ## 수동 업데이트: wandb sync --include-offline ./wandb/latest-run
wandb.init(project = "RLHF")

torch.backends.cuda.matmul.allow_tf32 = True
torch.backends.cudnn.allow_tf32 = True

## TrlParser에 들어갈 class들을 커스터마이징: 하이퍼파라미터 저장
@dataclass  ## 데이터 보관 클래스를 간단하게 구축 가능: __init__, __repr__, __eq()__등의 메소드 자동 생성
class ScriptArguments:
    dataset_path: str = field(default = None, metadata = {"help": "dataset directory"})
    model_name: str = field(default = None, metadata = {"help": "사용할 모델 ID"})

@dataclass
class LoraArguments:
    r: int = field(default = 64, metadata = {"help": "update matrix의 rank. 작을수록 많이 압축하여 품질 저하됨, 메모리 많이 할당됨"})
    lora_alpha: int = field(default = 32, metadata = {"help": "∆Weight scaling factor. lora_alpha / r로 스케일링되며, 학습률 조정. 보통 1/2 수준으로 설정"})
    lora_dropout: float = field(default = 0.05, metadata = {"help": "update matrics에서 dropout 적용 확률"})
    bias: str = field(default = "none", metadata = {"help": "update matrix에 bias를 학습할 것인지 선택"})
    task_type: str = field(default = "CAUSAL_LM", metadata = {"help": "학습할 모형이 무엇인지 지정"})
    target_modules: list[str] = field(default = None, metadata = {"help": "학습에 반영할 모듈 설정"})


def timer(func):
    """
    함수 실행 시간 출력
    """
    import time
    import datetime

    def wrapper(*args, **kwargs):
        start = time.time()
        result = func(*args, **kwargs)
        end = time.time()

        sec = end - start
        worktime = str(datetime.timedelta(seconds=sec)).split(".")[0]
        print(f"Working Time: {worktime}")
        return result

    return wrapper


def seeding(seed):
    """
    시드 설정으로 인해 성능이 저하될 수 있음. dataloader worker에도 시드 설정이 필요할 수 있음
    """
    set_seed(seed)

    torch.manual_seed(seed)                 ## cpu seed
    if torch.cuda.is_available():
        torch.cuda.manual_seed(seed)        ## gpu seed
        torch.cuda.manual_seed_all(seed)    ## multi-gpu seed

    torch.backends.cudnn.deterministic = True   ## nondeterministic algorithm을 사용하지 않도록 설정
    torch.backends.cudnn.benchmark = False      ## cuDNN의 여러 convolution algorithm들을 실행하고, 벤치마킹하여 가장 빠른 알고리즘 사용: 안함.

    np.random.seed(seed)
    random.seed(seed)

    os.environ["PYTHONHASHSEED"] = str(seed)    ## hash 알고리즘 관련
    os.environ["TF_ENABLE_ONEDNN_OPTS"] = "0"   ## oneDNN 옵션 해제. 수치 연산 순서 고정 (성능 저하, 속도 저하)

@timer
def main(script_args, training_args, lora_kwargs):
    ## loading dataset
    train_ds = load_dataset("json", data_files = os.path.join(script_args.dataset_path, "sft_train_dataset.json"), split = "train")
    test_ds = load_dataset("json", data_files = os.path.join(script_args.dataset_path, "sft_test_dataset.json"), split = "train")

    print(f"training dataset size: {train_ds.num_rows}\ntest dataset size: {test_ds.num_rows}")

    ## 양자화 설정
    bnb_config = BitsAndBytesConfig(
        load_in_4bit = True,                    ## 4비트 양자화
        bnb_4bit_use_double_quant = True,       ## 추가 양자화로 성능 손실 없이 파라미터당 0.4bit 추가 절약
        bnb_4bit_quant_type = "nf4",            ## 양자화 데이터 타입 지정: 4비트 기반 모델 훈련 시 사용
        bnb_4bit_compute_dtype = torch.bfloat16 ## Llama-3.1-8B의 학습 자료형. 저장은 4비트지만, attention 연산은 해당 포맷으로 역양자화하여 처리
    )

    ## 모델 로드 및 설정
    model = AutoModelForCausalLM.from_pretrained(
        script_args.model_name,
        device_map = "cuda:0",
        use_cache = False,                          ## VRAM 캐시 미사용, 추론 속도 저하. gradienc_checkpointing과 동시 사용 불가
        low_cpu_mem_usage = True,
        attn_implementation = "flash_attention_2",  ## flash_attention 연산 사용. sdpa가 더 빠르고 효율적일 수도 있음.
        quantization_config = bnb_config,
        dtype = torch.bfloat16                      ## 가중치 로드 데이터 타입. Llama-3.1-8B의 자료형으로 설정
    )

    if training_args.gradient_checkpointing:
        model.gradient_checkpointing_enable()

    peft_config = LoraConfig(**lora_kwargs)

    trainer = SFTTrainer(
        model = model,
        args = training_args,
        train_dataset = train_ds,
        eval_dataset = test_ds,
        processing_class = tokenizer,
        peft_config = peft_config
    )

    if training_args.assistant_only_loss:
        print("======== Log a first sample from the processed training set ========")
        print(f"masking area: {next(iter(trainer.train_dataset))["assistant_masks"][:100]} ...")

    ## 학습이 중단된 경우 이어서 진행할 수 있도록 설정
    checkpoint = None
    if training_args.resume_from_checkpoint is not None:
        checkpoint = training_args.resume_from_checkpoint

    inference_callback = utils.SaveInferenceResultsCallback(trainer=trainer, test_dataset=test_ds, model_name=training_args.output_dir.split("/")[-1])
    trainer.add_callback(inference_callback)

    trainer.train(resume_from_checkpoint = checkpoint)
    trainer.save_model()


if __name__ == "__main__":
    os.makedirs("wandb", exist_ok = True)
    # initial_folders = set(next(os.walk("wandb"))[1])

    parser = TrlParser((ScriptArguments, SFTConfig, LoraArguments))         ## 따로 저장된 파라미터 파싱
    script_args, training_args, lora_args = parser.parse_args_and_config()

    ## Lora Config에 유효한 입력값만 받을 수 있도록 커스터마이징. 원래 TrlParser에는 LoraConfig를 넣지 못함
    valid_keys = LoraConfig.__init__.__code__.co_varnames
    lora_kwargs = {
        f.name: getattr(lora_args, f.name)
        for f in fields(lora_args)
        if f.name in valid_keys
    }

    # seeding(training_args.seed)

    main(script_args, training_args, lora_kwargs)

    print("========== 학습 종료 ==========")

    ## ========== 추론 파일 종합 ===========
    utils.excel_integrate(training_args.output_dir.split("/")[-1])

    ## ========== wandb 업로드 ==========
    # current_folders = set(next(os.walk("wandb"))[1])
    # new_folders = current_folders - initial_folders
    # os.system(f"wandb sync --include-offline ./wandb/{list(current_folders)[0]}")
    os.system(f"wandb sync --include-offline wandb/latest-run")