# LLaMA-2 모델의 한국어 능력을 위한 QLoRA SFT (With KoALPACA 데이터셋 및 Standford Alpaca 코드 기반)

## 0. 순서
1. [개요](#1.-개요)
2. [Set Arguments](#2.-Set-Arguments)

## 1. 개요
* 모델명 :[meta-llama/Llama-2-7b-hf](https://huggingface.co/meta-llama/Llama-2-7b-hf)
* 데이터셋
    * 한국어 Alpaca Dataset : [ko_alpaca_data.json](https://github.com/Beomi/KoAlpaca/blob/main/ko_alpaca_data.json)
    * 네이버 지식인 베스트 데이터 : [KoAlpaca_v1.1.json](https://raw.githubusercontent.com/Beomi/KoAlpaca/main/KoAlpaca_v1.1.jsonl)

In [1]:
import os
import pandas as pd
pd.set_option('display.max_colwidth', None)  # 열 너비 제한 해제
pd.set_option('display.max_rows', 100)       # 표시되는 최대 행 수 설정
import logging
import json
import random
from dataclasses import dataclass, field
from typing import Dict, Sequence
import copy

import torch
from torch.utils.data import Dataset

from peft import (
    prepare_model_for_kbit_training,
    LoraConfig,
    get_peft_model
)
import transformers
from transformers import (
    AutoModelForCausalLM,
    BitsAndBytesConfig,
    AutoTokenizer,
    Trainer,
    TrainingArguments,
)

## 2. Set Arguments

### 2.1 base 관련 파라미터

In [2]:
BASE_PATH = '/workspace/llama2-KoAlpaca-Finetuning'
PARENT_DIR = os.path.dirname(BASE_PATH)
RANDOM_SEED = 777
HUGGINGFACE_TOKEN = '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'

### 2.2 Dataset 관련 파라미터

!wget https://github.com/Beomi/KoAlpaca/blob/main/ko_alpaca_data.json
!wget https://github.com/Beomi/KoAlpaca/blob/main/KoAlpaca_v1.1.jsonl

In [3]:
DATA_DIR = os.path.join(BASE_PATH, 'datas')
DATASET_KO_ALPACA_V_1_0_PATH = os.path.join(DATA_DIR, 'ko_alpaca_data.json')
DATASET_KO_ALPACA_V_1_1_PATH = os.path.join(DATA_DIR, 'KoAlpaca_v1.1.jsonl')
DATASET_KO_ALPACA_MERGE_V_1_0_and_V_1_1_PATH = os.path.join(DATA_DIR, 'final_ko_alpaca_data.json')

In [4]:
DATASET_KO_ALPACA_MERGE_V_1_0_and_V_1_1_PATH

'/workspace/llama2-KoAlpaca-Finetuning/datas/final_ko_alpaca_data.json'

### 2.3 Model 관련 파라미터

In [5]:
# Set Arguments
MODEL_NAME_OR_PATH = 'meta-llama/Llama-2-7b-hf'
RESUME_FROM_CHECKPOINT = None

### 2.4 Trainer(Transformers) 관련 파라미터

* 훈련 결과 산출물 관련 파라미터

In [6]:
EXPT_NAME="expt-2epochs"                            # Experiment name
CACHE_DIR=os.path.join(PARENT_DIR, ".cache")        # Cache directory
OUTPUT_DIR=os.path.join(DATA_DIR, "output", EXPT_NAME)    # Output directory
LOGGING_DIR=os.path.join(DATA_DIR, "logging", EXPT_NAME)  # Logging directory
REPORT_TO=['mlflow','tensorboard']                  # Report the results and logs

* 훈련 관련 파라미터 

In [7]:
NUM_TRAIN_EPOCHS=3                                  # Training epochs
TRAIN_BATCH_SIZE=8                                  # Training batch size
EVAL_BATCH_SIZE=8                                   # Evaluation batch size
EVALUATION_STRATEGY="steps"                         # Evaluation strategy
EVAL_STEPS=500                                      # Evaluation steps
SAVE_STEPS=500                                      # Save steps
LOGGING_STEPS=200                                   # Logging steps
LEARNING_RATE=3e-4                                  # Learning rate
LR_SCHEDULER_TYPE="cosine"                          # LR scheduler type
OPTIM="paged_adamw_8bit"                            # Optimizer type
WARMUP_RATIO=0.1                                    # Warmup ratio
WARMUP_STEPS=None
WEIGHT_DECAY=0.05                                   # Weight decay
GRADIENT_ACCUMULATION_STEPS=4                       # Gradient accumulation steps
LOAD_BEST_MODEL_AT_END=True                         # Load best model at end
FP16=True                                           # Use fp16
EARLY_STOPPING_PATIENCE=10                          # Early stopping patience

* 분산 관련 옵션

In [8]:
DDP = False
DDP_FIND_UNUSED_PARAMETERS=False                    # DDP find unused parameters

### 2.5 양자화 관련 파라미터

In [9]:
LOAD_IN_4BIT=True                                   # Enable 4-bit quantization
BNB_4BIT_QUANT_TYPE="nf4"                           # BNB 4-bit quantization type
BNB_4BIT_COMPUTE_DTYPE=torch.bfloat16               # BNB 4-bit compute dtype
BNB_4BIT_USE_DOUBLE_QUANT=True                      # BNB 4-bit use double quantization

### 2.6 LoRA 관련 파라미터

In [10]:
R=8                                                 # Lora attention dimension
LORA_ALPHA=16                                       # Lora alpha parameter
LORA_DROPOUT=0.05                                   # Lora dropout probability
FAN_IN_FAN_OUT=False                                # Lora fan in fan out
BIAS="none"                                         # Lora bias type
TARGET_MODULES=["q_proj", "v_proj"]                 # Lora target modules
INFERENCE_MODE=False                                # Inference mode
TASK_TYPE="CAUSAL_LM"                               # Task type

### 2.7 Tokenizer 관련 파라미터

In [32]:
TOKENIZER_NAME_OR_PATH = 'meta-llama/Llama-2-7b-hf' # TODO. 46592 tokens (Sentencepiece BPE. Added Korean vocab and merges)

In [12]:
MAX_LENGTH=1024                                     # Max sequence length for tokenizer
TRUNCATION=True                                     # Enable/disable truncation
RETURN_OVERFLOWING_TOKENS=True                      # Return overflowing tokens info
RETURN_LENGTH=True                                  # Return length of encoded inputs
PADDING=True                                        # Enable padding to max sequence length
PADDING_SIDE="right"                                # The side on which the model should have padding appliedㅠ

In [13]:
BOS_TOKEN = "<s>"
EOS_TOKEN = "</s>"
UNK_TOKEN = "<unk>"
IGNORE_INDEX = -100

### 2.8 MLFlow관련 파라미터

In [14]:
MLFLOW_TRACKING_URI="http://127.0.0.1:5000"         # URI of MLFlow installed

### 2.9 PROMPT(Simple) 관련

In [15]:
PROMPT_TEMPLATE = {
    "prompt_input": """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.\n
아래는 작업을 설명하는 명령어와 추가적 맥락을 제공하는 입력이 짝을 이루는 예제입니다. 요청을 적절히 완료하는 응답을 작성하세요.\n\n
### Instruction(명령어):\n{instruction}\n\n
### Input(입력):\n{input}\n\n
### Response(응답):\n""",
    
    "prompt_no_input": """Below is an instruction that describes a task. Write a response that appropriately completes the request.\n
아래는 작업을 설명하는 명령어입니다. 명령어에 따른 요청을 적절히 완료하는 응답을 작성하세요.\n\n
### Instruction(명령어):\n{instruction}\n\n
### Response(응답):\n""",
    
    "response_split": "### Response(응답):"
}

In [16]:
import json
import os.path as os
from typing import Union


class Prompter:
    __slots__ = ("template")

    def __init__(self, instruct_template):
        self.template = instruct_template

    def generate_prompt(self,
                        instruction: str,
                        input: Union[None, str] = None,
                        label: Union[None, str] = None,
                       ) -> str:
        if input:
            res = self.template["prompt_input"].format(
                instruction=instruction, input=input
            )
        else:
            res = self.template["prompt_no_input"].format(
                instruction=instruction
            )
        if label:
            res = f"{res}{label}"

        return res

    def get_response(self, output: str) -> str:
        return output.split(self.template["response_split"])[1].strip()
        
prompter = Prompter(PROMPT_TEMPLATE)

## 3. 데이터 셋 살펴보기 및 하나로 합치기

### 3.1 한국어 Aplaca 데이터셋(ko_alpaca_data.json) 살펴보기

In [17]:
with open(DATASET_KO_ALPACA_V_1_0_PATH, 'r', encoding='utf-8') as file:
    ko_alpaca_data_v_1_0 = json.load(file)

df_ko_alpaca_data_v_1_0 = pd.DataFrame(ko_alpaca_data_v_1_0)
df_ko_alpaca_data_v_1_0.head(5)

Unnamed: 0,instruction,input,output
0,건강을 유지하기 위한 세 가지 팁을 알려주세요.,,"세 가지 팁은 아침식사를 꼭 챙기며, 충분한 수면을 취하고, 적극적으로 운동을 하는 것입니다."
1,세 가지 기본 색은 무엇인가요?,,"기본 색은 빨강, 파랑, 노랑입니다."
2,원자의 구조를 설명하세요.,,"원자는 양성자, 중성자, 전자로 구성되어 있으며, 양성자와 중성자는 원자핵 안에 있고 전자는 주변에 있습니다."
3,대기 오염을 어떻게 줄일 수 있나요?,,"대기 오염을 줄이기 위해 자동차 대신 대중교통을 이용하고, 미세먼지 배출량을 줄이기 위해 차량 정기 검사를 받아야 합니다. 또한 에너지 절약을 위해 전기를 아끼고, 나무를 심어 대기 오염을 줄일 수 있습니다."
4,어려운 결정을 내려야 했던 때를 설명하세요.,,제가 어려운 결정을 내려야 했던 때는 대학원 졸업 후 직장을 찾아야 했던 때입니다. 다양한 선택지가 있었지만 나의 관심사와 비전에 가장 부합하는 경력을 뽑는데 어려움이 있었습니다. 이 때 여러 사람들의 조언과 현재 상황에 대한 깊은 고민 끝에 적절한 선택을 내리게 되었습니다.


### 3.2 네이버 지식인 베스트 데이터(KoAlpaca_v1.1.json) 살펴보기 

In [18]:
ko_alpaca_data_v_1_1 = []
with open(DATASET_KO_ALPACA_V_1_1_PATH, 'r',encoding='utf-8') as file:
    for line in file:
        data = json.loads(line)
         # 'instruction'과 'output' 키만 추출
        if 'instruction' in data and 'output' in data:
            ko_alpaca_data_v_1_1.append({'instruction': data['instruction'], 'output': data['output']})

df_ko_alpaca_data_v_1_1 = pd.DataFrame(ko_alpaca_data_v_1_1)
df_ko_alpaca_data_v_1_1.head(5)

Unnamed: 0,instruction,output
0,양파는 어떤 식물 부위인가요? 그리고 고구마는 뿌리인가요?,"양파는 잎이 아닌 식물의 줄기 부분입니다. 고구마는 식물의 뿌리 부분입니다. \n\n식물의 부위의 구분에 대해 궁금해하는 분이라면 분명 이 질문에 대한 답을 찾고 있을 것입니다. 양파는 잎이 아닌 줄기 부분입니다. 고구마는 다른 질문과 답변에서 언급된 것과 같이 뿌리 부분입니다. 따라서, 양파는 식물의 줄기 부분이 되고, 고구마는 식물의 뿌리 부분입니다.\n\n 덧붙이는 답변: 고구마 줄기도 볶아먹을 수 있나요? \n\n고구마 줄기도 식용으로 볶아먹을 수 있습니다. 하지만 줄기 뿐만 아니라, 잎, 씨, 뿌리까지 모든 부위가 식용으로 활용되기도 합니다. 다만, 한국에서는 일반적으로 뿌리 부분인 고구마를 주로 먹습니다."
1,스웨터의 유래는 어디에서 시작되었나요?,"스웨터의 유래는 14세기경 북유럽항구지역에서 어망을 짜던 기술을 의복에 활용하면서 시작되었습니다. 노동자들의 방한복에서 시작된 스웨터는 여가생활과 스포츠의 붐에 힘입어 대중화되었습니다. 이후, 겨울철 이너웨어의 대명사가 되었습니다. 스웨터는 짜서(Knit) 만든 옷을 말하며, 어부들의 방한복으로 짜여졌던 스웨터 중에서도 스코틀랜드 해안지방의 여인들은 바다로 나가는 남편이나 연인, 자식들에게 무사히 돌아올 것을 기원하며 로프나 닻 무늬를 정성껏 짜넣었다고 합니다. 그 실용성과 정성이 오늘에까지 이어지고 있습니다."
2,"토성의 고리가 빛의 띠로 보이는 이유는 무엇인가요? \n\n토성의 고리는 얼음과 같은 여러 물질로 이루어져 있다고 알고 있는데, 카시니가 찍은 사진에서 마치 빛의 띠 처럼 보이는 이유가 무엇인가요? 물질의 공전 속도가 빠르기 때문에 카메라로 담았을 때 빛의 궤적으로 보이는 건가요? 또한, 야간에 빠르게 움직이는 자동차를 장노출로 찍었을 때 빛의 궤적이 생기는 것과 같은 원리일까요? 그리고 빛의 궤적이 생기는 것은 우주라는 어두운 환경 특성 때문이라고 생각됩니다. 이게 맞을까요?","토성의 고리가 미세한 입자들로 이루어져 있기 때문에, 입자들의 밀도 차이 때문에 카시니 탐사선에서 찍은 고해상도 사진에서 빛의 띠가 보이는 것입니다. \n\n실제로는 토성의 고리 입자들의 운동이 장노출 사진에서 잔상이 생기는 이유와 관련이 없습니다. 물체의 운동은 토성의 고리가 매끄럽게 보이는 이유와 상관이 없습니다. \n\n밀도 차이로 생긴 미세한 입자들의 밀도는 연속적인 것이 아니며 광학계의 분해능으로 인해 고해상도 사진에서 입자 간격이 잘 보이지 않습니다. 따라서, 토성의 고리가 빛의 띠로 보이는 것은 고리 입자밀도의 차이 때문입니다. \n\n이렇게 입자들의 밀도 차이가 빛의 띠처럼 보이는 것은, 마치 축구장에서 앉아 조각판처럼 보이는 것과 같은 현상으로 이해할 수 있습니다. 마찬가지로, 먼 광활지에서 숲은 보이고 나무는 안 보이며, 이것은 발생하는 현상과 유사합니다.\n\n더 자세한 사항을 알고 싶다면 우주선이 고리를 아주 가까이 찍어 볼 필요가 있습니다. 이것은 훨씬 상세한 데이터를 얻기 위해서는 더욱 다양한 탐사가 필요합니다."
3,화장품 OEM과 화장품 ODM의 차이점은 무엇인가요?\n화장품 자체 제조 브랜드 런칭을 위해 OEM과 ODM용어에 대해 혼란스러움을 느끼고 있습니다. 두 용어의 차이점이 무엇인지 알고 싶습니다.,"화장품 제조업체는 대체로 OEM과 ODM을 통해 제품을 만듭니다. OEM은 브랜드에서 제품을 주문하였을 때, 반제품이나 완제품으로 납품받는 방식입니다. 반면 ODM은 자체 개발 능력을 갖춘 제조원이 유통까지 담당하여 상품을 공급하는 방식입니다. ODM은 직접 연구 개발을 통해 제품을 만들어주는 점에서 OEM과 차이가 있습니다. 대표적인 OEM/ODM 기업에는 코스맥스, 오울코리아, 한국콜마 등이 있습니다. 최근에는 OEM과 ODM의 경계가 허물어지고 있어 브랜딩부터 용기와 케이스 디자인까지 전반적인 제품 제조를 담당하는 기업도 많습니다. 이를 바탕으로, OEM은 브랜드에서 주문한 제품을 납품받고, ODM은 직접 개발하여 유통까지 책임지는 차이점이 있습니다."
4,"'사이보그'는 언제 처음 등장한 말이며, 그 의미와 종류에는 어떤 것이 있는지 알고 싶습니다.","'사이보그'는 1960년에 처음 등장한 말로, 기계와 유기체가 합성되어 생겨난 새로운 개념을 나타냅니다. 주로 공상과학영화에서 등장하며, 1985년 페미니스트인 도나 해러웨이가 발표한 '사이보그를 위한 선언문'으로 인해 사이보그는 성차별 사회를 극복하는 사회정치적 상징으로 더욱 주목받게 되었습니다. 사이보그는 생물체와 기술적 개입이 결합된 다양한 종류가 있으며, 이제는 인공장기를 받은 사람, 예방접종을 받은 사람, 또는 사람과 기계가 결합된 베리칩과 같은 기술적 개입을 받은 사람들까지 우리 주변에서 만날 수 있습니다. \n\n또한, 지구 위치 파악 기능이나 신체 건강 상태를 감지하는 센서 등을 추가적으로 부착하면서 사이보그의 구조와 기능이 더욱 다양해지고 있습니다. 이러한 발전은 사이보그의 대중화를 가속화시키고 있으나, 범죄나 인권 침해 등의 문제가 발생할 가능성도 존재합니다."


### 3.3 2개의 데이터 합치고, 랜덤 셔플링 하고, json 파일로 저장하기
* 데이터를 데이터 프레임 자료형으로 보여주기 위해 데이터프레임을 임시적으로 사용하였고
* **실제 학습 코드에서는 `json 파일을 사용`**할 예정이라 데이터프레임을 json 파일로 저장

In [19]:
df_ko_alpaca_combined = pd.concat([df_ko_alpaca_data_v_1_0, df_ko_alpaca_data_v_1_1])
df_ko_alpaca_combined_shuffled = df_ko_alpaca_combined.sample(frac=1, random_state=RANDOM_SEED).reset_index(drop=True)
df_ko_alpaca_combined_shuffled['input'] = df_ko_alpaca_combined_shuffled['input'].fillna('')
df_ko_alpaca_combined_shuffled.head(5)

Unnamed: 0,instruction,input,output
0,이메일에서 스팸을 탐지하기 위한 기계 학습 알고리즘을 만드세요.,,이메일 스팸 탐지 알고리즘을 위한 몇 가지 인기있는 기계 학습 모델에는 Support vector machine (SVM)와 Naive Bayes classifier가 있습니다.
1,고기 요리 시 맛술을 사용하는 이유와 대체재는 무엇인가요? 어떤 음식에 맛술을 사용하나요?,,"안녕하세요! 고기 요리 시 맛술을 사용하는 이유는 냄새와 맛의 개선입니다. 근육 안에 있는 균일한 살코기와 지방에 의해 맛이 가려진 고기를 숙성시켜 고소하고 부드러운 맛을 냄새를 덜어주는 기능을합니다. 또한 연유를 돕는 기능도 합니다. 맛술 대신 청주나 소주를 사용할 수 있지만, 이 경우 마이너스 영향을 주는 것보다는 과일 등을 갈아넣어 연유작용과 단맛을 살릴 수 있습니다. 흔히 널리 사용되는 음식에는 갈비, 쇠불고기, 돼지불고기, 닭갈비 등이 있습니다."
2,대화를 시작하기 위해 트윗을 작성합니다.,,'안녕하세요! 오늘 날씨가 참 좋네요!' (트윗 예시)
3,저녁과 밤의 구분 기준은 무엇인가요? 저녁 8시가 맞나요? 밤 8시가 맞나요?,,"저녁과 밤을 구분하는 기준은 명확히 정의되어 있지 않습니다. '저녁'은 해가 지고 밤이 되기까지의 사이, 혹은 식사를 할 때 사용하며, '밤'은 해가 진 후부터 날이 새기 전까지의 시간을 의미합니다. 따라서, 저녁과 밤의 구분은 개인적인 해석에 따라 다를 수 있고 명확한 기준은 없습니다. \n\n일반적으로 저녁시간은 대개 저녁식사를 하는 시간을 의미하며, 보통은 오후 6시부터 9시까지를 말합니다. 따라서, 8시가 저녁의 일부가 될 수도 있습니다. 밤 시간의 시작과 끝 역시 관련 기준이 명확하지 않습니다. 하지만 대체적으로 일몰 후부터 일출 전까지의 시간을 밤으로 보는 경우가 많습니다. 따라서 밤 8시 역시 밤에 속하는 시간대에 포함될 수도 있습니다. \n\n하지만 저녁과 밤을 명확히 구분 짓는 것은 쉽지 않은 일이고 사람마다 다를 수 있을 것입니다. 따라서, 구분할 때는 개인의 판단과 환경적인 조건을 고려하는 것이 좋습니다."
4,이 문장의 시작 부분에 전환 단어를 삽입하세요.,그는 오랫동안 수색한 끝에 보물을 찾았습니다.,"그러나, 그는 오랫동안 수색한 끝에 보물을 찾았습니다."


In [20]:
df_ko_alpaca_combined_shuffled.to_json(DATASET_KO_ALPACA_MERGE_V_1_0_and_V_1_1_PATH, orient='records')

##

## 4. 모델 설정

### 4.1 모델 학습을 위한 기본 확인사항 내용

* 모델 파라미터 정보 확인

In [21]:
def print_trainable_parameters(model):
    trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
    all_params = sum(p.numel() for p in model.parameters())
    print(
        f"trainable params: {trainable_params} || all params: {all_params} || trainable%: {100 * trainable_params / all_params}"
    )

* GPU 분산학습 설정 사용 유무 점검

In [22]:
import os

def get_device_map():
    print(f"num_gpus: {torch.cuda.device_count()}")
    world_size = int(os.environ.get("WORLD_SIZE", torch.cuda.device_count()))
    print(f"world_size: {world_size}")
    DDP = world_size != 1
    if DDP:
        device_map = {"": int(os.environ.get("LOCAL_RANK") or 0)}
        GRADIENT_ACCUMULATION_STEPS = TRAIN_BATCH_SIZE // world_size
        if GRADIENT_ACCUMULATION_STEPS == 0:
            GRADIENT_ACCUMULATION_STEPS = 1
        print(f"ddp is on - gradient_accumulation_steps: {GRADIENT_ACCUMULATION_STEPS}")
    else:
        device_map = "auto"
        print("ddp is off")

    return device_map

### 4.2 모델 Load

* 양자화 설정

In [23]:
bnb_config = BitsAndBytesConfig(
    load_in_4bit=LOAD_IN_4BIT,
    bnb_4bit_use_double_quant=BNB_4BIT_USE_DOUBLE_QUANT,
    bnb_4bit_quant_type=BNB_4BIT_QUANT_TYPE,
    bnb_4bit_compute_dtype=BNB_4BIT_COMPUTE_DTYPE
)

* 모델 읽어오기

In [24]:
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME_OR_PATH,
    quantization_config=bnb_config,
    device_map=get_device_map(),
    cache_dir=CACHE_DIR,
    token=HUGGINGFACE_TOKEN
)

print_trainable_parameters(model)

model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)

num_gpus: 1
world_size: 1
ddp is off


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

trainable params: 262410240 || all params: 3500412928 || trainable%: 7.496550989769399


* Lora 설정

In [25]:
config = LoraConfig(
    r=R,
    lora_alpha=LORA_ALPHA,
    target_modules=TARGET_MODULES,
    fan_in_fan_out=FAN_IN_FAN_OUT,
    lora_dropout=LORA_DROPOUT,
    inference_mode=INFERENCE_MODE,
    bias=BIAS,
    task_type=TASK_TYPE
)
model = get_peft_model(model, config)

if not DDP and torch.cuda.device_count() > 1:
    model.is_parallelizable = True
    model.model_parallel = True
    print("not ddp - trying its own DataParallelism")

In [26]:
type(model)

peft.peft_model.PeftModelForCausalLM

In [27]:
model.print_trainable_parameters() 

trainable params: 4,194,304 || all params: 6,742,609,920 || trainable%: 0.06220594176090199


In [28]:
print_trainable_parameters(model) # ?? TODO

trainable params: 4194304 || all params: 3504607232 || trainable%: 0.11967971650867153


### 4.3 Tokenizer 설정

* 모델 tokenizer 읽어오기

In [33]:
tokenizer = AutoTokenizer.from_pretrained(
    TOKENIZER_NAME_OR_PATH,
    cache_dir=CACHE_DIR,
    model_max_length = MAX_LENGTH,
    padding_side=PADDING_SIDE,
    token = HUGGINGFACE_TOKEN,
    add_eos_token=True,
)
tokenizer.pad_token = tokenizer.eos_token
print(f'Check bos_token, pad_token, eos_tokenm unk_token : {tokenizer.bos_token}, {tokenizer.pad_token}, {tokenizer.eos_token}, {tokenizer.unk_token}')

Check bos_token, pad_token, eos_tokenm unk_token : <s>, </s>, </s>, <unk>


* 모델의 tokenizer 가 올바르게 작동하는지 확인

In [34]:
sample_en_sentence = "Hello, world!"
tokenized_output = tokenizer(sample_en_sentence, add_special_tokens=True)
print("Tokenized Text:", [tokenizer.decode([x]) for x in tokenized_output["input_ids"]])
# Tokenized Text: ['<s>', 'Hello', ',', 'world', '!']

Tokenized Text: ['<s>', 'Hello', ',', 'world', '!', '</s>']


In [35]:
sample_ko_sentence = "안녕하세요. LLM 월드에 오신걸 환영합니다."
tokenized_output = tokenizer(sample_ko_sentence, add_special_tokens=True)
print("Tokenized Text:", [tokenizer.decode([x]) for x in tokenized_output["input_ids"]])
# Tokenized Text: ['<s>', 'Hello', ',', 'world', '!']

Tokenized Text: ['<s>', '', '안', '�', '�', '�', '하', '세', '요', '.', 'L', 'LM', '', '월', '드', '에', '', '오', '신', '�', '�', '�', '', '�', '�', '�', '영', '합', '니', '다', '.', '</s>']


* special tokeN 이 존재할 경우 추가하기

In [36]:
def smart_tokenizer_and_embedding_resize(
    special_tokens_dict: Dict,
    tokenizer: transformers.PreTrainedTokenizer,
    model: transformers.PreTrainedModel,
):
    """Resize tokenizer and embedding.

    Note: This is the unoptimized version that may make your embedding size not be divisible by 64.
    """
    print('smart_tokenizer_and_embedding_resize func running')
    num_new_tokens = tokenizer.add_special_tokens(special_tokens_dict)
    model.resize_token_embeddings(len(tokenizer))

    if num_new_tokens > 0:
        input_embeddings = model.get_input_embeddings().weight.data
        output_embeddings = model.get_output_embeddings().weight.data

        input_embeddings_avg = input_embeddings[:-num_new_tokens].mean(dim=0, keepdim=True)
        output_embeddings_avg = output_embeddings[:-num_new_tokens].mean(dim=0, keepdim=True)

        input_embeddings[-num_new_tokens:] = input_embeddings_avg
        output_embeddings[-num_new_tokens:] = output_embeddings_avg

In [37]:
if tokenizer.pad_token is None:
    smart_tokenizer_and_embedding_resize(
        special_tokens_dict=dict(pad_token=DEFAULT_PAD_TOKEN),
        tokenizer=tokenizer,
        model=model,
    )

In [38]:
if "llama" in MODEL_NAME_OR_PATH:
    tokenizer.add_special_tokens(
        {
            "eos_token": EOS_TOKEN,
            "bos_token": BOS_TOKEN,
            "unk_token": UNK_TOKEN,
        }
    )

In [39]:
tokenizer.model_max_length

1024

* 토크나저를 통한 데이터 처리 프로세스

In [40]:
def preprocess(
    sources: Sequence[str],
    targets: Sequence[str],
    tokenizer: transformers.PreTrainedTokenizer,
) -> Dict:
    """Preprocess the data by tokenizing."""
    examples = [s + t for s, t in zip(sources, targets)]
    examples_tokenized, sources_tokenized = [_tokenize_fn(strings, tokenizer) for strings in (examples, sources)]
    input_ids = examples_tokenized["input_ids"]
    labels = copy.deepcopy(input_ids)
    for label, source_len in zip(labels, sources_tokenized["input_ids_lens"]):
        label[:source_len] = IGNORE_INDEX
    return dict(input_ids=input_ids, labels=labels)

In [41]:
def _tokenize_fn(strings: Sequence[str], tokenizer: transformers.PreTrainedTokenizer) -> Dict:
    """Tokenize a list of strings."""
    tokenized_list = [
        tokenizer(
            text,
            return_tensors="pt",
            padding=PADDING,
            max_length=MAX_LENGTH,
            truncation=True,
        )
        for text in strings
    ]
    input_ids = labels = [tokenized.input_ids[0] for tokenized in tokenized_list]
    input_ids_lens = labels_lens = [
        tokenized.input_ids.ne(tokenizer.pad_token_id).sum().item() for tokenized in tokenized_list
    ]
    return dict(
        input_ids=input_ids,
        labels=labels,
        input_ids_lens=input_ids_lens,
        labels_lens=labels_lens,
    )

In [42]:
class SupervisedDataset(Dataset):
    """Dataset for supervised fine-tuning."""

    def __init__(self, dataset: str, tokenizer: transformers.PreTrainedTokenizer):
        super(SupervisedDataset, self).__init__()
        logging.warning("Loading data...")
        list_data_dict = dataset

        logging.warning("Formatting inputs...")
        prompt_input, prompt_no_input = PROMPT_TEMPLATE["prompt_input"], PROMPT_TEMPLATE["prompt_no_input"]
        sources = [
            prompt_input.format_map(example) if example.get("input", "") != "" else prompt_no_input.format_map(example)
            for example in list_data_dict
        ]
        targets = [f"{example['output']}{tokenizer.eos_token}" for example in list_data_dict]

        logging.warning("Tokenizing inputs... This may take some time...")
        print("tokenizer", tokenizer)
        data_dict = preprocess(sources, targets, tokenizer)

        self.input_ids = data_dict["input_ids"]
        self.labels = data_dict["labels"]

    def __len__(self):
        return len(self.input_ids)

    def __getitem__(self, i) -> Dict[str, torch.Tensor]:
        return dict(input_ids=self.input_ids[i], labels=self.labels[i])

## 5. 데이터 로드 및 모델에 들어가기 위한 데이터 전처리

In [None]:
with open(DATASET_KO_ALPACA_MERGE_V_1_0_and_V_1_1_PATH, 'r') as file:
    dataset = json.load(file)

train_dataset = SupervisedDataset(tokenizer=tokenizer, dataset=dataset)
eval_dataset = None

In [None]:
@dataclass
class DataCollatorForSupervisedDataset(object):
    """Collate examples for supervised fine-tuning."""

    tokenizer: transformers.PreTrainedTokenizer

    def __call__(self, instances: Sequence[Dict]) -> Dict[str, torch.Tensor]:
        input_ids, labels = tuple([instance[key] for instance in instances] for key in ("input_ids", "labels"))
        input_ids = torch.nn.utils.rnn.pad_sequence(
            input_ids, batch_first=True, padding_value=self.tokenizer.pad_token_id
        )
        labels = torch.nn.utils.rnn.pad_sequence(labels, batch_first=True, padding_value=IGNORE_INDEX)
        return dict(
            input_ids=input_ids,
            labels=labels,
            attention_mask=input_ids.ne(self.tokenizer.pad_token_id),
        )

data_collator = DataCollatorForSupervisedDataset(tokenizer=tokenizer)

* 모델 tokenizer를 통해 사용할 데이터셋을 분석하여 입력 데이터의 길이 분포를 파악

In [48]:
# 텍스트 데이터 추출
texts = [example['input'] + example['output'] for example in dataset]

# 토큰 길이 계산
token_lengths = [len(tokenizer.encode(text)) for text in texts]

# 길이 분포 분석
average_length = sum(token_lengths) / len(token_lengths)
max_length = max(token_lengths)
min_length = min(token_lengths)
median_length = sorted(token_lengths)[len(token_lengths) // 2]

print(f"Average Length: {average_length}")
print(f"Max Length: {max_length}")
print(f"Min Length: {min_length}")
print(f"Median Length: {median_length}")

Token indices sequence length is longer than the specified maximum sequence length for this model (1069 > 1024). Running this sequence through the model will result in indexing errors


Average Length: 245.09052631578948
Max Length: 2877
Min Length: 2
Median Length: 151


## 6. 모델 학습

### 6.1 Transformer Trainer를 사용하기 위한 argument 설정

* WARMUP_STEPS 계산하기

In [49]:
steps_per_epoch = len(train_dataset) / TRAIN_BATCH_SIZE
total_steps = steps_per_epoch * NUM_TRAIN_EPOCHS
WARMUP_STEPS = int(total_steps * WARMUP_RATIO)

In [50]:
args = TrainingArguments(
    output_dir=OUTPUT_DIR,
    logging_dir=LOGGING_DIR,
    report_to=REPORT_TO,

    num_train_epochs=NUM_TRAIN_EPOCHS,
    per_device_train_batch_size=TRAIN_BATCH_SIZE,
    # per_device_eval_batch_size=EVAL_BATCH_SIZE,

    # evaluation_strategy=EVALUATION_STRATEGY,
    # eval_steps=EVAL_STEPS,
    save_steps=SAVE_STEPS,
    logging_steps=LOGGING_STEPS,

    learning_rate=LEARNING_RATE,
    lr_scheduler_type=LR_SCHEDULER_TYPE,
    optim=OPTIM,

    warmup_ratio=WARMUP_RATIO,
    warmup_steps=WARMUP_STEPS,

    weight_decay=WEIGHT_DECAY,

    gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
    # load_best_model_at_end=LOAD_BEST_MODEL_AT_END,
    fp16=FP16,
    ddp_find_unused_parameters=DDP_FIND_UNUSED_PARAMETERS,
)

In [51]:
trainer = Trainer(
    model=model,
    tokenizer=tokenizer,
    args=args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    data_collator=data_collator,
)



* chekcpoint를 통한 추가 학습 설정 여부

In [52]:
if RESUME_FROM_CHECKPOINT:
    checkpoint_name = os.path.join(
        resume_from_checkpoint, "pytorch_model.bin"
    )  # All checkpoint

    if not os.path.exists(checkpoint_name):
        checkpoint_name = os.path.join(
            resume_from_checkpoint, "adapter_model.bin"
        )  # only LoRA model
        resume_from_checkpoint = (
            True
        ) # kyujin: I will use this checkpoint

    if os.path.exists(checkpoint_name):
        print(f"Restarting from {checkpoint_name}")
        adapters_weights = torch.load(checkpoint_name)
        set_peft_model_state_dict(model, adapters_weights)

    else:
        print(f"Checkpoint {checkpoint_name} not found")

In [53]:
model.config.use_cache = False
model.print_trainable_parameters() 

trainable params: 4,194,304 || all params: 6,742,609,920 || trainable%: 0.06220594176090199


### 6.2 학습하기 

In [None]:
trainer.train()

### 6.3 학습한 모델 및 LoRA Adapter 저장 

In [None]:
trainer.save_model
trainer.save_state()
model_path = os.path.join(output_dir, "pytorch_model.bin")
torch.save({}, model_path)

### 6.4 LoRA Adapter merge
* 훈련한 LoRA layer를 base model에 merge 하여 저장

In [None]:
from peft import PeftModel
torch.cuda.empty_cache()

base_model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME_OR_PATH,
    return_dict = True,
    torch_dtype=torch.float16,
    device_map=get_device_map(),
    cache_dir=CACHE_DIR)

final_model = PeftModel.from_pretrained(base_model, OUTPUT_DIR, get_device_map())
model = model.merge_and_unload() # Merge!
final_save_folder = '/workspace/output/custom_LLM_final'

model.save_pretrained(final_save_folder)
tokenizer.save_pretrained(final_save_folder)