In [None]:
#====================================================================================================
# loRA 파인튜닝 예제2
# - quantumaikr/KoreanLM 모델을 이용하여 PEFT(Parameter-Efficient Fine-tuning)->LoRA(Low-Rank Adaptation) 기법으로 파인튜닝하는 예시
#
# 참조 DOC: https://github.com/quantumaikr/KoreanLM/tree/main
# 참고소스: https://github.com/quantumaikr/KoreanLM/blob/main/finetune-lora.py
# 참고소스 : https://github.com/quantumaikr/KoreanLM/blob/main/generate.py
#
# <package 설치> 
# peft: pip install peft
# load_in_8bit : pip install -i https://test.pypi.org/simple/ bitsandbytes-cudaXXX  (XXX는 CUDA version (e.g. 11.6 = 116))
# transfomers 4.27.1 이상으로 업데이트 : pip install -U transformers[pytorch]
# dispatch_model() got an unexpected keyword argument 'offload_index' 오류 => accelerate 업데이트 : pip install -U accelerate
# module 'bitsandbytes.nn' has no attribute 'Linear8bitLt' => pip install bitsandbytes==0.37.2
# 'MatmulLtState' object has no attribute 'memory_efficient_backward' 오류 => bitsandbytes 버전 0.37.2 설치 : pip install bitsandbytes==0.37.2
#====================================================================================================
import os
import sys
import time
import torch
import transformers
from tqdm.notebook import tqdm

from myutils import GPU_info, seed_everything, mlogging, SaveBERTModel, AccuracyForMLM

# wand 비활성화 
# => trainer 로 훈련시키면 기본이 wandb 활성화이므로, 비활성화 시킴
os.environ["WANDB_DISABLED"] = "true"

# 입력 모델 경로
model_path:str ='../data11/model/LLM/quantumaikr/KoreanLM-hf/'
#model_path='quantumaikr/KoreanLM'

# 훈련 관련 출력 경로
out_dir:str = '../data11/model/LLM/quantumaikr/out/'

device = GPU_info()
print(device)

#seed 설정
SEED = 111
seed_everything(SEED)

#logging 설정
logger =  mlogging(loggername="quantumaikr-ft", logfilename="../log/quantumaikr-ft")

In [None]:

# CausalLM 모델 로딩
model = transformers.AutoModelForCausalLM.from_pretrained(
        model_path,
        load_in_8bit=True,           # 8bit 양자화.
        torch_dtype=torch.float16,
        device_map="auto",
        #cache_dir="./cache/",
    )

# tokenizer 로딩
tokenizer = transformers.AutoTokenizer.from_pretrained(
        model_path,
        padding_side="right",
        use_fast=False,
        #cache_dir="./cache/",
    )

if tokenizer.pad_token is None:
    tokenizer.add_special_tokens({'pad_token': '[PAD]'})

In [None]:
# 모델 출력
model

In [None]:
# LoRA 모델 설정 
from typing import List

from peft import (
    LoraConfig,
    get_peft_model,
    get_peft_model_state_dict,
    prepare_model_for_int8_training,
    set_peft_model_state_dict,
)

# int8 양자화 처리를 위해, 전처리 함.
model = prepare_model_for_int8_training(model)

# loRA config 설정
lora_target_modules: List[str] = [
        "q_proj",
        "v_proj",
    ]

config = LoraConfig(
        r=8,
        lora_alpha=16,
        target_modules=lora_target_modules,
        lora_dropout=0.05,
        bias="none",
        task_type="CAUSAL_LM",
)

# CausalLM 모델과 loRA 모델 연동
model = get_peft_model(model, config)

In [None]:
# LoRA 훈련할 파라메터 계수 출력 해봄
model.print_trainable_parameters()

In [None]:
# 말뭉치 로딩
import os.path as osp
import json
from datasets import load_dataset

data_path='./data/KoAlpaca_v1.1.1.json'  # 말뭉치 파일경로
val_set_size = 10                # 평가 말뭉치 사이즈   
cutoff_len=1024                   # 토크너나이저 길이
add_eos_token=False             # True=말뭉치 뒤에 add_eos_token(</s>) 추가함 
shuffle = True                 # True=말뭉치를 랜덤하게 섞은다.

# 실제 입력 말뭉치를 tokenizer 하고, label고 만드는 과정
def tokenize(prompt, add_eos_token=True):
    # there's probably a way to do this with the tokenizer settings
    # but again, gotta move fast
    result = tokenizer(
        prompt,
        truncation=True,
        max_length=cutoff_len,
        padding=False,
        return_tensors=None,
    )
    
    # eos 토큰을 추가함.
    if (
        result["input_ids"][-1] != tokenizer.eos_token_id
        and len(result["input_ids"]) < cutoff_len
        and add_eos_token
    ):
        result["input_ids"].append(tokenizer.eos_token_id)
        result["attention_mask"].append(1)

    # label은 input_ids 복사해서 만듬.
    result["labels"] = result["input_ids"].copy()

    return result

def generate_and_tokenize_prompt(data_point):

    # templeate 로딩함
    #description:"KoreanLM-LoRA에서 사용하는 템플릿입니다."
    #prompt_input:"아래는 작업을 설명하는 명령어와 추가 컨텍스트를 제공하는 입력이 짝을 이루는 예제입니다. 요청을 적절히 완료하는 응답을 작성하세요. ### Instruction: {instruction} ### Input: {input} ### Response: "
    #prompt_no_input:"아래는 작업을 설명하는 명령어입니다. 요청을 적절히 완료하는 응답을 작성하세요. ### Instruction: {instruction} ### Response: "
    #response_split:"### Response:"
    
    file_name = "./data/templates/korean.json"
    if not osp.exists(file_name):
        raise ValueError(f"Can't read {file_name}")
            
    with open(file_name) as fp:
        template = json.load(fp)
             
    # input 있으면 instruction+input 시킴
    if data_point["input"]:
        res = template["prompt_input"].format(instruction=data_point["instruction"], input=data_point["input"])
    else:
        res = template["prompt_no_input"].format(instruction=data_point["instruction"])    

    #res = template["prompt_no_input"].format(instruction=data_point["instruction"])

     # output있으면 +output 시켜줌.
    if data_point["output"]:
        full_prompt = f'{res}{data_point["output"]}'
    else:
        full_prompt = res
            
    # tokenizer 처리
    tokenized_full_prompt = tokenize(full_prompt)
    
    return tokenized_full_prompt
    
# 입력 말뭉치 문장을 합쳐서, tokenizer 함
# => 말뭉치가 변경되면 이 함수를 변경하면 됨.
def generate_and_tokenize(data_point):
    
    # input 있으면 instruction+input 시킴
    if data_point["input"]:
        full_prompt = f'{data_point["instruction"]}{data_point["input"]}'
    else:
        full_prompt = f'{data_point["instruction"]}'
    
    #full_prompt = f'{data_point["instruction"]}'
    
    # output있으면 +output 시켜줌.
    if data_point["output"]:
        full_prompt = f'{full_prompt}{data_point["output"]}'
    
    # tokenizer 처리
    tokenized_full_prompt = tokenize(full_prompt)
    
    return tokenized_full_prompt


# 말뭉치 로딩
if data_path.endswith(".json") or data_path.endswith(".jsonl"):
    #----------------------------------------------------------
    # {
    #     text[
    #         {},
    #         {},
    #         {}
    #     ]
    # } 
    # 식으로 json 파일 구조가 되어 있는 파일이어야 함.
    #----------------------------------------------------------
    data = load_dataset("json", data_files=data_path, field="text")
else:
    data = load_dataset(data_path)     
    

# train, test 말뭉치로 분할
if val_set_size > 0:
    train_val = data["train"].train_test_split(
        test_size=val_set_size, shuffle=shuffle, seed=SEED
    )
    train_data = (
        train_val["train"].shuffle().map(generate_and_tokenize_prompt)
    )
    val_data = (
        train_val["test"].shuffle().map(generate_and_tokenize_prompt)
    )
else:
    train_data = data["train"].shuffle().map(generate_and_tokenize_prompt)
    val_data = None

In [None]:
print(train_data[0])
print()
print('len:')
print(len(train_data[0]['input_ids']))
print(tokenizer.decode(train_data[0]['input_ids']))


In [None]:
# 모델 훈련 param 설정
micro_batch_size:int = 4
batch_size:int = 128
gradient_accumulation_steps:int = int(batch_size // micro_batch_size)
num_epochs:int = 5
learning_rate: float = 3e-4

trainer = transformers.Trainer(
        model=model,
        train_dataset=train_data,
        eval_dataset=val_data,
        args=transformers.TrainingArguments(
            per_device_train_batch_size=micro_batch_size,
            gradient_accumulation_steps=gradient_accumulation_steps,
            warmup_steps=100,
            num_train_epochs=num_epochs,
            learning_rate=learning_rate,
            fp16=True,
            logging_steps=10,
            optim="adamw_torch",
            evaluation_strategy="steps" if val_set_size > 0 else "no",
            save_strategy="steps",
            eval_steps=200 if val_set_size > 0 else None,
            save_steps=200,
            output_dir=out_dir,
            save_total_limit=2,
            #load_best_model_at_end=True if val_set_size > 0 else False,
            #ddp_find_unused_parameters=False if ddp else None,
            group_by_length=False,
            #report_to="wandb" if use_wandb else None,
            #run_name=wandb_run_name if use_wandb else None,
        ),
    
        # DataCollatorForSeq2Seq 로 지정.
        data_collator=transformers.DataCollatorForSeq2Seq(
            tokenizer, pad_to_multiple_of=8, return_tensors="pt", padding=True
        ),
)

In [None]:
# 훈련 시작
model.config.use_cache = False

old_state_dict = model.state_dict

model.state_dict = (
    lambda self, *_, **__: get_peft_model_state_dict(
        self, old_state_dict()
    )
).__get__(model, type(model))


#trainer.train(resume_from_checkpoint=resume_from_checkpoint)
trainer.train()


In [None]:
# 모델 저장
### 전체모델 저장
TMP_OUT_PATH = '../data11/model/LLM/quantumaikr/KoreanLM-hf_LoRA_1/'
os.makedirs(TMP_OUT_PATH, exist_ok=True)
#torch.save(model, OUTPATH + 'pytorch_model.bin') 
# save_pretrained 로 저장하면 config.json, pytorch_model.bin 2개의 파일이 생성됨
model.save_pretrained(TMP_OUT_PATH)

# tokeinizer 파일 저장(vocab)
VOCAB_PATH = TMP_OUT_PATH
tokenizer.save_pretrained(VOCAB_PATH)
print(f'==> save_model : {TMP_OUT_PATH}')

In [None]:
# 여기서부터는 저장된 모델 평가하는 코드임.
# 참고 소스 : https://github.com/quantumaikr/KoreanLM/blob/main/generate.py
#
# 1. prompt는 모델마다 훈련 프롴프트가 다르므로, 해당 모델 prompt 로 입력하는게 보나 나은 출력이 나옴.
# => KoAlpaca, KoAlpaca-Polyglot-5.8B prompt 예시=> '### 질문: {input_text}\n\n### 맥락: {context}\n\n### 답변:'
#
# => open_llama_7b, KoreanLM, KoreanLM-hf prompt 예시(data/korean.json 파일 참조)
#  "아래는 작업을 설명하는 명령어와 추가 컨텍스트를 제공하는 입력이 짝을 이루는 예제입니다. 요청을 적절히 완료하는 응답을 작성하세요. ### Instruction: {instruction} ### Input: {input} ### Response: "

In [None]:
# 여기서부터는 저장된 모델 평가하는 코드임.

In [None]:
import torch
import transformers
from peft import PeftModel
#====================================================================
# param 설정
lora_weights:str = '../data11/model/LLM/quantumaikr/KoreanLM-hf_LoRA_1/'
model_path:str ='../data11/model/LLM/quantumaikr/KoreanLM-hf/'

uselora_weight = True # Lora 사용하는 경우 True
load_8bit = True
usekoalphaca = True   # Koalpaca 모델인 경우엔 True 해줘야함.
#====================================================================

# tokenizer 로딩
tokenizer = transformers.AutoTokenizer.from_pretrained(
    model_path,
    padding_side="right",
    use_fast=False,
)

# 원본 모델 로딩
model = transformers.AutoModelForCausalLM.from_pretrained(
    model_path,
    load_in_8bit=load_8bit,
    torch_dtype=torch.float16,
    device_map="auto",
)


if uselora_weight:
    # loRA 모델 로딩
    model = PeftModel.from_pretrained(
            model,
            lora_weights,
            torch_dtype=torch.float16,
    )


if not load_8bit:
    model.half()
    
model.eval()


In [None]:
import os.path as osp
from typing import Union
import json

from transformers import GenerationConfig
from myutils import GPU_info
device = GPU_info()
#print(device)

# open_llama_7b, KoreanLM, KoreanLM-hf prompt 템플릿 경로
template_file_name = "./data/templates/korean.json"

# open_llama_7b, KoreanLM, KoreanLM-hf prompt 만드는 함수.
def generate_prompt(
        instruction: str,               # 설명
        input: Union[None, str] = None, # 입력:옵션
        label: Union[None, str] = None,
    ) -> str:
    
    
    if not osp.exists(template_file_name):
        raise ValueError(f"Can't read {template_file_name}")
            
    with open(template_file_name) as fp:
        template = json.load(fp)
        
    # returns the full prompt from instruction and optional input
    # if a label (=response, =output) is provided, it's also appended.
    if input:
        res = template["prompt_input"].format(instruction=instruction, input=input)
    else:
        res = template["prompt_no_input"].format(instruction=instruction)
        
    if label:
        res = f"{res}{label}"
    
    return res
   
'''
대한민국의 남서쪽에 있는 섬으로 행정구역 상 광역자치단체인 제주특별자치도에 속한다. 
한국의 섬 중에서 가장 크고 인구가 많은 섬이기도 하며 면적은 1,833.2㎢이다. 
이는 대한민국 본토에서 가장 큰 기초자치단체인 홍천군(1,820.14㎢)보다 약간 크며, 제주도 다음 두 번째로 큰 섬인 거제도(379.5㎢)의 5배 정도 된다. 
인구는 약 70만 명, 세계 섬 크기 218위이다.
제주도는 동아시아권 전체로 범위를 넓혀도 꽤 큰 섬에 속한다. 
6,000개가 넘는 섬이 있는 일본조차도 본토로 간주되는 혼슈, 홋카이도, 시코쿠, 규슈 4개 섬을 제외한 나머지 모든 섬이 제주도보다 작다.
중국도 하이난 섬 한 곳만이 제주도보다 클 뿐이다.
하와이에서도 최대 섬인 하와이 섬 다음으로 큰 섬인 마우이 섬이 제주도보다 약간 큰 정도이다. 
미국도 본토만 따지면 제주도보다 큰 섬은 롱아일랜드 뿐이다. 
프랑스도 본토에는 제주도보다 큰 섬이 코르시카 섬밖에 없고, 독일에서 가장 큰 섬인 뤼겐 섬은 제주도보다 작다. 
크기에 대한 직접적인 비교를 하자면 제주도의 동서 길이 약 73km, 
남 길이 약 31km를 대입하여 서울시청 기준 동서 길이로 인천광역시 서구 오류동 거첨도에서 출발하여 
경기도 양평군 서종면에 도달하고 남북 길이로는 송추계곡에서 출발하여 관악산에 이르는 수준이다.

질문 : 제주도 길이는 얼마?
'''

instruction ='''
아래 내용을 가지고 질문에 답하세요

학자금 지원
목적 : 임직원 자녀의 학자금을 지급함으로써 임직원의 복지 향상, 근로의욕의 제고 및 장기근속 유도
지원 기준
임직원의 고등학교 재학중인 자녀 학자금 지원
고등학교 교육비(입학금, 수업료, 학교운영지원금, 교과서)
자녀수 제한은 없으며, 자녀당 연간 300만원 한도에서 지원
지급신청 : 학자금의 신청은 아래 신청시기 해당월 이내에 다음 각호의 신청서류를 구비하여 해당부서장 결재 득 후 경영지원본부에 신청
학자금 신청서 (별첨1)
납입고지서 영수증 사본
취학자녀의 재학증명서(최초 신청시 1회에 한함)
가족관계증명원(최초 신청시 1회에 한함)
신청시기 : 납부 후 1개월 이내
지급제외 대상
휴학, 퇴학 등의 사유로 학적이 변동된 경우
타기관, 단체, 학교에서 장학금을 받는 경우 (일부를 받는 경우는 차액 지급)
취학자녀의 부모가 임직원으로 동시에 지급대상일 경우 1인만 적용
기타 : 해당금액은 과세대상임
'''

#instruction = "엠파워 이지스-씨 제품 설명"

input_text = '''
학자금은 얼마까지 지원가능 하며, 이때 신청 서류는 뭐가 있나요?
'''
# prompt 구성
#========================================================================
# koAlphaca일때 prompt 구성.
# => "### 질문: {input}\n\n### 맥락: {context}\n\n### 답변:" 식으로 입력. 
# => '### 맥락' 은 이전 대화 맥락임.
#=========================================================================
if usekoalphaca:
    input_text = instruction+'\r\n'+input_text
    context = "" #이전 대화 맥락 입력
    
    prompt = f"### 질문: {input_text}\n\n### 맥락: {context}\n\n### 답변:" if context else f"### 질문: {input_text}\n\n### 답변:"
else:
    prompt = generate_prompt(instruction=instruction, input=input_text)


max_new_tokens = 512

# config 설정
generation_config = GenerationConfig(
            temperature=0.5,
            top_p=0.75,
            top_k=40,
            num_beams=1,
            eos_token_id=tokenizer.eos_token_id,
            pad_token_id=tokenizer.pad_token_id
)

# 프롬프트 tokenizer 
inputs = tokenizer(prompt, return_tensors="pt")
input_ids = inputs["input_ids"].to(device)
#print(input_ids)

# Without streaming
# generate 처리
with torch.no_grad():
    generation_output = model.generate(
        input_ids=input_ids,
        generation_config=generation_config,
        return_dict_in_generate=True,
        output_scores=True,
        max_new_tokens=max_new_tokens,
    )
    
# 출력
#print(generation_output)
#print()

s = generation_output.sequences[0]
output = tokenizer.decode(s)
print(output)

In [None]:
# 원본 모델 평가 해봄