# 코드 실행 전 주의 사항

>### **CPT 학습 후 허깅페이스에 업로드 시** 아래를 따라주세요
**2.gemma 모델 로드 > 필요패키지 및 허깅페이스 세팅까지 실행 후 바로 3.Continued pre-training을 실행해주세요.**

# 1.데이터 전처리





In [None]:
import pandas as pd
# JSON 파일 불러오기
with open('finetune_raw_dataset.json', 'r') as json_file:
    data = json.load(json_file)
# JSON을 데이터프레임으로 변환
df = pd.DataFrame(data)

In [None]:
df.head()

## 1-1.질문과 답변으로 나누기(이외 다른 컬럼들도 split)

In [None]:
import re
import pandas as pd

# 'title' 컬럼의 각 문자열을 '/' 기준으로 분리
def split_title(x):
    parts = x.split('/')
    # 반환할 때, 항상 3개의 값이 있도록 함
    # 이렇게 하는 이유는 3개의 값이 없는 row의 경우엔 에러가 나오기 때문
    return (parts + [None] * 3)[:3]

# 'personality' split
def split_person(x):
    parts = x.split('/')
    # 반환할 때, 항상 6개의 값이 있도록 함
    return (parts + [None] * 6)[:6]

# 'script' split
def split_script(x):
   # 숫자와 마침표를 기준으로 문자열을 분리하는 함수
    parts = re.split(r'\.\n+\d+\.|\d+\-\d|\n+\d+\.', x)
    # 빈 문자열 제거
    return ([part for part in parts if part] + [None] * 5)[:5]

def split_qna(x):
    # 없는 문항이라면 바로 None을 반환
    if x is None:
        return [None]*2
    # 기준 문자열을 포함하여 문자열 분리
    parts = re.split(r'(자\)|오\.|바랍니다\.|시오|세요)', x)
    # 기준 문자열을 추가하여 결과 리스트 생성
    result = []
    for i in range(0, len(parts), 2):
        if i+1 < len(parts):
            result.append(parts[i] + parts[i+1])
        else:
            result.append(parts[i])
    return (result + [None] * 2)[:2]

df[['company', 'position', 'season']] = df['title'].apply(lambda x: pd.Series(split_title(x)))
df[['univ', 'major', 'gpa', 'language', 'experience', 'qualifications']] = df['personality'].apply(lambda x: pd.Series(split_person(x)))
df[['q1', 'q2', 'q3','q4','q5']] = df['script'].apply(lambda x: pd.Series(split_script(x)))

qna_dataset = pd.DataFrame(columns=['q', 'a'])
df_tmp = pd.DataFrame(columns=['q', 'a'])
for i in range(1,6):
    df_tmp[['q','a']] = df[f'q{i}'].apply(lambda x: pd.Series(split_qna(x)))
    qna_dataset = pd.concat([qna_dataset,df_tmp])

qna_dataest_cleaned = qna_dataset.dropna()
qna_dataest_cleaned['a'] = qna_dataest_cleaned['a'].apply(lambda x: pd.Series(re.sub(r'\n', ' ', x))) #답변의 개행문자 제거
qna_dataest_cleaned['a'] = qna_dataest_cleaned['a'].apply(lambda x: pd.Series(re.sub(r'^\.', ' ', x))) #답변의 시작 부분 온점 제거
qna_dataest_cleaned = qna_dataest_cleaned.reset_index(drop=True)

## 1-2. 이상치 제거(300자 이하인 답변)

In [None]:
qna_dataest_cleaned = qna_dataest_cleaned[qna_dataest_cleaned['a'].apply(lambda x: len(x)) > 300] # 답변의 길이가 300자 이상인 답변만 필터링

In [None]:
print("filltering된 qa 개수 : ", len(qna_dataest_cleaned))

## 1-3.특수문자 제거

In [None]:
qna_dataest_cleaned['a'] = qna_dataest_cleaned['a'].apply(lambda x: pd.Series(re.sub(r'^\(.*?\)|^\s+\(.*?\)|^\s+', '', x))) # 답변의 문장 시작 부분의 괄호(질문으로부터 잘려온 부분) 제거

In [None]:
qna_dataest_cleaned.head()

In [None]:
qna_dataest_cleaned.to_csv('finetune_dataset.csv', index=False)

In [None]:
print(qna_dataest_cleaned.loc[3]['a'])

# 2.gemma 모델 로드

## 필요패키지 및 허깅페이스 세팅

In [None]:
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps "xformers<0.0.27" "trl<0.9.0" peft accelerate bitsandbytes
!pip install git+https://github.com/huggingface/accelerate.git
!pip install git+https://github.com/huggingface/transformers.git
!pip install bitsandbytes
!pip install peft
!pip install datasets
!pip install trl
!pip install triton
!pip uninstall xformers
!pip install xformers

In [None]:
import torch
print(torch.cuda.is_available())

In [None]:
import pandas as pd
import numpy as nu

df = pd.read_csv('./finetune_dataset_ALL.csv')
df

In [None]:
from huggingface_hub import notebook_login
# YOUR_HUGGINGFACE_TOKEN
notebook_login()

In [None]:
import torch

# GPU 메모리 캐시 비우기
torch.cuda.empty_cache()

# 나중에 GPU 메모리 사용량을 확인
print(torch.cuda.memory_allocated())
print(torch.cuda.memory_reserved())

## 기본 버전

### finetuning 가능한 형태로 데이터 전처리

In [None]:
from datasets import Dataset
# prompt 템플릿 적용
def generate_prompt(example):
    prompt_list = []
    for i in range(len(example['q'])):
        prompt_list.append(r"""<bos><start_of_turn>user
다음 질문에 적절한 답변을 생성해주세요:

{}<end_of_turn>
<start_of_turn>model
{}<end_of_turn><eos>""".format(example['q'][i], example['a'][i]))

    return prompt_list

df['prompt'] = generate_prompt(df)

data = Dataset.from_pandas(df)

# 학습할 데이터 토큰화
data = data.map(lambda samples: tokenizer(samples["prompt"]), batched=True)

# train, test 분리
data = data.train_test_split(test_size=0.2)

data

In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM, AutoModelForQuestionAnswering, pipeline, BitsAndBytesConfig
## base finetuning approach
BASE_MODEL = "rtzr/ko-gemma-2-9b-it"
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)
# 토크나이저는 양자화 필요없다! 꼭 모델 양자화 했는지 확인!!
model = AutoModelForCausalLM.from_pretrained(BASE_MODEL,
                                             quantization_config=bnb_config,
                                             device_map={"":0})

tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
# # pipe = pipeline("question-answering", model=model, tokenizer=tokenizer, max_new_tokens=512)

In [None]:
from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=8,
    target_modules=["q_proj", "o_proj", "k_proj", "v_proj", "gate_proj", "up_proj", "down_proj"],
    task_type="CAUSAL_LM",
)

### 기본 버전 모델 학습

In [None]:
import transformers
from trl import SFTTrainer
import torch

# GPU 메모리 캐시 비우기
torch.cuda.empty_cache()

# 나중에 GPU 메모리 사용량을 확인
print(torch.cuda.memory_allocated())
print(torch.cuda.memory_reserved())

model = get_peft_model(model, lora_config)

def formatting_func(example):
    return example['prompt']

trainer = SFTTrainer(
    model=model,
    train_dataset=data["train"],
    dataset_text_field = 'prompt',
    args=transformers.TrainingArguments(
        per_device_train_batch_size=1,
        gradient_accumulation_steps=4,
        warmup_steps=2,
        max_steps=100,
        learning_rate=2e-4,
        fp16=True,
        logging_steps=1,
        # push_to_hub=True,
        # push_to_hub_model_id="ko-QA-gemma-7b-finetuned",
        # push_to_hub_token="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", # 허깅페이스에 push하는 코드
        save_strategy="epoch",
        output_dir="outputs",
        optim="paged_adamw_8bit",
    ),
    peft_config=lora_config,
    formatting_func=formatting_func,
)
trainer.train()

In [None]:
# 성능 체크
def get_completion(query: str, model, tokenizer):

  prompt_template = """user
  {query}

  model
  """
  prompt = prompt_template.format(query=query)
  encodeds = tokenizer(prompt, return_tensors="pt", add_special_tokens=True)
  model_inputs = encodeds.to("cuda:0")
  generated_ids = model.generate(**model_inputs, max_new_tokens=256)
  decoded = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
  return decoded

In [None]:
result = get_completion(query=data['test']['q'][0],
                        model=trainer.model,
                        tokenizer=tokenizer)
print(result)

In [None]:
result = get_completion(query=data['test']['q'][1],
                        model=trainer.model,
                        tokenizer=tokenizer)
print(result)

In [None]:
data['train']['a'][0]

## unsloth 버전

In [None]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 2048
dtype = None
load_in_4bit = True

model, tokenizer = FastLanguageModel.from_pretrained(
   model_name = "unsloth/gemma-2-9b",
   max_seq_length = max_seq_length,
   dtype = dtype,
   load_in_4bit = load_in_4bit)

In [None]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 16,
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,
    lora_dropout = 0,
    bias = "none",
    use_gradient_checkpointing = "unsloth",
    random_state = 3407,
    use_rslora = False,
    loftq_config = None,
)

### finetuning 가능한 형태로 데이터 전처리

In [None]:
from datasets import Dataset
# prompt 템플릿 적용
def generate_prompt(example):
    prompt_list = []
    for i in range(len(example['q'])):
        prompt_list.append(r"""<bos><start_of_turn>user
다음 질문에 적절한 답변을 생성해주세요:

{}<end_of_turn>
<start_of_turn>model
{}<end_of_turn><eos>""".format(example['q'][i], example['a'][i]))

    return prompt_list

df['prompt'] = generate_prompt(df)

data = Dataset.from_pandas(df)

# 학습할 데이터 토큰화
data = data.map(lambda samples: tokenizer(samples["prompt"]), batched=True)

# train, test 분리
data = data.train_test_split(test_size=0.2)

data

### unsloth 버전 모델 학습

In [None]:
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = data["train"],
    dataset_text_field = 'prompt',
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = False,
    args = TrainingArguments(
        per_device_train_batch_size = 2,
        gradient_accumulation_steps = 4,
        warmup_steps = 5,
        max_steps = 60,
        learning_rate = 2e-4,
        fp16 = not is_bfloat16_supported(),
        bf16 = is_bfloat16_supported(),
        logging_steps = 1,
        optim = "adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
    ),
)

In [None]:
model.print_trainable_parameters()

In [None]:
used_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
used_memory_for_lora = round(used_memory - start_gpu_memory, 3)
used_percentage = round(used_memory         /max_memory*100, 3)
lora_percentage = round(used_memory_for_lora/max_memory*100, 3)
print(f"{trainer_stats.metrics['train_runtime']} seconds used for training.")
print(f"{round(trainer_stats.metrics['train_runtime']/60, 2)} minutes used for training.")
print(f"Peak reserved memory = {used_memory} GB.")
print(f"Peak reserved memory for training = {used_memory_for_lora} GB.")
print(f"Peak reserved memory % of max memory = {used_percentage} %.")
print(f"Peak reserved memory for training % of max memory = {lora_percentage} %.")

In [None]:
trainer.train()

### 성능 체크

In [None]:
# 성능 체크
def get_completion(query: str, model, tokenizer):

    prompt_template = """
당신은 자기소개서를 작성하는 전문가입니다.
자기소개서 항목 중 지원 동기를 특히 잘 만들어냅니다.
다음 정보를 바탕으로 지원 동기를 작성해 주세요.

지원 직무: AI 연구원
지원 회사: 삼성전자
개인 경험/기술: 머신러닝 프로젝트 경험, 소프트웨어 엔지니어 경력
지원 동기:"""

    prompt = prompt_template #prompt_template.format(query=)
    # alpaca_prompt = Copied from above
    FastLanguageModel.for_inference(model) # Enable native 2x faster inference
    inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=True).to("cuda")
    outputs = model.generate(**inputs, max_new_tokens = 256, use_cache = True)
    decoded = tokenizer.batch_decode(outputs)

    return decoded

In [None]:
result = get_completion(query=data['test']['q'][2],
                        model=trainer.model,
                        tokenizer=tokenizer)
print(result)

In [None]:
prompt_template = """당신이 누구인지 설명드리겠습니다.
당신은 자기소개서를 작성하는 전문가입니다.
자기소개서 항목 중 지원 동기를 특히 잘 만들어냅니다.
다음 정보를 바탕으로 지원 동기를 작성해 주세요.

지원 직무: AI 연구원
지원 회사: 삼성전자
개인 경험/기술: 머신러닝 프로젝트 경험, 소프트웨어 엔지니어 경력
지원 동기:"""
prompt = prompt_template #prompt_template.format(query=)
inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=True).to("cuda")

In [None]:
inputs

In [None]:
inputs['input_ids'].size()

# 3.Continued pre-training

In [None]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 8192 # Choose any! We auto support RoPE Scaling internally!
dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/gemma-2-9b", # Choose ANY! eg teknium/OpenHermes-2.5-Mistral-7B
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
    # token = "hf_...", # use one if using gated models like meta-llama/Llama-2-7b-hf
)

In [None]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 32, # Choose any number > 0 ! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",

                      "embed_tokens", "lm_head",], # Add for continual pretraining
    lora_alpha = 64,
    lora_dropout = 0, # Supports any, but = 0 is optimized
    bias = "none",    # Supports any, but = "none" is optimized
    # [NEW] "unsloth" uses 30% less VRAM, fits 2x larger batch sizes!
    use_gradient_checkpointing = "unsloth", # True or "unsloth" for very long context
    random_state = 3407,
    use_rslora = True,   # We support rank stabilized LoRA
    loftq_config = None, # And LoftQ
)

In [None]:
# 학습 가능한 파라미터 수
model.print_trainable_parameters()

### finetuning 가능한 형태로 데이터 전처리 + 메타데이터 포함

In [None]:
from datasets import Dataset
# prompt 템플릿 적용
def generate_prompt(example):
    """Gen. input text based on a prompt, task instruction, (context info.), and answer

    :param data_point: dict: Data point
    :return: dict: tokenzed prompt
    """
    prompt_list = []
    for i in range(len(example['q'])):
        prefix_text = '아래는 작업을 설명하는 지시사항입니다. 요청을 적절히 완료하는 응답을 작성하세요.\\n\\n'
        # 추가 맥락이 포함된 샘플.
        text = (
            f"<start_of_turn>user {prefix_text} 지시사항: {example['q'][i]} \\n\\n"
            f"입력 내용은 다음과 같습니다: 지원직무: {example['position'][i]}, "
            f"지원회사: {example['company'][i]}, 개인경험: {example['personality'][i]} "
            f"<end_of_turn>\\n<start_of_turn>model {example['a'][i]} <end_of_turn><eos>"
        )
        prompt_list.append(text)
    return prompt_list

df['prompt'] = generate_prompt(df)

data = Dataset.from_pandas(df)

# 학습할 데이터 토큰화
data = data.map(lambda samples: tokenizer(samples["prompt"]), batched=True)

# train, test 분리
data = data.train_test_split(test_size=0.2)

data

In [None]:
data['train']['prompt'][1]

### CPT 모델 학습

In [None]:
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported
from unsloth import UnslothTrainer, UnslothTrainingArguments

trainer = UnslothTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = data["train"],
    dataset_text_field = 'prompt',
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,

    args = UnslothTrainingArguments(
        per_device_train_batch_size = 2,
        gradient_accumulation_steps = 8,
        warmup_ratio = 0.1,
        num_train_epochs = 1,

        learning_rate = 5e-5,
        embedding_learning_rate = 1e-5,

        fp16 = not is_bfloat16_supported(),
        bf16 = is_bfloat16_supported(),
        logging_steps = 1,
        optim = "adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
    ),
)

In [None]:
trainer.train()

### 성능 체크

In [None]:
from transformers import TextStreamer
# 성능 체크
def get_completion(example, model, tokenizer, i):
    prompt = f"""다음 정보를 바탕으로 지원 동기를 작성해 주세요.

    지원 직무: {example['position'][i]}
    지원 회사: {example['company'][i]}
    개인 경험/기술: {example['personality'][i]}

    지원 동기:"""

    # FastLanguageModel로 추론 성능 최적화
    FastLanguageModel.for_inference(model) # Enable native 2x faster inference
    inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=True).to("cuda")
    text_streamer = TextStreamer(tokenizer)

    outputs = outputs = model.generate(
        **inputs,
        streamer=text_streamer,
        temperature=0.7,       # Lower temperature for less randomness
        top_p=0.9,             # Nucleus sampling (top-p)
        top_k=50,              # Limits vocabulary size for each step
        max_new_tokens=500,    # Limits the output length to avoid repetitions
        repetition_penalty=1.2, # Penalizes repeated sequences
        use_cache=True
    )
    decoded = tokenizer.batch_decode(outputs)
    return decoded

In [None]:
result = get_completion(example=data['test'],
                        model=trainer.model,
                        tokenizer=tokenizer,
                        i = 1)
print(result[0])

In [None]:
result

## 모델 저장

### GGUF
- Ollama로 serving 하기 위함
- 허깅페이스에 업로드

#### GGUF / llama.cpp Conversion
To save to `GGUF` / `llama.cpp`, we support it natively now! We clone `llama.cpp` and we default save it to `q8_0`. We allow all methods like `q4_k_m`. Use `save_pretrained_gguf` for local saving and `push_to_hub_gguf` for uploading to HF.

Some supported quant methods (full list on our [Wiki page](https://github.com/unslothai/unsloth/wiki#gguf-quantization-options)):
* `q8_0` - Fast conversion. High resource use, but generally acceptable.
* `q4_k_m` - Recommended. Uses Q6_K for half of the attention.wv and feed_forward.w2 tensors, else Q4_K.
* `q5_k_m` - Recommended. Uses Q6_K for half of the attention.wv and feed_forward.w2 tensors, else Q5_K.

In [None]:
# CPT로 학습된 모델 저장
model=trainer.model

# Save to 8bit Q8_0
if False: model.save_pretrained_gguf("model", tokenizer,)
if False: model.push_to_hub_gguf("hf/model", tokenizer, token = "")

# Save to 16bit GGUF
if False: model.save_pretrained_gguf("model", tokenizer, quantization_method = "f16")
if False: model.push_to_hub_gguf("hf/model", tokenizer, quantization_method = "f16", token = "")

# Save to q4_k_m GGUF
if False: model.save_pretrained_gguf("model", tokenizer, quantization_method = "q4_k_m")
if True: model.push_to_hub_gguf("Goranii/gemma-2-9b-CPT-GGUF", tokenizer, quantization_method = "q4_k_m", token = "YOUR_HUGGINGFACE_TOKEN") ## 4bit 모델 저장
if False: model.push_to_hub_gguf("hf/model", tokenizer, quantization_method = "q5_k_m", token = "")

### 4bit model
- vLLM으로 serving 하기 위함
- 허깅페이스에 업로드

#### Saving to float16 for VLLM

We also support saving to `float16` directly. Select `merged_16bit` for float16 or `merged_4bit` for int4. We also allow `lora` adapters as a fallback. Use `push_to_hub_merged` to upload to your Hugging Face account! You can go to https://huggingface.co/settings/tokens for your personal tokens.

In [None]:
# CPT로 학습된 모델 저장
model=trainer.model

# Merge to 16bit
if False: model.save_pretrained_merged("model", tokenizer, save_method = "merged_16bit",)
if True: model.push_to_hub_merged("Goranii/gemma-2-9b-CPT", tokenizer, save_method = "merged_16bit", token = "YOUR_HUGGINGFACE_TOKEN")

# Merge to 4bit
if False: model.save_pretrained_merged("model", tokenizer, save_method = "merged_4bit",)
if False: model.push_to_hub_merged("Goranii/gemma-2-9b-CPT", tokenizer, save_method = "merged_4bit_forced", token = "YOUR_HUGGINGFACE_TOKEN") ## 4bit 모델 저장

# Just LoRA adapters
if False: model.save_pretrained_merged("model", tokenizer, save_method = "lora",)
if False: model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = "")

# 4.메타데이터 포함 fine tuning

## 메타데이터를 포함한 데이터 import

In [None]:
import pandas as pd
import numpy as nu

df = pd.read_csv('./finetune_dataset_ALL.csv')
df

## unsloth 버전

In [None]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 2048
dtype = None
load_in_4bit = True

model, tokenizer = FastLanguageModel.from_pretrained(
   model_name = "unsloth/gemma-2-9b",
   max_seq_length = max_seq_length,
   dtype = dtype,
   load_in_4bit = load_in_4bit)

In [None]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 16,
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,
    lora_dropout = 0,
    bias = "none",
    use_gradient_checkpointing = "unsloth",
    random_state = 3407,
    use_rslora = False,
    loftq_config = None,
)

### finetuning 가능한 형태로 데이터 전처리

In [None]:
from datasets import Dataset
# prompt 템플릿 적용
def generate_prompt(example):
    """Gen. input text based on a prompt, task instruction, (context info.), and answer

    :param data_point: dict: Data point
    :return: dict: tokenzed prompt
    """
    prompt_list = []
    for i in range(len(example['q'])):
        prefix_text = '아래는 작업을 설명하는 지시사항입니다. 요청을 적절히 완료하는 응답을 작성하세요.\\n\\n'
        # 추가 맥락이 포함된 샘플.
        text = (
            f"<start_of_turn>user {prefix_text} 지시사항: {example['q'][i]} \\n\\n"
            f"입력 내용은 다음과 같습니다: 지원직무: {example['position'][i]}, "
            f"지원회사: {example['company'][i]}, 개인경험: {example['personality'][i]} "
            f"<end_of_turn>\\n<start_of_turn>model {example['a'][i]} <end_of_turn><eos>"
        )
        prompt_list.append(text)
    return prompt_list

df['prompt'] = generate_prompt(df)

data = Dataset.from_pandas(df)

# 학습할 데이터 토큰화
data = data.map(lambda samples: tokenizer(samples["prompt"]), batched=True)

# train, test 분리
data = data.train_test_split(test_size=0.2)

data

In [None]:
data['train']['prompt'][1]

### unsloth 버전 모델 학습

In [None]:
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = data["train"],
    dataset_text_field = 'prompt',
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = False,
    args = TrainingArguments(
        per_device_train_batch_size = 2,
        gradient_accumulation_steps = 4,
        warmup_steps = 5,
        max_steps = 100,
        learning_rate = 2e-4,
        fp16 = not is_bfloat16_supported(),
        bf16 = is_bfloat16_supported(),
        logging_steps = 1,
        optim = "adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
    ),
)

In [None]:
model.print_trainable_parameters()

In [None]:
used_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
used_memory_for_lora = round(used_memory - start_gpu_memory, 3)
used_percentage = round(used_memory         /max_memory*100, 3)
lora_percentage = round(used_memory_for_lora/max_memory*100, 3)
print(f"{trainer_stats.metrics['train_runtime']} seconds used for training.")
print(f"{round(trainer_stats.metrics['train_runtime']/60, 2)} minutes used for training.")
print(f"Peak reserved memory = {used_memory} GB.")
print(f"Peak reserved memory for training = {used_memory_for_lora} GB.")
print(f"Peak reserved memory % of max memory = {used_percentage} %.")
print(f"Peak reserved memory for training % of max memory = {lora_percentage} %.")

In [None]:
trainer.train()

### 성능 체크

In [None]:
from transformers import TextStreamer
# 성능 체크
def get_completion(example, model, tokenizer, i):
    prompt = f"""다음 정보를 바탕으로 지원 동기를 작성해 주세요.

    지원 직무: {example['position'][i]}
    지원 회사: {example['company'][i]}
    개인 경험/기술: {example['personality'][i]}

    지원 동기:"""

    # FastLanguageModel로 추론 성능 최적화
    FastLanguageModel.for_inference(model) # Enable native 2x faster inference
    inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=True).to("cuda")
    text_streamer = TextStreamer(tokenizer)

    outputs = outputs = model.generate(
        **inputs,
        streamer=text_streamer,
        temperature=0.7,       # Lower temperature for less randomness
        top_p=0.9,             # Nucleus sampling (top-p)
        top_k=50,              # Limits vocabulary size for each step
        max_new_tokens=200,    # Limits the output length to avoid repetitions
        repetition_penalty=1.2, # Penalizes repeated sequences
        use_cache=True
    )
    decoded = tokenizer.batch_decode(outputs)
    return decoded

In [None]:
result = get_completion(example=data['test'],
                        model=trainer.model,
                        tokenizer=tokenizer,
                        i = 0)
print(result[0])

In [None]:
result

In [None]:
from transformers import TextStreamer
# 성능 체크
def get_completion(example, model, tokenizer,i):

    prompt_template = """당신은 지원 동기 작성 어시스턴트입니다. 다음 정보를 바탕으로 지원 동기를 작성해 주세요.

지원 직무: AI 연구원
지원 회사: 삼성전자
개인 경험/기술: 머신러닝 프로젝트 경험, 소프트웨어 엔지니어 경력

지원 동기:"""#.format(data['test']['position'][i],data['test']['company'][i],data['test']['personality'][i],data['test']['q'][i])
    prompt = prompt_template #prompt_template.format(query=)
    # alpaca_prompt = Copied from above
    FastLanguageModel.for_inference(model) # Enable native 2x faster inference
    inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=True).to("cuda")
    text_streamer = TextStreamer(tokenizer)

    outputs = outputs = model.generate(
        **inputs,
        streamer=text_streamer,
        temperature=0.7,       # Lower temperature for less randomness
        top_p=0.9,             # Nucleus sampling (top-p)
        top_k=50,              # Limits vocabulary size for each step
        max_new_tokens=200,    # Limits the output length to avoid repetitions
        repetition_penalty=1.2, # Penalizes repeated sequences
        use_cache=True
    )
    decoded = tokenizer.batch_decode(outputs)

    return decoded

In [None]:
result = get_completion(example=data['test'],
                        model=trainer.model,
                        tokenizer=tokenizer,
                        i = 0)
print(result)

In [None]:
from transformers import TextStreamer

# 성능 체크
def get_completion(example, model, tokenizer, i):
    prompt_template = """당신은 지원 동기 작성 어시스턴트입니다. 다음 정보를 바탕으로 지원 동기를 작성해 주세요.

지원 직무: AI 연구원
지원 회사: 삼성전자
개인 경험/기술: 머신러닝 프로젝트 경험, 소프트웨어 엔지니어 경력

지원 동기:"""
    prompt = prompt_template

    # Inference setup
    inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=True).to("cuda")

    # Streaming output setup
    text_streamer = TextStreamer(tokenizer)

    # Model generation with additional sampling parameters
    outputs = model.generate(
        **inputs,
        streamer=text_streamer,
        temperature=0.7,       # Lower temperature for less randomness
        top_p=0.9,             # Nucleus sampling (top-p)
        top_k=50,              # Limits vocabulary size for each step
        max_new_tokens=200,    # Limits the output length to avoid repetitions
        repetition_penalty=1.2, # Penalizes repeated sequences
        use_cache=True
    )

    # Decoding the generated tokens
    decoded = tokenizer.batch_decode(outputs, skip_special_tokens=True)

    return decoded

# 모델 실행 및 출력
result = get_completion(
    example=data['test'],
    model=trainer.model,
    tokenizer=tokenizer,
    i=0
)

print(result)


In [None]:
result[0]