In [1]:
import torch
import gc

gc.collect()
torch.cuda.empty_cache()

# 0. load dataset

In [2]:
from dotenv import load_dotenv
import os

env_path = os.path.join(os.getcwd(), 'KRX_LLM', '.env')
load_dotenv(env_path)

hf_token = os.getenv("HF_TEAM_TOKEN")
print(hf_token)

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


In [3]:
from unsloth import FastLanguageModel
import torch

model_name = 'KR-X-AI/krx-qwen2-7b-instruct-v2'
max_seq_length = 2048
dtype = None 
load_in_4bit = True 

# 모델 및 토크나이저 선언
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = model_name,
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
    token = hf_token, 
)

  from .autonotebook import tqdm as notebook_tqdm


🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
==((====))==  Unsloth 2024.10.7: Fast Qwen2 patching. Transformers = 4.44.2.
   \\   /|    GPU: NVIDIA GeForce RTX 3090. Max memory: 23.691 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.5.1+cu124. CUDA = 8.6. CUDA Toolkit = 12.4.
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.28.post3. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth


Downloading shards: 100%|██████████| 4/4 [00:57<00:00, 14.44s/it]
Loading checkpoint shards: 100%|██████████| 4/4 [00:04<00:00,  1.04s/it]
Unsloth: We fixed a gradient accumulation bug, but it seems like you don't have the latest transformers version!
Please update transformers, TRL and unsloth via:
`pip install --upgrade --no-cache-dir --no-deps unsloth transformers git+https://github.com/huggingface/trl.git`


In [4]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 16, # 0을 넘는 숫자를 선택하세요. 8, 16, 32, 64, 128이 추천됩니다.
     target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",], # target module도 적절하게 조정할 수 있습니다.
    lora_alpha = 32,
    lora_dropout = 0.1, # 어떤 값이든 사용될 수 있지만, 0으로 최적화되어 있습니다.
    bias = "none",    # 어떤 값이든 사용될 수 있지만, "none"으로 최적화되어 있습니다.
    use_gradient_checkpointing = "unsloth", # 매우 긴 context에 대해 True 또는 "unsloth"를 사용하십시오.
    random_state = 42,
    use_rslora = False,
    loftq_config={"quantization": "4bit"}, 
)

Unsloth: Dropout = 0 is supported for fast patching. You are using dropout = 0.1.
Unsloth will patch all other layers, except LoRA matrices, causing a performance hit.
Unsloth 2024.10.7 patched 28 layers with 0 QKV layers, 0 O layers and 0 MLP layers.


# 1. load data

In [15]:
import pandas as pd
from datasets import Dataset 

df = pd.read_csv('/root/KRX_LLM/data/fixed_sample_questions.csv')
dataset = Dataset.from_pandas(df)
df.head()

Unnamed: 0,question,answer
0,"### 질문: 파생상품, 알고리즘 거래, 고주파 거래는 각각 금융시장에 다양한 영향...",C
1,"### 질문: IMF와 세계은행이 경제 안정성에 기여하는 방식에서, 다음 중 가장 ...",A
2,### 질문: AI가 신용 평가 및 사기 탐지에 어떻게 활용되고 있는지를 논의할 때...,E
3,### 질문: AI가 자산 관리에서 생성하는 가치를 극대화하기 위해 필요한 도전 과...,A
4,### 질문: AI 기반 금융 서비스에서 고객 경험을 향상시키기 위한 여러 접근 방...,D


In [16]:
prompt = """You're given a problem and options. You should read the given problem and options and solve them.

{}

### 정답:
이 문제의 정답은 {}입니다.
"""

EOS_TOKEN = tokenizer.eos_token
def formatting_prompts_func(examples):
    questions = examples['question']
    answers = examples['answer']

    texts = []
    for q, a in zip(questions, answers):
        text = prompt.format(q, a) + EOS_TOKEN
        texts.append(text)
    return {"formatted_text": texts}

dataset = dataset.map(formatting_prompts_func, batched = True)
dataset[0]

Map: 100%|██████████| 999/999 [00:00<00:00, 61761.86 examples/s]


{'question': '### 질문: 파생상품, 알고리즘 거래, 고주파 거래는 각각 금융시장에 다양한 영향을 미치는 요소들입니다. 다음 중 이들이 시장의 효율성을 향상시키는 방식으로 옳지 않은 것을 고르시오.\n### 선택지:\nA. 파생상품은 가격 변동으로부터 위험을 관리하여 시장 안정성을 돕는다.\nB. 알고리즘 거래는 자동화 과정을 통해 거래 속도를 높이고 감정적 결정을 줄인다.\nC. 고주파 거래는 단기 거래를 통해 시장 가격이 사실상의 가치와 멀어지게 만든다.\nD. 알고리즘 거래는 유동성을 높이고 가격 발견 과정을 개선한다.\nE. 파생상품은 전반적으로 시장에 가격 안정을 유발하는 요소로 작용한다.',
 'answer': 'C',
 'formatted_text': "You're given a problem and options. You should read the given problem and options and solve them.\n\n### 질문: 파생상품, 알고리즘 거래, 고주파 거래는 각각 금융시장에 다양한 영향을 미치는 요소들입니다. 다음 중 이들이 시장의 효율성을 향상시키는 방식으로 옳지 않은 것을 고르시오.\n### 선택지:\nA. 파생상품은 가격 변동으로부터 위험을 관리하여 시장 안정성을 돕는다.\nB. 알고리즘 거래는 자동화 과정을 통해 거래 속도를 높이고 감정적 결정을 줄인다.\nC. 고주파 거래는 단기 거래를 통해 시장 가격이 사실상의 가치와 멀어지게 만든다.\nD. 알고리즘 거래는 유동성을 높이고 가격 발견 과정을 개선한다.\nE. 파생상품은 전반적으로 시장에 가격 안정을 유발하는 요소로 작용한다.\n\n### 정답:\n이 문제의 정답은 C입니다.\n<|im_end|>"}

# 모델 학습

In [19]:
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset,
    dataset_text_field = "formatted_text",
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = False, # True로 설정하면 짧은 텍스트 데이터에 대해서는 더 빠른 학습 속도로를 보여줍니다.
    args = TrainingArguments( # TrainingArguments는 자신의 학습 환경과 기호에 따라 적절하게 설정하면 됩니다.
        per_device_train_batch_size = 4,
        gradient_accumulation_steps = 2,
        warmup_ratio = 0.03,
        num_train_epochs = 3,
        # max_steps = 60,
        learning_rate = 2e-4,
        fp16 = not is_bfloat16_supported(),
        bf16 = is_bfloat16_supported(),
        logging_steps = 10,
        optim = "adamw_8bit",
        weight_decay = 0.001,
        lr_scheduler_type = "cosine",
        seed = 42,
        output_dir = "/krx/outputs",
        save_steps=100,  # 매 100 스텝마다 체크포인트 저장
        save_total_limit=1,  # 최신 1개의 체크포인트만 보관
    ),
)

Map (num_proc=2): 100%|██████████| 999/999 [00:00<00:00, 1716.01 examples/s]
Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.


In [20]:
trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 999 | Num Epochs = 3
O^O/ \_/ \    Batch size per device = 4 | Gradient Accumulation steps = 2
\        /    Total batch size = 8 | Total steps = 375
 "-____-"     Number of trainable parameters = 40,370,176


**** Unsloth: Please use our fixed gradient_accumulation_steps by updating transformers, TRL and Unsloth!
`pip install --upgrade --no-cache-dir --no-deps unsloth transformers git+https://github.com/huggingface/trl.git`


Step,Training Loss
10,1.8105
20,1.2094
30,1.112
40,1.1101
50,1.0923
60,1.0583
70,1.0315
80,1.0451
90,1.0346
100,1.0472


# 모델 추론

In [None]:
inputs = tokenizer(
[
    """
    다음 중 화폐의 시간가치에 관한 설명으로 옳지 않은 것은 무엇인가?

A. 월 복리의 경우, 매월 적용되는 이자율은 연간 명목 이자율을 1/12로 나누어 산출한다.
B. 투자 원금 및 기타 조건이 동일할 경우, 단리 방식보다 복리 방식에서 발생하는 이자가 더 크다.
C. 일시불로 지급될 금액의 현재 가치는 미래 가치를 일정 기간 동안 할인율을 적용해 산출할 수 있다.
D. 1,000,000원을 연 5% 복리로 2년 동안 예치했을 경우, 만기에 받을 세전 이자는 100,000원이다.
    """
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 256, use_cache = True)
tokenizer.batch_decode(outputs)

In [None]:
FastLanguageModel.for_inference(model)
inputs = tokenizer(
[
    """
다음 문제를 읽고 정답으로 가장 알맞은 것을 고르시요.
### 질문: 다음 중 우리나라 주식시장 매매 제도에 대한 기술로 맞는 것은?
### 선택지: 
A. 개장 시간은 오전 10시다.
B. 유가증권시장의 가격 제한폭은 전일 종가 대비 상하 15%이다.
C. 코스닥시장에는 가격 제한폭이 없다.
D. 점심시간(12~1시)에는 휴장한다.
E. 동시호가는 폐장 시간에만 적용한다.
F. K-OTC시장의 가격 제한폭은 전일 종가 대비 상하 30%이다.
G. K-OTC시장의 운영시간은 09:00부터 16:00까지이다.
    """
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 256, use_cache = True)
tokenizer.batch_decode(outputs)

# 모델 업로드

In [None]:
model_name = "krx-qwen2-7b-instruct-v3"

In [None]:
# LoRA Adapter 저장
model.save_pretrained("lora_model")
tokenizer.save_pretrained("lora_model")

# Merged model 저장 및 업로드
model.save_pretrained_merged("model", tokenizer, save_method = "merged_16bit",)
model.push_to_hub_merged(model_name, tokenizer, save_method = "merged_16bit", token = hf_token) 