## 1. Unsloth 설치 및 학습 환경 구축

In [1]:
# # Unsloth 설치 및 최신 버전 업그레이드
# !pip install unsloth
# !pip uninstall unsloth -y && pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
# !pip install trl bitsandbytes triton xformers peft

# # GPU가 softcapping을 지원하는 경우, Flash Attention 2 설치
# import torch
# if torch.cuda.get_device_capability()[0] >= 8:
#     !pip install --no-deps packaging ninja einops "flash-attn>=2.6.3"

[0mFound existing installation: unsloth 2024.10.7
Uninstalling unsloth-2024.10.7:
  Successfully uninstalled unsloth-2024.10.7
[0mCollecting unsloth@ git+https://github.com/unslothai/unsloth.git (from unsloth[colab-new]@ git+https://github.com/unslothai/unsloth.git)
  Cloning https://github.com/unslothai/unsloth.git to /tmp/pip-install-6vm91c7t/unsloth_c364f6fd461b463ca423beb3014d3a1c
  Running command git clone --filter=blob:none --quiet https://github.com/unslothai/unsloth.git /tmp/pip-install-6vm91c7t/unsloth_c364f6fd461b463ca423beb3014d3a1c
  Resolved https://github.com/unslothai/unsloth.git to commit 9ca13b836f647e67d6e9ca8bb712403ffaadd607
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
Building wheels for collected packages: unsloth
  Building wheel for unsloth (pyproject.toml) ... [?25ldone
[?25h  Created wheel for unsloth: filename=unsloth-2024.10.7-py3-none

## 2. 모델 및 데이터셋 로드

In [1]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 2048
dtype = None # None으로 지정할 경우 해당 컴퓨팅 유닛에 알맞은 dtype으로 저장됩니다. Tesla T4와 V100의 경우에는 Float16, Ampere+ 이상의 경우에는 Bfloat16으로 설정됩니다.
load_in_4bit = True # 메모리 사용량을 줄이기 위해서는 4bit 양자화를 사용하실 것을 권장합니다.

# 모델 및 토크나이저 선언
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "Qwen/Qwen2-7B-Instruct",
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
    # token = "hf_...", # gated model을 사용할 경우 허깅페이스 토큰을 입력해주시길 바라겠습니다.
)

  from .autonotebook import tqdm as notebook_tqdm


🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
==((====))==  Unsloth 2024.10.7: Fast Qwen2 patching. Transformers = 4.44.2.
   \\   /|    GPU: NVIDIA GeForce RTX 3090. Max memory: 23.691 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.5.0+cu124. CUDA = 8.6. CUDA Toolkit = 12.4.
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.28.post2. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth


Unsloth: We fixed a gradient accumulation bug, but it seems like you don't have the latest transformers version!
Please update transformers, TRL and unsloth via:
`pip install --upgrade --no-cache-dir --no-deps unsloth transformers git+https://github.com/huggingface/trl.git`


In [2]:
def print_submodules(model, prefix=''):
    for name, submodule in model.named_children():
        full_name = f"{prefix}.{name}" if prefix else name
        print(full_name)
        print_submodules(submodule, full_name)

# Run the function
print_submodules(model)

model
model.embed_tokens
model.layers
model.layers.0
model.layers.0.self_attn
model.layers.0.self_attn.q_proj
model.layers.0.self_attn.k_proj
model.layers.0.self_attn.v_proj
model.layers.0.self_attn.o_proj
model.layers.0.self_attn.rotary_emb
model.layers.0.mlp
model.layers.0.mlp.gate_proj
model.layers.0.mlp.up_proj
model.layers.0.mlp.down_proj
model.layers.0.mlp.act_fn
model.layers.0.input_layernorm
model.layers.0.post_attention_layernorm
model.layers.1
model.layers.1.self_attn
model.layers.1.self_attn.q_proj
model.layers.1.self_attn.k_proj
model.layers.1.self_attn.v_proj
model.layers.1.self_attn.o_proj
model.layers.1.self_attn.rotary_emb
model.layers.1.mlp
model.layers.1.mlp.gate_proj
model.layers.1.mlp.up_proj
model.layers.1.mlp.down_proj
model.layers.1.mlp.act_fn
model.layers.1.input_layernorm
model.layers.1.post_attention_layernorm
model.layers.2
model.layers.2.self_attn
model.layers.2.self_attn.q_proj
model.layers.2.self_attn.k_proj
model.layers.2.self_attn.v_proj
model.layers.2.s

In [4]:
# LoRA Adapter 선언
model = FastLanguageModel.get_peft_model(
    model,
    r = 16, # 0을 넘는 숫자를 선택하세요. 8, 16, 32, 64, 128이 추천됩니다.
     target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",], # target module도 적절하게 조정할 수 있습니다.
    lora_alpha = 32,
    lora_dropout = 0.1, # 어떤 값이든 사용될 수 있지만, 0으로 최적화되어 있습니다.
    bias = "none",    # 어떤 값이든 사용될 수 있지만, "none"으로 최적화되어 있습니다.
    use_gradient_checkpointing = "unsloth", # 매우 긴 context에 대해 True 또는 "unsloth"를 사용하십시오.
    random_state = 42,
    use_rslora = False,
    loftq_config={"quantization": "4bit"}, 
)

Unsloth: Dropout = 0 is supported for fast patching. You are using dropout = 0.1.
Unsloth will patch all other layers, except LoRA matrices, causing a performance hit.
Unsloth 2024.10.7 patched 28 layers with 0 QKV layers, 0 O layers and 0 MLP layers.


## 3. 데이터셋 전처리
데이터셋은 한국어 금융 합성 데이터셋인 `amphora/krx-sample-instruction`를 사용하였고, 데이터셋 템플릿으로는 Alpaca prompt에서 input을 제거한 형태의 프롬프트 템플릿을 사용하였습니다.

In [None]:
# prompt_format = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

# ### Instruction:
# {}

# ### Response:
# {}"""

# EOS_TOKEN = tokenizer.eos_token
# def formatting_prompts_func(examples):
#     instructions = examples["prompt"]
#     outputs = examples["response"]
#     texts = []
#     for instruction, output in zip(instructions, outputs):
#         text = prompt_format.format(instruction, output) + EOS_TOKEN # 마지막에 eos token을 추가해줌으로써 모델이 출력을 끝마칠 수 있게 만들어 줍니다.
#         texts.append(text)
#     return { "formatted_text" : texts, }
# pass

# from datasets import load_dataset
# dataset = load_dataset("amphora/krx-sample-instructions", split = "train")
# dataset = dataset.map(formatting_prompts_func, batched = True,)

In [5]:
EOS_TOKEN = tokenizer.eos_token

from datasets import load_dataset
dataset = load_dataset("csv", data_files='/krx/formatted_finance_terms_dataset.csv', split="train")

def add_eos_token(examples):
    # EOS 토큰을 formatted_text 필드의 마지막에 추가
    examples["formatted_text"] = examples["formatted_text"] + EOS_TOKEN
    return examples
# 데이터셋에 EOS 토큰을 추가
dataset = dataset.map(add_eos_token)

In [5]:
print(dataset[0])

{'formatted_text': '### Instruction: This task focuses on understanding key finance terms. For each term, read the context carefully, then answer questions about its definition, typical usage, practical examples, and relevance in finance. Each answer will deepen your understanding of the term’s role in the financial field.\n\n    ### Term: 2차 시장(Secondary Market)\n    \n    ### Context: 2차 시장은 처음 발행된 증권, 채권 등이 거래되는 발행시장과 구분되며, 이미 발행된 주식들의 거래가 이루어지는 유통시장을 뜻한다. 국내에서는 유가증권시장, 코스닥, 코넥스, 프리보드 시장 등이 2차시장에 해당하며, 외국의 경우\u2028New York Stock Exachange(NYSE), NASDAQ 등이 있다. 2차 시장에서는 주식이 가장 보편적으로 거래 되며, 주식 외에도 뮤추얼 펀드, 채권과 같은 상품 등도 거래된다. 패니매(Fanni Mae), 프레디맥(Freddie Mac)과 같은 기관들은 2차 시장에서 모기지 관련 상품을 거래하며 모기지 증권을 만든다. \n\n1차 시장(Primary Market)에서는 처음 발행된 주식이나 채권을 등의 거래가 이루어지며, 흔히 알려진 거래 형태는 IPO(Initial Public Offering)이다. 이 때 거래된 증권을 후에 재판매하기 위한 거래 시장이 2차 시장이다. 각각의 거래에서 발생한 수익은 거래 당사자에게 돌아가며, 1차 시장에서 IPO 에 참여한 투자은행, 주식 발행 주체가 되는 회사 등은 2차 시장에서의 거래에 관여하지 않는다.\n    \n    ### Questions:\n        1. 이 문장의 요

## 4. 모델 학습

full train을 위해서는 `num_train_epochs=1`로 설정하고, `max_steps`를 설정하지 않으면 됩니다.





In [6]:
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset,
    dataset_text_field = "formatted_text",
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = False, # True로 설정하면 짧은 텍스트 데이터에 대해서는 더 빠른 학습 속도로를 보여줍니다.
    args = TrainingArguments( # TrainingArguments는 자신의 학습 환경과 기호에 따라 적절하게 설정하면 됩니다.
        per_device_train_batch_size = 4,
        gradient_accumulation_steps = 2,
        warmup_ratio = 0.03,
        num_train_epochs = 3,
        # max_steps = 60,
        learning_rate = 2e-4,
        fp16 = not is_bfloat16_supported(),
        bf16 = is_bfloat16_supported(),
        logging_steps = 10,
        optim = "adamw_8bit",
        weight_decay = 0.001,
        lr_scheduler_type = "cosine",
        seed = 42,
        output_dir = "/krx/save_steps",
        save_steps=100,  # 매 100 스텝마다 체크포인트 저장
        save_total_limit=1,  # 최신 1개의 체크포인트만 보관
    ),
)

Map (num_proc=2): 100%|██████████| 804/804 [00:00<00:00, 901.92 examples/s]
Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.


In [7]:
trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 804 | Num Epochs = 3
O^O/ \_/ \    Batch size per device = 4 | Gradient Accumulation steps = 2
\        /    Total batch size = 8 | Total steps = 300
 "-____-"     Number of trainable parameters = 40,370,176


**** Unsloth: Please use our fixed gradient_accumulation_steps by updating transformers, TRL and Unsloth!
`pip install --upgrade --no-cache-dir --no-deps unsloth transformers git+https://github.com/huggingface/trl.git`


Step,Training Loss
10,1.3804
20,0.9918
30,0.9785
40,0.94
50,0.9101
60,0.9432
70,0.9394
80,0.9464
90,0.9274
100,0.9227


## 5. 모델 추론

In [59]:
FastLanguageModel.for_inference(model)
inputs = tokenizer(
[
    """
    BIC에 대헤서 알려줘.
    """
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 256, use_cache = True)
tokenizer.batch_decode(outputs)

['\n    BIC에 대헤서 알려줘.\n     - BIC은 Bayesian Information Criterion의 약자로, 모델 선택에 사용되는 지표이다. BIC는 데이터와 모델 사이의 적합도를 평가하며, 정보량과 복잡성을 동시에 고려한다. BIC은 AIC(Akaike Information Criterion)와 유사하게 계산되지만, BIC는 log(n)인 대신 log(n) * log(log(n))로 곱해져서 데이터의 크기에 대한 영향을 덜 강하게 반영한다. 이는 BIC가 더 큰 모델에 대한 과적합(overfittingting)을 방지하려는 시도를 나타낸다. 따라서 BIC는 데이터의 크기와 복잡한 모델에 대해 AIC보다 더 나은 모델을 선택하는 데 도움을 준다.\n\n    BIC의 수식은 다음과 같다: \n        BIC = (2k - 2ln(L)) / ln(n)\n    \n    여기서,\n        k : 모델의 파라미터 개수\n        L : 데이터에 대한 최대 가능 확률\n        n : 데이터의 샘플 수\n    \n    BIC은 데이터']

In [60]:
FastLanguageModel.for_inference(model)
inputs = tokenizer(
[
    """
    다음 중 화폐의 시간가치에 관한 설명으로 옳지 않은 것은 무엇인가?

A. 월 복리의 경우, 매월 적용되는 이자율은 연간 명목 이자율을 1/12로 나누어 산출한다.
B. 투자 원금 및 기타 조건이 동일할 경우, 단리 방식보다 복리 방식에서 발생하는 이자가 더 크다.
C. 일시불로 지급될 금액의 현재 가치는 미래 가치를 일정 기간 동안 할인율을 적용해 산출할 수 있다.
D. 1,000,000원을 연 5% 복리로 2년 동안 예치했을 경우, 만기에 받을 세전 이자는 100,000원이다.
    """
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 256, use_cache = True)
tokenizer.batch_decode(outputs)

['\n    다음 중 화폐의 시간가치에 관한 설명으로 옳지 않은 것은 무엇인가?\n\nA. 월 복리의 경우, 매월 적용되는 이자율은 연간 명목 이자율을 1/12로 나누어 산출한다.\nB. 투자 원금 및 기타 조건이 동일할 경우, 단리 방식보다 복리 방식에서 발생하는 이자가 더 크다.\nC. 일시불로 지급될 금액의 현재 가치는 미래 가치를 일정 기간 동안 할인율을 적용해 산출할 수 있다.\nD. 1,000,000원을 연 5% 복리로 2년 동안 예치했을 경우, 만기에 받을 세전 이자는 100,000원이다.\n     - 이 문장의 내용은 옳지 않습니다. 1,000,000원을 연 5% 복리로 2년 동안 예치했을 때, 만기 이자는 원금과 이자를 모두 고려하여 계산해야 합니다. 이 경우, 이자는 11,000,000*(1.05)^2 - 1,000,000 = 110,250,000원 - 1,000,000원 = 100,250원입니다. 따라서 이 문장에서 제시된 이자는 정확하지 않습니다.<|im_end|>']

In [61]:
FastLanguageModel.for_inference(model)
inputs = tokenizer(
[
    """
다음 표는 주식 A에 대한 분석 결과입니다. 표를 바탕으로 향후 A의 주가가 상승할지 하락할지 예측하고 [증가] 혹은 [감소] 라고 답변하시요.
### 분석:
|    | date       |   open |   high |   low |   close |   adj-close |   inc-5 |   inc-10 |   inc-15 |   inc-20 |   inc-25 |   inc-30 |
|---:|:-----------|-------:|-------:|------:|--------:|------------:|--------:|---------:|---------:|---------:|---------:|---------:|
|  0 | 2020-10-19 |    1.2 |    2.2 |  -0.6 |    -0.1 |        -0.1 |    -1.4 |     -1.2 |     -0.8 |     -2.4 |     -2.4 |     -2.6 |
|  1 | 2020-10-20 |    0.6 |    1.2 |  -0.6 |     0.1 |         0.1 |    -0.8 |     -0.8 |     -0.7 |     -2.1 |     -2.3 |     -2.5 |
|  2 | 2020-10-21 |    1.6 |    2.3 |  -0   |    -2   |        -2   |     1.3 |      1.2 |      1.3 |      0.3 |     -0.4 |     -0.5 |
|  3 | 2020-10-22 |   -2.6 |    0.3 |  -2.9 |     3.2 |         3.2 |    -1.3 |     -1.9 |     -1.8 |     -2.1 |     -3.5 |     -3.3 |
|  4 | 2020-10-23 |    1.6 |    1.7 |  -0.8 |    -1   |        -1   |    -0.3 |     -0.9 |     -0.8 |     -0.8 |     -2.3 |     -2.2 |
|  5 | 2020-10-26 |    2.6 |    2.9 |  -1.1 |    -3.9 |        -3.9 |     3   |      2.7 |      2.8 |      3.1 |      1.8 |      1.7 |
|  6 | 2020-10-27 |    2.5 |    3.2 |  -0.2 |    -3.5 |        -3.5 |     5.2 |      6   |      6.3 |      6.5 |      5.4 |      5.2 |
|  7 | 2020-10-28 |    3.3 |    3.9 |  -0.1 |    -4.6 |        -4.6 |     8.1 |     10.1 |     10.6 |     11   |     10.3 |      9.8 |
|  8 | 2020-10-29 |   -0.2 |    1.2 |  -1.1 |     0.1 |         0.1 |     5.2 |      8.9 |      9.6 |     10.3 |     10.3 |      9.3 |
|  9 | 2020-10-30 |    1.9 |    3.3 |  -1.9 |    -2.6 |        -2.6 |     4.8 |     10.2 |     11.5 |     12.4 |     13   |     11.8 |
    """
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 256, use_cache = True)
tokenizer.batch_decode(outputs)

['\n다음 표는 주식 A에 대한 분석 결과입니다. 표를 바탕으로 향후 A의 주가가 상승할지 하락할지 예측하고 [증가] 혹은 [감소] 라고 답변하시요.\n### 분석:\n|    | date       |   open |   high |   low |   close |   adj-close |   inc-5 |   inc-10 |   inc-15 |   inc-20 |   inc-25 |   inc-30 |\n|---:|:-----------|-------:|-------:|------:|--------:|------------:|--------:|---------:|---------:|---------:|---------:|---------:|\n|  0 | 2020-10-19 |    1.2 |    2.2 |  -0.6 |    -0.1 |        -0.1 |    -1.4 |     -1.2 |     -0.8 |     -2.4 |     -2.4 |     -2.6 |\n|  1 | 2020-10-20 |    0.6 |    1.2 |  -0.6 |     0.1 |         0.1 |    -0.8 |     -0.8 |     -0.7 |     -2.1 |     -2.3 |     -2.5 |\n|  2 | 2020-10-21 |    1.6 |    2.3 |  -0   |    -2   |        -2   |     1.3 |      1.2 |      1.3 |      0.3 |     -0.4 |     -0.5 |\n|  3 | 2020-10-22 |   -2.6 |    0.3 |  -2.9 |     3.2 |         3.2 |    -1.3 |     -1.9 |     -1.8 |     -2.1 |     -3.5 |     -3.3 |\n|  4 | 2020-10-23 |    1.6 |    1.7 |  -0.8 |    -1   |        -1   |    -0.3 |     -0.9 

In [62]:
FastLanguageModel.for_inference(model)
inputs = tokenizer(
[
    """
다음 문제를 읽고 정답으로 가장 알맞은 것을 고르시요.
### 질문: 엑세스바이오의 코로나 진단 제품이 주요 매출에 기여한 이유와, 해당 제품들이 미국 시장에서 어떻게 판매되고 있는지를 설명해 주세요.
### 선택지: 
A. 엑세스바이오의 코로나 진단 제품은 바이러스와 관련 없는 일반적인 건강 검진용으로 개발되었으며, 미국 시장에선 주로 소비자 직거래 방식으로 판매되고 있습니다.
B. 엑세스바이오의 코로나 진단 제품은 대규모 임상시험을 통해 효과가 입증되어, 기존 진단 키트의 80% 이상을 차지하고 있으며, 주로 소매점에서 판매되고 있습니다.
C. 엑세스바이오의 코로나 진단 제품은 에볼라 및 기타 질병 진단에 사용되고 있으며, 미국 시장에서는 주 정부 계약을 통해 독점 판매되고 있습니다.
D. 엑세스바이오의 코로나 진단 제품은 COVID-19의 급격한 확산에 대응하여 개발된 신속진단키트로, 주로 연간 매출액에서 99.5%를 차지하고 있습니다. 이 제품들은 미국 시장에서 의료기기 전문 유통사를 통해 판매되고 있으며, 미 FDA로부터 긴급사용승인을 획득한 덕분에 더욱 폭넓은 수요를 만나게 되었습니다.
    """
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 256, use_cache = True)
tokenizer.batch_decode(outputs)

['\n다음 문제를 읽고 정답으로 가장 알맞은 것을 고르시요.\n### 질문: 엑세스바이오의 코로나 진단 제품이 주요 매출에 기여한 이유와, 해당 제품들이 미국 시장에서 어떻게 판매되고 있는지를 설명해 주세요.\n### 선택지: \nA. 엑세스바이오의 코로나 진단 제품은 바이러스와 관련 없는 일반적인 건강 검진용으로 개발되었으며, 미국 시장에선 주로 소비자 직거래 방식으로 판매되고 있습니다.\nB. 엑세스바이오의 코로나 진단 제품은 대규모 임상시험을 통해 효과가 입증되어, 기존 진단 키트의 80% 이상을 차지하고 있으며, 주로 소매점에서 판매되고 있습니다.\nC. 엑세스바이오의 코로나 진단 제품은 에볼라 및 기타 질병 진단에 사용되고 있으며, 미국 시장에서는 주 정부 계약을 통해 독점 판매되고 있습니다.\nD. 엑세스바이오의 코로나 진단 제품은 COVID-19의 급격한 확산에 대응하여 개발된 신속진단키트로, 주로 연간 매출액에서 99.5%를 차지하고 있습니다. 이 제품들은 미국 시장에서 의료기기 전문 유통사를 통해 판매되고 있으며, 미 FDA로부터 긴급사용승인을 획득한 덕분에 더욱 폭넓은 수요를 만나게 되었습니다.\n     ### 정답: D. 엑세스바이오의 코로나 진단 제품은 COVID-19의 급격한 확산에 대응하여 개발된 신속진단키트로, 주로 연간 매출액에서 99.5%를 차지하고 있으며, 미국 시장에서 의료기기 전문 유통사를 통해 판매되고 있습니다. 또한 미 FDA로부터 긴급사용승인을 받은 덕분에 많은 수요를 받아들이고 있습니다.<|im_end|>']

In [63]:
FastLanguageModel.for_inference(model)
inputs = tokenizer(
[
    """
다음 문제를 읽고 정답으로 가장 알맞은 것을 고르시요.
### 질문: 다음 중 우리나라 주식시장 매매 제도에 대한 기술로 맞는 것은?
### 선택지: 
A. 개장 시간은 오전 10시다.
B. 유가증권시장의 가격 제한폭은 전일 종가 대비 상하 15%이다.
C. 코스닥시장에는 가격 제한폭이 없다.
D. 점심시간(12~1시)에는 휴장한다.
E. 동시호가는 폐장 시간에만 적용한다.
F. K-OTC시장의 가격 제한폭은 전일 종가 대비 상하 30%이다.
G. K-OTC시장의 운영시간은 09:00부터 16:00까지이다.
    """
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 256, use_cache = True)
tokenizer.batch_decode(outputs)

['\n다음 문제를 읽고 정답으로 가장 알맞은 것을 고르시요.\n### 질문: 다음 중 우리나라 주식시장 매매 제도에 대한 기술로 맞는 것은?\n### 선택지: \nA. 개장 시간은 오전 10시다.\nB. 유가증권시장의 가격 제한폭은 전일 종가 대비 상하 15%이다.\nC. 코스닥시장에는 가격 제한폭이 없다.\nD. 점심시간(12~1시)에는 휴장한다.\nE. 동시호가는 폐장 시간에만 적용한다.\nF. K-OTC시장의 가격 제한폭은 전일 종가 대비 상하 30%이다.\nG. K-OTC시장의 운영시간은 09:00부터 16:00까지이다.\n     ### 정답: B. 유가증권시장의 가격 제한폭은 전일 종가 대비 상하 15%이다.<|im_end|>']

In [64]:
FastLanguageModel.for_inference(model)
inputs = tokenizer(
[
    """
주어진 데이터프레임을 보고 질문에 요구에 알맞는 코드를 선택하시요.
### df.head()
|    | Symbol    | Series   | Date        |   Prev Close |   Open Price |   High Price |   Low Price |   Last Price |   Close Price |   Average Price |   Total Traded Quantity |    Turnover |   No. of Trades |   Deliverable Qty |   % Dly Qt to Traded Qty |
|---:|:----------|:---------|:------------|-------------:|-------------:|-------------:|------------:|-------------:|--------------:|----------------:|------------------------:|------------:|----------------:|------------------:|-------------------------:|
|  0 | GODREJIND | EQ       | 15-May-2017 |       564.6  |       581    |       584    |      568.5  |       578.9  |        578.55 |          578.09 |                  797171 | 4.60836e+08 |           21649 |            360927 |                    45.28 |
|  1 | GODREJIND | EQ       | 16-May-2017 |       578.55 |       581.45 |       589    |      572.25 |       583.8  |        584.8  |          583.6  |                  500223 | 2.9193e+08  |           17204 |            210364 |                    42.05 |
|  2 | GODREJIND | EQ       | 17-May-2017 |       584.8  |       583    |       594    |      576.85 |       584.9  |        588.6  |          588.74 |                  504155 | 2.96815e+08 |            8567 |            261667 |                    51.9  |
|  3 | GODREJIND | EQ       | 18-May-2017 |       588.6  |       582    |       588.85 |      571.2  |       572.25 |        574.6  |          580.9  |                  223583 | 1.29879e+08 |            7144 |             99785 |                    44.63 |
|  4 | GODREJIND | EQ       | 19-May-2017 |       574.6  |       581    |       585.8  |      567.55 |       579.85 |        578    |          577.31 |                  245436 | 1.41692e+08 |            4969 |             68041 |                    27.72 |

### 질문:
"종가" 열의 평균 값을 계산합니다.

### 선택지:
a) ```python
df['Close Price'].mean()
```
b) ```python
df['Close_Price'].mean()
```
c) ```python
df['Total Traded Quantity'].median()
```
d) ```python
sum(df['Close Price']) / len(df['Close_Price'])
```
    """
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 256, use_cache = True)
tokenizer.batch_decode(outputs)

['\n주어진 데이터프레임을 보고 질문에 요구에 알맞는 코드를 선택하시요.\n### df.head()\n|    | Symbol    | Series   | Date        |   Prev Close |   Open Price |   High Price |   Low Price |   Last Price |   Close Price |   Average Price |   Total Traded Quantity |    Turnover |   No. of Trades |   Deliverable Qty |   % Dly Qt to Traded Qty |\n|---:|:----------|:---------|:------------|-------------:|-------------:|-------------:|------------:|-------------:|--------------:|----------------:|------------------------:|------------:|----------------:|------------------:|-------------------------:|\n|  0 | GODREJIND | EQ       | 15-May-2017 |       564.6  |       581    |       584    |      568.5  |       578.9  |        578.55 |          578.09 |                  797171 | 4.60836e+08 |           21649 |            360927 |                    45.28 |\n|  1 | GODREJIND | EQ       | 16-May-2017 |       578.55 |       581.45 |       589    |      572.25 |       583.8  |        584.8  |          583.6  |                 

## 6. 모델 저장 및 업로드

In [8]:
# LoRA Adapter 저장
model.save_pretrained("lora_model")
tokenizer.save_pretrained("lora_model")

# Merged model 저장 및 업로드
model.save_pretrained_merged("model", tokenizer, save_method = "merged_16bit",)
model.push_to_hub_merged("krx-qwen2-7b-instruct-v2", tokenizer, save_method = "merged_16bit", token = "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") # 개인 huggingface token을 사용하여 업로드할 수 있습니다.

Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 127.18 out of 251.62 RAM for saving.


 82%|████████▏ | 23/28 [00:00<00:00, 47.49it/s]We will save to Disk and not RAM now.
100%|██████████| 28/28 [00:01<00:00, 26.81it/s]


Unsloth: Saving tokenizer... Done.
Unsloth: Saving model... This might take 5 minutes for Llama-7b...
Done.
Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 127.16 out of 251.62 RAM for saving.


100%|██████████| 28/28 [00:01<00:00, 27.72it/s]


Unsloth: Saving to organization with address KR-X-AI/krx-qwen2-7b-instruct-v2
Unsloth: Saving tokenizer... Done.
Unsloth: Saving model... This might take 5 minutes for Llama-7b...
Unsloth: Saving to organization with address KR-X-AI/krx-qwen2-7b-instruct-v2
Unsloth: Uploading all files... Please wait...


model-00001-of-00004.safetensors:   0%|          | 0.00/4.88G [00:00<?, ?B/s]


[A[A[A
[A

model-00001-of-00004.safetensors:   0%|          | 8.19k/4.88G [00:00<17:41:16, 76.6kB/s]
[A


[A[A[A
model-00001-of-00004.safetensors:   0%|          | 1.70M/4.88G [00:00<11:43, 6.93MB/s]   


[A[A[A
[A


[A[A[A


[A[A[A
[A


model-00001-of-00004.safetensors:   0%|          | 2.29M/4.88G [00:00<29:54, 2.72MB/s]


[A[A[A
model-00001-of-00004.safetensors:   0%|          | 4.72M/4.88G [00:00<13:12, 6.15MB/s]


model-00001-of-00004.safetensors:   0%|          | 13.0M/4.88G [00:01<04:46, 17.0MB/s]


[A[A[A
[A


[A[A[A
[A


[A[A[A
[A


model-00001-of-00004.safetensors:   0%|          | 20.3M/4.88G [00:02<08:19, 9.73MB/s]


[A[A[A
[A
[A


model-00001-of-00004.safetensors:   0%|          | 22.4M/4.88G [00:02<08:31, 9.50MB/s]


model-00001-of-00004.safetensors:   0%|          | 23.9M/4.88G [00:02<08:28, 9.54MB/s]


model-00001-of-00004.safetensors:   1%|          | 

Done.
Saved merged model to https://huggingface.co/None/krx-qwen2-7b-instruct-v2


## 참고자료

- [Unsloth GitHub](https://github.com/unslothai/unsloth)
- [Unsloth Docs](https://docs.unsloth.ai/)
- [Unsloth Meta-Llama-3.1-8B Finetuning Tutorial](https://colab.research.google.com/drive/1Ys44kVvmeZtnICzWz0xgpRnrIOjZAuxp?usp=sharing)
- [Huggingface PEFT](https://github.com/huggingface/peft)
- [Huggingface TRL](https://github.com/huggingface/trl)
- [LoRA: Low-Rank Adaptation of Large Language Models](https://arxiv.org/abs/2106.09685)
- [QLoRA: Efficient Finetuning of Quantized LLMs](https://arxiv.org/abs/2305.14314)
- [FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning](https://arxiv.org/abs/2307.08691)