## 1. 데이터 전처리

해당 데이터를 전처리해서 허깅페이스에 데이터셋을 업로드하기까지의 과정은 아래의 Colab 주소에서 확인 가능합니다.  
https://colab.research.google.com/drive/1ZVwJ24AX92XnosIpS5-sbDqcKz_SloE9?usp=sharing

In [1]:
%pip install "torch==2.4.0"
%pip install "transformers==4.45.1" "datasets==3.0.1" "accelerate==0.34.2" "trl==0.11.1" "peft==0.13.0"

Collecting torch==2.4.0
  Downloading torch-2.4.0-cp311-cp311-manylinux1_x86_64.whl.metadata (26 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch==2.4.0)
  Downloading nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch==2.4.0)
  Downloading nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch==2.4.0)
  Downloading nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch==2.4.0)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.1.3.1 (from torch==2.4.0)
  Downloading nvidia_cublas_cu12-12.1.3.1-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.0.2.54 (from torch==2.4.0)
  Downloading nvidia_cufft_cu12-11.0.2.54-py3-none-many

In [2]:
from datasets import load_dataset, Dataset
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig
from trl import SFTConfig, SFTTrainer

In [3]:
# 1. 허깅페이스 허브에서 데이터셋 로드
from datasets import load_dataset
import random

dataset = load_dataset("iamjoon/esg-survey-reasoning_datasets", split="train")

# 2. OpenAI format으로 데이터 변환을 위한 함수 
def format_data(sample):
    # OpenAI format으로 변환
    return {
        "messages": [
            {
                "role": "system",
                "content": sample['reasoning_system_prompt'],
            },
            {
                "role": "user",
                "content": sample["user_prompt"],
            },
            {
                "role": "assistant",
                "content": sample["reasoning_assistant"].replace('\n\n답변:', '\n답변:')
            },
        ],
    }

# 3. 전체 데이터에 OpenAI 포맷 전처리 적용
formatted_dataset = dataset.map(format_data)

# 4. 데이터를 7:2 비율로 학습/테스트 분할 (HuggingFace 내장 메서드 사용)
split_dataset = formatted_dataset.train_test_split(test_size=0.3, seed=42)
train_dataset = split_dataset['train']
test_dataset = split_dataset['test']

# 5. 결과 확인
print(f"전체 데이터 수: {len(formatted_dataset)}")
print(f"학습 데이터 수: {len(train_dataset)} ({len(train_dataset)/len(formatted_dataset)*100:.1f}%)")
print(f"테스트 데이터 수: {len(test_dataset)} ({len(test_dataset)/len(formatted_dataset)*100:.1f}%)")

README.md:   0%|          | 0.00/621 [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/200M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/4599 [00:00<?, ? examples/s]

Map:   0%|          | 0/4599 [00:00<?, ? examples/s]

전체 데이터 수: 4599
학습 데이터 수: 3219 (70.0%)
테스트 데이터 수: 1380 (30.0%)


In [4]:
# 6. 샘플 데이터 확인
print("\n=== 학습 데이터 샘플 ===")
for message in train_dataset[0]['messages']:
    print(f"[{message['role'].upper()}]")

    # 상위 500개 문자열만 출력
    print(message['content'][:500])
    print("-" * 50)


=== 학습 데이터 샘플 ===
[SYSTEM]
당신은 주어진 질문에 대해서 검색 결과, 질문, 보기를 바탕으로 답변해야 합니다.
답변할 때는 근거:를 먼저 작성하고 답변:을 작성하십시오.
검색 결과를 바탕으로 답변할 수 없는 경우에는 근거:에 검색 결과에 질문에 대한 답을 알 수 있는 내용이 없다고 설명하고 답변: 알 수 없음이라고 적으세요. 반드시 '알 수 없음'이라고 적어야 합니다.

### 예시 ###
근거: 삼양홀딩스는 직원들의 복리후생과 업무환경 개선에 많은 노력을 기울이고 있습니다. 사내에서 아침, 점심, 저녁을 무료로 제공하는 구내 식당과 피트니스 센터 운영을 통해 임직원의 건강을 지원하고 있으며, 카페테리아 및 다양한 편의시설을 제공하여 여유와 휴식을 취할 수 있는 환경을 마련하고 있습니다 (문서 0). 또한, 삼양홀딩스는 직원들이 일과 생활의 균형을 유지할 수 있는 유연근무제를 도입하여 직원들이 가장 편리한 시간에 근무할 수 있도록 하고 있습니다 (문서 0). 이러한 점들을 고려할 때, 삼양홀딩스는 쾌적한 근무환
--------------------------------------------------
[USER]
질문: C3-2-2. 지배구조 요소와 관련하여 아래 항목 중 현재 재직하고 있는 회사에 해당되는 응답을 선택해주세요._1)(상장기업만 응답) 공정공시제도를 준수하고 있는가?

보기:
['1) 전혀그렇지않다', '2) 약간그렇지않다', '3) 보통이다', '4) 약간그렇다', '5) 매우그렇다']
--------------------------------------------------
[ASSISTANT]
근거: 검색 결과에서는 동국제강이 공정공시제도를 준수하고 있는지에 대한 직접적인 정보가 제공되지 않았습니다. 동국제강의 환경 및 경영 실적, 지속가능 경영 방침 등에 대한 정보만 포함되어 있습니다.
답변: 알 수 없음.
--------------------------------------------------


In [5]:
print("\n=== 테스트 데이터 샘플 ===")
for message in test_dataset[0]['messages']:
    print(f"[{message['role'].upper()}]")

    # 상위 500개 문자열만 출력
    print(message['content'][:500])
    print("-" * 50)


=== 테스트 데이터 샘플 ===
[SYSTEM]
당신은 주어진 질문에 대해서 검색 결과, 질문, 보기를 바탕으로 답변해야 합니다.
답변할 때는 근거:를 먼저 작성하고 답변:을 작성하십시오.
검색 결과를 바탕으로 답변할 수 없는 경우에는 근거:에 검색 결과에 질문에 대한 답을 알 수 있는 내용이 없다고 설명하고 답변: 알 수 없음이라고 적으세요. 반드시 '알 수 없음'이라고 적어야 합니다.

### 예시 ###
근거: 삼양홀딩스는 직원들의 복리후생과 업무환경 개선에 많은 노력을 기울이고 있습니다. 사내에서 아침, 점심, 저녁을 무료로 제공하는 구내 식당과 피트니스 센터 운영을 통해 임직원의 건강을 지원하고 있으며, 카페테리아 및 다양한 편의시설을 제공하여 여유와 휴식을 취할 수 있는 환경을 마련하고 있습니다 (문서 0). 또한, 삼양홀딩스는 직원들이 일과 생활의 균형을 유지할 수 있는 유연근무제를 도입하여 직원들이 가장 편리한 시간에 근무할 수 있도록 하고 있습니다 (문서 0). 이러한 점들을 고려할 때, 삼양홀딩스는 쾌적한 근무환
--------------------------------------------------
[USER]
질문: C3-1-1. 지배구조 요소와 관련하여 아래 항목 중 현재 재직하고 있는 회사에 해당되는 응답을 선택해주세요._6)자금 집행과 관리 주체를 분리하여 체계적으로 운영하고 있는가?

보기:
['1) 전혀그렇지않다', '2) 약간그렇지않다', '3) 보통이다', '4) 약간그렇다', '5) 매우그렇다']
--------------------------------------------------
[ASSISTANT]
근거: 대웅제약은 회사 내에서 체계적인 리스크 관리 정책을 운영하고 있으며, 주요 위험 요소를 사전에 식별하고 대응함으로써 부정적 영향을 최소화하고 있습니다. 각 리스크 유형에 대한 관리는 해당 부서가 주도하며, 대표이사가 전체 리스크 상황을 파악하고 필요한 조치를 결정합니다. 이를 통해 안정적인 경영을 위한 체계적

In [6]:
# 리스트 형태에서 다시 Dataset 객체로 변경
print(type(train_dataset))
print(type(test_dataset))
train_dataset = Dataset.from_list(train_dataset)
test_dataset = Dataset.from_list(test_dataset)
print(type(train_dataset))
print(type(test_dataset))

<class 'datasets.arrow_dataset.Dataset'>
<class 'datasets.arrow_dataset.Dataset'>
<class 'datasets.arrow_dataset.Dataset'>
<class 'datasets.arrow_dataset.Dataset'>


In [7]:
train_dataset[0]

{'질문': 'C3-2-2. 지배구조 요소와 관련하여 아래 항목 중 현재 재직하고 있는 회사에 해당되는 응답을 선택해주세요._1)(상장기업만 응답) 공정공시제도를 준수하고 있는가?',
 '보기': "['1) 전혀그렇지않다', '2) 약간그렇지않다', '3) 보통이다', '4) 약간그렇다', '5) 매우그렇다']",
 'final_answers': '알 수 없음',
 'search_result': "['ABOUT THIS REPORT\\n본 보고서는 고객, 직원, 주주, 투자자 등 이해관계자들에게 동국제강의 \\n환경경영 정보를 제공하기 위하여 발행하였습니다. 동국제강은 철강\\n기업으로서 ‘자원순환 사회’ 및 ‘저탄소 사회’ 실현에 공헌하는 것을 환경\\n과제로 삼고 있으며, 이러한 활동과 성과에 대한 정보를 중심으로 구성\\n하고 있습니다.\\n보고범위\\n동국제강 본사 및 국내 사업장(인천공장, 포항공장, 부산공장, 당진공장, \\n신평공장)의 활동과 성과를 담고 있습니다.\\n보고기간\\n2020년 1월 1일 ~ 2020년 12월 31일 동안의 활동 내용을 주로 담고 \\n있으며, 환경개선 효과를 비교하기 위하여 과거 수 개년 동안의 실적과 \\n향후 목표를 함께 수록하였습니다.\\n본 보고서는 지속가능경영보고서의 국제표준 가이드라인인 GRI(Global \\nReporting Initiative) Standards, TCFD 등의 환경부문에 대한 기준을 \\n반영하여 작성하였습니다. 보고서 내 재무 성과는 한국채택국제회계기\\n준(K-IFRS)으로 작성하였습니다.\\n서울특별시 중구 을지로5길 19(수하동, 페럼타워)\\n문의 02-317-1114   \\n홈페이지 www.dongkuk.com\\n철을 되살리다\\n생명을 되살리다'\n '28\\nENVIRONMENT REPORT 2021\\nBETTER LIFE WITH STEEL \\n01 \\nSCR 투자\\n -\\n동국제강은 정부의 친환경정책에 적극적으로 동참하여, 철강 생산과정에서 발생하는 질

## 2. 모델 로드 및 템플릿 적용

In [8]:
# 허깅페이스 모델 ID
model_id = "Qwen/Qwen2-7B-Instruct" 

# Load model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)

config.json:   0%|          | 0.00/663 [00:00<?, ?B/s]

model.safetensors.index.json: 0.00B [00:00, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/3.95G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/3.86G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/3.86G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/3.56G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/243 [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

In [9]:
# 템플릿 적용
text = tokenizer.apply_chat_template(
    train_dataset[0]["messages"], tokenize=False, add_generation_prompt=False
)
print(text)

<|im_start|>system
당신은 주어진 질문에 대해서 검색 결과, 질문, 보기를 바탕으로 답변해야 합니다.
답변할 때는 근거:를 먼저 작성하고 답변:을 작성하십시오.
검색 결과를 바탕으로 답변할 수 없는 경우에는 근거:에 검색 결과에 질문에 대한 답을 알 수 있는 내용이 없다고 설명하고 답변: 알 수 없음이라고 적으세요. 반드시 '알 수 없음'이라고 적어야 합니다.

### 예시 ###
근거: 삼양홀딩스는 직원들의 복리후생과 업무환경 개선에 많은 노력을 기울이고 있습니다. 사내에서 아침, 점심, 저녁을 무료로 제공하는 구내 식당과 피트니스 센터 운영을 통해 임직원의 건강을 지원하고 있으며, 카페테리아 및 다양한 편의시설을 제공하여 여유와 휴식을 취할 수 있는 환경을 마련하고 있습니다 (문서 0). 또한, 삼양홀딩스는 직원들이 일과 생활의 균형을 유지할 수 있는 유연근무제를 도입하여 직원들이 가장 편리한 시간에 근무할 수 있도록 하고 있습니다 (문서 0). 이러한 점들을 고려할 때, 삼양홀딩스는 쾌적한 근무환경을 제공하고 있다고 평가할 수 있습니다.
답변: '5) 매우그렇다

검색 결과:
<document 0>
---
ABOUT THIS REPORT
본 보고서는 고객, 직원, 주주, 투자자 등 이해관계자들에게 동국제강의 
환경경영 정보를 제공하기 위하여 발행하였습니다. 동국제강은 철강
기업으로서 ‘자원순환 사회’ 및 ‘저탄소 사회’ 실현에 공헌하는 것을 환경
과제로 삼고 있으며, 이러한 활동과 성과에 대한 정보를 중심으로 구성
하고 있습니다.
보고범위
동국제강 본사 및 국내 사업장(인천공장, 포항공장, 부산공장, 당진공장, 
신평공장)의 활동과 성과를 담고 있습니다.
보고기간
2020년 1월 1일 ~ 2020년 12월 31일 동안의 활동 내용을 주로 담고 
있으며, 환경개선 효과를 비교하기 위하여 과거 수 개년 동안의 실적과 
향후 목표를 함께 수록하였습니다.
본 보고서는 지속가능경영보고서의 국제표준 가이드라인인 GRI(Global 
Reporting 

## 3. LoRA와 SFTConfig 설정

In [10]:
peft_config = LoraConfig(
        lora_alpha=32,
        lora_dropout=0.1,
        r=8,
        bias="none",
        target_modules=["q_proj", "v_proj"],
        task_type="CAUSAL_LM",
)

`lora_alpha`: LoRA(Low-Rank Adaptation)에서 사용하는 스케일링 계수를 설정합니다. LoRA의 가중치 업데이트가 모델에 미치는 영향을 조정하는 역할을 하며, 일반적으로 학습 안정성과 관련이 있습니다.

`lora_dropout`: LoRA 적용 시 드롭아웃 확률을 설정합니다. 드롭아웃은 과적합(overfitting)을 방지하기 위해 일부 뉴런을 랜덤하게 비활성화하는 정규화 기법입니다. `0.1`로 설정하면 학습 중 10%의 뉴런이 비활성화됩니다.

`r`: LoRA의 랭크(rank)를 설정합니다. 이는 LoRA가 학습할 저차원 공간의 크기를 결정합니다. 작은 값일수록 계산 및 메모리 효율이 높아지지만 모델의 학습 능력이 제한될 수 있습니다.

`bias`: LoRA 적용 시 편향(bias) 처리 방식을 지정합니다. `"none"`으로 설정하면 편향이 LoRA에 의해 조정되지 않습니다. `"all"` 또는 `"lora_only"`와 같은 값으로 변경하여 편향을 조정할 수도 있습니다.

`target_modules`: LoRA를 적용할 특정 모듈(레이어)의 이름을 리스트로 지정합니다. 예제에서는 `"q_proj"`와 `"v_proj"`를 지정하여, 주로 Self-Attention 메커니즘의 쿼리와 값 프로젝션 부분에 LoRA를 적용합니다.

`task_type`: LoRA가 적용되는 작업 유형을 지정합니다. `"CAUSAL_LM"`은 Causal Language Modeling, 즉 시퀀스 생성 작업에 해당합니다. 다른 예로는 `"SEQ2SEQ_LM"`(시퀀스-투-시퀀스 언어 모델링) 등이 있습니다.

In [11]:
args = SFTConfig(
    output_dir="qwen2-7b-rag-ko",           # 저장될 디렉토리와 저장소 ID
    num_train_epochs=3,                      # 학습할 총 에포크 수 
    per_device_train_batch_size=1,           # GPU당 배치 크기
    gradient_accumulation_steps=4,           # 그래디언트 누적 스텝 수
    gradient_checkpointing=True,             # 메모리 절약을 위한 체크포인팅
    optim="adamw_torch_fused",               # 최적화기
    logging_steps=10,                        # 로그 기록 주기
    save_strategy="steps",                   # 저장 전략
    save_steps=50,                           # 저장 주기
    bf16=True,                              # bfloat16 사용
    learning_rate=1e-4,                     # 학습률
    max_grad_norm=0.3,                      # 그래디언트 클리핑
    warmup_ratio=0.03,                      # 워밍업 비율
    lr_scheduler_type="constant",           # 고정 학습률
    push_to_hub=False,                      # 허브 업로드 안 함
    remove_unused_columns=False,
    dataset_kwargs={"skip_prepare_dataset": True},
    report_to=None
)

`output_dir`: 학습 결과가 저장될 디렉토리 또는 모델 저장소의 이름을 지정합니다. 이 디렉토리에 학습된 모델 가중치, 설정 파일, 로그 파일 등이 저장됩니다.

`num_train_epochs`: 모델을 학습시키는 총 에포크(epoch) 수를 지정합니다. 에포크는 학습 데이터 전체를 한 번 순회한 주기를 의미합니다. 예를 들어, `3`으로 설정하면 데이터셋을 3번 학습합니다.

`per_device_train_batch_size`: GPU 한 대당 사용되는 배치(batch)의 크기를 설정합니다. 배치 크기는 모델이 한 번에 처리하는 데이터 샘플의 수를 의미합니다. 작은 크기는 메모리 사용량이 적지만 학습 시간이 증가할 수 있습니다.

`gradient_accumulation_steps`: 그래디언트를 누적할 스텝(step) 수를 지정합니다. 이 값이 2로 설정된 경우, 두 스텝마다 그래디언트를 업데이트합니다. 배치 크기를 가상으로 늘리는 효과가 있으며, GPU 메모리 부족 문제를 해결할 때 유용합니다.

`gradient_checkpointing`: 그래디언트 체크포인팅을 활성화하여 메모리를 절약합니다. 이 옵션은 계산 그래프를 일부 저장하지 않고 다시 계산하여 메모리를 절약하지만, 속도가 약간 느려질 수 있습니다.

`optim`: 학습 시 사용할 최적화 알고리즘을 설정합니다. `adamw_torch_fused`는 PyTorch의 효율적인 AdamW 최적화기를 사용합니다.

`logging_steps`: 로그를 기록하는 주기를 스텝 단위로 지정합니다. 예를 들어, `10`으로 설정하면 매 10 스텝마다 로그를 기록합니다.

`save_strategy`: 모델을 저장하는 전략을 설정합니다. `"steps"`로 설정된 경우, 지정된 스텝마다 모델이 저장됩니다.

`save_steps`: 모델을 저장하는 주기를 스텝 단위로 설정합니다. 예를 들어, `50`으로 설정하면 매 50 스텝마다 모델을 저장합니다.

`bf16`: bfloat16 정밀도를 사용하도록 설정합니다. bfloat16은 FP32와 유사한 범위를 제공하면서 메모리와 계산 효율성을 높입니다.

`learning_rate`: 학습률을 지정합니다. 학습률은 모델의 가중치가 한 번의 업데이트에서 얼마나 크게 변할지를 결정합니다. 일반적으로 작은 값을 사용하여 안정적인 학습을 유도합니다.

`max_grad_norm`: 그래디언트 클리핑의 임계값을 설정합니다. 이 값보다 큰 그래디언트가 발생하면, 임계값으로 조정하여 폭발적 그래디언트를 방지합니다.

`warmup_ratio`: 학습 초기 단계에서 학습률을 선형으로 증가시키는 워밍업 비율을 지정합니다. 학습의 안정성을 높이기 위해 사용됩니다.

`lr_scheduler_type`: 학습률 스케줄러의 유형을 설정합니다. `"constant"`는 학습률을 일정하게 유지합니다.

`push_to_hub`: 학습된 모델을 허브에 업로드할지 여부를 설정합니다. `False`로 설정하면 업로드하지 않습니다.

`remove_unused_columns`: 사용되지 않는 열을 제거할지 여부를 설정합니다. True로 설정하면 메모리를 절약할 수 있습니다.

`dataset_kwargs`: 데이터셋 로딩 시 추가적인 설정을 전달합니다. 예제에서는 `skip_prepare_dataset: True`로 설정하여 데이터셋 준비 단계를 건너뜹니다.

`report_to`: 학습 로그를 보고할 대상을 지정합니다. `None`으로 설정되면 로그가 기록되지 않습니다.

## 4. 학습 중 전처리 함수: collate_fn

In [12]:
def collate_fn(batch):
    new_batch = {
        "input_ids": [],
        "attention_mask": [],
        "labels": []
    }
    
    for example in batch:
        # messages의 각 내용에서 개행문자 제거
        clean_messages = []
        for message in example["messages"]:
            clean_message = {
                "role": message["role"],
                "content": message["content"]
            }
            clean_messages.append(clean_message)
        
        # 깨끗해진 메시지로 템플릿 적용
        text = tokenizer.apply_chat_template(
            clean_messages,
            tokenize=False,
            add_generation_prompt=False
        ).strip()
        
        # 텍스트를 토큰화
        tokenized = tokenizer(
            text,
            truncation=True,
            max_length=max_seq_length,
            padding=False,
            return_tensors=None,
        )
        
        input_ids = tokenized["input_ids"]
        attention_mask = tokenized["attention_mask"]
        
        # 레이블 초기화
        labels = [-100] * len(input_ids)
        
        # assistant 응답 부분 찾기
        im_start = "<|im_start|>"
        im_end = "<|im_end|>"
        assistant = "assistant"
        
        # 토큰 ID 가져오기
        im_start_tokens = tokenizer.encode(im_start, add_special_tokens=False)
        im_end_tokens = tokenizer.encode(im_end, add_special_tokens=False)
        assistant_tokens = tokenizer.encode(assistant, add_special_tokens=False)
        
        i = 0
        while i < len(input_ids):
            # <|im_start|>assistant 찾기
            if (i + len(im_start_tokens) <= len(input_ids) and 
                input_ids[i:i+len(im_start_tokens)] == im_start_tokens):
                
                # assistant 토큰 찾기
                assistant_pos = i + len(im_start_tokens)
                if (assistant_pos + len(assistant_tokens) <= len(input_ids) and 
                    input_ids[assistant_pos:assistant_pos+len(assistant_tokens)] == assistant_tokens):
                    
                    # assistant 응답의 시작 위치로 이동
                    current_pos = assistant_pos + len(assistant_tokens)
                    
                    # <|im_end|>를 찾을 때까지 레이블 설정
                    while current_pos < len(input_ids):
                        if (current_pos + len(im_end_tokens) <= len(input_ids) and 
                            input_ids[current_pos:current_pos+len(im_end_tokens)] == im_end_tokens):
                            # <|im_end|> 토큰도 레이블에 포함
                            for j in range(len(im_end_tokens)):
                                labels[current_pos + j] = input_ids[current_pos + j]
                            break
                        labels[current_pos] = input_ids[current_pos]
                        current_pos += 1
                    
                    i = current_pos
                
            i += 1
        
        new_batch["input_ids"].append(input_ids)
        new_batch["attention_mask"].append(attention_mask)
        new_batch["labels"].append(labels)
    
    # 패딩 적용
    max_length = max(len(ids) for ids in new_batch["input_ids"])
    
    for i in range(len(new_batch["input_ids"])):
        padding_length = max_length - len(new_batch["input_ids"][i])
        
        new_batch["input_ids"][i].extend([tokenizer.pad_token_id] * padding_length)
        new_batch["attention_mask"][i].extend([0] * padding_length)
        new_batch["labels"][i].extend([-100] * padding_length)
    
    # 텐서로 변환
    for k, v in new_batch.items():
        new_batch[k] = torch.tensor(v)
    
    return new_batch

`collate_fn(batch)` 함수는 자연어 처리 모델 학습을 위해 데이터를 전처리하는 역할을 수행합니다. 이 함수는 배치 내의 데이터를 처리하여 모델이 사용할 수 있는 입력 형식으로 변환합니다.

먼저, 각 샘플의 메시지에서 개행 문자를 제거하고 필요한 정보만 남깁니다. 정리된 메시지로 텍스트를 구성하고 이를 토큰화하여 input_ids와 attention_mask를 생성합니다. 이후 레이블 데이터를 초기화한 다음, 특정 토큰 패턴(<|im_start|>assistant 이후부터 <|im_end|>까지)을 찾아 해당 범위에 레이블을 설정합니다. 이 범위를 제외한 나머지 위치는 -100으로 설정하여 손실 계산에서 제외되도록 합니다.

최종적으로, 배치 내 모든 샘플의 길이를 동일하게 맞추기 위해 패딩 작업을 수행합니다. 이 과정에서 입력 데이터에는 패딩 토큰 ID를 추가하고, 어텐션 마스크에는 0을 추가하며, 레이블에는 -100을 추가합니다. 모든 데이터는 PyTorch 텐서로 변환되어 반환됩니다.

In [14]:
# 최대 길이
max_seq_length=16384

# collate_fn 테스트 (배치 크기 1로)
example = train_dataset[0]
batch = collate_fn([example])

print("\n처리된 배치 데이터:")
print("입력 ID 형태:", batch["input_ids"].shape)
print("어텐션 마스크 형태:", batch["attention_mask"].shape)
print("레이블 형태:", batch["labels"].shape)


처리된 배치 데이터:
입력 ID 형태: torch.Size([1, 9254])
어텐션 마스크 형태: torch.Size([1, 9254])
레이블 형태: torch.Size([1, 9254])


In [15]:
print('입력에 대한 정수 인코딩 결과:')
print(batch["input_ids"][0].tolist())

입력에 대한 정수 인코딩 결과:
[151644, 8948, 198, 64795, 82528, 33704, 55673, 31079, 85251, 138520, 19391, 130869, 85322, 77226, 98801, 11, 138520, 11, 63332, 131777, 81718, 144059, 42039, 143604, 129264, 130650, 624, 132760, 126667, 47836, 53618, 16560, 134312, 120, 92192, 25, 18411, 137769, 140174, 126204, 143604, 25, 17877, 140174, 16186, 139713, 624, 129845, 77226, 98801, 18411, 81718, 144059, 42039, 143604, 47836, 28733, 130768, 134832, 134312, 120, 92192, 25, 19391, 85322, 77226, 98801, 19391, 138520, 19391, 128605, 143603, 17877, 125214, 28733, 64521, 130213, 12802, 130671, 34395, 133828, 126204, 143604, 25, 125214, 28733, 46682, 48431, 130939, 135968, 33509, 50302, 13, 141762, 364, 144135, 28733, 46682, 48431, 6, 130939, 135968, 137571, 130650, 382, 14374, 95617, 29326, 65287, 125722, 92192, 25, 127165, 120, 126345, 144117, 144091, 24897, 16560, 137351, 54321, 129360, 30520, 113, 28002, 127033, 76435, 53680, 24485, 227, 125054, 132892, 73523, 125519, 19391, 129875, 127042, 135818, 54116, 1

In [16]:
print('레이블에 대한 정수 인코딩 결과:')
print(batch["labels"][0].tolist())

레이블에 대한 정수 인코딩 결과:
[-100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -1

LLM 학습에서 `input_ids`와 `labels`는 모델의 학습 목표에 따라 생성됩니다. 이를 예시 문장과 정수 인코딩을 통해 상세히 설명하겠습니다.

---

예를 들어, 다음과 같은 대화 데이터를 모델이 학습해야 한다고 가정합니다.  
사용자가 **"안녕하세요, 오늘 날씨는 어떤가요?"**라고 물었고,  
모델은 **"안녕하세요! 오늘 날씨는 맑고 화창합니다."**라고 응답해야 한다고 합시다.

이 데이터를 학습하기 위해 먼저 전체 대화 데이터를 정수로 인코딩합니다.  
토크나이저는 대화의 구조를 구분하기 위해 `<|im_start|>`와 `<|im_end|>`을 사용하여 정수 시퀀스를 생성한다고 가정해봅시다.  
(실제로는 LLM 템플릿이 이보다는 복잡함을 기억하고 혼동하지 맙시다.)
정수 시퀀스는 다음과 같이 구성될 수 있습니다.  

---
<|im_start|>user 안녕하세요, 오늘 날씨는 어떤가요?<|im_end|>  
<|im_start|>assistant 안녕하세요! 오늘 날씨는 맑고 화창합니다.<|im_end|>

---

이를 정수로 변환하면 다음과 같습니다.  
`input_ids = [1001, 2001, 3001, 4001, 5001, 6001, 7001, 1002, 1001, 8001, 9001, 1003, 2002]`  
모델이 예측해야 하는 부분은 `assistant`의 응답인 "안녕하세요! 오늘 날씨는 맑고 화창합니다."입니다. 따라서, `labels`는 다음과 같이 설정됩니다.

`labels = [-100, -100, -100, -100, -100, -100, -100, -100, -100, 8001, 9001, 1003, 2002]`  

이처럼 `labels`는 모델의 출력이 필요한 영역만을 포함하고, 나머지 부분은 `-100`으로 채워져 모델이 실제로 예측하고 오차를 계산해야 하는 대상(학습 대상)에서 제외됩니다. 이를 통해 모델은 불필요한 영역을 학습하지 않고, 필요한 응답 영역에만 집중할 수 있습니다.


## 5. 학습

In [17]:
trainer = SFTTrainer(
    model=model,
    args=args,
    max_seq_length=max_seq_length,  # 최대 시퀀스 길이 설정
    train_dataset=train_dataset,
    data_collator=collate_fn,
    peft_config=peft_config,
)


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.


In [18]:
# 학습 시작
trainer.train()   # 모델이 자동으로 허브와 output_dir에 저장됨

# 모델 저장
trainer.save_model()   # 최종 모델을 저장

`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...
  with torch.enable_grad(), device_autocast_ctx, torch.cpu.amp.autocast(**ctx.cpu_autocast_kwargs):  # type: ignore[attr-defined]


Step,Training Loss
10,0.968
20,1.0126
30,0.9662
40,0.7355
50,0.8139
60,1.3477
70,0.8973
80,0.773
90,0.748
100,0.7743


  with torch.enable_grad(), device_autocast_ctx, torch.cpu.amp.autocast(**ctx.cpu_autocast_kwargs):  # type: ignore[attr-defined]
  with torch.enable_grad(), device_autocast_ctx, torch.cpu.amp.autocast(**ctx.cpu_autocast_kwargs):  # type: ignore[attr-defined]
  with torch.enable_grad(), device_autocast_ctx, torch.cpu.amp.autocast(**ctx.cpu_autocast_kwargs):  # type: ignore[attr-defined]
  with torch.enable_grad(), device_autocast_ctx, torch.cpu.amp.autocast(**ctx.cpu_autocast_kwargs):  # type: ignore[attr-defined]
  with torch.enable_grad(), device_autocast_ctx, torch.cpu.amp.autocast(**ctx.cpu_autocast_kwargs):  # type: ignore[attr-defined]
  with torch.enable_grad(), device_autocast_ctx, torch.cpu.amp.autocast(**ctx.cpu_autocast_kwargs):  # type: ignore[attr-defined]
  with torch.enable_grad(), device_autocast_ctx, torch.cpu.amp.autocast(**ctx.cpu_autocast_kwargs):  # type: ignore[attr-defined]
  with torch.enable_grad(), device_autocast_ctx, torch.cpu.amp.autocast(**ctx.cpu_autocast

## 6. 테스트 데이터 준비

실제 모델에 입력을 넣을 때에는 입력의 뒤에 '<|im_start|>assistant'가 부착되어서 넣는 것이 좋습니다. 그래야만 모델이 바로 답변을 생성합니다.

In [19]:
prompt_lst = []
label_lst = []

for prompt in test_dataset["messages"]:
    text = tokenizer.apply_chat_template(
        prompt, tokenize=False, add_generation_prompt=False
    )
    input = text.split('<|im_start|>assistant')[0] + '<|im_start|>assistant'
    label = text.split('<|im_start|>assistant')[1]
    prompt_lst.append(input)
    label_lst.append(label)

In [20]:
print(prompt_lst[42])

<|im_start|>system
당신은 주어진 질문에 대해서 검색 결과, 질문, 보기를 바탕으로 답변해야 합니다.
답변할 때는 근거:를 먼저 작성하고 답변:을 작성하십시오.
검색 결과를 바탕으로 답변할 수 없는 경우에는 근거:에 검색 결과에 질문에 대한 답을 알 수 있는 내용이 없다고 설명하고 답변: 알 수 없음이라고 적으세요. 반드시 '알 수 없음'이라고 적어야 합니다.

### 예시 ###
근거: 삼양홀딩스는 직원들의 복리후생과 업무환경 개선에 많은 노력을 기울이고 있습니다. 사내에서 아침, 점심, 저녁을 무료로 제공하는 구내 식당과 피트니스 센터 운영을 통해 임직원의 건강을 지원하고 있으며, 카페테리아 및 다양한 편의시설을 제공하여 여유와 휴식을 취할 수 있는 환경을 마련하고 있습니다 (문서 0). 또한, 삼양홀딩스는 직원들이 일과 생활의 균형을 유지할 수 있는 유연근무제를 도입하여 직원들이 가장 편리한 시간에 근무할 수 있도록 하고 있습니다 (문서 0). 이러한 점들을 고려할 때, 삼양홀딩스는 쾌적한 근무환경을 제공하고 있다고 평가할 수 있습니다.
답변: '5) 매우그렇다

검색 결과:
<document 0>
---
27
ENVIRONMENT REPORT 2021
BETTER LIFE WITH STEEL 
1  환경을 경영의 필수요소로 인식하고, 모든 단계에서 우선적으로 고려한다.
2  국내외 환경 제반 법규와 협약을 준수하고 고객의 니즈를 만족시키는 수준 높은 기준을 설정하고 이행한다.
3  경영활동 전반에 걸쳐 자원의 효율적 사용을 추구하며, 지속적인 개선을 통하여 온실가스 발생을 줄이도록 노력한다.
4  환경 비상사태의 잠재적 발생 가능성을 파악하고 조직적인 대응책을 마련한다.
5  이를 위하여 목표를 수립·실천하며, 이해관계자에게 본 방침을 공표하고 환경경영의 선진화에 노력한다.
02
환경경영 방침
 -
동국제강은 지속가능한 친환경 저탄소 경제 구현을 위하여 다음 사항들을 실천합니다.
04
환경투자 실적
 -
동국제강은 매년 환경에 대한 투자를

In [21]:
print(label_lst[42])


근거: 검색 결과에 따르면 동국제강은 환경경영 방침과 이를 지키기 위한 환경경영 조직을 통해 관리에 최선을 다하고 있으며, 순환형 및 저탄소 사회 실현을 위한 진정성 있는 친환경 기업으로 거듭나고자 노력하고 있습니다. 또한, 기후변화 리스크 및 기회요인을 파악하고 이를 규제적 측면과 물리적 측면으로 분류하여 대응방안을 수립하였습니다. 이러한 대응 전략은 경영성과에 긍정적인 영향을 미칠 수 있는 점을 보여줍니다 (문서 1, 문서 3).
답변: '5) 매우 중요하다'<|im_end|>



## 7. 파인 튜닝 모델 테스트

`AutoPeftModelForCausalLM()`의 입력으로 LoRA Adapter가 저장된 체크포인트의 주소를 넣으면 LoRA Adapter가 기존의 LLM과 부착되어 로드됩니다. 이 과정은 LoRA Adapter의 가중치를 사전 학습된 언어 모델(LLM)에 통합하여 미세 조정된 모델을 완성하는 것을 의미합니다.

`peft_model_id` 변수는 미세 조정된 가중치가 저장된 체크포인트의 경로를 나타냅니다. `"qwen2-7b-rag-ko/checkpoint-285"`는 LoRA Adapter 가중치가 저장된 위치로, 이 경로에서 해당 가중치를 불러옵니다.

`fine_tuned_model`은 `AutoPeftModelForCausalLM.from_pretrained` 메서드를 통해 체크포인트를 로드하여 생성됩니다. 이 메서드는 LLM과 LoRA Adapter를 결합하고, 최적화된 설정으로 모델을 메모리에 로드합니다. `device_map="auto"` 옵션은 모델을 자동으로 GPU에 배치합니다.

`pipeline`은 Hugging Face의 고수준 유틸리티로, NLP 작업(예: 텍스트 생성, 번역, 요약 등)을 간단히 수행할 수 있게 해줍니다. 이 코드에서 사용된 `pipeline("text-generation")`은 텍스트 생성 작업을 수행하기 위한 파이프라인 객체를 생성합니다. 파이프라인은 내부적으로 모델과 토크나이저를 관리하여, 입력 텍스트를 토큰화하고, 모델을 통해 생성된 결과를 다시 디코딩하여 사람이 읽을 수 있는 텍스트로 변환합니다.

이 코드는 미세 조정된 LLM을 로드한 뒤, 이를 이용해 텍스트 생성 작업을 간단히 수행할 수 있도록 준비하는 데 목적이 있습니다. `pipeline`을 통해 텍스트 생성 작업을 실행하면, 입력 텍스트에 기반하여 모델이 다음 토큰을 예측하고 이를 반복적으로 생성합니다. 이 과정은 사용자에게 자연스러운 텍스트를 출력하는 데 사용됩니다.

In [22]:
import torch
from peft import AutoPeftModelForCausalLM
from transformers import  AutoTokenizer, pipeline

RuntimeError: Failed to import transformers.pipelines because of the following error (look up to see its traceback):
operator torchvision::nms does not exist

In [35]:
peft_model_id = "qwen2-7b-rag-ko/checkpoint-372"
fine_tuned_model = AutoPeftModelForCausalLM.from_pretrained(peft_model_id, device_map="auto", torch_dtype=torch.float16)
pipe = pipeline("text-generation", model=fine_tuned_model, tokenizer=tokenizer)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

The model 'PeftModelForCausalLM' is not supported for text-generation. Supported models are ['BartForCausalLM', 'BertLMHeadModel', 'BertGenerationDecoder', 'BigBirdForCausalLM', 'BigBirdPegasusForCausalLM', 'BioGptForCausalLM', 'BlenderbotForCausalLM', 'BlenderbotSmallForCausalLM', 'BloomForCausalLM', 'CamembertForCausalLM', 'LlamaForCausalLM', 'CodeGenForCausalLM', 'CohereForCausalLM', 'CpmAntForCausalLM', 'CTRLLMHeadModel', 'Data2VecTextForCausalLM', 'DbrxForCausalLM', 'ElectraForCausalLM', 'ErnieForCausalLM', 'FalconForCausalLM', 'FalconMambaForCausalLM', 'FuyuForCausalLM', 'GemmaForCausalLM', 'Gemma2ForCausalLM', 'GitForCausalLM', 'GPT2LMHeadModel', 'GPT2LMHeadModel', 'GPTBigCodeForCausalLM', 'GPTNeoForCausalLM', 'GPTNeoXForCausalLM', 'GPTNeoXJapaneseForCausalLM', 'GPTJForCausalLM', 'GraniteForCausalLM', 'GraniteMoeForCausalLM', 'JambaForCausalLM', 'JetMoeForCausalLM', 'LlamaForCausalLM', 'MambaForCausalLM', 'Mamba2ForCausalLM', 'MarianForCausalLM', 'MBartForCausalLM', 'MegaForCaus

In [36]:
eos_token = tokenizer("<|im_end|>",add_special_tokens=False)["input_ids"][0]

In [37]:
def test_inference(pipe, prompt):
    outputs = pipe(prompt, max_new_tokens=1024, eos_token_id=eos_token, do_sample=False)
    return outputs[0]['generated_text'][len(prompt):].strip()

In [41]:
for prompt, label in zip(prompt_lst[10:15], label_lst[10:15]):
    # print(f"    prompt:\n{prompt}")
    print(f"    response:\n{test_inference(pipe, prompt)}")
    print(f"    label:\n{label}")
    print("-"*50)

    response:
{'is_stock_related': True, 'negative_impact_stocks': ['애플', '엔비디아', 'TSMC'], 'negative_keywords': ['스마트폰 판매 감소', '가트너', '중국 봉쇄', '인플레이션'], 'positive_impact_stocks': [], 'positive_keywords': [],'reason_for_negative_impact': '글로벌 비즈니스 조사 기관 가트너의 전세계 스마트폰 판매 감소 전망이 애플, 엔비디아, TSMC 등의 스마트폰 제조사 및 반도체 업체들에게 부정적인 영향을 미칠 것으로 예상됩니다.','reason_for_positive_impact': '','summary': '글로벌 비즈니스 조사 기관 가트너는 전세계 스마트폰 판매가 7% 감소할 것으로 전망하며, 이는 애플, 엔비디아, TSMC 등의 스마트폰 제조사 및 반도체 업체들에게 부정적인 영향을 미칠 것으로 예상됩니다. 유럽연합은 가상자산 돈세탁을 막기 위한 규제를 강화하고 있으며, 미국 저비용 항공사 스피릿 항공의 인수전은 프론티어와 제트블루 항공 사이에서 뜨겁게 벌어지고 있습니다. 중국 대표 기술기업들인 텐센트와 바이트댄스는 경기 둔화와 규제 철퇴로 인해 대규모 감원을 계획하고 있습니다.'}
    label:

{'is_stock_related': True, 'negative_impact_stocks': ['애플', '엔비디아', 'TSMC', '텐센트', '바이트댄스'], 'negative_keywords': ['스마트폰 판매 감소', '인력 감축', '비용 절감', '경제 둔화'], 'positive_impact_stocks': [], 'positive_keywords': [], 'reason_for_negative_impact': '가트너의 보고서에 따르면 스마트폰 판매량의 감소는 애플과 같은 제조업체뿐만 아니라 엔비디아와 TSMC 같은 반도체 업체에게 부정적인 영향을 미칠 것으로 보입니

## 8. 기본 모델 테스트

이번에는 LoRA Adapter를 merge하지 않은 기본 모델로 테스트 데이터에 대해서 인퍼런스해보겠습니다.

In [42]:
base_model_id = "Qwen/Qwen2-7B-Instruct"
model = AutoModelForCausalLM.from_pretrained(base_model_id, device_map="auto", torch_dtype=torch.float16)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

In [43]:
for prompt, label in zip(prompt_lst[10:15], label_lst[10:15]):
    # print(f"    prompt:\n{prompt}")
    print(f"    response:\n{test_inference(pipe, prompt)}")
    print(f"    label:\n{label}")
    print("-"*50)

    response:
{
"is_stock_related": True,
"positive_impact_stocks": ["애플", "엔비디아", "TSMC"],
"reason_for_positive_impact": "애플을 비롯한 스마트폰 제조사 및 엔비디아, TSMC 같은 반도체 업체들이 스마트폰 판매 감소로 인한 압력이 가해질 것으로 전망됨에 따라, 이들 회사의 주가는 이에 따른 반응으로 상승할 수 있습니다.",
"positive_keywords": ["애플", "엔비디아", "TSMC", "스마트폰 제조사", "반도체 업체"],
"negative_impact_stocks": ["삼성전자", "LG전자"],
"reason_for_negative_impact": "삼성전자와 LG전자 등의 스마트폰 제조사들이 전세계 스마트폰 판매 감소로 인해 수익 감소를 경험하게 될 것으로 예상되므로, 이들 회사의 주가는 이에 따른 반응으로 하락할 수 있습니다.",
"negative_keywords": ["삼성전자", "LG전자", "스마트폰 제조사"],
"summary": "올해 전세계 스마트폰 판매량이 7% 감소할 것으로 전망되며, 이로 인해 애플을 비롯한 스마트폰 제조사 및 엔비디아, TSMC 같은 반도체 업체들이 압력이 가해질 것으로 전망됩니다. 반면에 삼성전자와 LG전자 등의 스마트폰 제조사들이 수익 감소를 경험하게 될 것으로 예상됩니다."
}
    label:

{'is_stock_related': True, 'negative_impact_stocks': ['애플', '엔비디아', 'TSMC', '텐센트', '바이트댄스'], 'negative_keywords': ['스마트폰 판매 감소', '인력 감축', '비용 절감', '경제 둔화'], 'positive_impact_stocks': [], 'positive_keywords': [], 'reason_for_negative_impact': '가트너의 보고서에 따르면 스마트폰 판매량의 감소는 애플과 같은 제조업체뿐