# Finetuning - QLoRA

https://huggingface.co/docs/peft/en/developer_guides/quantization


## Quantization
4비트 양자화(4-bit Quantization)는 모델의 가중치를 정밀도가 낮은 4비트 데이터 형식으로 변환하여 메모리 사용량을 획기적으로 줄이는 기술이다. 지적한 대로 모든 파라미터가 양자화 대상이 되는 것은 아니며, 성능 유지를 위해 전략적으로 적용된다.
4비트 양자화는 **"대세인 가중치는 작게 줄이고, 민감한 레이어와 통계 정보는 원본을 유지"**하는 전략이다. 이를 통해 일반 소비자용 GPU(예: RTX 3090/4090 24GB)에서도 30B급 대형 모델을 구동할 수 있게 된다.


**1. 4비트 양자화 시 메모리 변화**

30B 파라미터 모델을 기준으로 계산하면 다음과 같은 변화가 발생한다.

- **BF16 (기본):** 파라미터당 2바이트 $\rightarrow$ 약 **60GB** 필요
- **4-bit (양자화):** 파라미터당 0.5바이트 $\rightarrow$ 약 **15GB** 필요 (이론상 1/4 수준)

실제로는 양자화 과정에서 발생하는 스케일링 계수(Scaling Factor)와 메타데이터 때문에 약 **17~18GB** 정도의 VRAM을 사용하게 된다.

**2. 왜 모든 파라미터를 양자화하지 않는가?**

모델의 성능(Perplexity) 저하를 최소화하기 위해 **혼합 정밀도(Mixed Precision)** 방식을 사용한다.

- **양자화 대상 (Linear Layers):** 모델의 대부분을 차지하는 행렬 연산 가중치(Attention, MLP 레이어 등)는 4비트로 변환하여 용량을 줄인다.
- **양자화 제외 (Sensitive Layers):**
    - **Normalization 레이어:** LayerNorm 등은 수치 민감도가 매우 높아 원본 정밀도(FP32/BF16)를 유지한다.
    - **Embedding 레이어:** 텍스트를 벡터로 변환하는 첫 단계이므로 정밀도가 중요하다.
    - **LM Head:** 최종 출력층은 예측 정확도를 위해 보통 양자화하지 않는다.

**3. 주요 양자화 기법 (NF4)**

단순히 소수점을 자르는 것이 아니라, 데이터의 분포를 고려한 알고리즘을 사용한다. 가장 대표적인 것이 **NF4(NormalFloat 4)**이다.

- **특징:** 가중치가 정규분포를 따른다는 가정하에, 값이 몰려 있는 구간에는 촘촘하게, 값이 적은 구간에는 넓게 비트를 할당한다.
- **장점:** 일반적인 4비트 정수형(Int4)보다 정보 손실이 훨씬 적어 모델의 추론 능력을 잘 보존한다.

In [1]:
%pip install -Uq transformers datasets accelerate trl peft hf_transfer pydantic langchain-huggingface bitsandbytes wandb

Note: you may need to restart the kernel to use updated packages.


In [2]:
!nvidia-smi  # NVIDIA GPU 모델명 / 드라이브 버전 / 메모리 사용량 등 확인

Thu Feb 12 03:18:20 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.126.09             Driver Version: 580.126.09     CUDA Version: 13.0     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  NVIDIA GeForce RTX 5090        On  |   00000000:A1:00.0 Off |                  N/A |
|  0%   34C    P8             13W /  575W |       0MiB /  32607MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+----------------------------------------------

In [3]:
# Local 실행인 경우 아래 코드로 키를 설정
# from dotenv import load_dotenv
# import os

# load_dotenv()
# HF_TOKEN = os.getenv("HF_TOKEN")

ModuleNotFoundError: No module named 'dotenv'

In [6]:
# Runpod 실행인 경우 아래 코드로 키를 설정
import os

HF_TOKEN = os.environ["HF_TOKEN"]

In [7]:
from datasets import load_dataset  # HuggingFace 데이터셋 로더

# Hub에서 split이 train인 데이터 로드
dataset = load_dataset('capybaraOh/naver-economy-news2stock', split='train')
print(len(dataset))  # 샘플 개수
print(dataset)       # 객체 정보

1000
Dataset({
    features: ['system', 'user', 'assistant'],
    num_rows: 1000
})


In [8]:
dataset[0]  # 1번째 샘플을 확인 (딕셔너리)

{'system': "\n당신은 금융/경제 뉴스의 핵심내용을 요약해 설명하고, \n특정 상장 종목에 미치는 긍정/부정 영향여부, 이유, 근거를 분석하는 금융/경제 분석 전문가입니다.\n\n다음 출력지시사항을 지켜주세요.\n1. 뉴스와 종목간의 연관성을 발견할 수 없다면:\n    - stock_related를 False로 작성하세요.\n    - summary에 뉴스의 요약을 작성하세요.\n2. 뉴스와 종목간의 연관성을 발견했다면:\n    - stock_related를 True로 작성하세요.\n    - summary에 뉴스의 요약을 작성하세요.\n    - 긍정영향이 예상되는 종목이 있다면, positive_stocks, positive_keywords, positive_reasons를 작성하세요.\n    - 부정영향이 예상되는 종목이 있다면, negative_stocks, negative_keywords, negative_reasons를 작성하세요.\n    - 값이 없는 경우 빈 문자열(''), 빈 리스트([])로 작성하세요.\n",
 'user': '추경호 중기 수출지원 총력 무역금융 40조 확대\n앵커 정부가 올해 하반기 우리 경제의 버팀목인 수출 확대를 위해 총력을 기울이기로 했습니다. 특히 수출 중소기업의 물류난 해소를 위해 무역금융 규모를 40조 원 이상 확대하고 물류비 지원과 임시선박 투입 등을 추진하기로 했습니다. 류환홍 기자가 보도합니다. 기자 수출은 최고의 실적을 보였지만 수입액이 급증하면서 올해 상반기 우리나라 무역수지는 역대 최악인 103억 달러 적자를 기록했습니다. 정부가 수출확대에 총력을 기울이기로 한 것은 원자재 가격 상승 등 대외 리스크가 가중되는 상황에서 수출 증가세 지속이야말로 한국경제의 회복을 위한 열쇠라고 본 것입니다. 추경호 경제부총리 겸 기획재정부 장관 정부는 우리 경제의 성장엔진인 수출이 높은 증가세를 지속할 수 있도록 총력을 다하겠습니다. 우선 물류 부담 증가 원자재 가격 상승 등 가중되고 있는 대외 리스크에 

## 데이터셋 분할

In [9]:
test_ratio = 0.2  # 평가셋 비율

train_data = []   # 학습 데이터 리스트
test_data = []    # 테스트 데이터 리스트

data_indices = list(range(len(dataset)))       # 전체 인덱스
test_size = int(len(dataset) * test_ratio)     # 테스트 셋 크기

test_data_indices = data_indices[:test_size]   # 앞부분은 평가셋으로 사용
train_data_indices = data_indices[test_size:]  # 나머지는 학습셋으로 사용

# 학습/평가 데이터셋 형식을 지정하는 함수
def format_data(data):
    # OpenAI / Chat 학습용 messages 포맷 반환
    return {
        'messages': [
            {
                'role': 'system',
                'content': data['system']
            },
            {
                'role': 'user',
                'content': data['user']
            },
            {
                'role': 'assistant',
                'content': data['assistant']
            },
        ]
    }

# 학습 / 평가 인덱스를 변환해 리스트 생성
train_data = [format_data(dataset[i]) for i in train_data_indices]
test_data = [format_data(dataset[i]) for i in test_data_indices]

print(len(train_data))
print(len(test_data))

800
200


In [10]:
print(train_data[100])  # 학습 데이터의 101번째 샘플 확인
print(type(train_data))  # train_data는 list

{'messages': [{'role': 'system', 'content': "\n당신은 금융/경제 뉴스의 핵심내용을 요약해 설명하고, \n특정 상장 종목에 미치는 긍정/부정 영향여부, 이유, 근거를 분석하는 금융/경제 분석 전문가입니다.\n\n다음 출력지시사항을 지켜주세요.\n1. 뉴스와 종목간의 연관성을 발견할 수 없다면:\n    - stock_related를 False로 작성하세요.\n    - summary에 뉴스의 요약을 작성하세요.\n2. 뉴스와 종목간의 연관성을 발견했다면:\n    - stock_related를 True로 작성하세요.\n    - summary에 뉴스의 요약을 작성하세요.\n    - 긍정영향이 예상되는 종목이 있다면, positive_stocks, positive_keywords, positive_reasons를 작성하세요.\n    - 부정영향이 예상되는 종목이 있다면, negative_stocks, negative_keywords, negative_reasons를 작성하세요.\n    - 값이 없는 경우 빈 문자열(''), 빈 리스트([])로 작성하세요.\n"}, {'role': 'user', 'content': '송옥렬 공정위원장 후보자 첫 출근길\n서울 연합뉴스 임화영 기자 송옥렬 공정거래위원장 후보자가 5일 오전 서울 중구 한국공정거래조정원에 마련된 인사청문회 사무실로 첫 출근을 하며 취재진의 질문에 답하고 있다.'}, {'role': 'assistant', 'content': '{"stock_related":false,"summary":"송옥렬 공정거래위원장 후보자가 인사청문회 사무실로 첫 출근했다는 소식으로, 인사와 관련된 기본적인 출근 동정 뉴스다.","positive_stocks":[],"positive_keywords":[],"positive_reasons":"","negative_stocks":[],"negative_keywords":[],"negative_reasons":""}'}]}
<class 'li

In [11]:
from datasets import Dataset  # Huggfing Face Dataset 컨테이너

train_dataset = Dataset.from_list(train_data)  # train_data(list) -> Dataset 변환
test_dataset = Dataset.from_list(test_data)    # test_data(list) -> Dataset 변환

print(train_dataset[100])
print(type(train_dataset))  # train_dataset은 Dataset형

{'messages': [{'content': "\n당신은 금융/경제 뉴스의 핵심내용을 요약해 설명하고, \n특정 상장 종목에 미치는 긍정/부정 영향여부, 이유, 근거를 분석하는 금융/경제 분석 전문가입니다.\n\n다음 출력지시사항을 지켜주세요.\n1. 뉴스와 종목간의 연관성을 발견할 수 없다면:\n    - stock_related를 False로 작성하세요.\n    - summary에 뉴스의 요약을 작성하세요.\n2. 뉴스와 종목간의 연관성을 발견했다면:\n    - stock_related를 True로 작성하세요.\n    - summary에 뉴스의 요약을 작성하세요.\n    - 긍정영향이 예상되는 종목이 있다면, positive_stocks, positive_keywords, positive_reasons를 작성하세요.\n    - 부정영향이 예상되는 종목이 있다면, negative_stocks, negative_keywords, negative_reasons를 작성하세요.\n    - 값이 없는 경우 빈 문자열(''), 빈 리스트([])로 작성하세요.\n", 'role': 'system'}, {'content': '송옥렬 공정위원장 후보자 첫 출근길\n서울 연합뉴스 임화영 기자 송옥렬 공정거래위원장 후보자가 5일 오전 서울 중구 한국공정거래조정원에 마련된 인사청문회 사무실로 첫 출근을 하며 취재진의 질문에 답하고 있다.', 'role': 'user'}, {'content': '{"stock_related":false,"summary":"송옥렬 공정거래위원장 후보자가 인사청문회 사무실로 첫 출근했다는 소식으로, 인사와 관련된 기본적인 출근 동정 뉴스다.","positive_stocks":[],"positive_keywords":[],"positive_reasons":"","negative_stocks":[],"negative_keywords":[],"negative_reasons":""}', 'role': 'assistant'}]}
<class 'da

## BaseModel + Quantizaton-Config

`BitsAndBytesConfig`는 Hugging Face Transformers에서 대형 모델을 8비트 또는 4비트로 양자화(quantization)하여 메모리 사용량을 줄이고, 저사양 환경에서도 대형 모델을 사용할 수 있게 도와주는 설정 클래스이다.

**주요 파라미터 목록**

| 파라미터명                  | 설명                                                                                          | 예시 값            |
|-----------------------------|----------------------------------------------------------------------------------------------|-------------------|
| `load_in_8bit`              | 8비트 양자화 활성화 여부. True로 설정 시 8비트로 모델 로드.                                    | True, False       |
| `load_in_4bit`              | 4비트 양자화 활성화 여부. True로 설정 시 4비트로 모델 로드.                                    | True, False       |
| `bnb_4bit_quant_type`       | 4비트 양자화 타입. `nf4`(NormalFloat4, 기본값), `fp4` 중 선택.                                 | "nf4", "fp4"      |
| `bnb_4bit_compute_dtype`    | 연산에 사용할 데이터 타입. 보통 `torch.float16`, `torch.bfloat16`, `torch.float32` 중 선택.     | torch.bfloat16    |
| `bnb_4bit_use_double_quant` | 이중 양자화 사용 여부. True로 설정 시 추가 양자화로 메모리 절감 가능.                           | True, False       |
| `llm_int8_threshold`        | 8비트 양자화 시 threshold 지정. 값이 낮을수록 더 많은 파라미터가 8비트로 변환됨.                | 0.0 ~ 6.0         |
| `llm_int8_skip_modules`     | 양자화에서 제외할 모듈 리스트.                                                                | ["lm_head"]       |
| `bnb_4bit_quant_storage`    | 4비트 파라미터 저장에 사용할 타입. 기본값은 `torch.uint8`.                                    | torch.uint8       |


- **load_in_8bit**  
  8비트 양자화를 활성화하는 플래그이다. True로 설정 시 모델 파라미터를 8비트 정수로 변환하여 메모리 사용량을 약 75%까지 줄일 수 있다.

- **load_in_4bit**  
  4비트 양자화를 활성화하는 플래그이다. True로 설정 시 더욱 극적인 메모리 절감 효과를 볼 수 있다. 4비트 양자화는 QLoRA 등 최신 연구에서 자주 사용된다.

- **bnb_4bit_quant_type**  
  4비트 양자화 시 사용할 데이터 타입을 지정한다.  
  - `nf4`: NormalFloat4 (기본값, QLoRA에서 주로 사용)  
  - `fp4`: FP4 타입.

- **bnb_4bit_compute_dtype**  
  연산(Forward/Backward) 시 사용할 데이터 타입을 지정한다.  
  - `torch.float16`, `torch.bfloat16`, `torch.float32` 등이 있다.  
  - 16비트 타입을 사용하면 연산 속도가 빨라지고, 메모리 사용량도 줄일 수 있다.

- **bnb_4bit_use_double_quant**  
  이중 양자화(nested quantization)를 활성화하는 옵션이다. True로 설정 시 한 번 더 양자화를 적용하여 메모리 사용량을 추가로 절감할 수 있다. 메모리 부족 시 유용하다.

- **llm_int8_threshold**  
  8비트 양자화 시 threshold 값을 조정하여, threshold 이하의 weight만 8비트로 변환한다. 값이 낮을수록 더 많은 파라미터가 8비트로 변환된다.

- **llm_int8_skip_modules**  
  양자화에서 제외할 모듈(레이어) 리스트를 지정한다. 예를 들어, 출력 레이어(`lm_head`) 등은 양자화에서 제외할 수 있다.

- **bnb_4bit_quant_storage**  
  4비트 파라미터 저장에 사용할 데이터 타입을 지정한다. 기본값은 `torch.uint8`이다.


**활용 팁**

- **메모리가 부족하다면**: `bnb_4bit_use_double_quant=True`로 설정.
- **정밀도가 중요하다면**: `bnb_4bit_quant_type="nf4"`로 설정.
- **학습 속도가 중요하다면**: `bnb_4bit_compute_dtype`를 16비트(float16, bfloat16)로 설정.

- `BitsAndBytesConfig`는 4비트/8비트 양자화 옵션을 통합 관리하며, 파라미터 조합을 통해 다양한 하드웨어 환경에 맞는 최적화가 가능하다.

In [12]:
# 4bit 양자화 설정(BitsAndBytesConfig) 구성
from transformers import BitsAndBytesConfig  # 양자화 설정
import torch

# 4bit 양자화 객체 설정
quant_config = BitsAndBytesConfig(
    load_in_4bit = True,                    # 모델 가중치를 4bit로 로드
    bnb_4bit_quant_type = 'nf4',            # 4bit 양자화 방식
    bnb_4bit_use_double_quant = True,       # 더블 양자화(메모리/정확도 균형 개선)
    bnb_4bit_compute_dtype= torch.bfloat16  # 연산 dtype (추론/학습시 연산은 bfloat16)
)

## NCSOFT/Llama-VARCO-8B-Instruct란?
https://huggingface.co/NCSOFT/Llama-VARCO-8B-Instruct


* **기반 모델:** Meta의 Llama-3.1-8B 모델을 기반으로 한다.
* **개발 목적:** 한국어 능력을 극대화하는 동시에 영어 구사 능력도 유지하도록 설계되었다.
* **학습 방법:** 한국어와 영어 데이터셋을 활용한 지속 사전 학습(Continual Pre-training)을 거쳤으며, 이후 지도 미세 조정(SFT)과 직접 선호도 최적화(DPO)를 통해 인간의 선호도에 맞게 정렬되었다.


**SFT에서 한국어능력향상과 동시에 영어능력유지란:**

일반적으로 한국어 데이터를 대량으로 추가 학습시키면 기존에 모델이 가지고 있던 영어 지식이 손상되는 '파괴적 망각(Catastrophic Forgetting)' 현상이 발생한다. 엔씨소프트는 이를 방지하기 위해 **지속 사전 학습(Continual Pre-training)**을 적용했다.

**_1. 데이터 믹스(Data Mixing) 전략:_**

단순히 한국어 데이터만 밀어 넣는 것이 아니라, 모델이 이미 학습했던 영어 데이터와 고품질의 한국어 데이터를 특정 비율로 섞어 학습한다. 이를 통해 기존의 영어 추론 능력을 '복습'하면서 새로운 언어 체계를 '습득'하게 된다.

**_2. 토크나이저 효율화와 임베딩 확장:_**

기존 Llama-3.1의 토크나이저 성능을 유지하면서 한국어 표현력을 높이기 위해 어휘 사전(Vocabulary)을 최적화한다. 영어 토큰 정보는 건드리지 않고 한국어 토큰의 밀도를 높여 두 언어 간의 연결 고리를 강화하는 방식이다.

**_3. 지식 전이(Knowledge Transfer):_**

영어 데이터로 학습된 모델의 강력한 논리적 사고 능력을 한국어로 전이시키는 과정을 거친다.

* **추론 능력 유지:** 수학이나 코딩 같은 논리적 작업은 영어 데이터에서 배운 구조를 그대로 활용한다.
* **언어 정렬:** SFT(지도 미세 조정) 단계에서 동일한 질문을 한국어와 영어로 번급하며 학습시켜, 언어에 상관없이 일관된 답변을 내놓도록 유도한다.

In [13]:
from transformers import AutoTokenizer, AutoModelForCausalLM  # 토크나이저 / 생성형 모델 로더
import torch

pretrained_model_name = 'NCSOFT/Llama-VARCO-8B-Instruct'  # 사용할 사전학습 모델 ID

# 사전학습 CausalLM 모델 로드
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name,   # 모델 이름
    dtype = torch.bfloat16,  # 가중치 로딩 dtype(bf16)
    device_map = 'auto',     # 환경에 맞게 CPU/GPU 자동 배치
    quantization_config = quant_config  # 4bit 양자화 설정 적용
)

tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name)  # 해당 모델의 토크나이저 로드

Loading weights:   0%|          | 0/291 [00:00<?, ?it/s]

## llama-3 chat template 변환

Llama3 모델은 특정 chat template 형식으로 학습되어, 그 형식을 사용해야 최적 성능을 낼 수 있다.
Chat template을 사용하지 않으면 모델이 대화 구조를 제대로 인식하지 못할 수 있다.
opean_ai 형식의 데이터를 llama-3 형식으로 변환한다.


**LLaMA-3 채팅 포맷**
LLaMA-3 채팅 포맷은 LLaMA-3 계열 챗봇 모델이 대화 내용을 이해하고 답변할 수 있도록 만들어진 입력 데이터 구조입니다.
여러 역할(시스템, 유저, 어시스턴트)의 메시지를 특별한 토큰과 구조로 묶어서 하나의 프롬프트로 합치는 방식입니다.
구조 예시
아래와 같이 대화 흐름을 명확히 구분하는 토큰들이 사용됩니다:

```
<|begin_of_text|>
<|start_header_id|>system<|end_header_id|>
[시스템 역할 지침]<|eot_id|>
<|start_header_id|>user<|end_header_id|>
[유저 질문]<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>
[모델의 답변]<|eot_id|>
```
* <|begin_of_text|> : 전체 프롬프트의 시작을 알리는 토큰
* <|start_header_id|>role<|end_header_id|> : 각 메시지의 역할 구분(시스템, 유저, 어시스턴트 등)
* 각 메시지 끝에 <|eot_id|> : 하나의 메시지 블록이 끝났음을 알림
* 마지막 assistant 블럭은 응답 생성 위치를 가리킨다. apply_chat_template(add_generation_prompt=False)로 설정했더라도 내부 템플릿에는 응답을 받을 자리 표시자로 <|assistant|> 토큰이 남아 있어, "여기서부터 어시스턴트가 답변을 생성해야 한다"는 신호를 제공하는 것임.

**왜 이 포맷이 필요할까?**

* 모델이 **“어디까지가 시스템 안내, 어디서부터가 유저 질문, 어디서부터가 답변인지”** 정확하게 파악할 수 있다.
* 여러 턴(turn)의 대화가 이어질 때도 메시지 경계를 명확히 구분해 혼동 없이 맥락을 유지할 수 있다.
* LLaMA-3 계열 모델은 이런 포맷으로 학습되어 있기 때문에 **실전 파인튜닝/추론 시에도 반드시 이 구조로 입력해야** 기대하는 챗봇 성능을 발휘할 수 있다.

In [14]:
# apply_chat_template 함수
# - openai 방식의 메시지를 llama3 방식으로 변환
text = tokenizer.apply_chat_template(train_dataset[100]['messages'], tokinize=False)  # messages -> 채팅 프롬프트 문자열 변환
print(text)

{'input_ids': [128000, 128006, 9125, 128007, 271, 65895, 83628, 34804, 104193, 123061, 14, 127463, 111068, 120226, 125959, 102612, 96318, 27797, 18359, 87097, 103168, 34983, 114942, 101360, 11, 720, 108159, 30381, 59134, 41953, 99458, 88708, 19954, 101412, 116129, 41871, 235, 30381, 14, 64189, 30381, 115754, 58126, 64189, 11, 111436, 11, 106589, 93292, 18918, 109862, 44005, 104193, 123061, 14, 127463, 109862, 116425, 20565, 80052, 382, 13447, 49531, 62226, 22035, 30426, 115790, 18359, 67890, 115061, 92769, 627, 16, 13, 111068, 25941, 81673, 99458, 88708, 63375, 21028, 78453, 101106, 111490, 121712, 48936, 29833, 47782, 115300, 512, 262, 482, 5708, 54356, 18918, 3641, 17835, 114839, 92245, 627, 262, 482, 12399, 19954, 111068, 120226, 87097, 103168, 18359, 114839, 92245, 627, 17, 13, 111068, 25941, 81673, 99458, 88708, 63375, 21028, 78453, 101106, 111490, 121712, 101528, 33390, 512, 262, 482, 5708, 54356, 18918, 3082, 17835, 114839, 92245, 627, 262, 482, 12399, 19954, 111068, 120226, 870

### data_collator 함수

* 미니배치(batch) 데이터를 모델이 바로 학습할 수 있는 형태(토큰·마스크·정답)로 변환합니다.
* 특히 아래와 같은 LLaMA-3 채팅 포맷을 쓸 때,
  “어디까지가 질문/어디서부터가 답변(assistant)인지”를 정확히 구분해서
  모델이 정답(답변 부분)만 학습하도록 레이블을 지정합니다.

#### 함수 설명

**1. 프롬프트 생성 (Prompt Construction)**

입력받은 `batch` 데이터는 리스트 내에 여러 메시지(`system`, `user`, `assistant`)를 포함하는 사전(dict) 구조이다.

* Llama 3의 특수 토큰(` <|begin_of_text|>`, `<|start_header_id|>`, `<|eot_id|>`)을 사용하여 모든 대화 내용을 하나의 긴 문자열로 병합한다.
* 각 역할(role)의 시작과 끝을 명확히 구분하여 모델이 대화 맥락을 이해할 수 있도록 구성한다.

**2. 토크나이즈 및 패딩 (Tokenization)**

병합된 문자열 리스트를 `tokenizer`를 통해 숫자 ID(`input_ids`)로 변환한다.

* `padding=True`: 배치 내의 문장들 중 가장 긴 문장을 기준으로 길이를 맞춘다.
* `truncation=True`: `max_length`를 초과하는 데이터는 절단한다.
* `return_tensors="pt"`: PyTorch 텐서 형식으로 결과를 반환한다.

**3. 레이블 생성 및 Loss Masking**

이 함수의 핵심 부분이다. 모델이 '사용자의 질문'이 아닌 **'모델의 답변(assistant)'** 부분에 대해서만 학습하도록 설정한다.

* **-100 값의 의미**: PyTorch의 `CrossEntropyLoss`는 레이블 값이 `-100`인 경우 손실(Loss) 계산에서 제외한다. 이를 통해 모델은 질문 부분을 예측하려고 노력하지 않고, 답변 부분의 정확도에만 집중하게 된다.
* **구간 탐색**: `assistant_tokens`를 기점으로 답변이 시작되는 위치를 찾고, `<|eot_id|>` 토큰이 나오는 지점까지의 인덱스를 추출한다.
* **값 복사**: 해당 구간의 `labels`에만 실제 `input_ids` 값을 복사하여 넣는다.

In [15]:
# Chat 모델 학습용 데이터 콜레이터: 프롬프트 생성 -> 토크나이저/패딩 -> assistant 구간만 라벨링

# 배치(messages)를 모델 학습 텐서로 변환하는 함수
def data_collator(batch, tokenizer=tokenizer, max_length=8192):
    # 1. 프롬프트 생성
    prompts = []  # 배치프롬프트 문자열을 담을 리스트
    for example in batch:
        prompt = '<|begin_of_text|>'  # 프롬프트 시작
        for msg in example['messages']:  # system/user/assistant 순회
            role = msg['role']
            content = msg['content'].strip()
            # role+content를 템플릿으로 누적
            prompt += f"<|start_header_id|>{role}<|end_header_id|>\n{content}<|eot_id|>"
        prompts.append(prompt)  # 완성된 프롬프트를 배치 리스트에 추가
    
    # 2. 토큰처리/패딩/텐서변환
    tokenized = tokenizer(        # 프롬프트를 토큰화해서 텐서로 변환
        prompts,                  # 배치 프롬프트 목록
        truncation = True,        # 최대길이 초과시 자름
        max_length = max_length,  # 최대 토큰 길이
        padding = True,           # 배치 내 최장 길이 기준 패딩
        return_tensors = "pt"     # Pytorch 텐서 반환
    )
    input_ids = tokenized['input_ids']  # 토큰 id 텐서
    attention_mask = tokenized['attention_mask']  # 패딩 마스크 텐서

    # 3. 라벨 생성
    labels = torch.full_like(input_ids, fill_value=-100)  # 기본은 -100(손실 계산에서 제외)

    assistant_header = '<|start_header_id|>assistant<|end_header_id|>'
    assistant_token_id = tokenizer.encode(assistant_header, add_special_tokens=False)  # 헤더의 토큰 패턴
    eot_token = '<|eot_id|>'
    eot_token_id = tokenizer.encode(eot_token, add_special_tokens=False)  # 종료 토큰의 토큰 패턴

    for i, ids in enumerate(input_ids):  # 배치 내 각 샘플별로 라벨 구간 설정
        ids_list = ids.tolist()          # 슬라이싱 비교를 위한 리스트 변환
        # assistant 답변 시작위치 찾기
        # - <|start_header_id|>assistant<|end_header_id|>\n 다음 인덱스부터 답변 시작
        start = None  # 답변 시작 인덱스 초기화
        for idx in range(len(ids_list) - len(assistant_token_id) + 1):  # 헤더 길이만큼 슬라이딩 탐색
            if ids_list[idx: idx + len(assistant_token_id)] == assistant_token_id:  # 헤더 패턴 매칭
                start = idx + len(assistant_token_id)  # 헤더 다음 토큰부터 라벨 시작
                break  # 첫 번째 assistant 구간만 탐색
        # 답변 끝 위치 찾기
        # - <|eot_id|> 까지
        if start is not None:  # assistant 헤더를 찾은 경우
            end = None  # 답변 종료 인덱스 초기화
            # start 이후부터 <|eot_id|> 패턴이 나오는 곳까지를 탐색
            for idx in range(start, len(ids_list) - len(eot_token_id) + 1):
                if ids_list[idx: idx + len(eot_token_id)] == eot_token_id:  # 종료 패턴 매칭
                    end = idx + len(eot_token_id)  # eot까지 포함한 구간 설정
                    break  # 첫 번째 eot 탐색 완료시 종료
        
        labels[i, start:end] = input_ids[i, start:end]  # assistant 답변 구간을 정답 라벨로 복사
    
    return {
        'input_ids': input_ids,            # 모델 입력
        'attention_mask': attention_mask,  # 패딩 마스크
        'labels': labels                   # 손실 계산용 라벨(assistant 구간)
    }

data_collator([train_dataset[0], train_dataset[1]])

{'input_ids': tensor([[128000, 128006,   9125,  ...,   1210,     92, 128009],
         [128000, 128006,   9125,  ...,      0,      0,      0]]),
 'attention_mask': tensor([[1, 1, 1,  ..., 1, 1, 1],
         [1, 1, 1,  ..., 0, 0, 0]]),
 'labels': tensor([[  -100,   -100,   -100,  ...,   1210,     92, 128009],
         [  -100,   -100,   -100,  ...,   -100,   -100,   -100]])}

### Causal Language Model 파인튜닝: input_ids와 labels 구조 이해

**데이터 구조**
```
input_ids:  [system_tokens..., user_tokens..., assistant_tokens...]  # 전체 시퀀스
labels:     [-100, -100, ..., -100, assistant_tokens...]          # assistant만 학습 대상
```

| 항목 | 내용 |
| --- | --- |
| **Input IDs** | 프롬프트 + 정답 (전체 시퀀스) |
| **Labels** | `-100` (프롬프트 구간) + 정답 토큰 (답변 구간) |
| **결과** | 모델은 입력을 다 보지만, 오직 답변을 맞히는 과정에서만 학습이 일어남 |




> **질문에 해당하는 input_ids에 이미 답이 포함되어 있다!**
>
> **"답이 이미 있는데 어떻게 학습하는가?"**
>
> 모델은 정답을 "보면서" 각 위치에서 올바른 다음 토큰을 예측하는 법을 배운다. 마치 학생이 모범답안을 보며 "이 상황에서는 이렇게 답해야 한다"를 학습하는 것과 같다. 이것이 현대 LLM 파인튜닝의 핵심 메커니즘이다!


**_1. 인과적 언어 모델링 (Causal Language Modeling):_**

LLM(Llama, GPT 등)은 **이전 토큰들을 보고 다음 토큰을 예측**하는 방식으로 학습한다. 따라서 학습 데이터에는 프롬프트와 정답이 모두 포함된 전체 문장이 들어가야 한다.

* **학습 원리:** 모델은 번째 토큰까지를 입력으로 받아 번째 토큰을 예측한다.
* **구조:** `input_ids`가 `[A, B, C, D]`라면, 모델은 내부적으로 `A`를 보고 `B`를, `A, B`를 보고 `C`를 예측하는 과정을 동시에 수행한다.

**_2. Teacher Forcing 기법:_**
```
Position:   [0, 1, 2, 3, 4, 5, 6, 7, 8]
input_ids:  [A, B, C, D, E, F, G, H, I]
labels:     [-100, -100, -100, -100, E, F, G, H, I]
```

학습 과정:
- Position 4: A,B,C,D를 보고 → E 예측
- Position 5: A,B,C,D,E를 보고 → F 예측  
- Position 6: A,B,C,D,E,F를 보고 → G 예측

**_3. Labels와 Loss 계산의 역할:_**

`input_ids`에 정답이 포함되어 있더라도, 모델이 모든 구간에 대해 학습(손실 계산)을 수행하는 것은 아니다. 이때 중요한 역할을 하는 것이 바로 코드에 작성된 **`labels`**이다.

* **-100의 의미:** PyTorch의 `CrossEntropyLoss`는 기본적으로 레이블 값이 `-100`인 위치를 무시(ignore)한다.
* **학습 차단:** 코드에서 프롬프트(User 질문 등) 구간의 레이블을 `-100`으로 설정했기 때문에, 모델이 프롬프트 내용을 예측하며 발생하는 오차는 학습에 반영되지 않는다.
* **학습 집중:** 오직 `assistant`의 답변 구간에 해당하는 `labels`만 실제 `input_ids` 값을 가지므로, 모델은 **"프롬프트가 주어졌을 때 정답을 생성하는 방법"**에 대해서만 가중치를 업데이트한다.


**학습 vs 추론의 차이**

**_학습 시:_**
```
input_ids: <system>당신은 금융분석가</system><user>뉴스내용</user><assistant>분석결과</assistant>
labels:    [-100, -100, ..., -100, 분석결과_토큰들]
```

**_추론 시:_**
```
input:  <system>당신은 금융분석가</system><user>뉴스내용</user><assistant>
output: 분석결과 (모델이 한 토큰씩 생성)
```

In [16]:
example = train_dataset[128]               # 129번째 샘플
batch = data_collator([example])           # 배치 1개로 콜레이터 적용

print(f'{batch['input_ids'].shape}')       # input_ids 텐서 shape 확인 (batch, seq_len)
print(f'{batch['attention_mask'].shape}')  # attention_mask 텐서 shape 확인 (batch, seq_len)
print(f'{batch['labels'].shape}')          # labels 텐서 shape 확인 (batch, seq_len)

torch.Size([1, 916])
torch.Size([1, 916])
torch.Size([1, 916])


In [17]:
print(batch['input_ids'][0].tolist())       # 샘플의 input_ids를 리스트로 확인
print(batch['attention_mask'][0].tolist())  # 샘플의 attention_mask를 리스트로 확인
print(batch['labels'][0].tolist())          # 샘플의 labels를 리스트로 확인

[128000, 128006, 9125, 128007, 198, 65895, 83628, 34804, 104193, 123061, 14, 127463, 111068, 120226, 125959, 102612, 96318, 27797, 18359, 87097, 103168, 34983, 114942, 101360, 11, 720, 108159, 30381, 59134, 41953, 99458, 88708, 19954, 101412, 116129, 41871, 235, 30381, 14, 64189, 30381, 115754, 58126, 64189, 11, 111436, 11, 106589, 93292, 18918, 109862, 44005, 104193, 123061, 14, 127463, 109862, 116425, 20565, 80052, 382, 13447, 49531, 62226, 22035, 30426, 115790, 18359, 67890, 115061, 92769, 627, 16, 13, 111068, 25941, 81673, 99458, 88708, 63375, 21028, 78453, 101106, 111490, 121712, 48936, 29833, 47782, 115300, 512, 262, 482, 5708, 54356, 18918, 3641, 17835, 114839, 92245, 627, 262, 482, 12399, 19954, 111068, 120226, 87097, 103168, 18359, 114839, 92245, 627, 17, 13, 111068, 25941, 81673, 99458, 88708, 63375, 21028, 78453, 101106, 111490, 121712, 101528, 33390, 512, 262, 482, 5708, 54356, 18918, 3082, 17835, 114839, 92245, 627, 262, 482, 12399, 19954, 111068, 120226, 87097, 103168, 18

In [18]:
label_ids = [token_id for token_id in batch['labels'][0].tolist() if token_id != -100]  # 정답 토큰(-100 제외)만 추출
text = tokenizer.decode(label_ids)  # 정답 토큰을 문장열로 디코딩
text

'\n{"stock_related":true,"summary":"에어부산이 코로나19 팬데믹 이후 28개월 만에 김해국제공항에서 몽골 울란바토르와 일본 오사카 노선 운항을 주 2회 재개하며, 곧 코타키나발루, 나트랑, 세부 등 동남아 노선도 운항을 시작한다. 인천공항발 국제 노선 확대도 예고했다. 몽골의 무격리·무백신 입국 정책, 일본 오사카 노선 등 해외여행 수요 증대를 선제적으로 겨냥한 조치이다.","positive_stocks":["에어부산"],"positive_keywords":["국제선 운항 재개","해외여행 수요 확대","동남아·일본 노선 확대","코로나 이후 노선 복원"],"positive_reasons":"팬데믹 이후 억눌렸던 해외여행 수요 급증 기대, 국제선 노선 재개 및 증편으로 에어부산의 항공 노선 수익 확대가 예상되어 긍정적 영향을 줄 수 있음. 특히 일본, 동남아, 몽골 등 인기 지역 노선의 조기 복원은 매출 증가로 직결될 가능성이 높음.","negative_stocks":[],"negative_keywords":[],"negative_reasons":""}<|eot_id|>'

In [19]:
tokens = tokenizer.convert_ids_to_tokens(batch['input_ids'][0].tolist())  # 토큰 ID를 토큰 문자열로 변환

text_tokens = []  # 토큰 ID를 1개씩 디코딩한 문자열을 담을 리스트
for i, token_id in enumerate(batch['input_ids'][0].tolist()):  # 토큰 ID를 순회
    decoded_str = tokenizer.decode([token_id])  # 토큰 1개를 문자열로 디코딩
    text_tokens.append(decoded_str)             # 디코딩 결과를 누적 저장

print(text_tokens)

['<|begin_of_text|>', '<|start_header_id|>', 'system', '<|end_header_id|>', '\n', '당', '신', '은', ' 금', '융', '/', '경제', ' 뉴', '스의', ' 핵', '심', '내', '용', '을', ' 요', '약', '해', ' 설명', '하고', ',', ' \n', '특', '정', ' 상', '장', ' 종', '목', '에', ' 미', '치는', ' �', '�', '정', '/', '부', '정', ' 영향', '여', '부', ',', ' 이유', ',', ' 근', '거', '를', ' 분석', '하는', ' 금', '융', '/', '경제', ' 분석', ' 전문', '가', '입니다', '.\n\n', '다', '음', ' 출력', '지', '시', '사항', '을', ' 지', '켜', '주세요', '.\n', '1', '.', ' 뉴', '스', '와', ' 종', '목', '간', '의', ' 연', '관', '성을', ' 발견', '할', ' 수', ' 없', '다면', ':\n', '   ', ' -', ' stock', '_related', '를', ' False', '로', ' 작성', '하세요', '.\n', '   ', ' -', ' summary', '에', ' 뉴', '스의', ' 요', '약', '을', ' 작성', '하세요', '.\n', '2', '.', ' 뉴', '스', '와', ' 종', '목', '간', '의', ' 연', '관', '성을', ' 발견', '했다', '면', ':\n', '   ', ' -', ' stock', '_related', '를', ' True', '로', ' 작성', '하세요', '.\n', '   ', ' -', ' summary', '에', ' 뉴', '스의', ' 요', '약', '을', ' 작성', '하세요', '.\n', '   ', ' -', ' �', '�', '정', '영', '향', '

In [20]:
import pandas as pd

df = pd.DataFrame({
    'token': text_tokens,  # 토큰 (1개씩 디코딩된 문자열)
    'input_ids': batch['input_ids'][0].tolist(),  # 입력 토큰 ID
    'attention_mask': batch['attention_mask'][0].tolist(),  # 패딩 여부(1/0)
    'labels': batch['labels'][0].tolist()  # 정답 라벨(-100 마스킹 포함)
}).transpose()  # 컬럼을 행으로 전치

pd.set_option('display.max_columns', None)  # 출력시 컬럼 생략 없이 표시
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122,123,124,125,126,127,128,129,130,131,132,133,134,135,136,137,138,139,140,141,142,143,144,145,146,147,148,149,150,151,152,153,154,155,156,157,158,159,160,161,162,163,164,165,166,167,168,169,170,171,172,173,174,175,176,177,178,179,180,181,182,183,184,185,186,187,188,189,190,191,192,193,194,195,196,197,198,199,200,201,202,203,204,205,206,207,208,209,210,211,212,213,214,215,216,217,218,219,220,221,222,223,224,225,226,227,228,229,230,231,232,233,234,235,236,237,238,239,240,241,242,243,244,245,246,247,248,249,250,251,252,253,254,255,256,257,258,259,260,261,262,263,264,265,266,267,268,269,270,271,272,273,274,275,276,277,278,279,280,281,282,283,284,285,286,287,288,289,290,291,292,293,294,295,296,297,298,299,300,301,302,303,304,305,306,307,308,309,310,311,312,313,314,315,316,317,318,319,320,321,322,323,324,325,326,327,328,329,330,331,332,333,334,335,336,337,338,339,340,341,342,343,344,345,346,347,348,349,350,351,352,353,354,355,356,357,358,359,360,361,362,363,364,365,366,367,368,369,370,371,372,373,374,375,376,377,378,379,380,381,382,383,384,385,386,387,388,389,390,391,392,393,394,395,396,397,398,399,400,401,402,403,404,405,406,407,408,409,410,411,412,413,414,415,416,417,418,419,420,421,422,423,424,425,426,427,428,429,430,431,432,433,434,435,436,437,438,439,440,441,442,443,444,445,446,447,448,449,450,451,452,453,454,455,456,457,458,459,460,461,462,463,464,465,466,467,468,469,470,471,472,473,474,475,476,477,478,479,480,481,482,483,484,485,486,487,488,489,490,491,492,493,494,495,496,497,498,499,500,501,502,503,504,505,506,507,508,509,510,511,512,513,514,515,516,517,518,519,520,521,522,523,524,525,526,527,528,529,530,531,532,533,534,535,536,537,538,539,540,541,542,543,544,545,546,547,548,549,550,551,552,553,554,555,556,557,558,559,560,561,562,563,564,565,566,567,568,569,570,571,572,573,574,575,576,577,578,579,580,581,582,583,584,585,586,587,588,589,590,591,592,593,594,595,596,597,598,599,600,601,602,603,604,605,606,607,608,609,610,611,612,613,614,615,616,617,618,619,620,621,622,623,624,625,626,627,628,629,630,631,632,633,634,635,636,637,638,639,640,641,642,643,644,645,646,647,648,649,650,651,652,653,654,655,656,657,658,659,660,661,662,663,664,665,666,667,668,669,670,671,672,673,674,675,676,677,678,679,680,681,682,683,684,685,686,687,688,689,690,691,692,693,694,695,696,697,698,699,700,701,702,703,704,705,706,707,708,709,710,711,712,713,714,715,716,717,718,719,720,721,722,723,724,725,726,727,728,729,730,731,732,733,734,735,736,737,738,739,740,741,742,743,744,745,746,747,748,749,750,751,752,753,754,755,756,757,758,759,760,761,762,763,764,765,766,767,768,769,770,771,772,773,774,775,776,777,778,779,780,781,782,783,784,785,786,787,788,789,790,791,792,793,794,795,796,797,798,799,800,801,802,803,804,805,806,807,808,809,810,811,812,813,814,815,816,817,818,819,820,821,822,823,824,825,826,827,828,829,830,831,832,833,834,835,836,837,838,839,840,841,842,843,844,845,846,847,848,849,850,851,852,853,854,855,856,857,858,859,860,861,862,863,864,865,866,867,868,869,870,871,872,873,874,875,876,877,878,879,880,881,882,883,884,885,886,887,888,889,890,891,892,893,894,895,896,897,898,899,900,901,902,903,904,905,906,907,908,909,910,911,912,913,914,915
token,<|begin_of_text|>,<|start_header_id|>,system,<|end_header_id|>,\n,당,신,은,금,융,/,경제,뉴,스의,핵,심,내,용,을,요,약,해,설명,하고,",",\n,특,정,상,장,종,목,에,미,치는,�,�,정,/,부,정,영향,여,부,",",이유,",",근,거,를,분석,하는,금,융,/,경제,분석,전문,가,입니다,.\n\n,다,음,출력,지,시,사항,을,지,켜,주세요,.\n,1,.,뉴,스,와,종,목,간,의,연,관,성을,발견,할,수,없,다면,:\n,,-,stock,_related,를,False,로,작성,하세요,.\n,,-,summary,에,뉴,스의,요,약,을,작성,하세요,.\n,2,.,뉴,스,와,종,목,간,의,연,관,성을,발견,했다,면,:\n,,-,stock,_related,를,True,로,작성,하세요,.\n,,-,summary,에,뉴,스의,요,약,을,작성,하세요,.\n,,-,�,�,정,영,향,이,예,상,되는,종,목,이,있다,면,",",positive,_st,ocks,",",positive,_keywords,",",positive,_reason,s,를,작성,하세요,.\n,,-,부,정,영,향,이,예,상,되는,종,목,이,있다,면,",",negative,_st,ocks,",",negative,_keywords,",",negative,_reason,s,를,작성,하세요,.\n,,-,값,이,없는,경우,빈,문자,열,(',"'),",빈,리스트,([],),로,작성,하세요,.,<|eot_id|>,<|start_header_id|>,user,<|end_header_id|>,\n,에,어,부,산,울,란,바,토,르,·,오,사,카,노,선,재,개,\n,에,어,부,산,이,김,해,국,제,공,항,에서,출,발,하는,몽,골,울,란,바,토,르,와,일본,오,사,카,노,선,운,항,을,각각,주,,2,회,일정,으로,코로나,19,팬,데,�,�,사,태,이후,,28,개월,만,에,재,개,한다,고,,1,일,밝,�,�다,.,부산,울,란,바,토,르,노,선,은,김,해,국,제,공,항,에서,오,전,,8,시,,25,분,에,출,발,해,현,지,공,항,에,오,전,,11,시,,40,분,도,착,하고,귀,국,편,은,오후,,1,시에,출,발,해,김,해,공,항,에,오후,,5,시,,30,분,도,착,하는,일정,으로,주,,2,회,운,항,한다,.,몽,골,은,입,국,시,코로나,19,검,사,와,백,신,접,종,여,부,를,확인,하지,않,아,자유,롭,게,여행,이,가능한,국가,다,.,부산,오,사,카,노,선,은,김,해,공,항,에서,오,전,,8,시,,35,분,에,출,발,해,간,사이,공,항,에,오,전,,10,시,도,착,귀,국,편,은,간,사이,공,항,에서,낮,,12,시에,출,발,해,김,해,공,항,에,오후,,1,시,,30,분,도,착,하는,일정,으로,주,,2,회,운,항,한다,.,에,어,부,산,관계,자는,이번,증,편,은,무,비,자,입,국,이,복,원,�,�,을,때,폭,발,하는,여행,수,요,를,선,점,하기,위한,선,제,적,조,치,라,고,밝,�,�다,.,이,�,�,에도,에,어,부,산,은,이,달,중,부산,에서,출,발,하는,코,타,키,나,발,루,나,트,랑,세,부,노,선,등을,운,항,할,예정,이다,.,인천,국,제,공,항,에서는,이,달,,14,일,부터,순,차,적으로,다,�,�,방,�,�,후,쿠,오,카,등,노,선을,신규,취,항,한다,.,<|eot_id|>,<|start_header_id|>,assistant,<|end_header_id|>,\n,"{""",stock,_related,""":",true,",""",summary,""":""",에,어,부,산,이,코로나,19,팬,데,�,�,이후,,28,개월,만,에,김,해,국,제,공,항,에서,몽,골,울,란,바,토,르,와,일본,오,사,카,노,선,운,항,을,주,,2,회,재,개,하며,",",곧,코,타,키,나,발,루,",",나,트,랑,",",세,부,등,동,남,아,노,선,도,운,항,을,시작,한다,.,인천,공,항,발,국제,노,선,확,대,도,예,고,했다,.,몽,골,의,무,격,리,·,무,백,신,입,국,정책,",",일본,오,사,카,노,선,등,해외,여,행,수,요,증,대를,선,제,적으로,겨,냥,한,조,치,이다,"."",""",positive,_st,ocks,""":[""",에,어,부,산,"""],""",positive,_keywords,""":[""",국,제,선,운,항,재,개,""",""",해,외,여,행,수,요,확,대,""",""",동,남,아,·,일본,노,선,확,대,""",""",코,로나,이후,노,선,복,원,"""],""",positive,_reason,s,""":""",�,�,데,�,�,이후,�,�,�,�,렸,던,해외,여,행,수,요,급,증,기,대,",",국제,선,노,선,재,개,및,증,편,으로,에,어,부,산,의,항,공,노,선,수,익,확,대,가,예,상,되어,�,�,정,적,영향을,줄,수,있음,.,특히,일본,",",동,남,아,",",몽,골,등,인기,지역,노,선,의,조,기,복,원,은,매,출,증가,로,직,결,될,가능,성이,높,음,"."",""",negative,_st,ocks,""":[","],""",negative,_keywords,""":[","],""",negative,_reason,s,""":""""",},<|eot_id|>
input_ids,128000,128006,9125,128007,198,65895,83628,34804,104193,123061,14,127463,111068,120226,125959,102612,96318,27797,18359,87097,103168,34983,114942,101360,11,720,108159,30381,59134,41953,99458,88708,19954,101412,116129,41871,235,30381,14,64189,30381,115754,58126,64189,11,111436,11,106589,93292,18918,109862,44005,104193,123061,14,127463,109862,116425,20565,80052,382,13447,49531,62226,22035,30426,115790,18359,67890,115061,92769,627,16,13,111068,25941,81673,99458,88708,63375,21028,78453,101106,111490,121712,48936,29833,47782,115300,512,262.0,482,5708,54356,18918,3641,17835,114839,92245,627,262.0,482,12399,19954,111068,120226,87097,103168,18359,114839,92245,627,17,13,111068,25941,81673,99458,88708,63375,21028,78453,101106,111490,121712,101528,33390,512,262.0,482,5708,54356,18918,3082,17835,114839,92245,627,262.0,482,12399,19954,111068,120226,87097,103168,18359,114839,92245,627,262.0,482,41871,235,30381,101090,104762,13094,96717,57002,107205,99458,88708,13094,91786,33390,11,6928,1284,26246,11,6928,52454,11,6928,39329,82,18918,114839,92245,627,262.0,482,86503,30381,101090,104762,13094,96717,57002,107205,99458,88708,13094,91786,33390,11,8389,1284,26246,11,8389,52454,11,8389,39329,82,18918,114839,92245,627,262.0,482,46663,13094,108838,50152,122292,81021,55055,493,4670,122292,84734,10779,8,17835,114839,92245,13,128009,128006,882,128007,198,19954,32179,64189,86157,111535,103272,101974,101665,100968,14260,58368,56154,101436,102058,101151,102888,60861,198,19954,32179,64189,86157,13094,102155,34983,100654,38187,79225,103866,57575,102722,102133,44005,127385,112542,111535,103272,101974,101665,100968,81673,107715,74177,56154,101436,102058,101151,103678,103866,18359,127141,56773,220.0,17,62841,125274,43139,124141,777,124460,100933,50273,117,33229,87472,111323,220.0,1591,125085,63207,19954,102888,60861,52976,35495,220.0,16,33177,116283,35859,104828,13,118089,111535,103272,101974,101665,100968,102058,101151,34804,102155,34983,100654,38187,79225,103866,57575,74177,66965,220.0,23,30426,220.0,914,80816,19954,102722,102133,34983,103055,22035,100994,103866,19954,74177,66965,220.0,806,30426,220.0,1272,80816,101703,111283,101360,110946,100654,104790,34804,124467,220.0,16,118472,102722,102133,34983,102155,34983,79225,103866,19954,124467,220.0,20,30426,220.0,966,80816,101703,111283,44005,125274,43139,56773,220.0,17,62841,103678,103866,52976,13,127385,112542,34804,39250,100654,45618,124141,777,86422,56154,81673,107696,83628,108712,102757,84618,64189,18918,74959,88525,51796,54059,117542,120591,58901,121528,13094,125502,109916,13447,13,118089,74177,56154,101436,102058,101151,34804,102155,34983,79225,103866,57575,74177,66965,220.0,23,30426,220.0,1758,80816,19954,102722,102133,34983,105131,125166,79225,103866,19954,74177,66965,220.0,605,30426,101703,111283,110946,100654,104790,34804,105131,125166,79225,103866,57575,120889,220.0,717,118472,102722,102133,34983,102155,34983,79225,103866,19954,124467,220.0,16,30426,220.0,966,80816,101703,111283,44005,125274,43139,56773,220.0,17,62841,103678,103866,52976,13,91586,32179,64189,86157,116680,112953,117717,107034,104790,34804,101480,71682,26799,39250,100654,13094,107067,55421,33943,238,18359,54718,115062,102133,44005,121528,29833,36811,18918,101585,101838,67525,107472,101585,38187,82068,66610,60798,103959,35495,116283,35859,104828,13,23955,39277,244,109018,91586,32179,64189,86157,34804,23955,104684,72043,118089,57575,102722,102133,44005,103651,101109,102474,61415,102133,102268,74618,29726,102581,101852,64189,102058,101151,120908,103678,103866,48936,126088,101568,13,121772,100654,38187,79225,103866,107031,23955,104684,220.0,975,33177,103551,106248,101532,104182,50467,40275,255,75908,100966,243,95415,107872,58368,101436,78102,102058,126712,126902,107545,103866,52976,13,128009,128006,78191,128007,198,5018,13787,54356,794,1904,1359,1743,3332,19954,32179,64189,86157,13094,124141,777,124460,100933,50273,117,111323,220.0,1591,125085,63207,19954,102155,34983,100654,38187,79225,103866,57575,127385,112542,111535,103272,101974,101665,100968,81673,107715,74177,56154,101436,102058,101151,103678,103866,18359,56773,220.0,17,62841,102888,60861,108859,11,124389,103651,101109,102474,61415,102133,102268,11,74618,29726,102581,11,101852,64189,78102,101604,101963,54059,102058,101151,49085,103678,103866,18359,94821,52976,13,121772,79225,103866,102133,115878,102058,101151,103686,67945,49085,96717,35495,101528,13,127385,112542,21028,101480,102079,29102,14260,100981,106113,83628,39250,100654,126950,11,107715,74177,56154,101436,102058,101151,78102,123102,58126,101066,29833,36811,107034,124784,101585,38187,104182,122358,112012,24486,66610,60798,101568,48991,31587,1284,26246,37899,19954,32179,64189,86157,69982,31587,52454,37899,100654,38187,101151,103678,103866,102888,60861,2247,34983,104065,58126,101066,29833,36811,103686,67945,2247,58189,101963,54059,14260,123256,102058,101151,103686,67945,2247,102525,117465,111323,102058,101151,107067,55421,69982,31587,39329,82,3332,67218,105,100933,50273,117,111323,80402,113,105940,234,105543,101954,123102,58126,101066,29833,36811,117208,102249,55216,67945,11,115878,101151,102058,101151,102888,60861,101824,107034,104790,43139,91586,32179,64189,86157,21028,107744,79225,102058,101151,29833,108964,103686,67945,20565,96717,57002,106910,41871,235,30381,82068,126652,109720,29833,127406,13,125578,107715,11,101604,101963,54059,11,127385,112542,78102,115613,109299,102058,101151,21028,66610,21121,107067,55421,34804,102293,71023,122862,17835,105164,89881,113191,96451,115602,108499,49531,48991,43324,1284,26246,9075,29603,43324,52454,9075,29603,43324,39329,82,63466,92,128009
attention_mask,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1.0,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1.0,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1.0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
labels,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100.0,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,-100,198,5018,13787,54356,794,1904,1359,1743,3332,19954,32179,64189,86157,13094,124141,777,124460,100933,50273,117,111323,220.0,1591,125085,63207,19954,102155,34983,100654,38187,79225,103866,57575,127385,112542,111535,103272,101974,101665,100968,81673,107715,74177,56154,101436,102058,101151,103678,103866,18359,56773,220.0,17,62841,102888,60861,108859,11,124389,103651,101109,102474,61415,102133,102268,11,74618,29726,102581,11,101852,64189,78102,101604,101963,54059,102058,101151,49085,103678,103866,18359,94821,52976,13,121772,79225,103866,102133,115878,102058,101151,103686,67945,49085,96717,35495,101528,13,127385,112542,21028,101480,102079,29102,14260,100981,106113,83628,39250,100654,126950,11,107715,74177,56154,101436,102058,101151,78102,123102,58126,101066,29833,36811,107034,124784,101585,38187,104182,122358,112012,24486,66610,60798,101568,48991,31587,1284,26246,37899,19954,32179,64189,86157,69982,31587,52454,37899,100654,38187,101151,103678,103866,102888,60861,2247,34983,104065,58126,101066,29833,36811,103686,67945,2247,58189,101963,54059,14260,123256,102058,101151,103686,67945,2247,102525,117465,111323,102058,101151,107067,55421,69982,31587,39329,82,3332,67218,105,100933,50273,117,111323,80402,113,105940,234,105543,101954,123102,58126,101066,29833,36811,117208,102249,55216,67945,11,115878,101151,102058,101151,102888,60861,101824,107034,104790,43139,91586,32179,64189,86157,21028,107744,79225,102058,101151,29833,108964,103686,67945,20565,96717,57002,106910,41871,235,30381,82068,126652,109720,29833,127406,13,125578,107715,11,101604,101963,54059,11,127385,112542,78102,115613,109299,102058,101151,21028,66610,21121,107067,55421,34804,102293,71023,122862,17835,105164,89881,113191,96451,115602,108499,49531,48991,43324,1284,26246,9075,29603,43324,52454,9075,29603,43324,39329,82,63466,92,128009


## PEFT Finetuning - LoRA

* LoRA는 **"Low-Rank Adapter(저랭크 어댑터)"**
* 거대한 대형언어모델(LLM)의 **전체 파라미터를 일일이 미세조정(파인튜닝)하지 않고**,
  **딱 필요한 핵심 부분만 저렴하게 빠르게 학습**하는 최신 파인튜닝.
* **"LLM의 성능은 그대로, 비용/시간/메모리/유지보수는 최소로"** 파인튜닝을 할 수 있게 해주는 AI 실무에서 가장 중요한 기법 중 하나이다.

**왜 LoRA가 등장했을까?**

* GPT, Llama, DeepSeek 같은 대형언어모델은 **파라미터(매개변수) 수가 수십억\~수조 개**나 된다.
* 이런 모델을 파인튜닝하려면 **막대한 GPU 메모리와 시간, 저장 공간**이 필요.
* 하지만, 실제로 특정 태스크에 맞게 모델을 조정할 때 **전체를 다 바꿀 필요가 없다.**
* 대부분의 정보는 기존 모델에 이미 들어있고,
  **특정 입력(질문)과 특정 출력(답변)의 관계만 살짝 조정**해주면 충분하다.

**LoRA의 원리**

* 기존 대형 모델의 핵심 연산(주로 "곱셈" 부분)에
  **작고 얇은 "보조 네트워크(어댑터 레이어)"**를 덧붙인다.
* 전체 모델은 거의 건드리지 않고,
  **이 어댑터 레이어의 파라미터만 새로 추가해서 학습**
* 학습이 끝나면,

  * 원본 모델은 그대로
  * 어댑터(작은 추가 파라미터)만 별도로 저장하면 끝!
* 추론할 땐 **원본 모델 + LoRA 어댑터**를 합쳐서 쓸 수 있다.

**LoRA의 장점**

* **파인튜닝 비용(시간, 메모리, 저장 용량)이 압도적으로 절약**된다.
* 7B, 13B, 70B 등 대형 모델도
  **일반 GPU(24GB/48GB)로도 쉽게 파인튜닝**이 가능하다.
* **동일한 원본 모델에 다양한 LoRA 어댑터만 바꿔 끼우며
  다양한 분야별 파인튜닝 결과를 쉽게 쓸 수 있다.**

**LoRA와 기존 방식의 비교**

* **기존 파인튜닝:**
  전체 파라미터(수십\~수백 GB)를 새로 저장/관리/학습 → 비효율적
* **LoRA:**
  원본은 그대로 두고,
  변화가 필요한 부분(수 MB\~수십 MB)만 별도로 학습/저장


**실전에서의 활용 예시**

* 번역 LoRA, 요약 LoRA, 감정분석 LoRA 등
  **하나의 원본 모델에 여러 용도별 어댑터를 저장/관리**할 수 있다.
* **A100 80GB, 3090, T4 등 다양한 GPU 환경에서도
  고성능 LLM 튜닝이 매우 쉽게 가능하다.**

In [21]:
from peft import LoraConfig, get_peft_model  # LoRA 설정 / PEFT 적용 함수

lora_config = LoraConfig(
    r = 8,               # 저랭크 행렬 rank
    lora_alpha = 32,     # LoRA 스케일 계수 (alpha/r로 적용 강도 결정)
    lora_dropout = 0.1,  # 드롭아웃 비율
    bias = 'none',       # bais 학습 안함
    target_modules = ['q_proj', 'v_proj'],  # LoRA를 주입할 모듈 (Q/V projection)
    task_type = 'CAUSAL_LM'  # 작업 유형(생성형 언어모델)
)

model = get_peft_model(model, lora_config)  # 기존 모델에 LoRA 어댑터 적용
model.print_trainable_parameters()          # 학습 가능한 파라미터 수/비율 출력

trainable params: 3,407,872 || all params: 8,033,669,120 || trainable%: 0.0424


In [22]:
# SFTConfig
from trl import SFTConfig  # TRL SFT 학습 설정 클래스

hub_model_id = 'capybaraOh/Llama-VARCO-8b-news2stock-analyzer-4bit'  # 학습 완료 후 업로드할 Hub 모델 ID

sft_config = SFTConfig(  # SFT 학습 하이퍼파라미터/저장/로그 설정
    output_dir="Llama-VARCO-8b-news2stock-analyzer-4bit", # 학습 완료된 모델과 체크포인트가 저장될 경로이다.
    num_train_epochs=3,                              # 전체 데이터셋을 반복 학습할 횟수(Epoch)이다.
    per_device_train_batch_size=2,                   # 각 GPU(장치)당 한 번에 처리할 데이터 샘플의 개수이다.
    gradient_accumulation_steps=2,                   # 그래디언트를 2번 누적한 후 가중치를 업데이트한다. (실제 배치 크기 = 2 * 2 = 4 효과를 낸다.)
    gradient_checkpointing=True,                     # VRAM 절약을 위해 중간 활성화 값을 저장하지 않고 역전파 시 재계산하는 설정이다.
    optim="adamw_torch_fused",                       # 최적화 알고리즘 설정이다. fused 버전은 CUDA에서 더 빠르다.
    logging_steps=10,                                # 10 스텝마다 학습 로그(Loss 등)를 출력한다.
    save_strategy="steps",                           # 체크포인트 저장 기준을 'steps'(스텝 수)로 설정한다. (옵션: 'epoch')
    save_steps=100,                                  # 100 스텝마다 모델 체크포인트를 저장한다.
    bf16=True,                                       # BF16(Brain Float 16) 정밀도를 사용하여 메모리를 아끼고 연산 속도를 높인다. (Ampere GPU 이상 권장)
    learning_rate=1e-4,                              # 학습률(Learning Rate)이다. 가중치 업데이트의 크기를 결정한다.
    max_grad_norm=0.3,                               # 그래디언트 클리핑 임계값이다. 그래디언트 폭주를 막아 학습 안정성을 높인다.
    warmup_ratio=0.03,                               # 전체 학습 단계의 3% 동안 학습률을 서서히 올리는 웜업(Warmup)을 수행한다.
    lr_scheduler_type="constant",                    # 학습률 스케줄러 타입이다. 여기서는 학습률을 변동 없이 상수로 유지한다.
    push_to_hub=True,                                # 학습이 끝나면 Hugging Face Hub에 모델을 자동으로 업로드한다.
    hub_model_id=hub_model_id,                       # Hub에 업로드될 때 사용될 저장소(Repository) ID이다.
    hub_token=True,                                  # Hub 업로드를 위해 인증 토큰을 사용한다.
    remove_unused_columns=False,                     # 데이터셋에서 모델의 forward 메서드 시그니처에 없는 컬럼을 자동으로 삭제하지 않도록 한다.
    dataset_kwargs={"skip_prepare_dataset": True},   # 데이터셋 처리 과정(packing 등)을 건너뛰도록 하는 설정이다.
    report_to=['wandb'],                             # 학습 기록을 전송할 툴(WandB, Tensorboard 등)을 지정한다. 빈 리스트는 기록하지 않음을 의미한다.
    label_names=["labels"],                          # 손실(Loss) 계산 시 정답(Target)으로 사용할 데이터셋의 컬럼 이름이다.
)

warmup_ratio is deprecated and will be removed in v5.2. Use `warmup_steps` instead.


In [23]:
from trl import SFTTrainer  # SFT 학습용 Trainer

# SFT 학습 객체 생성
trainer = SFTTrainer(
    model = model,                  # 학습할(LoRA 적용된) 모델
    args = sft_config,              # SFT 학습 설정
    train_dataset = train_dataset,  # 학습 데이터셋
    data_collator = data_collator   # 배치 텐서 생성 함수
)

trainer.train()

The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'eos_token_id': 128009, 'pad_token_id': 0}.
[34m[1mwandb[0m: (1) Create a W&B account
[34m[1mwandb[0m: (2) Use an existing W&B account
[34m[1mwandb[0m: (3) Don't visualize my results
[34m[1mwandb[0m: Enter your choice:

  2


[34m[1mwandb[0m: You chose 'Use an existing W&B account'
[34m[1mwandb[0m: Logging into https://api.wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: Create a new API key at: https://wandb.ai/authorize?ref=models
[34m[1mwandb[0m: Store your API key securely and do not share it.
[34m[1mwandb[0m: Paste your API key and hit enter:

  ········


[34m[1mwandb[0m: No netrc file found, creating one.
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc
[34m[1mwandb[0m: Currently logged in as: [33mcapybara-ohgiraffers[0m ([33mcapybara-ohgiraffers-[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


Step,Training Loss
10,1.546736
20,1.192319
30,1.191058
40,1.111726
50,1.062651
60,1.125188
70,1.107885
80,1.070426
90,1.015354
100,1.091138


TrainOutput(global_step=600, training_loss=0.9815223137537639, metrics={'train_runtime': 1671.0496, 'train_samples_per_second': 1.436, 'train_steps_per_second': 0.359, 'total_flos': 1.6049502302753587e+17, 'train_loss': 0.9815223137537639})

## 평가

In [23]:
# 테스트셋 messages에서 프롬프트/정답(assistant) 텍스트 분리
prompt_list = []   # 프롬프트(assistant메시지 이전) 저장 리스트
label_list = []    # 정답 (assistant 답변) 저장 리스트

for messages in test_dataset['messages']:
    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)  # 채팅 템플릿 문자열로 변환
    # assistant 시작 전까지는 프롬프트로 사용 + assistant 헤더만 프롬프트 끝에 붙여준다.
    input = text.split('<|start_header_id|>assistant<|end_header_id|>\n')[0] + \
        '<|start_header_id|>assistant<|end_header_id|>\n'
    # assistant 답변(종료 토큰 전)만 추출
    label = text.split('<|start_header_id|>assistant<|end_header_id|>\n')[1].split('<|eot_id|>')[0]
    
    prompt_list.append(input)
    label_list.append(label)

In [24]:
prompt_list[100]

"<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n당신은 금융/경제 뉴스의 핵심내용을 요약해 설명하고, \n특정 상장 종목에 미치는 긍정/부정 영향여부, 이유, 근거를 분석하는 금융/경제 분석 전문가입니다.\n\n다음 출력지시사항을 지켜주세요.\n1. 뉴스와 종목간의 연관성을 발견할 수 없다면:\n    - stock_related를 False로 작성하세요.\n    - summary에 뉴스의 요약을 작성하세요.\n2. 뉴스와 종목간의 연관성을 발견했다면:\n    - stock_related를 True로 작성하세요.\n    - summary에 뉴스의 요약을 작성하세요.\n    - 긍정영향이 예상되는 종목이 있다면, positive_stocks, positive_keywords, positive_reasons를 작성하세요.\n    - 부정영향이 예상되는 종목이 있다면, negative_stocks, negative_keywords, negative_reasons를 작성하세요.\n    - 값이 없는 경우 빈 문자열(''), 빈 리스트([])로 작성하세요.<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n공유수면 사용하려면 어입인 의견 들어야\n해수부 5일 개정 공유수면 관리 및 매립에 관한 법률 시행 헤럴드경제 홍태화 기자 앞으로 공유수면관리청이 어업·환경 등에 영향을 미칠 것으로 예상되는 공유수면 점용·사용 허가를 할 때 미리 어업인 등 이해관계자들의 의견을 들어야 한다. 해양수산부는 5일 이같은 내용이 담긴 개정 공유수면 관리 및 매립에 관한 법률과 같은 법 시행령·시행규칙이 이날부터 시행된다고 밝혔다. 바다·바닷가·하천 등 공유수면은 공유재이기 때문에 이를 점용·사용하기 위해서는 별도의 허가를 받아야 한다. 최근 해상풍력 발전시설 해변을 이용한 관광시설 등 대규모 시설이 공유수면을 장기적으로 점용·사용하는 경우가 늘어났지만 이해 관계자의 의

In [25]:
label_list[100]

'\n{"stock_related":true,"summary":"해양수산부가 공유수면 관리 및 매립에 관한 법률을 개정해, 해상풍력·관광시설 등 공유수면(바다·강 등) 점용·사용 허가 시 어업인 등 이해관계자 의견을 반드시 수렴하도록 의무화했다. 이는 공유수면 사용으로 인한 사회적 갈등 및 어업인 피해를 방지하기 위한 조치로, 앞으로 대규모 해상 개발사업 진행 과정에서 이해관계자의 이견 수렴과정이 강화된다.","positive_stocks":[],"positive_keywords":[],"positive_reasons":"","negative_stocks":["코오롱글로벌","씨에스윈드","유니슨","두산에너빌리티"],"negative_keywords":["해상풍력","공유수면 허가","어업인 의견청취","사회적 갈등 가능성","사업 절차 복잡화"],"negative_reasons":"공유수면 점용/사용 허가에 어업인 등 이해관계자의 의견 수렴 절차가 추가되어, 해상풍력 및 연관 해양개발 사업의 인허가 절차가 길어지고 불확실성이 커질 수 있다. 이에 따라 해상풍력발전소 구축, 해상개발, 관련 EPC·터빈업체에 단기적으로는 부정적인 영향이 예상된다."}'

### 추론모델 - 런타임결합
1. lora모델을 로드
2. base모델 + lora adapter 세팅

In [26]:
from peft import AutoPeftModelForCausalLM  # Hub에 저장된 PEFT 모델 로더
from transformers import AutoTokenizer, pipeline  # 토크나이저 / 파이프라인 생성
import torch

peft_model_id = hub_model_id

finetuned_model = AutoPeftModelForCausalLM.from_pretrained(  # 파인튜닝 된 PEFT 모델 로드
    peft_model_id,
    dtype = torch.bfloat16,  # bf16 로드
    device_map = 'auto',     # CPU/GPU 자동 배치
    quantization_config = quant_config  # 4bit 양자화 설정 적용
)

tokenizer = AutoTokenizer.from_pretrained(peft_model_id)  # 같은 repo에서 토크나이저 로드
pipe = pipeline('text-generation', model=finetuned_model, tokenizer=tokenizer)  # 텍스트 생성 파이프라인
pipe

Loading weights:   0%|          | 0/291 [00:00<?, ?it/s]

TextGenerationPipeline: {'model': 'PeftModelForCausalLM', 'dtype': 'bfloat16', 'device': 'cuda', 'input_modalities': 'text', 'output_modalities': ('text',)}

In [27]:
eos_token = tokenizer('<|eot_id|>', add_special_tokens=False)['input_ids'][0]  # <|eot_id|>의 토큰ID 추출
eos_token

128009

In [28]:
# 프롬프트를 입력받으면 assistant 생성 결과만 반환하는 함수
def test_inference(pipe, prompt):
    outputs = pipe(prompt, max_new_tokens=1024, eos_token_id=eos_token, do_sample=False)  # 응답을 생성
    assistant_start = len(prompt)  # 생성 결과에서 프롬프트 길이만큼은 입력 구간
    return outputs[0]['generated_text'][assistant_start:].strip()  # 프롬프트 이후(생성된 부분)만 잘라서 반환

for prompt, label in zip(prompt_list[10:13], label_list[10:13]):  # 10~12 샘플 비교
    print(f'[prompt]\n{prompt}')
    print(f'[label]\n{label}')
    print(f'[response]\n{test_inference(pipe, prompt)}')  # 모델 생성 응답 출력
    print('=' * 100)

The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Passing `generation_config` together with generation-related arguments=({'eos_token_id', 'do_sample', 'max_new_tokens'}) is deprecated and will be removed in future versions. Please pass either a `generation_config` object OR all generation parameters explicitly, but not both.
Both `max_new_tokens` (=1024) and `max_length`(=20) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


[prompt]
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/경제 뉴스의 핵심내용을 요약해 설명하고, 
특정 상장 종목에 미치는 긍정/부정 영향여부, 이유, 근거를 분석하는 금융/경제 분석 전문가입니다.

다음 출력지시사항을 지켜주세요.
1. 뉴스와 종목간의 연관성을 발견할 수 없다면:
    - stock_related를 False로 작성하세요.
    - summary에 뉴스의 요약을 작성하세요.
2. 뉴스와 종목간의 연관성을 발견했다면:
    - stock_related를 True로 작성하세요.
    - summary에 뉴스의 요약을 작성하세요.
    - 긍정영향이 예상되는 종목이 있다면, positive_stocks, positive_keywords, positive_reasons를 작성하세요.
    - 부정영향이 예상되는 종목이 있다면, negative_stocks, negative_keywords, negative_reasons를 작성하세요.
    - 값이 없는 경우 빈 문자열(''), 빈 리스트([])로 작성하세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

글로벌 비즈 가트너 올해 전세계 스마트폰 판매량 7% 감소 전망
경제와이드 모닝벨 글로벌 비즈 임선우 외신캐스터 글로벌 비즈입니다. ◇ 올해 스마트폰 판매 감소 올해 전세계 스마트폰 판매량이 크게 줄어들 것이란 전망이 나왔습니다. 시장조사업체 가트너는 글로벌 스마트폰 판매가 7% 하락할 것으로 내다봤는데요. 경제 전반에 걸친 침체 우려와 중국의 봉쇄조치 여파 그리고 인플레이션으로 소비자들이 지갑을 열기 주저하면서 수요가 줄어들 것 이라고 설명했습니다. 그러면서 올해 전체 출하량은 14억6천만대 수준에 그칠 것으로 예측했는데요. 종전 전망치인 16억대에서 대폭 낮춰 잡았습니다. 특히 세계 최대 스마트폰 시장인 중국에서 판매량은 18%가 감소할 것으로 전망했는데요.

Both `max_new_tokens` (=1024) and `max_length`(=20) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


[response]
{"stock_related":true,"summary":"가트너가 올해 전세계 스마트폰 판매량이 7% 감소할 것으로 전망했습니다. 이는 경제 침체, 중국의 봉쇄조치, 인플레이션 등으로 소비자 수요가 줄어들고 있기 때문입니다. 특히 중국 시장에서 판매량이 18% 감소할 것으로 예상되며, 애플과 같은 스마트폰 제조사뿐만 아니라 반도체 업체(TSMC 등에도 영향을 미칠 것으로 보입니다. 또한, EU가 가상자산을 이용한 돈세탁을 막기 위해 관련 기업에 신원 확인 정보 제공을 의무화하는 등 규제를 강화하고 있습니다. 스피릿 항공의 인수 경쟁도 계속되고 있으며, 텐센트와 바이트댄스 등 중국 빅테크 기업들은 중국 경제 침체와 규제 위험에 더해 비용 절감을 위해 대규모 감원을 실시할 계획입니다.","positive_stocks":[],"positive_keywords":[],"positive_reasons":"","negative_stocks":["애플","삼성전자","LG전자","SK하이닉스","TSMC"],"negative_keywords":["스마트폰 판매 감소","중국 시장 감소","비용 절감","감원","반도체 수요 감소"],"negative_reasons":"가트너의 전망에 따르면 전세계 스마트폰 판매량이 크게 감소할 것으로 예상되며, 특히 중국 시장의 감소가 큰 비중을 차지합니다. 이는 애플, 삼성전자, LG전자 등 스마트폰 제조사뿐만 아니라 반도체 공급업체(TSMC 등에도 직접적인 부정적 영향을 미칩니다. 중국 시장의 감소와 글로벌 수요 감소로 인해 반도체 수요도 줄어들 수 있어 반도체 업체의 실적에 부정적 영향을 줄 수 있습니다."}
[prompt]
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/경제 뉴스의 핵심내용을 요약해 설명하고, 
특정 상장 종목에 미치는 긍정/부정 영향여부, 이유, 근거를 분석하는 금융/경제 분석 전문가입니다.

다음 출력지시사항을 지켜주

Both `max_new_tokens` (=1024) and `max_length`(=20) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


[response]
{"stock_related":true,"summary":"야놀자와 포커스미디어가 동네가게 오래함께 캠페인을 진행한다. 이 캠페인은 지역 우수 소상공인을 발굴하고, 맞춤형 광고를 통해 해당 지역 내 홍보를 지원한다. 14억 원 규모의 광고 비용은 양사가 전액 부담하며, 엘리베이터 TV 등 자체 인프라를 통해 전국적으로 광고를 송출한다. 캠페인은 지역경제 활성화와 소상공인 매출 증대에 기여할 것으로 기대된다.","positive_stocks":["야놀자"],"positive_keywords":["지역경제 활성화","소상공인 지원","광고 캠페인","매출 증대 기대"],"positive_reasons":"야놀자는 지역 우수 소상공인 발굴 및 홍보를 통해 지역경제 활성화에 직접적으로 기여할 수 있으며, 브랜드 인지도 제고와 신규 고객 유치에 긍정적 영향을 줄 수 있다. 또한, 소상공인 매출 증대에 기여함으로써 장기적으로 야놀자의 플랫폼 이용자 확대와 수익성 개선에 도움이 될 수 있다.","negative_stocks":[],"negative_keywords":[],"negative_reasons":""}
[prompt]
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/경제 뉴스의 핵심내용을 요약해 설명하고, 
특정 상장 종목에 미치는 긍정/부정 영향여부, 이유, 근거를 분석하는 금융/경제 분석 전문가입니다.

다음 출력지시사항을 지켜주세요.
1. 뉴스와 종목간의 연관성을 발견할 수 없다면:
    - stock_related를 False로 작성하세요.
    - summary에 뉴스의 요약을 작성하세요.
2. 뉴스와 종목간의 연관성을 발견했다면:
    - stock_related를 True로 작성하세요.
    - summary에 뉴스의 요약을 작성하세요.
    - 긍정영향이 예상되는 종목이 있다면, positive_stocks, positive_keywords, pos

### 추론모델 - 사전병합

In [29]:
from peft import AutoPeftModelForCausalLM  # PEFT(LoRA) 모델 로더
from transformers import AutoTokenizer, pipeline  # 토크나이저 로더

merged_model_id = 'capybaraOh/Llama-VARCO-8b-news2stock-analyzer-4bit-merged'  # 병합 모델 REPO

tokenizer = AutoTokenizer.from_pretrained(peft_model_id)  # PEFT 모델 토크나이저 로드

# LoRA 어댑터 포함한 4bit 양자화 모델 로드
finetuned_model = AutoPeftModelForCausalLM.from_pretrained(
    peft_model_id,
    dtype = torch.bfloat16,
    device_map = 'auto',
    quantization_config = quant_config
)

merged_model = finetuned_model.merge_and_unload()  # LoRA 가중치를 베이스 모델에 병합 후 어댑터는 언로드

merged_model.push_to_hub(merged_model_id, token=True)  # 병합된 모델 업로드
tokenizer.push_to_hub(merged_model_id, token=True)     # 토크나이저 동일 REPO에 업로드

Loading weights:   0%|          | 0/291 [00:00<?, ?it/s]



Writing model shards:   0%|          | 0/1 [00:00<?, ?it/s]

Processing Files (0 / 0): |          |  0.00B /  0.00B            

New Data Upload: |          |  0.00B /  0.00B            

No files have been modified since last commit. Skipping to prevent empty commit.


Processing Files (0 / 0): |          |  0.00B /  0.00B            

New Data Upload: |          |  0.00B /  0.00B            

No files have been modified since last commit. Skipping to prevent empty commit.


CommitInfo(commit_url='https://huggingface.co/capybaraOh/Llama-VARCO-8b-news2stock-analyzer-4bit-merged/commit/3c9be91b5691b87c8e1057a68a17055e5099e420', commit_message='Upload tokenizer', commit_description='', oid='3c9be91b5691b87c8e1057a68a17055e5099e420', pr_url=None, repo_url=RepoUrl('https://huggingface.co/capybaraOh/Llama-VARCO-8b-news2stock-analyzer-4bit-merged', endpoint='https://huggingface.co', repo_type='model', repo_id='capybaraOh/Llama-VARCO-8b-news2stock-analyzer-4bit-merged'), pr_revision=None, pr_num=None)

In [30]:
# 메모리 해제
del finetuned_model, merged_model  # 사용 완료된 모델/ 병합모델 참조 제거

import gc     # 가비지 컬렉션 모듈
gc.collect()  # 참조가 끊긴 객체 메모리 정리

torch.cuda.empty_cache()  # Pytorch CUDA 캐시메모리 비우기

---

In [31]:
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline  # 토크나이저 / 파이프라인 생성
import torch

model_id = 'capybaraOh/Llama-VARCO-8b-news2stock-analyzer-4bit-merged'

finetuned_model = AutoModelForCausalLM.from_pretrained(  # 병합된 단일 모델 로드
    model_id,
    dtype = torch.bfloat16,  # bf16 로드
    device_map = 'auto'      # CPU/GPU 자동 배치
)

tokenizer = AutoTokenizer.from_pretrained(model_id)  # 같은 repo에서 토크나이저 로드
pipe = pipeline('text-generation', model=finetuned_model, tokenizer=tokenizer)  # 텍스트 생성 파이프라인
pipe

Loading weights:   0%|          | 0/291 [00:00<?, ?it/s]

TextGenerationPipeline: {'model': 'LlamaForCausalLM', 'dtype': 'bfloat16', 'device': 'cuda', 'input_modalities': 'text', 'output_modalities': ('text',)}

In [32]:
for prompt, label in zip(prompt_list[10:13], label_list[10:13]):  # 10~12 샘플 비교
    print(f'[prompt]\n{prompt}')
    print(f'[label]\n{label}')
    print(f'[response]\n{test_inference(pipe, prompt)}')  # 모델 생성 응답 출력
    print('=' * 100)

Both `max_new_tokens` (=1024) and `max_length`(=20) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


[prompt]
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/경제 뉴스의 핵심내용을 요약해 설명하고, 
특정 상장 종목에 미치는 긍정/부정 영향여부, 이유, 근거를 분석하는 금융/경제 분석 전문가입니다.

다음 출력지시사항을 지켜주세요.
1. 뉴스와 종목간의 연관성을 발견할 수 없다면:
    - stock_related를 False로 작성하세요.
    - summary에 뉴스의 요약을 작성하세요.
2. 뉴스와 종목간의 연관성을 발견했다면:
    - stock_related를 True로 작성하세요.
    - summary에 뉴스의 요약을 작성하세요.
    - 긍정영향이 예상되는 종목이 있다면, positive_stocks, positive_keywords, positive_reasons를 작성하세요.
    - 부정영향이 예상되는 종목이 있다면, negative_stocks, negative_keywords, negative_reasons를 작성하세요.
    - 값이 없는 경우 빈 문자열(''), 빈 리스트([])로 작성하세요.<|eot_id|><|start_header_id|>user<|end_header_id|>

글로벌 비즈 가트너 올해 전세계 스마트폰 판매량 7% 감소 전망
경제와이드 모닝벨 글로벌 비즈 임선우 외신캐스터 글로벌 비즈입니다. ◇ 올해 스마트폰 판매 감소 올해 전세계 스마트폰 판매량이 크게 줄어들 것이란 전망이 나왔습니다. 시장조사업체 가트너는 글로벌 스마트폰 판매가 7% 하락할 것으로 내다봤는데요. 경제 전반에 걸친 침체 우려와 중국의 봉쇄조치 여파 그리고 인플레이션으로 소비자들이 지갑을 열기 주저하면서 수요가 줄어들 것 이라고 설명했습니다. 그러면서 올해 전체 출하량은 14억6천만대 수준에 그칠 것으로 예측했는데요. 종전 전망치인 16억대에서 대폭 낮춰 잡았습니다. 특히 세계 최대 스마트폰 시장인 중국에서 판매량은 18%가 감소할 것으로 전망했는데요.

Both `max_new_tokens` (=1024) and `max_length`(=20) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


[response]
stock_related: True
summary: 가트너는 올해 전세계 스마트폰 판매량이 7% 감소할 것으로 전망했습니다. 이는 경제 전반의 침체, 중국의 봉쇄조치, 인플레이션 등으로 소비자들이 스마트폰 구매를 주저하기 때문이라고 설명했습니다. 특히 중국 시장에서 판매량 감소가 크게 예상되며, 이는 애플과 같은 스마트폰 제조사뿐만 아니라 반도체 업체에도 부정적인 영향을 미칠 것으로 보입니다.

positive_stocks:
positive_keywords:
positive_reasons:
- 현재 글로벌 경제 침체로 인해 스마트폰 수요가 감소할 것으로 예상되는 상황에서 반도체 공급업체인 TSMC 등은 상대적으로 안정적인 성과를 보일 수 있습니다. 
- TSMC는 스마트폰 제조사에 대한 주요 공급업체로서, 스마트폰 생산량 감소에도 불구하고 수요가 상대적으로 안정적일 수 있습니다.

negative_stocks:
negative_keywords:
negative_reasons:
- 스마트폰 판매량 감소로 인해 애플과 같은 스마트폰 제조사의 주가에 부정적인 영향을 미칠 것으로 예상됩니다.
- 스마트폰 수요 감소는 반도체 시장 전체에 영향을 미칠 수 있으며, TSMC를 포함한 반도체 제조사들에게도 부정적인 영향을 줄 수 있습니다.
- 특히 중국 시장의 스마트폰 판매량 감소는 중국 내 반도체 업체에도 부정적인 영향을 미칠 수 있습니다. 

이 외에도, 가상자산 규제와 관련된 뉴스도 주목할 만합니다. 가상자산 거래소들이 개인정보 제공 의무를 부담하게 되면 비용 증가로 운영 효율성이 저하될 수 있습니다. 이는 가상자산 시장 전반에 부정적인 영향을 미칠 수 있습니다. 하지만 이에 대한 직접적인 종목 연관성은 명확히 제시하기 어렵습니다.
[prompt]
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/경제 뉴스의 핵심내용을 요약해 설명하고, 
특정 상장 종목에 미치는 긍정/부정 영향

Both `max_new_tokens` (=1024) and `max_length`(=20) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


[response]
stock_related: False
summary: 야놀자와 포커스미디어가 '동네가게 오래함께' 캠페인을 진행한다고 밝혔다. 이 캠페인은 지역 내 우수 소상공인을 발굴하고, 이들을 위한 맞춤형 광고를 제작해 해당 지역 내 홍보를 지원한다. 양사는 총 14억 원 규모의 광고 제작 및 송출 비용을 전액 부담하며, 야놀자는 제휴점의 사연을 공모하고 빅데이터 분석을 통해 지원 대상을 선정한다. 포커스미디어는 전국 아파트 엘리베이터 TV 등 자체 인프라를 통해 광고를 송출한다. 캠페인은 서울시 노원구 동작구를 시작으로 2개월간 방영되며, 연말까지 대상 범위를 확대할 예정이다.

이 캠페인은 야놀자와 포커스미디어의 협업을 통한 지역사회와 상생, 그리고 지역경제 활성화에 초점을 맞추고 있으나, 직접적으로 특정 상장 종목에 미치는 영향은 명확히 보이지 않는다. 따라서 이 정보만으로는 주식 시장에 미치는 긍정/부정 영향을 분석하기 어렵다. 캠페인의 성공 여부와 실제로 소상공인들의 매출 증가 등에 따라 장기적으로 경제에 미치는 영향이 달라질 수 있으나, 현재로서는 주식 시장과의 직접적인 연관성을 찾기 어렵다.
[prompt]
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 금융/경제 뉴스의 핵심내용을 요약해 설명하고, 
특정 상장 종목에 미치는 긍정/부정 영향여부, 이유, 근거를 분석하는 금융/경제 분석 전문가입니다.

다음 출력지시사항을 지켜주세요.
1. 뉴스와 종목간의 연관성을 발견할 수 없다면:
    - stock_related를 False로 작성하세요.
    - summary에 뉴스의 요약을 작성하세요.
2. 뉴스와 종목간의 연관성을 발견했다면:
    - stock_related를 True로 작성하세요.
    - summary에 뉴스의 요약을 작성하세요.
    - 긍정영향이 예상되는 종목이 있다면, positive_stocks, positive_keywords, positi

## 추론

In [33]:
# 뉴스 본문을 넣으면 모델의 분석 응답 텍스트를 반환하는 함수
def inference(news):
    messages = [
        {'role': 'system', 'content': '''
당신은 금융/경제 뉴스의 핵심내용을 요약해 설명하고,
특정 상장 종목에 미치는 긍정/부정 영향여부, 이유, 근거를 분석하는 금융/경제 분석 전문가입니다.

다음 출력지시사항을 지켜주세요.
1. 뉴스와 종목간의 연관성을 발견할 수 없다면:
    - stock_related를 False로 작성하세요.
    - summary에 뉴스의 요약을 작성하세요.
2. 뉴스와 종목간의 연관성을 발견했다면:
    - stock_related를 True로 작성하세요.
    - summary에 뉴스의 요약을 작성하세요.
    - 긍정영향이 예상되는 종목이 있다면, positive_stocks, positive_keywords, positive_reasons를 작성하세요.
    - 부정영향이 예상되는 종목이 있다면, negative_stocks, negative_keywords, negative_reasons를 작성하세요.
    - 값이 없는 경우 빈 문자열(''), 빈 리스트([])로 작성하세요.
'''},  # 시스템 지시문
        {'role': 'user', 'content': news}  # 사용자 입력(뉴스)        
    ]
    prompt = tokenizer.apply_chat_template(messages, tokenize=False)  # messages를 채팅 프롬프트 문자열로 변환
    # 파이프라인으로 텍스트 생성 수행
    outputs = pipe(
        prompt,  # 변환된 프롬프트
        max_new_tokens = 1024,    # 생성 최대 토큰 수
        eos_token_id = eos_token, # 종료 토큰 ID
        do_sample = False         # False: Greedy, True: 샘플링 적용
    )
    assistant_start = len(prompt)  # 프롬프트 길이 계산
    return outputs[0]['generated_text'][assistant_start:].strip()  # 프롬프트 이후(생성된 부분)만 잘라서 반환

In [34]:
# 뉴스 1건을 inference 함수로 분석
news = '''
강훈식 청와대 비서실장이 이끄는 캐나다 방산 특사단 출장 기간 현지에서 한·캐나다 자동차 포럼이 열린다. 한국과 캐나다의 자동차 산업 협력에 대한 논의가 이뤄질 전망이다. 이자리에는 정의선 현대자동차그룹 회장 등 주요 경영진도 참석할 것으로 알려졌다.

26일 자동차 업계 및 정부 관계자에 따르면 정 회장과 장재훈 부회장은 이번주 캐나다에서 열리는 ‘한국·캐나다 자동차 산업 협력 포럼’에 참석한다. 이 행사에는 김정관 산업통상자원부 장관과 멜라니 졸리 캐나다 산업부 장관 등 주요 인사가 모여 자동차 산업 협력 방안에 대해 논의할 예정이다. 정 회장이 현지 일정상 참석이 어려울 경우 장재훈 현대차 부회장만 참석할 가능성도 남아있다.

정 회장은 현지에서 구체적인 캐나다 투자 방안을 공개할 예정이다. 현대차는 캐나다 자원 등 장점을 활용해 수소 분야를 포함한 다양한 협력 방안을 검토 중인 것으로 알려졌다. 캐나다 정부가 요구해 온 ‘전기차 전용 공장 건설’은 투자 명단에서 제외하기로 가닥이 잡혔다. 북미 시장 공략을 위해 지난해 초 미국 조지아주에 완공한 메타플랜트아메리카(HMGMA)와의 중복 투자를 피하기 위해서다.

정 회장은 60조원 규모의 캐나다 초계 잠수함 사업(CPSP) 수주를 지원하기 위해 캐나다 출장길에 올랐다. 정 회장이 전면에 나선 배경에는 ‘절충교역’이 있다. 절충교역은 대규모 방산 계약을 발주하는 국가가 수주국에 현지 투자나 기술이전, 공급망 구축 등을 요구하는 방식이다. 캐나다 정부는 3000t급 디젤 잠수함 12척을 도입하는 대가로 현대차의 현지 투자를 강력히 희망해 왔다. 캐나다는 한국과 경쟁 상대인 독일 측에도 폭스바겐의 현지 생산 확대를 입찰 조건으로 제시한 것으로 전해졌다. 현대차는 캐나다에 생산 시설이 없는 반면 독일 폭스바겐은 배터리 셀 공장을 건설 중이다.

이번 수주전의 성패는 향후 30년간의 유지·보수·정비(MRO) 시장 주도권과 직결된다. 이 사업은 디젤 잠수함 최대 12척을 건조하는 프로젝트다. 건조비용(약 20조원)에 도입 후 30년간 유지·보수·운영(MRO) 비용까지 포함하면 최대 60조원까지 규모가 커질 전망이다.
'''
inference(news)  # news 문자열을 입력으로 넣어 모델 분석 결과(assistant 응답)를 생성

Both `max_new_tokens` (=1024) and `max_length`(=20) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


'stock_related: True\n\nsummary:\n현대자동차 그룹 정의선 회장이 캐나다에서 열리는 \'한국·캐나다 자동차 산업 협력 포럼\'에 참석할 예정이다. 이 행사에서는 한국과 캐나다의 자동차 산업 협력 방안을 논의할 예정이며, 정 회장은 현지에서 구체적인 캐나다 투자 방안을 공개할 계획이다. 특히, 현대차는 캐나다 자원을 활용한 수소 분야 협력 등 다양한 협력 방안을 검토 중이다. 하지만 캐나다 정부가 요구한 전기차 전용 공장 건설은 투자 명단에서 제외되었다. 정 회장이 캐나다 초계 잠수함 사업(CPSP) 수주를 지원하기 위해 캐나다 출장길에 올랐으며, 이는 현지 투자와 기술이전 등을 요구하는 절충교역의 일환이다. \n\npositive_stocks:\n[\n  "현대자동차"\n]\n\npositive_keywords:\n[\n  "자동차 산업 협력",\n  "캐나다 투자",\n  "수소 분야 협력",\n  "초계 잠수함 사업 수주"\n]\n\npositive_reasons:\n"현대자동차는 캐나다와의 자동차 산업 협력을 통해 현지 투자를 확대할 수 있을 것으로 보인다. 캐나다 초계 잠수함 사업 수주 성공 시, 60조원 규모의 MRO 시장 주도권 확보 가능성이 높다. 또한 수소 분야 협력 등 다양한 사업 기회도 열릴 전망이다."\n\nnegative_stocks:\n[\n  \n]\n\nnegative_keywords:\n[\n  \n]\n\nnegative_reasons:\n"이번 뉴스에서는 부정적인 영향을 미칠 수 있는 특정 종목에 대한 언급이 없다."'

In [35]:
# 뉴스 1건을 inference 함수로 분석
news = '''
달러당 원화값이 26일 전 거래일 대비 20원 가까이 급등하며 1440원대를 이어가고 있다.

이날 서울외환시장에서 원화값은 전 거래일보다 19.7원 오른 1446.1원에 출발해 오전 10시25분 현재 1446.2원에 거래되고 있다.

미국과 일본 외환당국의 시장 개입 가능성이 거론되면서 엔화가 급등한 점이 원화 강세로 이어졌다는 분석이 나온다. 일본은행은 최근 외환시장 개입에 앞서 주요 은행을 상대로 거래 상황을 점검하는 ‘레이트 체크’를 실시한 것으로 전해졌다. 미국 뉴욕 연방준비은행도 미 재무부 지시에 따라 레이트 체크에 나섰다는 보도가 나왔다.

다카이치 사나에 일본 총리는 “투기적이고 비정상적인 움직임에 필요한 모든 조처를 할 것”이라고 밝힌 바 있다. 이에 따라 지난주 달러당 160엔에 육박했던 달러당 엔화값은 155엔대 초반까지 상승했다. 현재 엔화값은 전 거래일 대비 0.50% 오른 155.04엔이다.

한편 이날 열리는 국민연금 기금운용위원회에서 환헤지 전략 등이 논의될 예정이어서 원화값에 어떤 영향을 미칠지도 주목된다.
'''
inference(news)  # news 문자열을 입력으로 넣어 모델 분석 결과(assistant 응답)를 생성

Both `max_new_tokens` (=1024) and `max_length`(=20) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


"stock_related: True\nsummary: 달러 대비 원화가 20원 가까이 급등하며 1440원대를 기록하고 있습니다. 이는 미국과 일본 외환당국의 시장 개입 가능성에 따른 엔화 급등이 원화 강세로 이어진 결과로 보입니다. 일본은행이 '레이트 체크'를 실시한 것과 미국 뉴욕 연방준비은행도 같은 조치를 취했다는 소식이 전해졌습니다. 일본 총리 다카이치 사나에 의하면, 일본은 투기적이고 비정상적인 움직임에 대응할 모든 조치를 취할 것이라고 밝혔습니다. 이에 따라 달러당 엔화값은 155엔대로 상승했습니다. 또한 오늘 열리는 국민연금 기금운용위원회에서 환헤지 전략 등이 논의될 예정이라는 점도 주목되고 있습니다.\n\npositive_stocks:\n- KRW (한국원)\n- JPY (일본엔)\n\npositive_keywords:\n- 달러 대비 원화 급등\n- 일본은행의 레이트 체크\n- 미국 연방준비은행의 레이트 체크\n- 일본 총리 발언\n\npositive_reasons:\n- 일본은행과 미국 연방준비은행의 레이트 체크로 인해 엔화가 급등하였고, 이는 원화 강세로 이어졌습니다.\n- 일본 총리의 강력한 발언으로 인해 투기적 움직임에 대응할 조치가 취해질 가능성이 높아졌습니다.\n\nnegative_stocks:\n- USD (미국달러)\n\nnegative_keywords:\n- 외환 시장 개입 불확실성\n- 환율 변동성 증가\n\nnegative_reasons:\n- 미국과 일본 외환당국의 시장 개입 가능성에 대한 명확한 전망이 없기 때문에, 달러에 대한 압력이 계속될 수 있습니다.\n- 외환 시장의 불확실성으로 인해 환율 변동성이 높아질 수 있습니다."

### Base모델과 비교

In [36]:
# LoRA 파인튜닝 전(Base) vs 파인튜닝 후(LoRA) 모델 답변 비교
from transformers import AutoModelForCausalLM, pipeline  # 모델 로드/파이프라인 생성

base_model_id = "NCSOFT/Llama-VARCO-8B-Instruct"  # 베이스(파인튜닝 전) 모델 ID
base_model = AutoModelForCausalLM.from_pretrained(  # 베이스 모델 로드
    base_model_id,  # 모델 ID
    dtype=torch.bfloat16,  # BF16 로드
    device_map="auto",  # CPU/GPU 자동 배치
)
base_pipe = pipeline("text-generation", model=base_model, tokenizer=tokenizer)  # 베이스 모델 파이프라인 생성

for idx, (prompt, label) in enumerate(zip(prompt_list[10:13], label_list[10:13])):  # 샘플 3개만 비교
    print(f"[샘플 {idx + 1}]")  # 샘플 번호 출력
    base_resp = test_inference(base_pipe, prompt)  # 베이스 모델 응답 생성
    lora_resp = test_inference(pipe, prompt)  # LoRA 모델 응답 생성
    print(f"  [Base - 파인튜닝 전]\n{base_resp}")  # 베이스 모델 응답 출력
    print(f"  [LoRA - 파인튜닝 후]\n{lora_resp}")  # LoRA 모델 응답 출력
    print(f"  [Label]\n{label}")  # 정답(레이블) 출력
    print("-" * 50)  # 구분선 출력

Loading weights:   0%|          | 0/291 [00:00<?, ?it/s]

Some parameters are on the meta device because they were offloaded to the cpu.
Both `max_new_tokens` (=1024) and `max_length`(=20) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


[샘플 1]


OutOfMemoryError: CUDA out of memory. Tried to allocate 1002.00 MiB. GPU 0 has a total capacity of 31.36 GiB of which 996.88 MiB is free. Including non-PyTorch memory, this process has 30.38 GiB memory in use. Of the allocated memory 28.77 GiB is allocated by PyTorch, and 1.03 GiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)