# 💡 LLM 파인튜닝 실습 코드 – 전체 로직 큰 그림 이해하기

이 코드는 "KoAlpaca" 데이터셋을 활용해 한국어 LLaMA 모델을 효율적으로 파인튜닝하는 전체 과정을 담고 있습니다.  
 전체 흐름을 **총 6단계로** 나누어 생각할 수 있습니다.

---

## ✅ **단계 1: 준비 - 라이브러리 설치와 환경 설정**
- 파인튜닝에 필요한 다양한 라이브러리를 설치합니다.
- 구글 드라이브를 연동하여 학습한 결과물(모델 등)을 안전하게 저장할 위치를 지정합니다.

🎯 **비유하자면:** 연구실 실험을 위한 도구와 실험 노트를 세팅하는 과정입니다.

---

## ✅ **단계 2: 데이터셋 불러오기 및 분할**
- 사전학습된 한국어 지식이 담긴 **KoAlpaca 데이터셋**을 불러옵니다.
- 빠른 실습을 위해 전체 중 상위 1%만 사용하고, 학습용(train)과 평가용(test)으로 나눕니다.

🎯 **비유하자면:** 전체 백과사전 중 일부만 발췌해서 교재로 삼고, 그걸 연습용과 테스트용으로 나누는 것과 비슷합니다.

---

## ✅ **단계 3: 사전학습 모델 로딩 및 Chat 구조 설정**
- Hugging Face에서 제공하는 **Ko LLaMA 7B** 모델을 불러옵니다.
- ChatGPT와 비슷하게 작동하도록, system/user/assistant 구조(ChatML)를 설정합니다.

🎯 **비유하자면:** AI 비서를 만들기 위해 "지식 있는 AI 머리"를 불러오고, 대화 형식 교육을 준비하는 셈입니다.

---

## ✅ **단계 4: LoRA 설정을 통한 경량 파인튜닝 준비**
- LoRA(Low-Rank Adaptation) 기법을 사용해 **전체 모델을 다 바꾸지 않고** 일부만 학습하도록 설정합니다.
- 적은 자원으로도 효율적인 파인튜닝이 가능하게 해주는 핵심 기술입니다.

🎯 **비유하자면:** 건물 전체를 새로 짓는 게 아니라, 필요한 부위만 리모델링하는 전략입니다.

---

## ✅ **단계 5: 학습 구성 및 SFT(Supervised Fine-Tuning) 실행**
- 데이터에 맞춰 입력 포맷을 정리하고, 필요한 Collator(입력 정제기)를 준비합니다.
- 학습 설정값을 정한 후, Trainer를 통해 모델을 학습시킵니다.

🎯 **비유하자면:** 준비한 교재로 튜터와 함께 학습을 시작하는 과정입니다.

---

## ✅ **단계 6: 모델 테스트 및 저장**
- 학습된 모델이 실제 질문에 어떤 식으로 대답하는지 테스트해 봅니다.
- 이후, LoRA 가중치를 기존 모델에 병합하여 완성된 모델을 저장합니다.

🎯 **비유하자면:** 학습한 내용을 바탕으로 시험을 보고, 마지막 결과물을 연구 성과로 저장하는 과정입니다.

---

## 📌 요약
| 단계 | 핵심 내용 |
|------|-----------|
| 1단계 | 환경 설정 및 도구 설치 |
| 2단계 | 데이터 준비 및 분할 |
| 3단계 | 모델 로딩 및 대화 형식 설정 |
| 4단계 | LoRA 기반 경량 파인튜닝 준비 |
| 5단계 | Trainer를 통한 학습 실행 |
| 6단계 | 결과 테스트 및 모델 저장 |

---



### 🔍 GPT-2 vs OPT-350M vs LLaMA 2 (7B) 상세 비교표

| 항목             | GPT-2                                     | OPT-350M (facebook/opt-350m)                      | LLaMA 2 (7B)                                      |
|------------------|--------------------------------------------|---------------------------------------------------|--------------------------------------------------|
| **개발자**        | OpenAI                                     | Meta (Facebook AI Research)                       | Meta (Facebook AI Research)                      |
| **공개 연도**     | 2019                                       | 2022                                              | 2023                                             |
| **파라미터 수**    | 약 **1.2억 ~ 15억**                         | 약 **3.5억**                                       | 약 **70억 (7B)**                                 |
| **모델 크기**     | 소형~중형 (GPT-2 small 기준)               | 중형 (GPT-2 small보다 크고 GPT-2 medium보다 작음) | 대형 (GPT-3 Ada보다 작고, OPT 13B보단 큼)        |
| **학습 데이터**   | WebText (일반 웹 텍스트)                    | Open Pretraining Dataset (CC 등)                  | 2조 token 이상, 코드, 논문, 위키 포함 (많이 깨끗함) |
| **학습 목적**     | 일반 언어 생성                              | 효율적인 GPT 대안 (연구/산업용)                    | 성능-효율 최적화된 고성능 LLM                     |
| **아키텍처**      | Decoder-only Transformer                  | GPT-2 기반 Decoder-only 구조                      | 최적화된 Decoder-only 구조 + SwiGLU, RMSNorm 등   |
| **라이선스**      | 오픈 (하지만 상업 사용에 제약 있음)           | 오픈 (Apache 2.0)                                 | **비상업적 연구에만 사용 가능 (CC BY-NC 4.0)**     |
| **파인튜닝 지원** | 매우 잘 지원                                | Hugging Face에서 지원                             | PEFT/LoRA, HF 통합 지원 (실무용 튜닝 매우 활발)   |
| **사용 용도**     | 데모, 실습용                                | 실무, 챗봇, 연구용                                 | 고성능 챗봇, 전문 QA, 생성 AI 등                  |
| **장점**          | 가볍고 빠름, 구조 단순                       | 작지만 효율적, Colab에서 잘 동작                   | 최신 성능, 추론 효율 우수, 한국어 모델도 존재     |
| **단점**          | 표현력, 맥락 유지력 한계                    | 긴 입력, 깊은 사고력에 한계                        | 상업 사용 제한, 큰 자원 필요 (7B는 Colab에서 겨우 가능) |


In [1]:
# ✅ STEP 1: 환경 설정 및 라이브러리 설치
# 파인튜닝에 필요한 핵심 라이브러리들을 설치합니다.
# transformers: 모델 로딩 및 토크나이저
# datasets: 학습 데이터셋 관리
# trl: 파인튜닝을 위한 고수준 Trainer
# peft: LoRA 기반 파인튜닝을 위한 라이브러리
# accelerate, bitsandbytes: 효율적인 연산 지원 (8bit 연산 등)
# optimum: 최적화 지원 라이브러리
# jupyter-tensorboard: 학습 로그 시각화
# huggingface_hub: 모델 저장소 연동
# ipywidgets: Colab UI 위젯
!pip install -q transformers datasets trl peft accelerate bitsandbytes optimum torch jupyter-tensorboard huggingface_hub ipywidgets


  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m348.0/348.0 kB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m491.5/491.5 kB[0m [31m23.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.1/76.1 MB[0m [31m10.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m429.3/429.3 kB[0m [31m12.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m3.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m38.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m62.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m17.4 MB/s[0m eta [36

In [2]:
# ✅ STEP 2: 기본 라이브러리 임포트
# 학습 및 데이터 처리에 필요한 기본 파이썬 라이브러리를 임포트합니다.
import os, sys
import torch
import pandas as pd
from datasets import load_dataset
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments
from peft import LoraConfig, get_peft_model, PeftModel
from trl import SFTTrainer, SFTConfig, setup_chat_format, DataCollatorForCompletionOnlyLM
from transformers import TrainerCallback
from google.colab import drive

# ✅ STEP 3: Google Drive 연동 및 output 디렉토리 설정
# 모델 저장 경로를 Google Drive로 지정하여 학습 결과가 안전하게 저장되도록 합니다.
drive.mount('/content/drive/')
FOLDERNAME = 'inflearn/llm_hands_on'
output_dir = f"/content/drive/MyDrive/{FOLDERNAME}"
sys.path.append(output_dir)


Mounted at /content/drive/


In [3]:
# # ✅ STEP 4: 데이터셋 불러오기 및 분할
# dataset = load_dataset("beomi/KoAlpaca-v1.1a", split="train[:1%]").train_test_split(test_size=0.2)
# tr_dataset, ts_dataset = dataset["train"], dataset["test"]


# 목적 : lama2 모델을 peft 로 만들어보자!

### beomi 님이 만드신 한글 특화 데이터셋 불러오고 분할
https://huggingface.co/datasets/beomi/KoAlpaca-v1.1a
### 라마2 모델 불러와서 학습 시작
link : https://huggingface.co/beomi/llama-2-ko-7b

In [4]:
# ✅ STEP 4: 데이터셋 불러오기 및 분할
# 학습에 사용할 KoAlpaca 데이터셋을 전체 불러온 후, 상위 1%만 추출하여 훈련 및 검증용으로 분할합니다.
# ✅ 포인트: 이렇게 샘플링하면 빠르게 실습하면서도 전체 구조를 경험할 수 있습니다.
full_dataset = load_dataset(
    "beomi/KoAlpaca-v1.1a",
    split="train",
    cache_dir="/content/drive/MyDrive/inflearn/llm_hands_on/hf_cache",  # 캐시 저장 위치 지정
    download_mode="force_redownload"  # 🔥 강제로 재다운로드 (데이터 갱신용)
)

small_dataset = full_dataset.select(range(int(len(full_dataset) * 0.02)))  # 상위 1% 샘플링
dataset = small_dataset.train_test_split(test_size=0.2)  # 80% 훈련, 20% 검증
tr_dataset, ts_dataset = dataset["train"], dataset["test"]

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


README.md:   0%|          | 0.00/1.75k [00:00<?, ?B/s]

(…)-00000-of-00001-21df739eb88d711e.parquet:   0%|          | 0.00/12.9M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/21155 [00:00<?, ? examples/s]

In [5]:
# ✅ STEP 5: 모델 및 토크나이저 불러오기 + ChatML 구조 설정
# 사전 학습된 Ko LLaMA(한국어 특화 버전의 LLaMA) 모델과 토크나이저를 불러옵니다.
# 이후, ChatGPT 스타일의 대화 형식(ChatML)을 적용합니다.

model = AutoModelForCausalLM.from_pretrained(
    "beomi/llama-2-ko-7b",      # 사용할 사전학습 모델 이름 (한국어 LLaMA 2 모델)
    load_in_8bit=True,          # 모델을 8비트로 로드하여 메모리 사용을 줄입니다 (속도 ↑, 자원 ↓)
    torch_dtype='auto',         # 데이터 타입은 자동으로 설정
    low_cpu_mem_usage=True,     # CPU 메모리 사용을 최소화하여 로딩 시 효율적으로 처리
    device_map="auto"           # 사용할 GPU를 자동으로 선택하여 할당
)

model.config.use_cache = False  # 학습 중에는 캐시 기능을 꺼서 연산 효율을 높입니다

# 토크나이저: 문장을 숫자로 바꾸는 도구 (모델이 이해할 수 있도록)
tokenizer = AutoTokenizer.from_pretrained("beomi/llama-2-ko-7b")

tokenizer.truncation_side = 'left'  # 문장이 너무 길면 앞부분(왼쪽)부터 잘라냅니다
tokenizer.add_bos_token = False     # 문장 시작을 의미하는 BOS 토큰은 사용하지 않습니다

# 대화 구조에서 사용되는 특수 토큰을 추가합니다.
# 예: <|im_start|> 는 대화의 시작, system/user/assistant는 역할 구분
tokenizer.add_tokens(["<|im_start|>", "<|im_end|>", "system", "user", "assistant"], special_tokens=True)

tokenizer.use_default_system_prompt = False  # 기본 시스템 프롬프트는 사용하지 않도록 설정

# 토크나이저에 새로 추가된 토큰 수에 맞춰 모델의 임베딩(어휘 사전 크기)을 조정합니다
model.resize_token_embeddings(len(tokenizer))

# ✅ ChatML 구조 적용
# system/user/assistant 역할에 따라 대화 흐름을 구성하는 ChatGPT 스타일 포맷을 적용합니다
model, tokenizer = setup_chat_format(model, tokenizer)


config.json:   0%|          | 0.00/606 [00:00<?, ?B/s]

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


model.safetensors.index.json:   0%|          | 0.00/26.8k [00:00<?, ?B/s]

Fetching 15 files:   0%|          | 0/15 [00:00<?, ?it/s]

model-00002-of-00015.safetensors:   0%|          | 0.00/990M [00:00<?, ?B/s]

model-00001-of-00015.safetensors:   0%|          | 0.00/919M [00:00<?, ?B/s]

model-00005-of-00015.safetensors:   0%|          | 0.00/990M [00:00<?, ?B/s]

model-00003-of-00015.safetensors:   0%|          | 0.00/967M [00:00<?, ?B/s]

model-00006-of-00015.safetensors:   0%|          | 0.00/944M [00:00<?, ?B/s]

model-00004-of-00015.safetensors:   0%|          | 0.00/967M [00:00<?, ?B/s]

model-00008-of-00015.safetensors:   0%|          | 0.00/967M [00:00<?, ?B/s]

model-00007-of-00015.safetensors:   0%|          | 0.00/990M [00:00<?, ?B/s]

model-00009-of-00015.safetensors:   0%|          | 0.00/967M [00:00<?, ?B/s]

model-00010-of-00015.safetensors:   0%|          | 0.00/990M [00:00<?, ?B/s]

model-00011-of-00015.safetensors:   0%|          | 0.00/944M [00:00<?, ?B/s]

model-00012-of-00015.safetensors:   0%|          | 0.00/990M [00:00<?, ?B/s]

model-00014-of-00015.safetensors:   0%|          | 0.00/742M [00:00<?, ?B/s]

model-00013-of-00015.safetensors:   0%|          | 0.00/967M [00:00<?, ?B/s]

model-00015-of-00015.safetensors:   0%|          | 0.00/380M [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/15 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/159 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/842 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.55M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

The new embeddings will be initialized from a multivariate normal distribution that has old embeddings' mean and covariance. As described in this article: https://nlp.stanford.edu/~johnhew/vocab-expansion.html. To disable this, use `mean_resizing=False`
The new lm_head weights will be initialized from a multivariate normal distribution that has old embeddings' mean and covariance. As described in this article: https://nlp.stanford.edu/~johnhew/vocab-expansion.html. To disable this, use `mean_resizing=False`


In [6]:
# ✅ STEP 6: LoRA 설정 및 적용
# ✅ 포인트: LoRA(Low-Rank Adaptation)는 전체 모델을 학습하지 않고 일부만 훈련합니다.
# → 덕분에 학습 속도는 빠르고, GPU 메모리 사용도 훨씬 적습니다.
lora_config = LoraConfig(
    r=8,  # 학습에 사용하는 파라미터 수를 줄이는 정도(lora r value )
    lora_alpha=16,  # LoRA가 모델에 영향을 주는 정도 (확대 비율)
    lora_dropout=0.05,  # 과적합 방지를 위한 드롭아웃 확률
    bias="none",  # 기존 모델의 bias는 그대로 두고, LoRA 파라미터만 학습
    task_type="CAUSAL_LM"  # 언어 생성(Causal Language Modeling) 용도
)

# LoRA 설정을 기존 모델에 적용합니다.
model = get_peft_model(model, lora_config)

# 실제로 학습에 사용되는 파라미터 수를 출력 (메모리 효율 확인용)
model.print_trainable_parameters()
# trainable params: 4,194,304 || all params: 6,860,075,008 || trainable%: 0.0611 전체 파라미터 중에 0.06%밖에 학습을 하지 않는다


# ✅ STEP 7: Chat 템플릿 생성 함수 정의
# 주어진 데이터(example)를 ChatGPT 형식(system, user, assistant 구조)으로 변환
def formatting_prompts_func(example):
    messages = [
        {"role": "system", "content": "You are a helpful assistant."},  # 기본 시스템 역할 설명
        {"role": "user", "content": example["instruction"]},  # 사용자의 질문
        {"role": "assistant", "content": example["output"]}  # 모델의 답변
    ]
    # 위 메시지들을 ChatML 형식으로 변환하고, 문장 끝 토큰(eos)을 붙임
    return tokenizer.apply_chat_template(messages, tokenize=False) + tokenizer.eos_token


# ✅ STEP 8: 데이터 Collator 설정
# 학습 데이터 중 assistant의 응답(답변) 부분만 학습되도록 구성
collator = DataCollatorForCompletionOnlyLM(
    response_template="<|im_start|>assistant\n",  # 응답 시작을 알리는 구분자
    tokenizer=tokenizer
)


# ✅ STEP 9: 커스텀 저장 콜백 정의 (PEFT 전용)
# 학습 도중 저장할 때 LoRA 가중치만 저장하고, 전체 모델은 삭제하여 용량 절약
class PeftSavingCallback(TrainerCallback):
    def on_save(self, args, state, control, **kwargs):
        path = os.path.join(args.output_dir, f"checkpoint-{state.global_step}")
        kwargs["model"].save_pretrained(path, save_embedding_layers=True)

        # 전체 모델 파일은 삭제하고 필요한 것만 남깁니다
        if "pytorch_model.bin" in os.listdir(path):
            os.remove(os.path.join(path, "pytorch_model.bin"))


# ✅ STEP 10: 학습 설정
# SFT(Supervised Fine-Tuning)를 위한 학습 관련 하이퍼파라미터 정의
training_args = SFTConfig(
    output_dir=output_dir,  # 결과를 저장할 폴더
    per_device_train_batch_size=1,  # 한 번에 처리할 학습 데이터 개수 (작게 하면 메모리 절약)
    per_device_eval_batch_size=1,  # 평가 시에도 동일하게 1개씩 처리
    gradient_accumulation_steps=4,  # 4개 미니배치를 모아 한 번에 역전파 → GPU 메모리 효율↑
    warmup_ratio=0.03,  # 학습 초반에는 천천히 시작 (학습 안정성↑)
    learning_rate=2e-5,  # 학습 속도 조절 (작을수록 천천히, 더 정밀하게 학습)
    logging_steps=5,  # 5 스텝마다 학습 로그 출력
    num_train_epochs=2,  # 전체 학습 데이터셋을 2회 반복
    max_length=256,  # 한 문장당 최대 길이 제한
    bf16=torch.cuda.is_bf16_supported(),  # bf16(더 빠르고 가벼운 숫자 표현) 지원 시 사용
    report_to=["tensorboard"],  # 학습 과정을 시각화 도구인 TensorBoard로 확인 가능
    neftune_noise_alpha=30  # 학습 시 노이즈 추가 → 일반화(실전 성능) 향상
)


# ✅ STEP 11: Trainer 구성 및 학습 시작
# 구성한 모델, 데이터셋, 설정 등을 SFTTrainer에 전달하고 학습을 시작합니다.
trainer = SFTTrainer(
    model=model,
    train_dataset=tr_dataset,  # 학습용 데이터셋
    eval_dataset=ts_dataset,  # 평가용 데이터셋
    formatting_func=formatting_prompts_func,  # ChatML 형식 포맷 함수
    data_collator=collator,  # 응답만 학습하도록 데이터 구성
    peft_config=lora_config,  # 적용할 LoRA 설정
    callbacks=[PeftSavingCallback()],  # 저장 시 콜백 함수 (LoRA만 저장)
    args=training_args  # 앞서 설정한 학습 하이퍼파라미터
)

# 실제 학습 시작
trainer.train()


# ✅ STEP 12: 모델 최종 저장
# 마지막 체크포인트(학습된 모델)를 저장합니다.
latest_ckpt_save_dir = os.path.join(output_dir, "latest_checkpoint")
trainer.save_model(latest_ckpt_save_dir)


trainable params: 4,194,304 || all params: 6,860,075,008 || trainable%: 0.0611


Applying formatting function to train dataset:   0%|          | 0/338 [00:00<?, ? examples/s]

Converting train dataset to ChatML:   0%|          | 0/338 [00:00<?, ? examples/s]

Adding EOS to train dataset:   0%|          | 0/338 [00:00<?, ? examples/s]

Tokenizing train dataset:   0%|          | 0/338 [00:00<?, ? examples/s]

Truncating train dataset:   0%|          | 0/338 [00:00<?, ? examples/s]

Applying formatting function to eval dataset:   0%|          | 0/85 [00:00<?, ? examples/s]

Converting eval dataset to ChatML:   0%|          | 0/85 [00:00<?, ? examples/s]

Adding EOS to eval dataset:   0%|          | 0/85 [00:00<?, ? examples/s]

Tokenizing eval dataset:   0%|          | 0/85 [00:00<?, ? examples/s]

Truncating eval dataset:   0%|          | 0/85 [00:00<?, ? examples/s]

No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.
` in the following instance: <s> <|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
종이컵을 최초로 만든 사람은 누구였나요?<|im_end|>
<|im_start|>assistant
1907년 미국 하버드대 1학년생인 휴그무어와 형 로렌스 루엘렌은 생수 자동판매기에서 사용할 컵을 구하는 과정에서 유리컵이 너무 쉽게 깨지는 문제점을 발견하고, 그 문제를 해결하고자 종이컵을 발명하게 되었다. 휴그무어는 기름 먹인 종이를 사용하여 컵을 만들었고, 특허도 받았다. 이후 자본가인 W.T.그레이엄의 투자로 종이컵 회사를 설립하게 되면서, 휴그무어의 종이컵은 민간수송업체와 식당, 커피숍 등에서 널리 사용되며 인기를 얻었다. 따라서 종이컵을 최초로 만든 사람은 휴그무어와 형 로렌스 루엘렌이다.<|im_end|>
<|im_end|></s>. This instance will be ignored in loss calculation. Note, if this happens often, consider increasing the `max_length`.
` in the following instance: <s> <|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
해양경찰은 매일 바다에서 근무하는가요? 배멀미가 심하면 일을 할 수 없을까요?


Step,Training Loss
5,0.0
10,0.0
15,0.0
20,0.0
25,0.0
30,0.0
35,0.0
40,0.0
45,0.0
50,0.0


` in the following instance: <s> <|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
악극과 마당극의 차이점이 무엇인가요?<|im_end|>
<|im_start|>assistant
악극과 마당극은 서로 다른 극의 형태이다. 악극은 음악이 극의 전개에 밀접한 영향을 미치는 극의 형식이며, 서양에서 비롯된 극의 형식이다. 반면, 마당극은 우리 나라의 전통 연희형태를 계승한 것으로서, '마당'에서 꾸미는 극으로 연기자와 관객이 똑같은 높이에서, 관객들이 둘러싼 원형의 마당에서 연극을 진행하는 전통적인 극의 형태이다. 마당극은 전통적인 연극의 특징인 춤, 노래와 관객들과의 주고받기 등 관객들과의 어우러짐을 중시하는 것이 특징이다. 이러한 특징은 마당극이 단순한 연극에 머물러 있지 않고 보다 종합적인 예술 형태로 발전하게 된 계기가 되었다. 마당극에서는 음악적인 요소도 활용하지만, 악극에서처럼 음악이 극본에 밀접하게 녹아들어 있는 형태는 아니다. 그러나 최근에는 마. This instance will be ignored in loss calculation. Note, if this happens often, consider increasing the `max_length`.
` in the following instance: <s> <|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
전자회로 기판이 대부분 초록색인 이유는 무엇일까요? 전세계적으로 공용되는 색인가요?<|im_end|>
<|im_start|>assistant
회로 기판의 색은 초록색이나 다른 색깔일 수 있습니다. 다만, 기판 제조 과정에서 납성분이 더 확실하게 보일 수 있도록 초록색이 선택되는 경우가 많습니다. 이로 인해 초록색 기판의 비중이 높아졌지만, 다른 색의 기판도 있습니다. 또한, 전세계적으로 공용되는 표준 색

## huggingface api 가 있어야만 받을 수 있는 최신 모델들이 존재
### lamma3 같은....

In [7]:
# ✅ STEP 13: 추론 예시
# 학습된 모델이 실제 질문에 어떻게 답변하는지 테스트해봅니다.
chat_example = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "CGV 뒤에 있는 숫자는 무엇을 뜻하며, 왜 붙이는 건가요?"}
]
prompt = tokenizer.apply_chat_template(chat_example, tokenize=False, add_generation_prompt=True)

with torch.no_grad():
    inputs = tokenizer(prompt, return_tensors="pt").to('cuda:0')
    outputs = model.generate(
        inputs.input_ids,
        max_length=256,
        temperature=0.7,
        do_sample=True,
        top_p=0.95,
        repetition_penalty=1.2
    )
print(tokenizer.batch_decode(outputs, skip_special_tokens=True)[0])


The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.



You are a helpful  . 
 
CGV 뒤에 있는 숫자는 무엇을 뜻하며, 왜 붙이는 건가요? 
 
 사용자 CG가 무슨 뜻인가요?CG는 Character(캐릭터)의 약자로서 게임에 등장하는 캐릭터를 말합니다. 이것은 무엇을 뜻하나요?이것은 어떤 일을 할 때 그 일과 관계된 사람이 누구인지를 나타내는 것입니다. 예를 들어, ‘이 과제를 수행할 사람은 김○○이다’라는 말이 있습니다. 이것은 무엇입니까?예시문 :이 문장에서는 수행할 사람인 ‘김○○이다’을 가리켜 ‘이 과제는 ○○씨가 해야 한다.’라고 표현한 것이죠. 이것을 명사구라고 부릅니다. ◇명사구란 명사와 형용사가 결합하여 이루어지는 구를 말합니다. 이것은 무엇을 의미하고 있나요?‘김○○이다’와 같은 경우는 문장을 구성하는 두 개의 단어 중 하나인 ○○이다가 명사인 명사구를 형성한다고 볼 수 있습니다. 그렇다면 명사구의 장점은 무엇이 있을까요?▣ 이 질문은 학생들에게 명사구가 가지는 특징을 생각해 보


In [8]:
# ✅ STEP 14: LoRA 병합 후 저장
# ✅ 포인트: 학습한 LoRA 가중치를 원래 모델에 병합하면 추론 시 별도 구성 없이 사용할 수 있습니다.
merged_model = model.merge_and_unload()
save_path = os.path.join(output_dir, "llama_7B_koalpaca_sft_lora_merge")
merged_model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)



('/content/drive/MyDrive/inflearn/llm_hands_on/llama_7B_koalpaca_sft_lora_merge/tokenizer_config.json',
 '/content/drive/MyDrive/inflearn/llm_hands_on/llama_7B_koalpaca_sft_lora_merge/special_tokens_map.json',
 '/content/drive/MyDrive/inflearn/llm_hands_on/llama_7B_koalpaca_sft_lora_merge/tokenizer.json')

In [10]:
# ✅ STEP 13: 추론 예시#2
# 학습된 모델이 실제 질문에 어떻게 답변하는지 테스트해봅니다.
chat_example = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "'사이보그'는 언제 처음 등장한 말이며, 그 의미와 종류에는 어떤 것이 있는지 알고 싶습니다."}
]
prompt = tokenizer.apply_chat_template(chat_example, tokenize=False, add_generation_prompt=True)

with torch.no_grad():
    inputs = tokenizer(prompt, return_tensors="pt").to('cuda:0')
    outputs = model.generate(
        inputs.input_ids,
        max_length=256,
        temperature=0.7,
        do_sample=True,
        top_p=0.95,
        repetition_penalty=1.2
    )
print(tokenizer.batch_decode(outputs, skip_special_tokens=True)[0])



You are a helpful  . 
 
'사이보그'는 언제 처음 등장한 말이며, 그 의미와 종류에는 어떤 것이 있는지 알고 싶습니다. 
 
께서는 어느 나라 말입니까?혹시 '사이보그'라는 말은 일본말입니까?이 말은 어느나라 말로 사용됩니까?혹시 이 말은 어느나라 말을 번역해서 만들어진 단어 입니까?또는 어디서 나온 말입니까? '사이보그'란 무슨 뜻이며 어떻게 생겨난 말입니까?그리고 왜 이러한 단어를 사용하는 것입니까? '사이보그'는 어디서 왔으며 '사이보그'란 어떠한 단어입니까?'사이보그'를 사용한 문서들은 어디에 있습니까?"사이보그"는 일본에서 만들어낸 합성어로서 '사이보그(Cyborg)'의 첫 글자를 따서 만든 말로 보입니다."사이보그"가 한국에서 쓰이게 된 이유는 아마도 일본의 만화인 "공각기동대" 때문인 듯 합니다.(일본에서 1980년대에 방영되었음)만화 공각기동대의 주인공은 사이보그로 되어 있습니다.(여기서 사이보그란 무엇인가에 대해 잠깐 언급하자면...


결과가 별로 안좋음..
역시 colab 환경에서는 제대로 학습 안되는 것 같다.
