LLaMA3 파인튜닝 전체 흐름 정리 (큰 그림부터 이해하기)
이 코드는 대형 언어모델(LLaMA3)을 "사용자 맞춤형 AI"로 만들기 위해 간단한 데이터로 빠르게 미세조정(Fine-tuning) 하는 전 과정을 담고 있습니다.
아래는 전체 과정을 단계별로 크게 나눈 설명입니다.



✅ 단계 1: 도구 설치 (환경 세팅하기)
우리가 사용할 모델은 무겁고 복잡하기 때문에, 효율적인 학습을 위해 특수 도구들이 필요합니다.

Unsloth, xformers, peft, trl 등의 라이브러리를 설치하여 환경을 준비합니다.

비유: "자동차 튜닝 전에 공구와 장비를 준비하는 단계"입니다.



✅ 단계 2: 라이브러리 불러오기 (필요한 부품 꺼내기)
앞서 설치한 도구 중 학습, 데이터 로딩, 토크나이징 등 핵심 기능을 담당하는 모듈들을 가져옵니다.

비유: 공구상자에서 필요한 드라이버, 렌치 등을 꺼내오는 작업입니다.



✅ 단계 3: 기본 설정 정의 (설계도 그리기)
모델의 입력 길이, 메모리 절약 방식(4bit), 토큰 인증키 등 전체 작업에 필요한 설정값을 정의합니다.

비유: 건물 짓기 전에 건축 설계도를 그리는 단계입니다.



✅ 단계 4: 사전학습 모델 불러오기 (기초 골조 세우기)
사전학습된 LLaMA3.1 8B 모델을 로딩합니다.

이 모델은 이미 방대한 데이터를 학습한 상태이므로, 여기에 우리가 원하는 방향으로만 살짝 조정하면 됩니다.

비유: 미리 지어진 튼튼한 골조 위에 인테리어를 하는 느낌입니다.



✅ 단계 5: LoRA 방식으로 미세조정 준비 (효율적으로 학습할 준비)
LoRA는 전체 모델을 건드리지 않고, 일부분만 학습하는 매우 가볍고 빠른 방식입니다.

필요한 부분만 조정해서 GPU 메모리도 절약하고 속도도 빠릅니다.

비유: 전체 건물을 다시 짓지 않고, 가구 배치만 살짝 바꾸는 느낌입니다.



✅ 단계 6: 프롬프트 형식 정의 (모델이 잘 이해하도록 포장)
학습할 데이터가 명확한 형식으로 되어 있어야 모델이 잘 이해합니다.

"Instruction + Input + Response" 구조를 정해줍니다.

비유: 아이에게 "질문-정보-답변" 순으로 문제를 내주는 방식입니다.



✅ 단계 7: 데이터셋 로딩 및 전처리 (모델에 맞게 음식 재료 손질하기)
인터넷에 올라온 작은 데이터셋을 불러오고, 앞서 만든 포맷대로 정리합니다.

학습 전에 모델이 이해할 수 있도록 데이터 모양을 다듬는 단계입니다.

비유: 요리 재료를 씻고 썰어 놓는 과정입니다.



✅ 단계 8: 학습 설정 및 Trainer 준비 (요리 레시피 설정)
학습 배치 크기, 반복 횟수, 학습률 등 학습 전략을 정합니다.

그리고 이 설정을 적용해서 학습을 실제로 실행할 Trainer를 구성합니다.

비유: 오븐 온도, 시간, 조리 방법을 정하는 과정입니다.



✅ 단계 9: 학습 실행 및 결과 확인 (AI 튜닝 + 테스트)
설정한 내용을 바탕으로 모델을 실제로 학습시킵니다.

이후 모델에게 질문을 던져서, 학습이 잘 되었는지 출력 결과를 확인합니다.

마지막에는 실시간 생성 결과를 텍스트로 보는 옵션도 보여줍니다.

비유: 음식이 잘 조리되었는지 직접 맛보는 단계입니다.


| 항목          | GPT-2                    | OPT-350M (facebook/opt-350m)            | LLaMA 2 (7B)                             | **LLaMA 3.1 (7B)**                        |
| ----------- | ------------------------ | --------------------------------------- | ---------------------------------------- | ----------------------------------------- |
| **개발자**     | OpenAI                   | Meta (Facebook AI Research)             | Meta (Facebook AI Research)              | **Meta (Facebook AI Research)**           |
| **공개 연도**   | 2019                     | 2022                                    | 2023                                     | **2024**                                  |
| **파라미터 수**  | 약 **1.2억 \~ 15억**        | 약 **3.5억**                              | 약 **70억 (7B)**                           | 약 **70억 (7B)**                            |
| **모델 크기**   | 소형\~중형 (GPT-2 small 기준)  | 중형 (GPT-2 small보다 크고 GPT-2 medium보다 작음) | 대형 (GPT-3 Ada보다 작고, OPT 13B보단 큼)         | 대형 (LLaMA 2 7B와 유사하지만 더 효율적)              |
| **학습 데이터**  | WebText (일반 웹 텍스트)       | Open Pretraining Dataset (CC 등)         | 2조 token 이상, 코드, 논문, 위키 포함 (많이 깨끗함)      | **15조 토큰 이상, 코드 + 문어체 강화**                |
| **학습 목적**   | 일반 언어 생성                 | 효율적인 GPT 대안 (연구/산업용)                    | 성능-효율 최적화된 고성능 LLM                       | **GPT-4-turbo급 성능 추구 + 멀티태스크 범용화**        |
| **아키텍처**    | Decoder-only Transformer | GPT-2 기반 Decoder-only 구조                | 최적화된 Decoder-only 구조 + SwiGLU, RMSNorm 등 | **정교화된 Transformer + 더 깊은 RoPE + MQA 사용** |
| **라이선스**    | 오픈 (하지만 상업 사용에 제약 있음)    | 오픈 (Apache 2.0)                         | **비상업적 연구에만 사용 가능 (CC BY-NC 4.0)**       | **CC BY-NC 4.0 (비상업적 연구만 허용)**            |
| **파인튜닝 지원** | 매우 잘 지원                  | Hugging Face에서 지원                       | PEFT/LoRA, HF 통합 지원 (실무용 튜닝 매우 활발)       | **Unsloth, LoRA, HF에서 바로 사용 가능**          |
| **사용 용도**   | 데모, 실습용                  | 실무, 챗봇, 연구용                             | 고성능 챗봇, 전문 QA, 생성 AI 등                   | **멀티태스크 챗봇, 생성 AI, 문서요약 등 최신 활용**         |
| **장점**      | 가볍고 빠름, 구조 단순            | 작지만 효율적, Colab에서 잘 동작                   | 최신 성능, 추론 효율 우수, 한국어 모델도 존재              | **LLaMA 시리즈 중 가장 강력함, 추론 성능 탁월**          |
| **단점**      | 표현력, 맥락 유지력 한계           | 긴 입력, 깊은 사고력에 한계                        | 상업 사용 제한, 큰 자원 필요 (7B는 Colab에서 겨우 가능)    | **상업 사용 불가, 여전히 높은 GPU 메모리 요구**           |


llama2와 llama3.1 비교

| 비교 항목              | LLaMA 2 (7B)            | 🆕 LLaMA 3.1 (7B)                       | 차이 요약                         |
| ------------------ | ----------------------- | --------------------------------------- | ----------------------------- |
| **파라미터 수**         | 70억 (7B)                | 70억 (7B)                                | ✅ 동일                          |
| **학습 데이터**         | 약 2조 토큰                 | **15조 토큰 이상**                           | 🔥 **학습량이 7배 이상 많음** → 더 똑똑해짐 |
| **데이터 품질**         | 일반적인 웹 + 코드             | **더 정제된 웹, 코드, 문어체, 전문지식 포함**           | 💡 질문·답변 성능 향상                |
| **아키텍처 개선**        | 기본 Transformer + SwiGLU | **더 깊은 RoPE + MQA + 향상된 Normalization** | ⚙️ **맥락 기억력, 응답 품질 개선**       |
| **멀티태스킹 학습**       | 제한적                     | **다양한 유형의 질문에 대응하도록 훈련됨**               | 🧠 하나의 모델로 요약, 번역, 대화 다 잘함    |
| **성능 측정 (MMLU 등)** | GPT-3.5보다 약간 낮음         | **GPT-3.5급 또는 능가**                      | 📈 **지능적 사고 문제에서 더 뛰어남**      |
| **튜닝 최적화**         | 잘 되지만 느릴 수 있음           | **Unsloth 등과 결합해 빠르고 가볍게 튜닝 가능**        | ⚡ Colab에서도 빠른 튜닝 가능           |
| **한국어 대응력**        | 기본적                     | **더 자연스럽고 풍부**                          | 🇰🇷 언어 처리 향상 (비공식 기준)        |


In [None]:
# ✅ STEP 1: 환경 설정 및 패키지 설치
# ➤ Unsloth: LLaMA 모델을 빠르게 미세조정할 수 있도록 최적화된 라이브러리입니다.
# ➤ xformers, trl, peft 등은 고성능 훈련 및 메모리 절약을 위한 필수 패키지입니다.
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps "xformers==0.0.27" trl peft accelerate bitsandbytes

Collecting unsloth@ git+https://github.com/unslothai/unsloth.git (from unsloth[colab-new]@ git+https://github.com/unslothai/unsloth.git)
  Cloning https://github.com/unslothai/unsloth.git to /tmp/pip-install-_z21a30f/unsloth_32bf5a3ae5af41ed92006c9b4d783221
  Running command git clone --filter=blob:none --quiet https://github.com/unslothai/unsloth.git /tmp/pip-install-_z21a30f/unsloth_32bf5a3ae5af41ed92006c9b4d783221
  Resolved https://github.com/unslothai/unsloth.git to commit e5b6f776c376a4cd8e3dbbeedc459cb715c5c1af
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting unsloth_zoo>=2025.5.8 (from unsloth@ git+https://github.com/unslothai/unsloth.git->unsloth[colab-new]@ git+https://github.com/unslothai/unsloth.git)
  Downloading unsloth_zoo-2025.5.8-py3-none-any.whl.metadata (8.0 kB)
Collecting tyro (from unsloth@ git+https://github.com/unslothai/unsloth.git

Collecting xformers==0.0.27
  Downloading xformers-0.0.27-cp311-cp311-manylinux2014_x86_64.whl.metadata (1.0 kB)
Downloading xformers-0.0.27-cp311-cp311-manylinux2014_x86_64.whl (164.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m164.2/164.2 MB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: xformers
Successfully installed xformers-0.0.27


In [None]:
# ✅ STEP 2: 라이브러리 임포트
# ➤ 필요한 모듈들을 불러옵니다. 특히 FastLanguageModel은 Unsloth에서 제공하는 핵심 클래스입니다.
# unsloth : peft를 빠르게 해줌..
from unsloth import FastLanguageModel, is_bfloat16_supported
from transformers import TrainingArguments, TextStreamer
from trl import SFTTrainer
from datasets import load_dataset
import torch

# ✅ STEP 3: 하이퍼파라미터 설정
# ➤ 모델의 최대 입력 길이, 4비트 양자화를 통한 메모리 절약 여부, Hugging Face 토큰 등을 설정합니다.
max_seq_length = 2048  # 포인트: LLaMA3는 긴 문맥 이해를 위해 최대 2048 토큰까지 입력 가능
load_in_4bit = True  # 포인트: 4비트 양자화를 사용하면 GPU 메모리 사용량을 줄일 수 있음
# hf_token = ""  # 주의: 본인의 Hugging Face 토큰으로 교체해야 함


Unsloth: Patching Xformers to fix some performance issues.
🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.


    PyTorch 2.3.1+cu121 with CUDA 1201 (you have 2.6.0+cu124)
    Python  3.11.9 (you have 3.11.12)
  Please reinstall xformers (see https://github.com/facebookresearch/xformers#installing-xformers)
  Memory-efficient attention, SwiGLU, sparse and more won't be available.
  Set XFORMERS_MORE_DETAILS=1 for more details


🦥 Unsloth Zoo will now patch everything to make training faster!


💡 Hugging Face 모델 중 일부는 인증이 필요한 경우가 있습니다. 이때 사용하는 것이 바로 **"Hugging Face 토큰"**입니다. 아래는 토큰 발급 방법입니다:

1. [https://huggingface.co](https://huggingface.co) 접속 후 로그인합니다.
2. 우측 상단 프로필 아이콘 → **Settings** 클릭.
3. 좌측 메뉴에서 **Access Tokens** 선택.
4. **Create new Access token** 버튼 클릭 → 이름 지정, 권한은 기본값(**Read**)으로 두고 생성.
5. 생성된 토큰을 복사하여 코드의 `token = "hf_..."` 부분에 붙여넣습니다.


In [None]:
# ✅ STEP 4: 모델 및 토크나이저 로드 (LLaMA3)
# ➤ Unsloth에서 제공하는 LLaMA3.1-8B 모델을 불러옵니다. 8B는 약 80억 개 파라미터를 가진 중형 모델입니다.
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/Meta-Llama-3.1-8B",
    max_seq_length = max_seq_length,
    load_in_4bit = load_in_4bit,
    token = hf_token,
)

==((====))==  Unsloth 2025.5.7: Fast Llama patching. Transformers: 4.51.3.
   \\   /|    Tesla T4. Num GPUs = 1. Max memory: 14.741 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.6.0+cu124. CUDA: 7.5. CUDA Toolkit: 12.4. Triton: 3.2.0
\        /    Bfloat16 = FALSE. FA [Xformers = None. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


model.safetensors:   0%|          | 0.00/5.96G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/235 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/50.6k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/459 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.2M [00:00<?, ?B/s]

In [None]:
# ✅ STEP 5: LoRA 구성 적용
# ➤ LoRA는 모델의 일부 레이어만 미세조정함으로써 빠르고 효율적인 파인튜닝이 가능합니다.
model = FastLanguageModel.get_peft_model(
    model,
    r = 16,  # 포인트: LoRA 랭크(r)는 학습 파라미터 수 조절에 사용됨
    lora_alpha = 16,
    lora_dropout = 0,  # 드롭아웃을 0으로 설정해 과감하게 학습
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],  # 주요 self-attention 레이어 지정
    use_gradient_checkpointing = "unsloth",  # 메모리 절약을 위한 gradient checkpointing 활성화
    random_state = 42,
)

Unsloth 2025.5.7 patched 32 layers with 32 QKV layers, 32 O layers and 32 MLP layers.


In [None]:
# ✅ STEP 6: Alpaca 스타일 프롬프트 포맷 정의
# ➤ 학습 데이터의 형식을 통일하기 위한 포맷입니다.
alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""

EOS_TOKEN = tokenizer.eos_token  # 포인트: 출력 끝에 종료 토큰을 붙여 모델이 응답을 마무리하도록 유도

# ➤ instruction, input, output 세 가지 컬럼을 활용해 텍스트 포맷을 맞춰주는 함수
def formatting_prompts_func(examples):
    instructions = examples["instruction"]
    inputs = examples["input"]
    outputs = examples["output"]

    return {
        "text": [
            alpaca_prompt.format(inst, inp, out) + EOS_TOKEN
            for inst, inp, out in zip(instructions, inputs, outputs)
        ]
    }


In [None]:
# ✅ STEP 7: 데이터셋 로딩 및 변환
# ➤ Hugging Face에서 사용자 지정 데이터셋을 로드하고 테스트용 일부 샘플로 분리합니다.
dataset = load_dataset("chukypedro/finetune", split="train")
dataset = dataset.train_test_split(test_size=0.2, shuffle=True, seed=42)["test"]  # 테스트용으로 20% 샘플만 사용
dataset = dataset.map(formatting_prompts_func, batched=True)  # 포맷 맞추기 적용


dataset.json:   0%|          | 0.00/42.9k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/100 [00:00<?, ? examples/s]

Map:   0%|          | 0/20 [00:00<?, ? examples/s]

In [None]:
# ✅ STEP 8: 학습 설정 및 Trainer 구성
training_args = TrainingArguments(
    per_device_train_batch_size = 2,  # 🔹 GPU 1개당 한 번에 처리할 데이터(배치) 수입니다.
                                      # 숫자가 작을수록 메모리 사용은 줄지만 학습은 느려질 수 있습니다.

    gradient_accumulation_steps = 4,  # 🔹 작은 배치를 여러 번 누적해서 마치 큰 배치처럼 학습합니다.
                                      # → 적은 메모리로도 안정적 학습 가능 (2 x 4 = 실제 배치 8처럼 동작)

    num_train_epochs = 1,  # 🔹 전체 데이터셋을 한 번 반복해서 학습합니다. (테스트용으로 1회만 설정)

    max_steps = 60,  # 🔹 전체 학습 스텝 수를 최대 60으로 제한합니다. (빠른 테스트용)

    learning_rate = 2e-4,  # 🔹 학습 속도를 조절하는 값입니다. 값이 너무 크면 불안정, 너무 작으면 느려집니다.

    warmup_steps = 5,  # 🔹 초반 5스텝은 학습률을 천천히 올리며 안정적으로 시작하게 합니다.

    bf16 = is_bfloat16_supported(),  # 🔹 GPU가 bfloat16 형식을 지원하면 사용합니다.
                                     # 더 빠르고 안정적인 학습 가능 (특히 A100, H100 같은 GPU에서 유리)

    fp16 = not is_bfloat16_supported(),  # 🔹 bfloat16을 지원하지 않으면 대신 float16 사용합니다.

    logging_steps = 1,  # 🔹 학습 진행 상황을 매 스텝마다 출력합니다 (loss 값 등 확인용)

    optim = "adamw_8bit",  # 🔹 8비트 버전의 AdamW 옵티마이저 사용 → 메모리 절약 및 속도 향상

    weight_decay = 0.01,  # 🔹 모델이 너무 복잡해지지 않도록 하는 정규화 기법입니다 (과적합 방지)

    lr_scheduler_type = "linear",  # 🔹 학습률을 선형적으로 줄여가는 방식 사용

    output_dir = "outputs",  # 🔹 학습 결과(모델, 로그 등)를 저장할 폴더 경로입니다

    seed = 42,  # 🔹 재현 가능한 결과를 위해 랜덤 시드를 고정합니다 (실험 결과 일관성 확보)
)


# ➤ TRL(Transformer Reinforcement Learning) 라이브러리의 SFTTrainer 사용
# SFTTrainer는 Supervised Fine-Tuning(지도 학습 기반 파인튜닝)을 쉽게 실행할 수 있는 도구입니다.
trainer = SFTTrainer(
    model = model,  # 🔹 파인튜닝할 사전학습(Pretrained) 모델을 입력합니다.

    tokenizer = tokenizer,  # 🔹 해당 모델과 함께 사용할 토크나이저를 지정합니다.
                            # 텍스트를 숫자로 변환해 모델이 이해할 수 있게 해줍니다.

    train_dataset = dataset,  # 🔹 학습에 사용할 데이터셋을 지정합니다.
                              # 보통 사전 가공된 텍스트 샘플이 포함되어 있습니다.

    dataset_text_field = "text",  # 🔹 데이터셋에서 실제 텍스트가 담긴 필드 이름입니다.
                                  # 우리가 ChatML 형식으로 변환한 텍스트가 들어 있는 필드입니다.

    max_seq_length = max_seq_length,  # 🔹 한 문장(시퀀스)의 최대 길이입니다.
                                      # 이 길이를 넘는 입력은 잘리게 됩니다.

    dataset_num_proc = 2,  # 🔹 데이터를 전처리할 때 사용할 CPU 프로세스 수입니다.
                           # 숫자가 클수록 전처리 속도가 빨라집니다 (멀티 프로세싱)

    packing = False,  # 🔹 여러 문장을 하나의 긴 문장으로 합치는 기능인데,
                      # 여기서는 꺼 둡니다. → 각 문장을 개별로 처리하려는 목적입니다.

    args = training_args,  # 🔹 앞서 설정한 학습 하이퍼파라미터들을 적용합니다.
)


Unsloth: Tokenizing ["text"] (num_proc=2):   0%|          | 0/20 [00:00<?, ? examples/s]

In [None]:
# ✅ STEP 9: 학습 시작
trainer.train()

In [None]:
# ✅ 하나의 샘플을 모델 추론용 프롬프트로 준비
sample_prompt = dataset[0]['text']  # 임의 샘플을 추론용으로 가져오기

# ✅ 토크나이징
inputs = tokenizer([sample_prompt], return_tensors="pt").to("cuda")  # 포인트: GPU 사용을 위해 CUDA로 이동

# ✅ 모델 추론
FastLanguageModel.for_inference(model)  # 추론 모드로 전환 (필수!)
outputs = model.generate(
    **inputs,
    max_new_tokens=128,  # 생성할 최대 토큰 수
    do_sample=True,
    temperature=0.7  # 포인트: temperature는 창의성 조절 (낮을수록 결정적, 높을수록 다양성 증가)
)

# ✅ 결과 출력
print(tokenizer.decode(outputs[0], skip_special_tokens=True))  # 특수 토큰 제외하고 출력

In [None]:

# ✅ 추론 모드로 전환
FastLanguageModel.for_inference(model)

# ✅ 프롬프트 구성
prompt = alpaca_prompt.format(
    "Please answer the following questions based on the content of the provided document.",
    "What is the recommended recording duration for seismic instrumentation according to RG 1.12, Revision 3?",
    ""
)

# ✅ 입력 생성 및 추론 실행
inputs = tokenizer([prompt], return_tensors="pt").to("cuda")
outputs = model.generate(
    **inputs,
    max_new_tokens = 128,
    use_cache = True
)

# ✅ 출력 디코딩
print(tokenizer.batch_decode(outputs, skip_special_tokens=True)[0])

In [None]:
# ✅ 실시간 텍스트 스트리밍 (선택 사항)
text_streamer = TextStreamer(tokenizer)

_ = model.generate(
    **inputs,
    streamer = text_streamer,
    max_new_tokens = 128
)