In [1]:
# Llama 모델 LoRA 파인튜닝 예제
# 필요한 라이브러리 설치
!pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
!pip install transformers peft datasets accelerate bitsandbytes trl ipywidgets

Looking in indexes: https://download.pytorch.org/whl/cu126


In [2]:
import os
import torch
from datasets import load_dataset
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments
)
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from trl import SFTTrainer

#### Fine Tunning 활용 모델 다운로드 (활용 모델 Gemma 3 - 4B)

#### User token 발행
1. Google에서 개발한 Gemma 3 모델 (250312 release)을 다운로드 하기 위해 huggingface 웹사이트에 가입합니다. [https://huggingface.co/](https://huggingface.co/)
2. 우측 상단 동그란 프로필 메뉴 -> Settings -> Access Tokens -> +Create new token 클릭 -> Read 권한 설정 후 API Token 복사 붙여넣기
(image/image_7-1-1_HuggingFace 토큰 발급 방법.png)
3. 단 User Token은 공유하지 않습니다. (아래 토큰은 예시)

In [3]:
# 필요 모델 (Gemma 3 - 4B) 다운로드 (방법 3가지)

# 1. huggingface_hub 라이브러리 사용
from huggingface_hub import snapshot_download
from huggingface_hub import login

# # 방법 1: 대화형 로그인 (프롬프트에 토큰 입력)
# login()

# 방법 2: 코드에 토큰 직접 입력 (보안상 권장되지 않음)
login(token="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")

# 모델 전체 다운로드
model_id = "google/gemma-3-4b-it"  # 예시 모델명
local_dir = "./gemma-3-4b-it"
snapshot_download(repo_id=model_id, local_dir=local_dir)

# # 2. transformers 라이브러리 사용하여 다운로드
# from transformers import AutoModel, AutoTokenizer

# # 모델과 토크나이저 로드 (처음에는 다운로드됨)
# model_name = "google/gemma-3-4b-it"  # 예시 모델명
# tokenizer = AutoTokenizer.from_pretrained(model_name)
# model = AutoModel.from_pretrained(model_name)

# # 특정 로컬 디렉토리에 저장하기
# model_path = "./llm_model"
# tokenizer.save_pretrained(model_path)
# model.save_pretrained(model_path)

# 2. git-lfs clone을 통한 다운로드
# !git-lfs clone https://huggingface.co/google/gemma-3-4b-it

Fetching 15 files:   0%|          | 0/15 [00:00<?, ?it/s]

'C:\\Users\\inhag\\DoctorCode-Workbook\\Chapter7\\gemma-3-4b-it'

#### 2. 모델 및 토크나이저 로드

In [4]:
# 양자화 설정 (메모리 효율성 향상)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True
)

model_path = 'gemma-3-4b-it'

# 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained(model_path, token=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

# 모델 로드 (양자화 적용)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    quantization_config=bnb_config,
    device_map="auto",
    token=True
)

# kbit 학습을 위한 모델 준비
model = prepare_model_for_kbit_training(model)

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

#### 3. LoRA 설정 및 적용

In [5]:
# LoRA 설정
lora_config = LoraConfig(
    r=16,                   # 행렬의 랭크
    lora_alpha=32,          # 스케일링 파라미터
    lora_dropout=0.05,      # 드롭아웃 비율
    bias="none",           
    task_type="CAUSAL_LM",  # 태스크 유형
    target_modules=[        # LoRA를 적용할 모듈
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj"
    ]
)

# 모델에 LoRA 적용
model = get_peft_model(model, lora_config)

#### 4. 데이터셋 준비

#### Alpaca 데이터셋 구조

Alpaca 데이터셋은 Stanford에서 만든 지시 튜닝용 데이터셋으로, 다음과 같은 필드를 포함합니다:

- instruction: 모델에게 주어지는 작업 지시사항
- input: 작업 수행에 필요한 추가 입력 정보 (선택적)
- output: 모델이 생성해야 하는 기대 출력

샘플 예시

{
  "instruction": "텍스트에서 긍정적인 감정을 찾아내세요.",
  "input": "오늘은 날씨가 좋아서 기분이 좋습니다. 하지만 교통체증 때문에 회사에 늦었어요.",
  "output": "긍정적인 감정: '날씨가 좋아서 기분이 좋습니다'에서 '기분이 좋다'라는 긍정적인 감정이 표현되어 있습니다."
}

In [6]:
# 예시 데이터셋 로드 (실제 사용 시 자신의 데이터셋을 사용)
# 여기서는 예시로 Alpaca 데이터셋 사용
dataset = load_dataset("tatsu-lab/alpaca")

# 데이터 전처리 함수
def formatting_func(examples):
    text = []
    for instruction, input_text, output in zip(examples['instruction'], examples['input'], examples['output']):
        if input_text:
            prompt = f"### 질문: {instruction}\n\n### 입력:\n{input_text}\n\n### 응답:\n"
        else:
            prompt = f"### 질문: {instruction}\n\n### 응답:\n"
        text.append(prompt + output)
    return {"text": text}

# 데이터셋 전처리
formatted_dataset = dataset.map(formatting_func, batched=True)

In [7]:
# 데이터셋 정보 출력
print(f"데이터셋 구조: {dataset}")
print(f"학습 데이터 크기: {len(dataset['train'])}")
print(f"컬럼 목록: {dataset['train'].column_names}")

# 처음 3개 샘플 출력
print("\n처음 3개 샘플:")
for i in range(3):
    print(f"\n샘플 {i+1}:")
    print(f"Instruction: {dataset['train'][i]['instruction']}")
    print(f"Input: {dataset['train'][i]['input']}")
    print(f"Output: {dataset['train'][i]['output']}")

# formatting_func 적용 예시 보기
def formatting_func(examples):
    text = []
    for instruction, input_text, output in zip(examples['instruction'], examples['input'], examples['output']):
        if input_text:
            prompt = f"### 질문: {instruction}\n\n### 입력:\n{input_text}\n\n### 응답:\n"
        else:
            prompt = f"### 질문: {instruction}\n\n### 응답:\n"
        text.append(prompt + output)
    return {"text": text}

# 예시 포맷팅 출력
formatted_examples = formatting_func({
    'instruction': [dataset['train'][0]['instruction']],
    'input': [dataset['train'][0]['input']],
    'output': [dataset['train'][0]['output']]
})

print("\n포맷팅된 예시:")
print(formatted_examples['text'][0])

데이터셋 구조: DatasetDict({
    train: Dataset({
        features: ['instruction', 'input', 'output', 'text'],
        num_rows: 52002
    })
})
학습 데이터 크기: 52002
컬럼 목록: ['instruction', 'input', 'output', 'text']

처음 3개 샘플:

샘플 1:
Instruction: Give three tips for staying healthy.
Input: 
Output: 1.Eat a balanced diet and make sure to include plenty of fruits and vegetables. 
2. Exercise regularly to keep your body active and strong. 
3. Get enough sleep and maintain a consistent sleep schedule.

샘플 2:
Instruction: What are the three primary colors?
Input: 
Output: The three primary colors are red, blue, and yellow.

샘플 3:
Instruction: Describe the structure of an atom.
Input: 
Output: An atom is made up of a nucleus, which contains protons and neutrons, surrounded by electrons that travel in orbits around the nucleus. The protons and neutrons have a positive charge, while the electrons have a negative charge, resulting in an overall neutral atom. The number of each particle determines the at

#### 5. 학습 파라미터 설정 및 학습 실행

In [None]:
# 학습 파라미터 설정
training_args = TrainingArguments(
    output_dir="./lora-output",           # 출력 디렉토리
    per_device_train_batch_size=4,        # 배치 크기
    gradient_accumulation_steps=4,        # 그래디언트 누적 단계
    learning_rate=2e-4,                   # 학습률
    num_train_epochs=1,                   # 학습 에폭 수
    warmup_ratio=0.03,                    # 워밍업 비율
    logging_steps=10,                     # 로깅 단계
    save_strategy="epoch",                # 저장 전략
    optim="paged_adamw_32bit",            # 옵티마이저
    fp16=True,                            # 16비트 연산 사용
)

# SFTTrainer 설정
trainer = SFTTrainer(
    model=model,
    train_dataset=formatted_dataset["train"],
    args=training_args,
    peft_config=lora_config,  # LoRA 설정 추가
)

# 학습 실행
trainer.train()

No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.
It is strongly recommended to train Gemma3 models with the `eager` attention implementation instead of `sdpa`. Use `eager` with `AutoModelForCausalLM.from_pretrained('<path-to-checkpoint>', attn_implementation='eager')`.
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.
  return fn(*args, **kwargs)


Step,Training Loss


#### 6. 모델 저장

In [None]:
# 파인튜닝된 모델 저장
model.save_pretrained("./lora-finetuned")
tokenizer.save_pretrained("./lora-finetuned")

#### 7. 파인튜닝된 모델 추론 사용

In [None]:
# 파인튜닝된 모델로 추론하기
from peft import PeftModel, PeftConfig

# 모델 구성 로드
config = PeftConfig.from_pretrained("./llama-lora-finetuned")

# 기본 모델 로드
model = AutoModelForCausalLM.from_pretrained(
    config.base_model_name_or_path,
    return_dict=True,
    device_map="auto",
    token=True
)

# LoRA 가중치 로드
model = PeftModel.from_pretrained(model, "./llama-lora-finetuned")

# 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained(config.base_model_name_or_path)

# 추론 함수
def generate_response(prompt, max_length=512):
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(
        input_ids=inputs["input_ids"],
        attention_mask=inputs["attention_mask"],
        max_length=max_length,
        temperature=0.7,
        do_sample=True,
    )
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return response

# 테스트
test_prompt = "### 질문: 딥러닝 모델 학습 시 과적합을 방지하는 방법을 설명해주세요.\n\n### 응답:\n"
response = generate_response(test_prompt)
print(response)