### =============================================================
### 셀 1: 필수 라이브러리 설치 및 환경 변수 설정 (RunPod Jupyter Notebook에서 가장 먼저 실행)
### =============================================================

In [1]:
# ==============================================================================
# 0. 필수 모듈 임포트 및 환경 설정
# ==============================================================================

# RunPod 환경: runpod/pytorch:2.1.0-py3.10-cuda11.8.0-devel-ubuntu22.04

import os
import sys
import pkg_resources
import gc # 가비지 컬렉션을 위함

# pip 및 torch 업그레이드
print("환경 설정 및 필수 라이브러리 설치를 시작합니다.")
!pip install --upgrade pip torch

# ==============================================================================

# --- 1. 현재 커널의 Python 버전 확인 (참고용) ---
print(f"현재 커널의 Python 버전: {sys.version}")

# --- 2. CUDA 버전 확인 ---
print("\n--- CUDA 버전 확인 중 ---")

# --- 3. PyTorch 및 CUDA 버전 확인 (RunPod 환경에 이미 설치된 것 활용) ---
print("\n--- RunPod 환경의 PyTorch 및 CUDA 버전 확인 중 ---")
try:
    import torch # PyTorch 버전 확인을 위함
    print(f"현재 PyTorch 버전: {torch.__version__}")
    print(f"PyTorch CUDA 사용 가능 여부: {torch.cuda.is_available()}")
    if torch.cuda.is_available():
        print(f"PyTorch가 인식하는 CUDA 버전: {torch.version.cuda}")
        print(f"현재 GPU 이름: {torch.cuda.get_device_name(0)}")
    else:
        print("PyTorch가 CUDA를 인식하지 못합니다. 문제 발생 가능성이 있습니다.")
except ImportError:
    print("PyTorch가 설치되지 않았거나 임포트할 수 없습니다. 수동 설치가 필요할 수 있습니다.")

# --- 4. pip 캐시 완전 삭제 ---
print("\n--- pip 캐시 삭제 중... ---")
!pip cache purge

# --- 5. 핵심 라이브러리 최신 버전 설치 ---
!pip install -U peft trl transformers bitsandbytes typing_extensions accelerate

# --- 6. NumPy 2.0.2 버전 설치 ---
print("\n--- NumPy 2.0.2 버전 설치 중... ---")
!pip install numpy==2.0.2

# --- 7. ipykernel 설치 ---
print("\n--- ipykernel 설치 중... ---")
!pip install ipykernel

# --- 8. 나머지 필수 라이브러리 설치 (datasets, safetensors, langchain 등) ---
print("\n--- 나머지 필수 라이브러리 및 datasets, safetensors 설치 중... ---")
!pip install \
    datasets \
    safetensors \
    langchain \
    langchain-community \
    langchain-core \
    faiss-cpu

# --- 9. 가비지 컬렉션 및 GPU 캐시 정리 ---
print("\n--- 가비지 컬렉션 및 GPU 캐시 정리 중... ---")
gc.collect()
torch.cuda.empty_cache()
print("\n--- 모든 라이브러리 설치 및 환경 변수 설정 완료! ---")

# --- 10. 설치 확인 (모든 주요 라이브러리 임포트 테스트 강화) ---
print("\n--- bitsandbytes 진단 실행 중... ---")
get_ipython().system('python -m bitsandbytes')
print("\n--- 주요 라이브러리 임포트 테스트 ---")
try:
    installed_numpy_version = pkg_resources.get_distribution("numpy").version
    print(f"\n설치된 numpy 버전: {installed_numpy_version}")

    installed_typing_extensions_version = pkg_resources.get_distribution("typing_extensions").version
    print(f"설치된 typing_extensions 버전: {installed_typing_extensions_version}")

    import torch
    print(f"설치된 PyTorch 버전: {torch.__version__}")
    print(f"PyTorch CUDA 사용 가능 여부: {torch.cuda.is_available()}")
    if torch.cuda.is_available():
        print(f"PyTorch CUDA 버전: {torch.version.cuda}")

    import transformers
    print(f"transformers 버전: {transformers.__version__}")

    import bitsandbytes as bnb
    print(f"bitsandbytes 버전: {bnb.__version__}")

    import accelerate
    print(f"accelerate 버전: {accelerate.__version__}")

    import peft
    print(f"peft 버전: {peft.__version__}")

    import trl
    print(f"trl 버전: {trl.__version__}")

    import tokenizers
    print(f"tokenizers 버전: {tokenizers.__version__}")

    import safetensors
    # safetensors는 'safetensors'라는 이름으로 설치되므로, pkg_resources.get_distribution 사용
    installed_safetensors_version = pkg_resources.get_distribution("safetensors").version
    print(f"safetensors 버전: {installed_safetensors_version}")

    import datasets
    print(f"datasets 버전: {datasets.__version__}")

    import langchain
    print(f"langchain 버전: {langchain.__version__}")

    import faiss
    print(f"faiss-cpu 버전: {faiss.__version__}")

    print("\n--- 모든 주요 라이브러리 임포트 테스트 성공. ---")
except Exception as e:
    print(f"\n--- 라이브러리 확인 중 오류 발생: {e} ---")

# --- 11. 중요: Jupyter 커널 재시작 권장 ---
print("\n--- 경고: Jupyter 커널을 재시작하는 것을 강력히 권장합니다 (메뉴: Kernel -> Restart Kernel). ---")
print("재시작 후, 이 셀을 건너뛰고 바로 다음 셀(본 코드)을 실행하십시오.")

환경 설정 및 필수 라이브러리 설치를 시작합니다.


  import pkg_resources


[0m현재 커널의 Python 버전: 3.10.12 (main, Jun 11 2023, 05:26:28) [GCC 11.4.0]

--- CUDA 버전 확인 중 ---

--- RunPod 환경의 PyTorch 및 CUDA 버전 확인 중 ---
현재 PyTorch 버전: 2.7.1+cu126
PyTorch CUDA 사용 가능 여부: True
PyTorch가 인식하는 CUDA 버전: 12.6
현재 GPU 이름: NVIDIA H100 80GB HBM3

--- pip 캐시 삭제 중... ---
Files removed: 26 (2.1 MB)
Collecting peft
  Downloading peft-0.15.2-py3-none-any.whl.metadata (13 kB)
Downloading peft-0.15.2-py3-none-any.whl (411 kB)
Installing collected packages: peft
  Attempting uninstall: peft
    Found existing installation: peft 0.15.2.dev0
    Uninstalling peft-0.15.2.dev0:
      Successfully uninstalled peft-0.15.2.dev0
Successfully installed peft-0.15.2
[0m
--- NumPy 2.0.2 버전 설치 중... ---
[0m
--- ipykernel 설치 중... ---
[0m
--- 나머지 필수 라이브러리 및 datasets, safetensors 설치 중... ---
[0m
--- 가비지 컬렉션 및 GPU 캐시 정리 중... ---

--- 모든 라이브러리 설치 및 환경 변수 설정 완료! ---

--- bitsandbytes 진단 실행 중... ---
Platform: Linux-6.8.0-59-generic-x86_64-with-glibc2.35
  libc: glibc-2.35
Python: 3.10.12
PyTorch: 2.7.1

  warn(


peft 버전: 0.15.2
trl 버전: 0.18.2
tokenizers 버전: 0.21.1
safetensors 버전: 0.5.3
datasets 버전: 3.6.0
langchain 버전: 0.3.25
faiss-cpu 버전: 1.11.0

--- 모든 주요 라이브러리 임포트 테스트 성공. ---

--- 경고: Jupyter 커널을 재시작하는 것을 강력히 권장합니다 (메뉴: Kernel -> Restart Kernel). ---
재시작 후, 이 셀을 건너뛰고 바로 다음 셀(본 코드)을 실행하십시오.


### ===================================================
### 셀 2: Qwen3-8B 학습 코드 (셀 1 실행 및 커널 재시작 후 실행)
### ===================================================

In [1]:
# ===============================================================================
# 0. 라이브러리 설치 및 임포트
# ===============================================================================

import os, gc, torch
from datasets import load_dataset
from transformers import (
    AutoTokenizer, AutoModelForCausalLM, AutoConfig, TrainingArguments, BitsAndBytesConfig
)
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from trl import SFTTrainer
from transformers import EarlyStoppingCallback

  warn(


In [None]:
# ===============================================================================
# 1. 전역 변수 및 경로 설정
# ===============================================================================

TRAIN_INFERENCE_MODEL_NAME = "Qwen/Qwen3-8B"
FINETUNE_DATA_PATH = "./data/09_postprocessed_scripts.jsonl"
OUTPUT_DIR = "./dais_model/"

In [3]:
# ===============================================================================
# 2. 환경 설정 및 GPU 확인
# ===============================================================================

print(f"CUDA 사용 가능 여부: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"현재 GPU 이름: {torch.cuda.get_device_name(0)}")
    print(f"GPU 메모리 (GiB): {torch.cuda.get_device_properties(0).total_memory / (1024**3):.4f}")
else:
    print("CUDA를 사용할 수 없습니다. CPU에서는 학습/추론 속도가 매우 느릴 수 있습니다.")

CUDA 사용 가능 여부: True
현재 GPU 이름: NVIDIA H100 80GB HBM3
GPU 메모리 (GiB): 79.2088


In [4]:
# ===============================================================================
# 3. 모델 및 토크나이저 로드 (thinking mode 적용)
# ===============================================================================

# 스페셜 토큰 정의 (프롬프트에서 쓸 모든 토큰 포함)
special_tokens_dict = {
    "additional_special_tokens": [
        "[DAIS_INSTRUCTION]", 
        "[DAIS_STYLE]", 
        "[DAIS_RULE]", 
        "[DAIS_EXAMPLE]", 
        "[HISTORY]",
        "[INPUT]", 
        "[OUTPUT]", 
        "[CONTEXT]"
    ]
}

# 토크나이저 로드 (항상 모델보다 먼저!)
tokenizer = AutoTokenizer.from_pretrained(
    TRAIN_INFERENCE_MODEL_NAME,
    trust_remote_code=True,
    use_fast=True
)

# 스페셜 토큰 추가 (프롬프트에서 쓸 모든 토큰 포함)
num_added = tokenizer.add_special_tokens(special_tokens_dict)

# k-bit quantization 설정
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

# 모델 config 로드 (임베딩 크기 조정 위해 토크나이저 이후에)
config = AutoConfig.from_pretrained(
    TRAIN_INFERENCE_MODEL_NAME,
    trust_remote_code=True
)

# 모델 및 토크나이저 로드
model = AutoModelForCausalLM.from_pretrained(
    TRAIN_INFERENCE_MODEL_NAME,
    config=config,
    quantization_config=bnb_config,
    device_map="auto",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True
)

# 모델 임베딩 크기 조정 (스페셜 토큰 추가 수만큼)
if num_added > 0:
    model.resize_token_embeddings(len(tokenizer))

Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

In [5]:
# ===============================================================================
# 4. Q-DoRA 설정 (최적화)
# ===============================================================================

# prepare_model_for_kbit_training 적용
model = prepare_model_for_kbit_training(model, use_gradient_checkpointing=True)

# k-bit 학습 준비 (임베딩 크기 조정 후에!)
model.config.use_cache = False

# DoRA 어댑터 config
lora_config = LoraConfig(
    r=64,
    lora_alpha=32,
    target_modules=[
        # 임베딩 레이어도 파인튜닝할 수 있도록 포함
        "model.embed_tokens",
        "q_proj", 
        "k_proj", 
        "v_proj", 
        "o_proj", 
        "gate_proj", 
        "up_proj", 
        "down_proj"
    ],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    use_dora=True   # DoRA 모드 활성화
)

# PEFT 모델 생성 (어댑터 붙이기)
model = get_peft_model(model, lora_config)

# 토크나이저 및 트렁케이션 설정
tokenizer.padding_side = "right"
tokenizer.truncation_side = "left"
tokenizer.pad_token = tokenizer.eos_token

# 학습 가능 파라미터 확인
model.print_trainable_parameters() # trainable params > 0 이어야 함

trainable params: 185,962,304 || all params: 8,374,575,936 || trainable%: 2.2206


In [6]:
# ===============================================================================
# 5. 파인튜닝 데이터셋 로드 및 전처리 (UTF-8 인코딩)
# ===============================================================================

# 1. 데이터셋 로드
print(f"\n--- 파인튜닝 데이터셋 로드 중: {FINETUNE_DATA_PATH} ---")
finetune_dataset = load_dataset(
    "json",
    data_files=FINETUNE_DATA_PATH,
    split="train"
    # encoding="utf-8",           # 해당 옵션은 load_dataset에서 지원하지 않음 (입력 파일 자체가 UTF-8이어야 함)
    # encoding_errors="ignore"    # 해당 옵션은 load_dataset에서 지원하지 않음 (입력 파일 자체가 UTF-8이어야 함)
)

# 2. 프롬프트 템플릿 (SFT 표준 구조)
PROMPT_TEMPLATE = """
[DAIS_INSTRUCTION]
너의 이름은 DAIS이고, 너의 역할은 과학 AI 인플루언서야.
아래 [OUTPUT]를 참고해서 [INPUT]에 답해줘.

[DAIS_STYLE]
1. 복잡한 개념을 쉽게 설명
2. 팬과의 소통을 최우선
3. 쾌활하고 위트있고 유머러스
4. 가끔 반대로 질문을 던지거나 장난침

[DAIS_RULE]
1. 반드시 한국어로, 자연스럽게 답변
2. 팬의 의도를 먼저 파악
3. Step-back & CoT 적용
4. 자신이 AI임을 밝히지 않음
5. 중복 표현 없이 핵심만 쉽게 설명
6. 의도가 모호하면 솔직하게 답변
7. 필요시 팬에게 추가 정보 요청
8. RAG 기반 답변, 신뢰 가능한 출처/링크 제공
9. 법적·도덕적·윤리적 문제 답변 거부

[DAIS_EXAMPLE]
안녕, 난 과학 인플루언서 DAIS라고 해!
내 팬이 된 것을 후회하지 않도록, 너의 과학에 대한 모든 궁금증을 내가 다 해결해줄게!
어떤게 궁금해서 찾아왔어? 뭐든지 다 말만 해봐!

[HISTORY]
{history}

[INPUT]
{input}

[OUTPUT]
{output}

[CONTEXT]
"""

# 3. 프롬프트 포맷팅 (context 변수 없음)
def format_prompt(sample):
    input_text = sample.get('input', '')
    output_text = sample.get('output', '')
    if isinstance(output_text, list):
        output_text = "\n\n".join(output_text)
    return {
        "text": PROMPT_TEMPLATE.format(
            input=input_text,
            output=output_text,
            history=""  # 반드시 추가!
        )
    }
    
formatted_dataset = finetune_dataset.map(format_prompt, batched=False)

# 토크나이즈 (Trainer/SFTTrainer용)
def tokenize_function(sample):
    tokenized = tokenizer(
        sample["text"],
        max_length=8192,
        truncation=True,
        padding=False
    )
    tokenized["labels"] = tokenized["input_ids"].copy()
    return tokenized

tokenized_dataset = formatted_dataset.map(tokenize_function, batched=False)

# 학습 및 평가 데이터셋 분리
total_rows = len(tokenized_dataset)
num_eval_rows = 37
if num_eval_rows >= total_rows:
    train_dataset = tokenized_dataset
    eval_dataset = tokenized_dataset
else:
    test_size_ratio = num_eval_rows / total_rows
    split = tokenized_dataset.train_test_split(test_size=test_size_ratio, seed=42)
    train_dataset = split['train']
    eval_dataset = split['test']

print(f"학습 데이터셋 크기: {len(train_dataset)}")
print(f"평가 데이터셋 크기: {len(eval_dataset)}")

# 메모리/캐시 정리
gc.collect()
torch.cuda.empty_cache()


--- 파인튜닝 데이터셋 로드 중: ./data/09_postprocessed_scripts.jsonl ---
학습 데이터셋 크기: 3660
평가 데이터셋 크기: 37


In [7]:
# ===============================================================================
# 6. 모델 파인튜닝 (Q-DoRA) 준비
# ===============================================================================

training_args = TrainingArguments(
    output_dir=OUTPUT_DIR,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    gradient_accumulation_steps=8,
    optim="paged_adamw_32bit",
    gradient_checkpointing=True,
    num_train_epochs=20,
    learning_rate=3e-5,
    lr_scheduler_type="cosine",
    warmup_ratio=0.1,
    eval_strategy="epoch",
    save_strategy="epoch",
    save_total_limit=5,
    load_best_model_at_end=True,
    metric_for_best_model="eval_loss",
    greater_is_better=False,
    logging_steps=10,
    weight_decay=0.01,
    max_grad_norm=1.0,
    bf16=True,
    fp16=False,
    group_by_length=True,
    remove_unused_columns=True,
    push_to_hub=False,
    report_to="none"
)

In [8]:
# ==============================================================================
# 7. 모델 파인튜닝 (Q-DoRA) 시작
# ==============================================================================

model.config._attn_implementation = "eager"
model.config.use_cache = False

trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    peft_config=lora_config,
    callbacks=[EarlyStoppingCallback(early_stopping_patience=5)],
)

print("모델 학습을 시작합니다.")
trainer.train()
print("모델 학습이 완료되었습니다.")

# 학습된 PEFT 모델 저장
output_model_path = os.path.join(OUTPUT_DIR, "dais_qdora_model")
trainer.save_model(output_model_path)
print(f"학습된 PEFT 모델이 '{output_model_path}'에 저장되었습니다.")

# 토크나이저 저장
tokenizer.save_pretrained(output_model_path)
print(f"토크나이저가 '{output_model_path}'에 저장되었습니다.")

No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.


모델 학습을 시작합니다.


Epoch,Training Loss,Validation Loss
1,1.0305,1.015876
2,0.8301,0.889294
3,0.795,0.857056
4,0.7618,0.84708
5,0.7726,0.844774
6,0.7072,0.847222
7,0.6977,0.849634
8,0.6975,0.856413
9,0.6855,0.862611
10,0.6807,0.869231




모델 학습이 완료되었습니다.




학습된 PEFT 모델이 './dais_model_3e-5/dais_qdora_model'에 저장되었습니다.
토크나이저가 './dais_model_3e-5/dais_qdora_model'에 저장되었습니다.
