In [None]:
# =======================================================
# 1.1: GPU 확인
# =======================================================
!nvidia-smi

In [None]:
# =======================================================
# 1.2: 필수 라이브러리 설치
# =======================================================
!pip install -q -U transformers peft accelerate bitsandbytes trl pandas huggingface_hub

In [None]:
# =======================================================
# 1.3: Hugging Face 및 Google Drive 로그인
# =======================================================
from huggingface_hub import login
from google.colab import drive
import os

login(
  token="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"
)

drive.mount('/content/drive')

In [None]:
# =======================================================
# 2.1: 데이터셋 로딩 및 형식 변환
# =======================================================
import pandas as pd

csv_file_path = '/content/drive/folders/1gqmFCHA8x4Fk-ssQ0x7y9RD-jzcRlGmf?dmr=1&ec=wgc-drive-hero-goto/LLM TEST.csv'

# CSV 파일을 Pandas DataFrame으로 불러옵니다.
df = pd.read_csv(csv_file_path)

# 데이터셋을 Gemma의 프롬프트 템플릿에 맞는 형식으로 변환합니다.
# 이 코드가 스프레드시트의 각 행을 파인튜닝용 대화 형식으로 자동 변환합니다.
def create_prompt(row):

    # "## 분석 데이터:"를 기준으로 나눕니다.
    parts = row['Instruction'].split('## 분석 데이터:')
    system_prompt = parts[0].strip()
    user_content = "## 분석 데이터:" + parts[1].strip()

    # 최종 결과물 (Golden_Response)
    assistant_content = row['Golden_Response']

    # Gemma-2의 공식 ChatML 템플릿
    prompt = f"<start_of_turn>user\n{system_prompt}\n\n{user_content}<end_of_turn>\n<start_of_turn>model\n{assistant_content}<end_of_turn>"
    return {"text": prompt}

# DataFrame의 각 행에 함수를 적용하여 새로운 데이터셋 생성
from datasets import Dataset
dataset = Dataset.from_pandas(df)
formatted_dataset = dataset.map(create_prompt)

In [None]:
# =======================================================
# 2.2: 변환된 데이터셋 확인
# =======================================================
print(formatted_dataset[0]['text'])

In [None]:
# =======================================================
# 3.1: 4비트 양자화 모델 로딩
# =======================================================
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

model_id = "google/gemma-2-9b-it"
new_model_name = "athena-gemma2-v1" # 허깅페이스에 저장될 이름

# 4비트 양자화 설정
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config,
    device_map="auto" # 자동으로 GPU에 할당
)

In [None]:
# =======================================================
# 3.2: LoRA (PEFT) 설정
# =======================================================
from peft import LoraConfig

# LoRA 설정을 정의
peft_config = LoraConfig(
    lora_alpha=32,
    lora_dropout=0.05,
    r=16,
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=['q_proj', 'k_proj', 'v_proj', 'o_proj'] # 어텐션 레이어를 타겟으로
)

In [None]:
# =======================================================
# 4.1: Trainer 설정
# =======================================================
from transformers import TrainingArguments
from trl import SFTTrainer

# 훈련 파라미터를 설정
training_arguments = TrainingArguments(
    output_dir=f"./{new_model_name}",
    num_train_epochs=3,                     # 3번 반복 학습
    per_device_train_batch_size=1,          # 한 번에 1개 데이터씩 처리 (VRAM 절약)
    gradient_accumulation_steps=4,          # 4번 그래디언트를 모아서 업데이트
    optim="paged_adamw_32bit",
    save_steps=25,                          # 25 스텝마다 저장
    logging_steps=5,                        # 5 스텝마다 로그 출력
    learning_rate=2e-4,
    weight_decay=0.001,
    fp16=False,
    bf16=True,                             # A100/L4 GPU에서 bf16 사용
    max_grad_norm=0.3,
    max_steps=-1,
    warmup_ratio=0.03,
    group_by_length=True,
    lr_scheduler_type="constant",
    report_to="tensorboard"
)

# SFTTrainer를 설정합니다.
trainer = SFTTrainer(
    model=model,
    train_dataset=formatted_dataset,
    peft_config=peft_config,
    dataset_text_field="text",
    max_seq_length=2048,                    # 시퀀스 최대 길이
    tokenizer=tokenizer,
    args=training_arguments,
)

In [None]:
# =======================================================
# 4.2: 훈련 시작
# =======================================================
print("파인튜닝 시작")
trainer.train()
print("파인튜닝 완료!")

In [None]:
# =======================================================
# 5.1: 파인튜닝된 모델로 추론 테스트
# =======================================================
from peft import AutoPeftModelForCausalLM

# 테스트할 Instruction
test_instruction = df.iloc[0]['Instruction']
parts = test_instruction.split('## 분석 데이터:')
system_prompt = parts[0].strip()
user_content = "## 분석 데이터:" + parts[1].strip()
test_prompt = f"<start_of_turn>user\n{system_prompt}\n\n{user_content}<end_of_turn>\n<start_of_turn>model\n"

# 파이프라인으로 추론 실행
from transformers import pipeline
pipe = pipeline(task="text-generation", model=trainer.model, tokenizer=tokenizer, max_length=2048)
result = pipe(test_prompt)
print("===== 파인튜닝된 모델의 답변 =====")
print(result[0]['generated_text'])