In [1]:
import torch

# CUDA 장치의 주요 버전과 부 버전을 가져옵니다.
major_version, minor_version = torch.cuda.get_device_capability()
major_version, minor_version

(8, 6)

In [2]:
from trl import SFTConfig, SFTTrainer

  from .autonotebook import tqdm as notebook_tqdm


[2024-08-14 20:51:51,091] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)


  def forward(ctx, input, weight, bias=None):
  def backward(ctx, grad_output):


In [3]:
from transformers import TrainingArguments

In [4]:
from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset
from trl import SFTConfig, SFTTrainer

In [5]:
ds = load_dataset("whiteDandelion/QA-Dataset-FI_all")

In [6]:
from datasets import DatasetDict, Dataset

In [7]:
train_test_split = ds['train'].train_test_split(test_size=0.2)

# 나눠진 데이터셋을 train과 eval로 나눕니다
dataset = DatasetDict({
    'train': train_test_split['train'],
    'eval': train_test_split['test']
})

print(dataset)

DatasetDict({
    train: Dataset({
        features: ['instruction', 'input', 'output'],
        num_rows: 3774
    })
    eval: Dataset({
        features: ['instruction', 'input', 'output'],
        num_rows: 944
    })
})


In [8]:
from accelerate import Accelerator

In [9]:
# Accelerate 객체 생성
accelerator = Accelerator()

# 모델과 토크나이저 로드
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-9b-it",
    torch_dtype=torch.bfloat16,
    device_map="balanced",
)

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-9b-it")

# 모델과 데이터셋을 accelerator에 배치
model, tokenizer = accelerator.prepare(model, tokenizer)

# 이제 모델은 자동으로 여러 GPU에 분산됩니다.
inputs = tokenizer("Example input", return_tensors="pt")
outputs = model(**inputs)

Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.


Loading checkpoint shards: 100%|██████████| 4/4 [00:04<00:00,  1.18s/it]


In [10]:
from accelerate import Accelerator

In [11]:
from trl import SFTConfig, SFTTrainer, DataCollatorForCompletionOnlyLM

In [12]:
ds

DatasetDict({
    train: Dataset({
        features: ['instruction', 'input', 'output'],
        num_rows: 4718
    })
})

In [13]:
def formatting_prompts_func(example):
    output_texts = []
    for i in range(len(example['instruction'])):
        text = f"### Question: {example['instruction'][i]}\n ### Answer: {example['output'][i]}"
        output_texts.append(text)
    return output_texts

response_template = " ### Answer:"
collator = DataCollatorForCompletionOnlyLM(response_template, tokenizer=tokenizer)

In [14]:
from transformers import TrainingArguments

In [15]:
max_seq_length = 2048

In [16]:
tokenizer.padding_side = "right"  # 토크나이저의 패딩을 오른쪽으로 설정합니다.

# SFTTrainer를 사용하여 모델 학습 설정
trainer = SFTTrainer(
    model=model,  # 학습할 모델
    tokenizer=tokenizer,  # 토크나이저
    train_dataset=dataset["train"],  # 학습 데이터셋
    eval_dataset=dataset["eval"],
    # dataset_text_field="text",  # 데이터셋에서 텍스트 필드의 이름
    max_seq_length=max_seq_length,  # 최대 시퀀스 길이
    dataset_num_proc=2,  # 데이터 처리에 사용할 프로세스 수
    packing=False,  # 짧은 시퀀스에 대한 학습 속도를 5배 빠르게 할 수 있음
    formatting_func=formatting_prompts_func,
    args=TrainingArguments(
        per_device_train_batch_size=8,  # 각 디바이스당 훈련 배치 크기
        gradient_accumulation_steps=4,  # 그래디언트 누적 단계
        warmup_steps=5,  # 웜업 스텝 수
        num_train_epochs=3,  # 훈련 에폭 수
        max_steps=100,  # 최대 스텝 수
        do_eval=True,
        evaluation_strategy="steps",
        logging_steps=1,  # logging 스텝 수
        learning_rate=2e-4,  # 학습률
        fp16=not torch.cuda.is_bf16_supported(),  # fp16 사용 여부, bf16이 지원되지 않는 경우에만 사용
        bf16=torch.cuda.is_bf16_supported(),  # bf16 사용 여부, bf16이 지원되는 경우에만 사용
        optim="adamw_8bit",  # 최적화 알고리즘
        weight_decay=0.01,  # 가중치 감소
        lr_scheduler_type="cosine",  # 학습률 스케줄러 유형
        seed=29,  # 랜덤 시드
        output_dir="outputs",
      #  n_gpu=4,
    ),
)


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.
Map (num_proc=2): 100%|██████████| 3774/3774 [00:01<00:00, 1984.39 examples/s]
Map (num_proc=2): 100%|██████████| 944/944 [00:01<00:00, 535.10 examples/s]
Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
max_steps is given, it will override any value given in num_train_epochs


In [17]:
trainer_stats = trainer.train()  # 모델을 훈련시키고 통계를 반환합니다.

It is strongly recommended to train Gemma2 models with the `eager` attention implementation instead of `sdpa`. Use `eager` with `AutoModelForCausalLM.from_pretrained('<path-to-checkpoint>', attn_implementation='eager')`.


Step,Training Loss,Validation Loss
1,15.0894,12.237565


KeyboardInterrupt: 

In [33]:
# 현재 메모리 상태를 보여주는 코드
gpu_stats = torch.cuda.get_device_properties(0)  # GPU 속성 가져오기
start_gpu_memory = round(
    torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3
)  # 시작 시 예약된 GPU 메모리 계산
max_memory = round(
    gpu_stats.total_memory / 1024 / 1024 / 1024, 3
)  # GPU의 최대 메모리 계산
print(
    f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB."
)  # GPU 이름과 최대 메모리 출력
print(f"{start_gpu_memory} GB of memory reserved.")  # 예약된 메모리 양 출력

GPU = NVIDIA RTX A6000. Max memory = 47.536 GB.
0.002 GB of memory reserved.


In [None]:
base_model = "google/gemma-2-9b-it"  # 병합을 수행할 베이스 모델
huggingface_token = "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"  # HuggingFace 토큰
huggingface_repo = "whiteDandelion/gemma-2-9b-it-fi"  # 모델을 업로드할 repository
save_method = (
    "merged_16bit"  # "merged_4bit", "merged_4bit_forced", "merged_16bit", "lora"
)

In [None]:
# 모델을 Hub에 업로드
model.push_to_hub("whiteDandelion/gemma-2-9b-it-fi")

# 토크나이저를 Hub에 업로드
tokenizer.push_to_hub("whiteDandelion/gemma-2-9b-it-fi")

In [None]:
model.save_pretrained_merged(
    base_model,
    tokenizer,
    save_method=save_method,  # 저장 방식을 16비트 병합으로 설정
)