In [14]:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

max_seq_length = 4096  # 최대 시퀀스 길이를 설정합니다.
dtype = torch.float16 
load_in_4bit = True  # 4bit 양자화 로드 여부를 설정합니다.

model_name = "beomi/Llama-3-Open-Ko-8B-Instruct-preview"  # 모델 이름을 설정합니다.

from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=dtype
)

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=quantization_config,
    torch_dtype=dtype
)

model.config.max_position_embeddings = max_seq_length

tokenizer = AutoTokenizer.from_pretrained(model_name)


`low_cpu_mem_usage` was None, now set to True since model is quantized.


Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/143 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/301 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [17]:
from peft import get_peft_model, LoraConfig

# LoRA 설정을 정의합니다.
lora_config = LoraConfig(
    r=4,
    lora_alpha=32,
    lora_dropout=0.05,
    target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
    ],
    bias="none",
    use_rslora=False
)

# 모델을 PEFT 방식으로 변환합니다.
model = get_peft_model(model, lora_config)

# gradient checkpointing을 모델의 config에 직접 설정합니다.
model.config.gradient_checkpointing = True


In [48]:
from datasets import load_dataset

# EOS_TOKEN은 문장의 끝을 나타내는 토큰입니다. 이 토큰을 추가해야 합니다.
EOS_TOKEN = tokenizer.eos_token

# AlpacaPrompt를 사용하여 지시사항을 포맷팅하는 함수입니다.
alpaca_prompt = """Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{}

### Response:
{}"""


# 주어진 예시들을 포맷팅하는 함수입니다.
def formatting_prompts_func(examples):
    instructions = examples["instruction"]  # 지시사항을 가져옵니다.
    outputs = examples["output"]  # 출력값을 가져옵니다.
    texts = []  # 포맷팅된 텍스트를 저장할 리스트입니다.
    for instruction, output in zip(instructions, outputs):
        # EOS_TOKEN을 추가해야 합니다. 그렇지 않으면 생성이 무한히 진행될 수 있습니다.
        text = alpaca_prompt.format(instruction, output) + EOS_TOKEN
        texts.append(text)
    return {
        "text": texts,  # 포맷팅된 텍스트를 반환합니다.
    }


# "teddylee777/QA-Dataset-mini" 데이터셋을 불러옵니다. 훈련 데이터만 사용합니다.
dataset = load_dataset("teddylee777/QA-Dataset-mini", split="train")

# 데이터셋에 formatting_prompts_func 함수를 적용합니다. 배치 처리를 활성화합니다.
dataset = dataset.map(
    formatting_prompts_func,
    batched=True,
)

# 패딩 토큰을 eos_token으로 설정합니다.
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

In [25]:
from trl import SFTTrainer
from transformers import TrainingArguments

tokenizer.padding_side = "right"  # 토크나이저의 패딩을 오른쪽으로 설정합니다.

# SFTTrainer를 사용하여 모델 학습 설정
trainer = SFTTrainer(
    model=model,  # 학습할 모델
    tokenizer=tokenizer,  # 토크나이저
    train_dataset=dataset,  # 학습 데이터셋
    eval_dataset=dataset,
    dataset_text_field="text",  # 데이터셋에서 텍스트 필드의 이름
    max_seq_length=max_seq_length,  # 최대 시퀀스 길이
    dataset_num_proc=2,  # 데이터 처리에 사용할 프로세스 수
    packing=False,  # 짧은 시퀀스에 대한 학습 속도를 5배 빠르게 할 수 있음
    args=TrainingArguments(
        per_device_train_batch_size=2,  # 각 디바이스당 훈련 배치 크기
        gradient_accumulation_steps=4,  # 그래디언트 누적 단계
        warmup_steps=5,  # 웜업 스텝 수
        num_train_epochs=3,  # 훈련 에폭 수
        max_steps=100,  # 최대 스텝 수
        do_eval=True,
        evaluation_strategy="steps",
        logging_steps=1,  # logging 스텝 수
        learning_rate=2e-4,  # 학습률
        fp16=not torch.cuda.is_bf16_supported(),  # fp16 사용 여부, bf16이 지원되지 않는 경우에만 사용
        bf16=torch.cuda.is_bf16_supported(),  # bf16 사용 여부, bf16이 지원되는 경우에만 사용
        optim="adamw_8bit",  # 최적화 알고리즘
        weight_decay=0.01,  # 가중치 감소
        lr_scheduler_type="cosine",  # 학습률 스케줄러 유형
        seed=123,  # 랜덤 시드
        output_dir="outputs",  # 출력 디렉토리
    ),
)


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.


Map (num_proc=2):   0%|          | 0/16 [00:00<?, ? examples/s]

max_steps is given, it will override any value given in num_train_epochs


In [26]:
# 현재 메모리 상태를 보여주는 코드
gpu_stats = torch.cuda.get_device_properties(0)  # GPU 속성 가져오기
start_gpu_memory = round(
    torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3
)  # 시작 시 예약된 GPU 메모리 계산
max_memory = round(
    gpu_stats.total_memory / 1024 / 1024 / 1024, 3
)  # GPU의 최대 메모리 계산
print(
    f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB."
)  # GPU 이름과 최대 메모리 출력
print(f"{start_gpu_memory} GB of memory reserved.")  # 예약된 메모리 양 출력

GPU = NVIDIA GeForce RTX 3070 Laptop GPU. Max memory = 8.0 GB.
5.508 GB of memory reserved.


In [27]:
trainer_stats = trainer.train()  # 모델을 훈련시키고 통계를 반환합니다.

  0%|          | 0/100 [00:00<?, ?it/s]

We detected that you are passing `past_key_values` as a tuple and this is deprecated and will be removed in v4.43. Please use an appropriate `Cache` class (https://huggingface.co/docs/transformers/v4.41.3/en/internal/generation_utils#transformers.Cache)
  attn_output = torch.nn.functional.scaled_dot_product_attention(


{'loss': 13.3672, 'grad_norm': 44.030723571777344, 'learning_rate': 4e-05, 'epoch': 0.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 56.5091, 'eval_samples_per_second': 0.283, 'eval_steps_per_second': 0.035, 'epoch': 0.5}
{'loss': 13.5156, 'grad_norm': 42.509883880615234, 'learning_rate': 8e-05, 'epoch': 1.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 55.0862, 'eval_samples_per_second': 0.29, 'eval_steps_per_second': 0.036, 'epoch': 1.0}
{'loss': 13.0078, 'grad_norm': 46.21337890625, 'learning_rate': 0.00012, 'epoch': 1.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 58.5797, 'eval_samples_per_second': 0.273, 'eval_steps_per_second': 0.034, 'epoch': 1.5}
{'loss': 11.2031, 'grad_norm': 61.026466369628906, 'learning_rate': 0.00016, 'epoch': 2.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 60.0072, 'eval_samples_per_second': 0.267, 'eval_steps_per_second': 0.033, 'epoch': 2.0}
{'loss': 10.0625, 'grad_norm': 60.36443328857422, 'learning_rate': 0.0002, 'epoch': 2.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 58.9101, 'eval_samples_per_second': 0.272, 'eval_steps_per_second': 0.034, 'epoch': 2.5}
{'loss': 10.4688, 'grad_norm': 149.2111358642578, 'learning_rate': 0.00019994532573409262, 'epoch': 3.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 56.634, 'eval_samples_per_second': 0.283, 'eval_steps_per_second': 0.035, 'epoch': 3.0}
{'loss': 9.2422, 'grad_norm': 38.76744842529297, 'learning_rate': 0.00019978136272187747, 'epoch': 3.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 55.403, 'eval_samples_per_second': 0.289, 'eval_steps_per_second': 0.036, 'epoch': 3.5}
{'loss': 8.9688, 'grad_norm': 59.63603591918945, 'learning_rate': 0.00019950829025450114, 'epoch': 4.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 54.496, 'eval_samples_per_second': 0.294, 'eval_steps_per_second': 0.037, 'epoch': 4.0}
{'loss': 8.6094, 'grad_norm': 35.717369079589844, 'learning_rate': 0.00019912640693269752, 'epoch': 4.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 56.3496, 'eval_samples_per_second': 0.284, 'eval_steps_per_second': 0.035, 'epoch': 4.5}
{'loss': 9.1797, 'grad_norm': 82.95431518554688, 'learning_rate': 0.00019863613034027224, 'epoch': 5.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 56.8206, 'eval_samples_per_second': 0.282, 'eval_steps_per_second': 0.035, 'epoch': 5.0}
{'loss': 8.0391, 'grad_norm': 29.31797218322754, 'learning_rate': 0.00019803799658748094, 'epoch': 5.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 60.1322, 'eval_samples_per_second': 0.266, 'eval_steps_per_second': 0.033, 'epoch': 5.5}
{'loss': 8.1406, 'grad_norm': 62.27651596069336, 'learning_rate': 0.0001973326597248006, 'epoch': 6.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 58.3384, 'eval_samples_per_second': 0.274, 'eval_steps_per_second': 0.034, 'epoch': 6.0}
{'loss': 7.7773, 'grad_norm': 28.603723526000977, 'learning_rate': 0.00019652089102773488, 'epoch': 6.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 55.8564, 'eval_samples_per_second': 0.286, 'eval_steps_per_second': 0.036, 'epoch': 6.5}
{'loss': 7.5273, 'grad_norm': 37.30525588989258, 'learning_rate': 0.00019560357815343577, 'epoch': 7.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 56.4274, 'eval_samples_per_second': 0.284, 'eval_steps_per_second': 0.035, 'epoch': 7.0}
{'loss': 7.4883, 'grad_norm': 22.827680587768555, 'learning_rate': 0.00019458172417006347, 'epoch': 7.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 56.5161, 'eval_samples_per_second': 0.283, 'eval_steps_per_second': 0.035, 'epoch': 7.5}
{'loss': 7.0312, 'grad_norm': 26.610307693481445, 'learning_rate': 0.0001934564464599461, 'epoch': 8.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 55.4558, 'eval_samples_per_second': 0.289, 'eval_steps_per_second': 0.036, 'epoch': 8.0}
{'loss': 7.6523, 'grad_norm': 79.53582000732422, 'learning_rate': 0.00019222897549773848, 'epoch': 8.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 55.8515, 'eval_samples_per_second': 0.286, 'eval_steps_per_second': 0.036, 'epoch': 8.5}
{'loss': 7.1875, 'grad_norm': 31.985342025756836, 'learning_rate': 0.00019090065350491626, 'epoch': 9.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 56.344, 'eval_samples_per_second': 0.284, 'eval_steps_per_second': 0.035, 'epoch': 9.0}
{'loss': 6.9062, 'grad_norm': 51.24175262451172, 'learning_rate': 0.00018947293298207635, 'epoch': 9.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 56.5567, 'eval_samples_per_second': 0.283, 'eval_steps_per_second': 0.035, 'epoch': 9.5}
{'loss': 6.8242, 'grad_norm': 26.604839324951172, 'learning_rate': 0.0001879473751206489, 'epoch': 10.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 57.5047, 'eval_samples_per_second': 0.278, 'eval_steps_per_second': 0.035, 'epoch': 10.0}
{'loss': 6.7969, 'grad_norm': 52.1021614074707, 'learning_rate': 0.00018632564809575742, 'epoch': 10.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 57.4451, 'eval_samples_per_second': 0.279, 'eval_steps_per_second': 0.035, 'epoch': 10.5}
{'loss': 6.6172, 'grad_norm': 24.6672420501709, 'learning_rate': 0.00018460952524209355, 'epoch': 11.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 57.4365, 'eval_samples_per_second': 0.279, 'eval_steps_per_second': 0.035, 'epoch': 11.0}
{'loss': 6.1953, 'grad_norm': 42.8138313293457, 'learning_rate': 0.00018280088311480201, 'epoch': 11.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2776, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 11.5}
{'loss': 6.4648, 'grad_norm': 24.46128273010254, 'learning_rate': 0.00018090169943749476, 'epoch': 12.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3072, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 12.0}
{'loss': 6.1055, 'grad_norm': 31.841596603393555, 'learning_rate': 0.00017891405093963938, 'epoch': 12.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2931, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 12.5}
{'loss': 6.2539, 'grad_norm': 32.255409240722656, 'learning_rate': 0.00017684011108568592, 'epoch': 13.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2858, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 13.0}
{'loss': 6.5898, 'grad_norm': 52.19340515136719, 'learning_rate': 0.0001746821476984154, 'epoch': 13.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2856, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 13.5}
{'loss': 5.707, 'grad_norm': 22.086345672607422, 'learning_rate': 0.00017244252047910892, 'epoch': 14.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2843, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 14.0}
{'loss': 5.5664, 'grad_norm': 29.826980590820312, 'learning_rate': 0.00017012367842724887, 'epoch': 14.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2895, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 14.5}
{'loss': 5.5703, 'grad_norm': 28.96565818786621, 'learning_rate': 0.00016772815716257412, 'epoch': 15.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2811, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 15.0}
{'loss': 4.9609, 'grad_norm': 35.64797592163086, 'learning_rate': 0.00016525857615241687, 'epoch': 15.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2816, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 15.5}
{'loss': 5.6602, 'grad_norm': 57.19598388671875, 'learning_rate': 0.0001627176358473537, 'epoch': 16.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2872, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 16.0}
{'loss': 4.8633, 'grad_norm': 26.795387268066406, 'learning_rate': 0.00016010811472830252, 'epoch': 16.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2949, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 16.5}
{'loss': 5.0234, 'grad_norm': 39.5965690612793, 'learning_rate': 0.00015743286626829437, 'epoch': 17.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2856, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 17.0}
{'loss': 4.9453, 'grad_norm': 39.72227096557617, 'learning_rate': 0.0001546948158122427, 'epoch': 17.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3033, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 17.5}
{'loss': 4.3672, 'grad_norm': 34.43489074707031, 'learning_rate': 0.00015189695737812152, 'epoch': 18.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3003, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 18.0}
{'loss': 4.2383, 'grad_norm': 35.107059478759766, 'learning_rate': 0.00014904235038305083, 'epoch': 18.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3035, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 18.5}
{'loss': 4.1875, 'grad_norm': 42.23772048950195, 'learning_rate': 0.0001461341162978688, 'epoch': 19.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2942, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 19.0}
{'loss': 4.082, 'grad_norm': 32.496490478515625, 'learning_rate': 0.00014317543523384928, 'epoch': 19.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2891, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 19.5}
{'loss': 3.7578, 'grad_norm': 33.4742431640625, 'learning_rate': 0.00014016954246529696, 'epoch': 20.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2929, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 20.0}
{'loss': 3.3965, 'grad_norm': 28.471588134765625, 'learning_rate': 0.00013711972489182208, 'epoch': 20.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.29, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 20.5}
{'loss': 3.6992, 'grad_norm': 35.15892791748047, 'learning_rate': 0.00013402931744416433, 'epoch': 21.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2946, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 21.0}
{'loss': 3.1094, 'grad_norm': 32.98757553100586, 'learning_rate': 0.00013090169943749476, 'epoch': 21.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2932, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 21.5}
{'loss': 3.3203, 'grad_norm': 33.3343391418457, 'learning_rate': 0.00012774029087618446, 'epoch': 22.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2861, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 22.0}
{'loss': 2.7871, 'grad_norm': 29.394105911254883, 'learning_rate': 0.00012454854871407994, 'epoch': 22.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2717, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 22.5}
{'loss': 2.9062, 'grad_norm': 26.976591110229492, 'learning_rate': 0.0001213299630743747, 'epoch': 23.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2853, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 23.0}
{'loss': 2.3438, 'grad_norm': 24.526479721069336, 'learning_rate': 0.000118088053433211, 'epoch': 23.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.288, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 23.5}
{'loss': 2.8301, 'grad_norm': 32.397891998291016, 'learning_rate': 0.0001148263647711842, 'epoch': 24.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2925, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 24.0}
{'loss': 2.0898, 'grad_norm': 22.419292449951172, 'learning_rate': 0.00011154846369695863, 'epoch': 24.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2956, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 24.5}
{'loss': 2.4688, 'grad_norm': 27.22140121459961, 'learning_rate': 0.00010825793454723325, 'epoch': 25.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3001, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 25.0}
{'loss': 1.9316, 'grad_norm': 19.52529525756836, 'learning_rate': 0.00010495837546732224, 'epoch': 25.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2934, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 25.5}
{'loss': 2.2363, 'grad_norm': 26.107973098754883, 'learning_rate': 0.00010165339447663587, 'epoch': 26.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2948, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 26.0}
{'loss': 1.9004, 'grad_norm': 20.602365493774414, 'learning_rate': 9.834660552336415e-05, 'epoch': 26.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2918, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 26.5}
{'loss': 1.7041, 'grad_norm': 20.00440216064453, 'learning_rate': 9.504162453267777e-05, 'epoch': 27.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3016, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 27.0}
{'loss': 1.6074, 'grad_norm': 19.37174415588379, 'learning_rate': 9.174206545276677e-05, 'epoch': 27.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2874, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 27.5}
{'loss': 1.7148, 'grad_norm': 38.13642501831055, 'learning_rate': 8.845153630304139e-05, 'epoch': 28.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.291, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 28.0}
{'loss': 1.498, 'grad_norm': 17.699737548828125, 'learning_rate': 8.517363522881579e-05, 'epoch': 28.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2985, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 28.5}
{'loss': 1.4775, 'grad_norm': 25.57320785522461, 'learning_rate': 8.191194656678904e-05, 'epoch': 29.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3019, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 29.0}
{'loss': 1.1934, 'grad_norm': 17.820890426635742, 'learning_rate': 7.867003692562534e-05, 'epoch': 29.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3124, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 29.5}
{'loss': 1.2676, 'grad_norm': 22.36860466003418, 'learning_rate': 7.54514512859201e-05, 'epoch': 30.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2969, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 30.0}
{'loss': 0.9917, 'grad_norm': 15.835683822631836, 'learning_rate': 7.225970912381556e-05, 'epoch': 30.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3037, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 30.5}
{'loss': 1.1904, 'grad_norm': 24.891021728515625, 'learning_rate': 6.909830056250527e-05, 'epoch': 31.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3016, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 31.0}
{'loss': 0.8945, 'grad_norm': 14.913616180419922, 'learning_rate': 6.59706825558357e-05, 'epoch': 31.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2885, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 31.5}
{'loss': 1.0078, 'grad_norm': 26.857513427734375, 'learning_rate': 6.28802751081779e-05, 'epoch': 32.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3065, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 32.0}
{'loss': 0.8027, 'grad_norm': 13.882426261901855, 'learning_rate': 5.983045753470308e-05, 'epoch': 32.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2792, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 32.5}
{'loss': 0.8555, 'grad_norm': 18.733556747436523, 'learning_rate': 5.6824564766150726e-05, 'epoch': 33.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3306, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 33.0}
{'loss': 0.5806, 'grad_norm': 11.537298202514648, 'learning_rate': 5.386588370213124e-05, 'epoch': 33.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2838, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 33.5}
{'loss': 0.7231, 'grad_norm': 16.709196090698242, 'learning_rate': 5.095764961694922e-05, 'epoch': 34.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2928, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 34.0}
{'loss': 0.5698, 'grad_norm': 12.314087867736816, 'learning_rate': 4.810304262187852e-05, 'epoch': 34.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2955, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 34.5}
{'loss': 0.5664, 'grad_norm': 19.283233642578125, 'learning_rate': 4.530518418775733e-05, 'epoch': 35.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3037, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 35.0}
{'loss': 0.4185, 'grad_norm': 10.723260879516602, 'learning_rate': 4.256713373170564e-05, 'epoch': 35.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2883, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 35.5}
{'loss': 0.5073, 'grad_norm': 13.241649627685547, 'learning_rate': 3.9891885271697496e-05, 'epoch': 36.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.294, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 36.0}
{'loss': 0.3862, 'grad_norm': 11.135894775390625, 'learning_rate': 3.7282364152646297e-05, 'epoch': 36.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3055, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 36.5}
{'loss': 0.375, 'grad_norm': 12.337307929992676, 'learning_rate': 3.4741423847583134e-05, 'epoch': 37.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2933, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 37.0}
{'loss': 0.293, 'grad_norm': 9.521300315856934, 'learning_rate': 3.227184283742591e-05, 'epoch': 37.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.29, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 37.5}
{'loss': 0.3643, 'grad_norm': 14.21861457824707, 'learning_rate': 2.9876321572751144e-05, 'epoch': 38.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3007, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 38.0}
{'loss': 0.2281, 'grad_norm': 7.182678699493408, 'learning_rate': 2.7557479520891104e-05, 'epoch': 38.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2896, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 38.5}
{'loss': 0.2959, 'grad_norm': 8.69774341583252, 'learning_rate': 2.5317852301584643e-05, 'epoch': 39.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2886, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 39.0}
{'loss': 0.1643, 'grad_norm': 5.021572113037109, 'learning_rate': 2.315988891431412e-05, 'epoch': 39.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2929, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 39.5}
{'loss': 0.2489, 'grad_norm': 7.634154319763184, 'learning_rate': 2.1085949060360654e-05, 'epoch': 40.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2951, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 40.0}
{'loss': 0.181, 'grad_norm': 5.550947666168213, 'learning_rate': 1.9098300562505266e-05, 'epoch': 40.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3121, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 40.5}
{'loss': 0.1644, 'grad_norm': 5.985578536987305, 'learning_rate': 1.7199116885197995e-05, 'epoch': 41.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2864, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 41.0}
{'loss': 0.1134, 'grad_norm': 3.727879285812378, 'learning_rate': 1.5390474757906446e-05, 'epoch': 41.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3052, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 41.5}
{'loss': 0.1826, 'grad_norm': 6.143801212310791, 'learning_rate': 1.3674351904242611e-05, 'epoch': 42.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.301, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 42.0}
{'loss': 0.1316, 'grad_norm': 3.8282575607299805, 'learning_rate': 1.2052624879351104e-05, 'epoch': 42.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3046, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 42.5}
{'loss': 0.1202, 'grad_norm': 4.9621968269348145, 'learning_rate': 1.0527067017923654e-05, 'epoch': 43.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2833, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 43.0}
{'loss': 0.1238, 'grad_norm': 3.461444139480591, 'learning_rate': 9.09934649508375e-06, 'epoch': 43.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3054, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 43.5}
{'loss': 0.0956, 'grad_norm': 3.72790789604187, 'learning_rate': 7.771024502261526e-06, 'epoch': 44.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2997, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 44.0}
{'loss': 0.1085, 'grad_norm': 2.997945785522461, 'learning_rate': 6.543553540053926e-06, 'epoch': 44.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3085, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 44.5}
{'loss': 0.0887, 'grad_norm': 4.348829746246338, 'learning_rate': 5.418275829936537e-06, 'epoch': 45.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2879, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 45.0}
{'loss': 0.0919, 'grad_norm': 2.7110774517059326, 'learning_rate': 4.3964218465642355e-06, 'epoch': 45.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.2997, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 45.5}
{'loss': 0.0934, 'grad_norm': 3.816880226135254, 'learning_rate': 3.4791089722651436e-06, 'epoch': 46.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.292, 'eval_samples_per_second': 0.633, 'eval_steps_per_second': 0.079, 'epoch': 46.0}
{'loss': 0.0931, 'grad_norm': 2.6529059410095215, 'learning_rate': 2.667340275199426e-06, 'epoch': 46.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3013, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 46.5}
{'loss': 0.0811, 'grad_norm': 3.068213939666748, 'learning_rate': 1.9620034125190644e-06, 'epoch': 47.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3097, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 47.0}
{'loss': 0.0851, 'grad_norm': 2.4766921997070312, 'learning_rate': 1.3638696597277679e-06, 'epoch': 47.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 24.3089, 'eval_samples_per_second': 0.658, 'eval_steps_per_second': 0.082, 'epoch': 47.5}
{'loss': 0.0801, 'grad_norm': 2.826228380203247, 'learning_rate': 8.735930673024806e-07, 'epoch': 48.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3915, 'eval_samples_per_second': 0.63, 'eval_steps_per_second': 0.079, 'epoch': 48.0}
{'loss': 0.0784, 'grad_norm': 2.2584166526794434, 'learning_rate': 4.917097454988584e-07, 'epoch': 48.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3085, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 48.5}
{'loss': 0.0817, 'grad_norm': 2.340648651123047, 'learning_rate': 2.1863727812254653e-07, 'epoch': 49.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3264, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 49.0}
{'loss': 0.0822, 'grad_norm': 2.42232346534729, 'learning_rate': 5.467426590739511e-08, 'epoch': 49.5}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3434, 'eval_samples_per_second': 0.631, 'eval_steps_per_second': 0.079, 'epoch': 49.5}
{'loss': 0.0764, 'grad_norm': 2.4027607440948486, 'learning_rate': 0.0, 'epoch': 50.0}


  0%|          | 0/2 [00:00<?, ?it/s]

{'eval_runtime': 25.3184, 'eval_samples_per_second': 0.632, 'eval_steps_per_second': 0.079, 'epoch': 50.0}
{'train_runtime': 12699.5028, 'train_samples_per_second': 0.063, 'train_steps_per_second': 0.008, 'train_loss': 3.4925225830078124, 'epoch': 50.0}


In [28]:
# 최종 메모리 및 시간 통계를 보여줍니다.
used_memory = round(
    torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3
)  # 사용된 최대 메모리를 GB 단위로 계산합니다.
used_memory_for_lora = round(
    used_memory - start_gpu_memory, 3
)  # LoRA를 위해 사용된 메모리를 GB 단위로 계산합니다.
used_percentage = round(
    used_memory / max_memory * 100, 3
)  # 최대 메모리 대비 사용된 메모리의 비율을 계산합니다.
lora_percentage = round(
    used_memory_for_lora / max_memory * 100, 3
)  # 최대 메모리 대비 LoRA를 위해 사용된 메모리의 비율을 계산합니다.
print(
    f"{trainer_stats.metrics['train_runtime']} seconds used for training."
)  # 훈련에 사용된 시간을 초 단위로 출력합니다.
print(
    # 훈련에 사용된 시간을 분 단위로 출력합니다.
    f"{round(trainer_stats.metrics['train_runtime']/60, 2)} minutes used for training."
)
print(
    f"Peak reserved memory = {used_memory} GB."
)  # 예약된 최대 메모리를 GB 단위로 출력합니다.
print(
    f"Peak reserved memory for training = {used_memory_for_lora} GB."
)  # 훈련을 위해 예약된 최대 메모리를 GB 단위로 출력합니다.
print(
    f"Peak reserved memory % of max memory = {used_percentage} %."
)  # 최대 메모리 대비 예약된 메모리의 비율을 출력합니다.
print(
    f"Peak reserved memory for training % of max memory = {lora_percentage} %."
)  # 최대 메모리 대비 훈련을 위해 예약된 메모리의 비율을 출력합니다.

12699.5028 seconds used for training.
211.66 minutes used for training.
Peak reserved memory = 11.5 GB.
Peak reserved memory for training = 5.992 GB.
Peak reserved memory % of max memory = 143.75 %.
Peak reserved memory for training % of max memory = 74.9 %.


# 저장

In [46]:
# 모델과 토크나이저를 저장할 디렉토리 경로
save_directory = "finetuned_model"

# 모델과 토크나이저를 저장합니다.
model.save_pretrained(save_directory)
tokenizer.save_pretrained(save_directory)

('finetuned_model_merge\\tokenizer_config.json',
 'finetuned_model_merge\\special_tokens_map.json',
 'finetuned_model_merge\\tokenizer.json')

In [47]:
# Hub 에 업로드
# Hugging Face Hub에 모델과 토크나이저를 업로드
model.push_to_hub("Suchae/test-finetuned", use_auth_token="")
tokenizer.push_to_hub("Suchae/test-finetuned", use_auth_token="")



model-00002-of-00002.safetensors:   0%|          | 0.00/1.05G [00:00<?, ?B/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.65G [00:00<?, ?B/s]

Upload 2 LFS files:   0%|          | 0/2 [00:00<?, ?it/s]



README.md:   0%|          | 0.00/5.18k [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


CommitInfo(commit_url='https://huggingface.co/Suchae/test-finetuned-merge/commit/0d56d02984ee2ee4081c196813ebef7386d14bc6', commit_message='Upload tokenizer', commit_description='', oid='0d56d02984ee2ee4081c196813ebef7386d14bc6', pr_url=None, pr_revision=None, pr_num=None)