https://pytorch.org/blog/finetune-llms/

https://colab.research.google.com/drive/1vIjBtePIZwUaHWfjfNHzBjwuXOyU_ugD?usp=sharing

# 1. Load Environment & Huggingface, W&B login

In [1]:
import wandb
import os
os.environ["WANDB_PROJECT"]="QLoRA_Instruction_finetune_04"

wandb.login()

Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33maeolian83[0m. Use [1m`wandb login --relogin`[0m to force relogin


True

In [2]:
from datasets import load_dataset
from huggingface_hub import login
from dotenv import load_dotenv

load_dotenv()


login(token= os.environ["HF_TOKEN"])

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /home/aeolian83/.cache/huggingface/token
Login successful


# 2. Dataset Load

- 이 시스템에서는 작업을 외장하드에서 하고 있기 때문에 캐쉬폴더를 별도로 지정(In this system, tasks are being performed on an external hard drive, so a separate cache folder is specified.)

In [3]:
ko_instruction_01 = load_dataset("nlpai-lab/kullm-v2", cache_dir="/mnt/t7/.cache/huggingface/datasets", split="train")

In [4]:
ko_instruction_01 = ko_instruction_01.shuffle(seed=2160)

In [5]:
ko_instruction_01

Dataset({
    features: ['id', 'instruction', 'input', 'output'],
    num_rows: 152630
})

In [6]:
ko_instruction_01 = ko_instruction_01.train_test_split(test_size=0.5)

In [7]:
ko_instruction_01

DatasetDict({
    train: Dataset({
        features: ['id', 'instruction', 'input', 'output'],
        num_rows: 76315
    })
    test: Dataset({
        features: ['id', 'instruction', 'input', 'output'],
        num_rows: 76315
    })
})

In [8]:
# ko_instruction_01 = ko_instruction_01['train'].train_test_split(test_size=0.9)

# 3. Model Load

- QLoRA로 finetune을 하기위해 일반 7B 모델을 BitsAndBytes를 통해 양자화(4bit quantization)하여 로드, 훈련속도 향상을 위해 데이터 타입을 fp32가 아니라 fp16으로 로드(차후에는 bf16으로 로드해서 훈련예정)
- To finetune with QLoRA, a standard 7B model is quantized (4-bit quantization) through BitsAndBytes for loading, and to improve training speed, the data type is loaded as fp16 instead of fp32 (with plans to load and train with bf16 in the future).


```python

quantization_config=BitsAndBytesConfig(
        load_in_4bit=True,
        llm_int8_threshold=6.0,
        llm_int8_has_fp16_weight=False,
        bnb_4bit_compute_dtype=torch.bfloat16,
        bnb_4bit_use_double_quant=True,
        bnb_4bit_quant_type="nf4",
    ),
```

### *Reference

- https://github.com/huggingface/peft/blob/main/examples/fp4_finetuning/finetune_fp4_opt_bnb_peft.py
- https://colab.research.google.com/drive/19AFEOrCI6-bc7h9RTso_NndRwXJRaJ25?usp=sharing

In [9]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from peft import LoraConfig

In [10]:
checkpoint_dir = "./checkpoint/experi_04"
model_id = "beomi/llama-2-ko-7b"
device_map = {"": 0}
cache_model_dir="/mnt/t7/.cache/huggingface/models"

In [11]:
# 4bit QLoRA 학습을 위한 설정
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_quant_type="nf4"
)

In [12]:
model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=quantization_config, device_map=device_map, cache_dir=cache_model_dir)

Loading checkpoint shards:   0%|          | 0/15 [00:00<?, ?it/s]

In [13]:
lora_config = LoraConfig(
    r=8,
    target_modules=["q_proj", "o_proj", "k_proj", "v_proj", "gate_proj", "up_proj", "down_proj"],
    bias="none",
    task_type="CAUSAL_LM",
)

model.add_adapter(lora_config)

In [14]:
# model.config.use_cache = False
# model.config.pretraining_tp = 1

In [15]:
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)

tokenizer.add_special_tokens({'pad_token': '<PAD>'})
# tokenizer.pad_token = tokenizer.eos_token

# 학습 진행 중 loss가 치솟다가 0.0으로 떨어지는 문제 해결을 위해 사용
# tokenizer.padding_side = "right"

1

In [16]:
def format_instruction(sample):
    system_prompt = f"### instruction: {sample['instruction']}"
    input = f"### input: {sample['input']}" if len(sample["input"]) > 0 else None
    output = f"### output: {sample['output']}"
    # join all the parts together
    prompt = "\n\n".join([i for i in [system_prompt, input, output] if i is not None])
    return prompt

# template dataset to add prompt to each sample
def template_dataset(sample):
    sample["text"] = f"{format_instruction(sample)}{tokenizer.eos_token}"
    return sample

In [17]:
train_dataset = ko_instruction_01['train'].map(template_dataset, remove_columns=list(ko_instruction_01['train'].features), num_proc=10)

Map (num_proc=10):   0%|          | 0/76315 [00:00<?, ? examples/s]

In [18]:
train_dataset

Dataset({
    features: ['text'],
    num_rows: 76315
})

In [19]:
train_dataset["text"][1000]

'### instruction: 동료나 선배가 회의에서 발언하려고 할 때마다 계속 방해합니다. 이런 상황에서는 어떻게 대처하시겠습니까?\n\n### output: 회의에서 발언하려고 할 때마다 동료나 선배가 계속 저를 방해한다면, 저는 다음 단계를 통해 상황을 처리할 것입니다:1. 침착하고 평정심을 유지합니다: 침착하고 평정심을 유지하는 것이 중요하며, 방해가 제 감정에 영향을 미치거나 회의의 목적에 방해가 되지 않도록 하는 것이 중요합니다.2. 정중하게 내 요점 주장하기: 정중하지만 단호하게 내 요점을 주장하고 상대방이 끼어들기 전에 내 생각을 마칠 수 있게 해달라고 요청합니다. "실례합니다, 제 말을 마무리해도 될까요?" 또는 "응답하기 전에 제 말을 끝내 주시면 감사하겠습니다."와 같은 문구를 사용합니다.3. 적극적으로 경청하는 모습을 보여주세요: 상대방의 요점을 인정하고 사려 깊은 답변을 제공함으로써 적극적으로 경청하는 모습을 보이는 것이 중요합니다. 이렇게 함으로써 내가 대화에 참여하고 있다는 것을 보여줄 수 있고 상대방도 나의 예의에 화답하도록 유도할 수 있습니다.4. 방해에 대처하기: 상대방이 계속해서 제 말을 끊는다면 "다른 관점을 가지고 있다는 것은 이해하지만, 제 생각을 마칠 수 있게 해 주시면 답변하는 데 도움이 될 것 같습니다."와 같이 직접 문제를 해결합니다.5. 그 사람과 개인적으로 이야기합니다: 위의 단계를 시도한 후에도 방해가 계속되는 경우, 회의가 끝난 후 상대방과 개인적으로 이야기하여 우려 사항을 공유합니다. 건설적인 방식으로 대화를 나누고 우리 모두에게 도움이 되는 해결책을 찾으려고 노력합니다.요약하자면, 회의 중에 동료나 선배가 계속 제 말을 끊는다면 침착함을 유지하고, 정중하게 내 주장을 주장하며, 적극적으로 경청하는 태도를 보이고, 방해 행위를 직접 해결하고, 필요한 경우 그 사람과 개인적으로 이야기합니다. 이러한 조치를 취함으로써 저는 제 아이디어가 전문적이고 건설적인 방식으로 경청되고 가치를 인정받을 수 있습니다.</

In [20]:
train_dataset["text"][3000]

'### instruction: 뉴욕에서 5일간 여행할 수 있는 프로그램을 계획하는 데 도움을 주실 수 있나요? 아이 3명, 부모님\n\n### output: 물론이죠! 가족을 위한 5일간의 뉴욕 여행을 계획하는 데 기꺼이 도와드리겠습니다. 어린이를 동반한 가족에게 적합한 여행 일정을 소개합니다:1일차:* 상징적인 자유의 여신상과 엘리스 아일랜드 방문으로 하루를 시작하세요. 사전에 티켓을 예약하세요.* 그 후 배터리 공원을 산책하며 해안가와 뉴욕 항구를 감상하세요. 근처에 있는 많은 포장마차나 레스토랑에서 점심을 드실 수도 있습니다.* 오후에는 국립 9/11 기념관 및 박물관으로 향하세요. 아이들에게 교육적인 경험이 될 수 있는 감동적인 체험입니다.* 유서 깊은 사우스 스트리트 항구를 산책하고 거리 공연자와 음악가들을 구경하며 하루를 마무리하세요.2일차:* 센트럴 파크 방문으로 하루를 시작하세요. 자전거를 빌리거나 공원을 여유롭게 산책할 수 있습니다. 센트럴 파크 동물원과 센트럴 파크 컨서버토리 가든도 꼭 들러보세요.* 오후에는 미국 자연사 박물관으로 향하세요. 이 박물관에는 공룡 화석, 대왕고래 등 3,000만 개가 넘는 표본이 전시되어 있습니다.* 타임스퀘어 방문으로 하루를 마무리하세요. 아이들은 밝은 조명과 거리 공연자, 그리고 이 지역의 전반적인 에너지를 즐길 수 있습니다.셋째 날:* 엠파이어 스테이트 빌딩 방문으로 하루를 시작하세요. 인파를 피하고 전망대에서 멋진 경치를 즐기려면 일찍 도착하세요.* 다음으로 인트레피드 바다, 항공 및 우주 박물관으로 향하세요. 이 박물관에는 역사적인 항공기, 우주선 및 해군 선박 컬렉션이 전시되어 있습니다.* 오후에는 브루클린 다리를 건너 도시 스카이라인의 장관을 감상하며 산책을 즐겨 보세요.* 브루클린의 윌리엄스버그 또는 덤보의 트렌디한 동네를 둘러보며 하루를 마무리하세요. 두 지역 모두 훌륭한 레스토랑과 상점이 많이 있습니다.4일차:* 메트로폴리탄 미술관 방문으로 하루를 시작하세요. 이 박물관은 전 세계의 방대한 

In [21]:
train_dataset["text"][3230]

'### instruction: 도커와 VM 머신의 차이점을 이해하지 못했나요?\n\n### output: Docker와 가상 머신(VM)은 모두 격리된 환경에서 애플리케이션을 실행하는 데 사용할 수 있는 도구입니다. 그러나 둘 사이에는 몇 가지 주요 차이점이 있습니다.Docker와 VM의 주요 차이점 중 하나는 VM은 하이퍼바이저에서 실행되는 반면, Docker 컨테이너는 호스트 운영 체제에서 실행된다는 점입니다. 즉, VM은 실행에 메모리 및 스토리지와 같은 더 많은 리소스가 필요한 반면, Docker 컨테이너는 더 가볍고 효율적입니다.또 다른 주요 차이점은 VM은 각 애플리케이션에 대해 완전한 독립형 운영 체제를 제공하는 반면, Docker 컨테이너는 호스트 운영 체제를 공유하며 애플리케이션을 실행하는 데 필요한 라이브러리와 종속성만 포함한다는 것입니다. 즉, Docker 컨테이너는 이식성이 뛰어나고 다른 환경 간에 쉽게 이동할 수 있는 반면, VM은 더 격리되어 있으며 특정 운영 체제나 구성이 필요한 애플리케이션에 더 적합합니다.전반적으로 Docker와 VM 중 어떤 것을 사용할지는 애플리케이션과 환경의 특정 요구사항에 따라 달라집니다. 휴대성과 가벼운 실행이 필요한 애플리케이션에는 Docker가 적합하며, 보다 격리되고 사용자 지정 가능한 환경이 필요한 애플리케이션에는 VM이 더 적합합니다.</s>'

In [22]:
train_dataset["text"][12312]

'### instruction: 미국 빈곤의 원인을 조사하는 논문에 대한 연구 개요를 작성합니다.\n\n### output: I. 서론\n    A. 빈곤의 정의\n    B. 미국의 빈곤에 대한 간략한 개요\n    C. 백서의 목적\n\nII. 미국의 빈곤에 대한 배경 정보\n    A. 빈곤에 관한 통계 데이터\n    B. 경제 역사 개요\n    C. 빈곤 문제를 해결하려는 정부 정책\n\nIII. 빈곤의 원인\n    A. 경제적 요인\n        1. 실업 및 불완전 고용\n        2. 소득 분배의 불평등\n        3. 교육 및 취업 기회에 대한 접근성 부족\n    B. 사회적 요인\n        1. 차별과 편견\n        2. 가족 구조\n        3. 건강 격차\n    C. 정부 정책\n        1. 부적절한 사회복지 프로그램\n        2. 세금 정책\n        3. 주택 정책\n    \nIV. 결론\n    가. 주요 내용 요약\n    나. 연구의 시사점\n    C. 향후 연구를 위한 제언.</s>'

In [23]:
# test_dataset = ko_instruction_01['test'].map(template_dataset, remove_columns=list(ko_instruction_01['test'].features), num_proc=10)

In [24]:
from transformers import TrainingArguments


output_dir = "./checkpoint/experi_04"
per_device_train_batch_size = 3
gradient_accumulation_steps = 1
optim = "paged_adamw_32bit"
report_to="wandb"
save_steps = 20
save_total_limit=10
logging_steps = 5
learning_rate = 2e-4
num_train_epochs=2
max_grad_norm = 0.3
max_steps = 1000
warmup_ratio = 0.03
lr_scheduler_type = "constant"

training_arguments = TrainingArguments(
    output_dir=output_dir,
    per_device_train_batch_size=per_device_train_batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,
    optim=optim,
    save_steps=save_steps,
    save_total_limit=save_total_limit,
    logging_steps=logging_steps,
    report_to = report_to,
    learning_rate=learning_rate,
    max_grad_norm=max_grad_norm,
    num_train_epochs = num_train_epochs,
    warmup_ratio=warmup_ratio,
    lr_scheduler_type=lr_scheduler_type,
    gradient_checkpointing=True,
)

In [25]:
from trl import SFTTrainer

trainer = SFTTrainer(
    model=model,
    args=training_arguments,
    train_dataset=train_dataset,
    dataset_text_field="text",
    packing=True,
    tokenizer=tokenizer,
    max_seq_length=1024,
)

Generating train split: 0 examples [00:00, ? examples/s]

dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False, even_batches=True, use_seedable_sampler=True)


In [26]:
trainer.train()


VBox(children=(Label(value='Waiting for wandb.init()...\r'), FloatProgress(value=0.011113756277740725, max=1.0…

  0%|          | 0/19176 [00:00<?, ?it/s]

`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.


{'loss': 2.8438, 'grad_norm': 0.8151676058769226, 'learning_rate': 0.0002, 'epoch': 0.0}
{'loss': 2.568, 'grad_norm': 0.5109564661979675, 'learning_rate': 0.0002, 'epoch': 0.0}
{'loss': 2.3867, 'grad_norm': 1.1732099056243896, 'learning_rate': 0.0002, 'epoch': 0.0}
{'loss': 2.1035, 'grad_norm': 0.33722248673439026, 'learning_rate': 0.0002, 'epoch': 0.0}




{'loss': 1.9351, 'grad_norm': 0.306474506855011, 'learning_rate': 0.0002, 'epoch': 0.0}
{'loss': 1.9709, 'grad_norm': 0.24044185876846313, 'learning_rate': 0.0002, 'epoch': 0.0}
{'loss': 1.9751, 'grad_norm': 0.26627326011657715, 'learning_rate': 0.0002, 'epoch': 0.0}
{'loss': 1.8948, 'grad_norm': 0.3147087097167969, 'learning_rate': 0.0002, 'epoch': 0.0}




{'loss': 2.1399, 'grad_norm': 0.36505916714668274, 'learning_rate': 0.0002, 'epoch': 0.0}
{'loss': 1.9744, 'grad_norm': 0.4032672941684723, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 1.8462, 'grad_norm': 0.30198007822036743, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 1.8538, 'grad_norm': 0.4558054506778717, 'learning_rate': 0.0002, 'epoch': 0.01}




{'loss': 1.7897, 'grad_norm': 0.34025025367736816, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 1.8472, 'grad_norm': 0.40893444418907166, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 2.0564, 'grad_norm': 0.3367737829685211, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 1.9384, 'grad_norm': 0.3827155530452728, 'learning_rate': 0.0002, 'epoch': 0.01}




{'loss': 1.9463, 'grad_norm': 0.4080278277397156, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 1.8186, 'grad_norm': 0.3134373724460602, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 1.8993, 'grad_norm': 0.38993674516677856, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 1.8732, 'grad_norm': 0.33301541209220886, 'learning_rate': 0.0002, 'epoch': 0.01}




{'loss': 1.9366, 'grad_norm': 0.3722999691963196, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 1.8441, 'grad_norm': 0.43778136372566223, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 1.9074, 'grad_norm': 0.4043634831905365, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 1.8586, 'grad_norm': 0.32572707533836365, 'learning_rate': 0.0002, 'epoch': 0.01}




{'loss': 1.8463, 'grad_norm': 0.3685901165008545, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 1.9585, 'grad_norm': 0.39792928099632263, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 1.8249, 'grad_norm': 0.4035135805606842, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 1.8108, 'grad_norm': 0.3798590302467346, 'learning_rate': 0.0002, 'epoch': 0.01}




{'loss': 1.9313, 'grad_norm': 0.5969040393829346, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 1.8913, 'grad_norm': 0.5150415897369385, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 1.8328, 'grad_norm': 0.39661872386932373, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 1.8109, 'grad_norm': 0.5594218969345093, 'learning_rate': 0.0002, 'epoch': 0.02}




{'loss': 1.7033, 'grad_norm': 0.415237158536911, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 1.8708, 'grad_norm': 0.5164604783058167, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 1.8827, 'grad_norm': 0.4539189338684082, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 1.9688, 'grad_norm': 0.44970518350601196, 'learning_rate': 0.0002, 'epoch': 0.02}




{'loss': 1.8961, 'grad_norm': 0.47629648447036743, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 2.0511, 'grad_norm': 0.4200817346572876, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 1.7233, 'grad_norm': 0.5094456672668457, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 1.9245, 'grad_norm': 0.55778968334198, 'learning_rate': 0.0002, 'epoch': 0.02}




{'loss': 1.9115, 'grad_norm': 0.8700292706489563, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 1.791, 'grad_norm': 0.4858096241950989, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 1.9416, 'grad_norm': 0.5518664121627808, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 1.9326, 'grad_norm': 0.7881174087524414, 'learning_rate': 0.0002, 'epoch': 0.02}




{'loss': 1.9572, 'grad_norm': 0.41201847791671753, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 1.8544, 'grad_norm': 0.5311712026596069, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 1.937, 'grad_norm': 0.4582647383213043, 'learning_rate': 0.0002, 'epoch': 0.02}
{'loss': 1.9392, 'grad_norm': 0.4270186722278595, 'learning_rate': 0.0002, 'epoch': 0.03}




{'loss': 1.8078, 'grad_norm': 0.3908226191997528, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 1.9191, 'grad_norm': 0.38801509141921997, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 1.9117, 'grad_norm': 0.4320867955684662, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 1.7808, 'grad_norm': 0.516696035861969, 'learning_rate': 0.0002, 'epoch': 0.03}




{'loss': 1.7889, 'grad_norm': 0.4847352206707001, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 1.9645, 'grad_norm': 0.48175740242004395, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 1.7785, 'grad_norm': 0.4427056312561035, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 1.9025, 'grad_norm': 0.4763866662979126, 'learning_rate': 0.0002, 'epoch': 0.03}




{'loss': 1.7975, 'grad_norm': 0.512148380279541, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 1.804, 'grad_norm': 0.41782137751579285, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 1.9413, 'grad_norm': 0.5582929253578186, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 1.925, 'grad_norm': 0.4915519654750824, 'learning_rate': 0.0002, 'epoch': 0.03}




{'loss': 1.8568, 'grad_norm': 0.500060498714447, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 1.8445, 'grad_norm': 0.5539302229881287, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 2.0211, 'grad_norm': 0.601305365562439, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 1.7263, 'grad_norm': 0.39714375138282776, 'learning_rate': 0.0002, 'epoch': 0.03}




{'loss': 1.9552, 'grad_norm': 0.6298215389251709, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 1.9701, 'grad_norm': 0.4341321885585785, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 1.8377, 'grad_norm': 0.5479922890663147, 'learning_rate': 0.0002, 'epoch': 0.03}
{'loss': 1.7629, 'grad_norm': 0.4446237087249756, 'learning_rate': 0.0002, 'epoch': 0.04}




{'loss': 1.8226, 'grad_norm': 0.43582475185394287, 'learning_rate': 0.0002, 'epoch': 0.04}
{'loss': 1.7017, 'grad_norm': 0.5314765572547913, 'learning_rate': 0.0002, 'epoch': 0.04}
{'loss': 1.7868, 'grad_norm': 0.6836410164833069, 'learning_rate': 0.0002, 'epoch': 0.04}
{'loss': 1.986, 'grad_norm': 0.47349828481674194, 'learning_rate': 0.0002, 'epoch': 0.04}




{'loss': 1.9504, 'grad_norm': 0.49403882026672363, 'learning_rate': 0.0002, 'epoch': 0.04}
{'loss': 1.9978, 'grad_norm': 1.04531991481781, 'learning_rate': 0.0002, 'epoch': 0.04}
{'loss': 1.9755, 'grad_norm': 0.4066174328327179, 'learning_rate': 0.0002, 'epoch': 0.04}
{'loss': 1.7601, 'grad_norm': 0.4807087779045105, 'learning_rate': 0.0002, 'epoch': 0.04}




{'loss': 1.7742, 'grad_norm': 0.48535242676734924, 'learning_rate': 0.0002, 'epoch': 0.04}
{'loss': 1.8858, 'grad_norm': 0.4662754535675049, 'learning_rate': 0.0002, 'epoch': 0.04}
{'loss': 1.8886, 'grad_norm': 0.7733725905418396, 'learning_rate': 0.0002, 'epoch': 0.04}
{'loss': 1.9763, 'grad_norm': 0.5598810911178589, 'learning_rate': 0.0002, 'epoch': 0.04}




{'loss': 1.7986, 'grad_norm': 0.5585771203041077, 'learning_rate': 0.0002, 'epoch': 0.04}
{'loss': 1.8162, 'grad_norm': 0.515970766544342, 'learning_rate': 0.0002, 'epoch': 0.04}
{'loss': 1.9247, 'grad_norm': 0.45261287689208984, 'learning_rate': 0.0002, 'epoch': 0.04}
{'loss': 1.9691, 'grad_norm': 0.49826768040657043, 'learning_rate': 0.0002, 'epoch': 0.04}




{'loss': 1.7927, 'grad_norm': 0.5330497622489929, 'learning_rate': 0.0002, 'epoch': 0.04}
{'loss': 1.9026, 'grad_norm': 0.4904668927192688, 'learning_rate': 0.0002, 'epoch': 0.04}
{'loss': 1.7927, 'grad_norm': 0.504016637802124, 'learning_rate': 0.0002, 'epoch': 0.05}
{'loss': 1.9238, 'grad_norm': 0.5446527004241943, 'learning_rate': 0.0002, 'epoch': 0.05}




{'loss': 1.9101, 'grad_norm': 0.4311606287956238, 'learning_rate': 0.0002, 'epoch': 0.05}
{'loss': 1.8057, 'grad_norm': 0.454147607088089, 'learning_rate': 0.0002, 'epoch': 0.05}
{'loss': 1.7452, 'grad_norm': 0.4750872552394867, 'learning_rate': 0.0002, 'epoch': 0.05}
{'loss': 1.8389, 'grad_norm': 0.45679759979248047, 'learning_rate': 0.0002, 'epoch': 0.05}




{'loss': 1.9269, 'grad_norm': 0.5630127191543579, 'learning_rate': 0.0002, 'epoch': 0.05}
{'loss': 1.7842, 'grad_norm': 0.4675162136554718, 'learning_rate': 0.0002, 'epoch': 0.05}
{'loss': 1.8678, 'grad_norm': 0.5406028032302856, 'learning_rate': 0.0002, 'epoch': 0.05}
{'loss': 2.0263, 'grad_norm': 0.5559172630310059, 'learning_rate': 0.0002, 'epoch': 0.05}




{'loss': 1.916, 'grad_norm': 0.5068910121917725, 'learning_rate': 0.0002, 'epoch': 0.05}
{'loss': 1.7867, 'grad_norm': 0.6899601221084595, 'learning_rate': 0.0002, 'epoch': 0.05}
{'loss': 1.7218, 'grad_norm': 0.6161937117576599, 'learning_rate': 0.0002, 'epoch': 0.05}
{'loss': 1.8428, 'grad_norm': 0.5178557634353638, 'learning_rate': 0.0002, 'epoch': 0.05}




{'loss': 1.8542, 'grad_norm': 0.515967071056366, 'learning_rate': 0.0002, 'epoch': 0.05}
{'loss': 1.8056, 'grad_norm': 0.5255308747291565, 'learning_rate': 0.0002, 'epoch': 0.05}
{'loss': 1.8419, 'grad_norm': 0.4430941939353943, 'learning_rate': 0.0002, 'epoch': 0.05}
{'loss': 1.8522, 'grad_norm': 0.5634081959724426, 'learning_rate': 0.0002, 'epoch': 0.05}




{'loss': 1.8008, 'grad_norm': 0.4711591601371765, 'learning_rate': 0.0002, 'epoch': 0.05}
{'loss': 1.7446, 'grad_norm': 0.533434271812439, 'learning_rate': 0.0002, 'epoch': 0.06}
{'loss': 1.9943, 'grad_norm': 0.5148230195045471, 'learning_rate': 0.0002, 'epoch': 0.06}
{'loss': 1.788, 'grad_norm': 0.4638107419013977, 'learning_rate': 0.0002, 'epoch': 0.06}




{'loss': 1.7587, 'grad_norm': 0.505171000957489, 'learning_rate': 0.0002, 'epoch': 0.06}
{'loss': 2.0146, 'grad_norm': 0.4619484841823578, 'learning_rate': 0.0002, 'epoch': 0.06}
{'loss': 1.938, 'grad_norm': 0.4720548093318939, 'learning_rate': 0.0002, 'epoch': 0.06}
{'loss': 1.6518, 'grad_norm': 0.7279320955276489, 'learning_rate': 0.0002, 'epoch': 0.06}




{'loss': 1.8882, 'grad_norm': 0.6208555102348328, 'learning_rate': 0.0002, 'epoch': 0.06}
{'loss': 1.9408, 'grad_norm': 0.5806399583816528, 'learning_rate': 0.0002, 'epoch': 0.06}
{'loss': 1.7492, 'grad_norm': 0.7753583192825317, 'learning_rate': 0.0002, 'epoch': 0.06}
{'loss': 1.8211, 'grad_norm': 0.5208086371421814, 'learning_rate': 0.0002, 'epoch': 0.06}




{'loss': 1.7966, 'grad_norm': 0.5538206696510315, 'learning_rate': 0.0002, 'epoch': 0.06}
{'loss': 1.8548, 'grad_norm': 0.5811254978179932, 'learning_rate': 0.0002, 'epoch': 0.06}
{'loss': 1.8381, 'grad_norm': 0.4040652811527252, 'learning_rate': 0.0002, 'epoch': 0.06}
{'loss': 1.8966, 'grad_norm': 0.5584394931793213, 'learning_rate': 0.0002, 'epoch': 0.06}




{'loss': 1.6174, 'grad_norm': 0.5729421377182007, 'learning_rate': 0.0002, 'epoch': 0.06}
{'loss': 1.9071, 'grad_norm': 0.5408519506454468, 'learning_rate': 0.0002, 'epoch': 0.06}
{'loss': 2.004, 'grad_norm': 0.4370625615119934, 'learning_rate': 0.0002, 'epoch': 0.06}
{'loss': 1.733, 'grad_norm': 0.6436948776245117, 'learning_rate': 0.0002, 'epoch': 0.06}




{'loss': 2.0391, 'grad_norm': 0.5857195854187012, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 1.7737, 'grad_norm': 0.5405424237251282, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 1.9035, 'grad_norm': 0.6161229014396667, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 1.8357, 'grad_norm': 0.5005295276641846, 'learning_rate': 0.0002, 'epoch': 0.07}




{'loss': 1.6843, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}




{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}




{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}




{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.07}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}




{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}




{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}




{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}




{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}




{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.08}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.09}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.09}




{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.09}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.09}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.09}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.09}




{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.09}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.09}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.09}
{'loss': 0.0, 'grad_norm': nan, 'learning_rate': 0.0002, 'epoch': 0.09}




KeyboardInterrupt: 

### 허깅페이스에서 훈련 도중 러닝레이트가 수정 안되는 경우가 많다 한다. 
- 스케쥴러 변경을 시도해 보기로 한다. 

In [None]:
output_dir = "./results/experi_04"

In [None]:
trainer.model.save_pretrained(output_dir)