## 참고
https://rocm.blogs.amd.com/artificial-intelligence/llama2-lora/README.html  
https://blog.sionic.ai/finetuning_llama

In [2]:
from datasets import load_dataset, Dataset
import datasets
from random import randrange
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM,TrainingArguments,pipeline, BitsAndBytesConfig, DataCollatorForSeq2Seq
from peft import LoraConfig, prepare_model_for_kbit_training, get_peft_model, AutoPeftModelForCausalLM, PeftModel
from trl import SFTTrainer

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
import os

current_dir = os.getcwd()
gemma_model_dir = os.path.join(current_dir, "../gemma-2-2b")
gemma_model = "google/gemma-2-2b"

In [4]:

from huggingface_hub import login
login(token="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")

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to C:\Users\kimbo\.cache\huggingface\token
Login successful


In [4]:
use_model = gemma_model_dir
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=use_model,
    torch_dtype=torch.float16,
    device_map='cuda:0',
    use_cache=False,
    )

#Makes training faster but a little less accurate
model.config.pretraining_tp = 1
model.config.use_cache = False

tokenizer = AutoTokenizer.from_pretrained(
    pretrained_model_name_or_path=use_model,
    trust_remote_code=True
)

# 동일한 batch 내에서 입력의 크기를 동일하기 위해서 사용하는 Padding Token을 End of Sequence라고 하는 Special Token으로 사용한다.
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

Loading checkpoint shards: 100%|██████████| 3/3 [00:14<00:00,  4.69s/it]


In [5]:
#train & test.json are in same folder as the jupyter notebook
data_files = {'train':'../preprocessing/train.json','test':'../preprocessing/test.json'}
dataset = load_dataset('json',data_files=data_files)

In [6]:
print(dataset['train'])

Dataset({
    features: ['formal', 'informal'],
    num_rows: 3432
})


## train prompt format

<start_of_turn>user</br>
What is Cramer's Rule?<end_of_turn></br>
<start_of_turn>model</br>
Cramer's Rule is ...<end_of_turn>

## test prompt format

<start_of_turn>user</br>
What is Cramer's Rule?<end_of_turn></br>
<start_of_turn>model</br>

In [7]:
# 첫번째 format 형태
# word =f'Instruction:\n{i['formal']}\n\nResponse:\n{i['informal']}'
train_list = []
test_list = []
for i in dataset['train']:
  word = {'text':f"<start_of_turn>user\n{i['formal']}<end_of_turn>\n<start_of_turn>model\n{i['informal']}<end_of_turn>"}
  train_list.append(word)
for i in dataset['test']:
  word = {'text':f"<start_of_turn>\n{i['formal']}<end_of_turn>\n<start_of_turn>model\n{i['informal']}<end_of_turn>"}
  test_list.append(word)

train_dataset = Dataset.from_list(train_list)
test_dataset = Dataset.from_list(test_list)

In [8]:
def tokenize(prompt, add_eos_token=True):
    cutoff_len = 8196
    
    result = tokenizer(
        prompt,
        truncation=True,
        max_length=cutoff_len,
        padding=False,
        return_tensors=None,
    )
    if (
        result["input_ids"][-1] != tokenizer.eos_token_id
        and len(result["input_ids"]) < cutoff_len
        and add_eos_token
    ):
        result["input_ids"].append(tokenizer.eos_token_id)
        result["attention_mask"].append(1)

    result["labels"] = result["input_ids"].copy()
    result["text"] = prompt

    return result

def generate_and_tokenize_prompt(data_point):
    return tokenize(data_point["text"])

train_data = (
    train_dataset
    .map(generate_and_tokenize_prompt)
    .filter(lambda x: len(x["labels"]) <= 2048)
)

Map: 100%|██████████| 3432/3432 [00:00<00:00, 5681.09 examples/s]
Filter: 100%|██████████| 3432/3432 [00:00<00:00, 12848.13 examples/s]


## Lora 파라미터 설정

In [9]:
# LoRA에서 사용하는 low-rank matrices 어텐션 차원을 정의. 여기서는 64로 설정
# 값이 크면 클수록 더 많은 수정이 이루어지며, 모델이 더 복잡해질 수 있음
lora_r = 64

# LoRA 적용 시 가중치에 곱해지는 스케일링 요소. 여기서는 16으로 설정
# LoRA가 적용될 때 원래 모델의 가중치에 얼마나 영향을 미칠지 결정. 높은 값은 가중치 조정의 강도를 증가시킴
lora_alpha = 16

# Dropout probability for LoRA layers   # LoRA 층에 적용되는 드롭아웃 확률. 여기서는 0.1 (10%)로 설정
lora_dropout = 0.1 # 일부 네트워크 연결을 무작위로 비활성화하여 모델의 강건함에 기여

## bitsandbytes 파라미터 설정

In [10]:
# 4-bit precision 기반의 모델 로드
use_4bit = True

# 4비트 기반 모델에 대한 dtype 계산
bnb_4bit_compute_dtype = "float16"

# 양자화 유형(fp4 또는 nf4)
bnb_4bit_quant_type = "nf4"

# 4비트 기 모델에 대해 중첩 양자화 활성화(이중 양자화)
use_nested_quant = False

## TrainingArguments 파라미터 설정

In [11]:
#모델이 예측한 결과와 체크포인트가 저장될 출력 디렉터리
output_dir = "./results"

# 훈련 에포크 수
num_train_epochs = 1

# fp16/bf16 학습 활성화(A100으로 bf16을 True로 설정)
fp16 = False
bf16 = False

# 훈련용 배치 크기
per_device_train_batch_size = 2

# 평가용 배치 크기
per_device_eval_batch_size = 1

# 그래디언트를 누적할 업데이트 스텝 횟수
gradient_accumulation_steps = 1

# 그래디언트 체크포인트 활성화
gradient_checkpointing = True


# 그래디언트 클리핑을 위한 최대 그래디언트 노름을 설정.
# 그래디언트 클리핑은 그래디언트의 크기를 제한하여 훈련 중 안정성을 높임.
# Maximum gradient normal (그래디언트 클리핑) 0.3으로 설정
max_grad_norm = 0.3

# 초기 학습률 AdamW 옵티마이저
learning_rate = 2e-6

# bias/LayerNorm 가중치를 제외하고 모든 레이어에 적용할 Weight decay 값
weight_decay = 0.001

# 옵티마이저 설정
optim = "paged_adamw_32bit"

# 학습률 스케줄러의 유형 설정, 여기서는 코사인 스케줄러 사용
lr_scheduler_type = "cosine"

# 훈련 스텝 수(num_train_epochs 재정의)
max_steps = -1

# (0부터 learning rate까지) 학습 초기에 학습률을 점진적으로 증가시키 linear warmup 스텝의 Ratio
warmup_ratio = 0.03

# 시퀀스를 동일한 길이의 배치로 그룹화, 메모리 절약 및 훈련 속도를 높임
group_by_length = True

# X 업데이트 단계마다 체크포인트 저장
save_steps = 0

# 매 X 업데이트 스텝 로그
logging_steps = 25

## SFT 파라미터 설정

In [12]:
# 최대 시퀀스 길이 설정
max_seq_length = None

# 동일한 입력 시퀀스에 여러 개의 짧은 예제를 넣어 효율성을 높일 수 있음
packing = False

# GPU 0 전체 모델 로드
device_map = 'cuda:0'

In [13]:
compute_dtype = getattr(torch, bnb_4bit_compute_dtype)
# 모델 계산에 사용될 데이터 타입 결정
bnb_config = BitsAndBytesConfig(
    load_in_4bit=use_4bit,  # 모델을 4비트로 로드할지 여부를 결정
    bnb_4bit_quant_type=bnb_4bit_quant_type, # 양자화 유형을 설정
    bnb_4bit_compute_dtype=compute_dtype,  # 계산에 사용될 데이터 타입을 설정
    bnb_4bit_use_double_quant=use_nested_quant, # 중첩 양자화를 사용할지 여부를 결정
)

## GPU 호환성 확인

In [14]:
# 만약 GPU가 최소한 버전 8 이상이라면 (major >= 8) bfloat16을 지원한다고 메시지를 출력.
# bfloat16은 훈련 속도를 높일 수 있는 데이터 타입.

if compute_dtype == torch.float16 and use_4bit:
    major, _ = torch.cuda.get_device_capability()
    if major >= 8:
        print("=" * 80)
        print("Your GPU supports bfloat16: accelerate training with bf16=True")
        print("=" * 80)

Your GPU supports bfloat16: accelerate training with bf16=True


In [15]:
# Load LoRA configuration
peft_config = LoraConfig(
    lora_alpha=lora_alpha,
    lora_dropout=lora_dropout,
    r=lora_r,
    bias="none",
    task_type="CAUSAL_LM", # 파인튜닝할 태스크를 Optional로 지정할 수 있는데, 여기서는 CASUAL_LM을 지정하였다.
)

In [16]:
# Set training parameters
training_arguments = TrainingArguments(
    output_dir=output_dir,
    num_train_epochs=num_train_epochs,
    per_device_train_batch_size=per_device_train_batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,
    optim=optim,
    save_steps=save_steps,
    logging_steps=logging_steps,
    learning_rate=learning_rate,
    weight_decay=weight_decay,
    fp16=fp16,
    bf16=bf16,
    max_grad_norm=max_grad_norm,
    max_steps=max_steps,
    warmup_ratio=warmup_ratio,
    group_by_length=group_by_length,
    lr_scheduler_type=lr_scheduler_type,
    report_to="tensorboard"
)

In [17]:
data_collator = DataCollatorForSeq2Seq(
    tokenizer, pad_to_multiple_of=8, return_tensors="pt", padding=True
)

In [18]:
# Set supervised fine-tuning parameters
trainer = SFTTrainer(
    model=model,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    peft_config=peft_config,
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    tokenizer=tokenizer,
    args=training_arguments,
    packing=packing,
)


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.
Map: 100%|██████████| 3432/3432 [00:00<00:00, 22889.37 examples/s]
Map: 100%|██████████| 38/38 [00:00<00:00, 7569.15 examples/s]


In [19]:
trainer.train()
new_model="gemma-2-lora"
# 훈련이 완료된 모델을 'new_model'에 저장
trainer.model.save_pretrained(new_model)

  0%|          | 0/1716 [00:00<?, ?it/s]It is strongly recommended to train Gemma2 models with the `eager` attention implementation instead of `sdpa`. Use `eager` with `AutoModelForCausalLM.from_pretrained('<path-to-checkpoint>', attn_implementation='eager')`.
  attn_output = torch.nn.functional.scaled_dot_product_attention(
  1%|▏         | 25/1716 [04:25<3:10:24,  6.76s/it]

{'loss': 3.8283, 'grad_norm': 1.3108439445495605, 'learning_rate': 9.615384615384615e-07, 'epoch': 0.01}


  3%|▎         | 50/1716 [06:34<1:46:37,  3.84s/it]

{'loss': 5.7863, 'grad_norm': 3.570533275604248, 'learning_rate': 1.923076923076923e-06, 'epoch': 0.03}


  4%|▍         | 75/1716 [11:06<3:43:50,  8.18s/it]

{'loss': 3.7648, 'grad_norm': 1.244729995727539, 'learning_rate': 1.999057349863474e-06, 'epoch': 0.04}


  6%|▌         | 100/1716 [13:29<1:59:53,  4.45s/it]

{'loss': 5.2077, 'grad_norm': 2.4793920516967773, 'learning_rate': 1.995896557617091e-06, 'epoch': 0.06}


  7%|▋         | 125/1716 [18:18<4:02:38,  9.15s/it]

{'loss': 3.4794, 'grad_norm': 1.470475435256958, 'learning_rate': 1.9905175346157473e-06, 'epoch': 0.07}


  9%|▊         | 150/1716 [21:01<2:13:57,  5.13s/it]

{'loss': 4.7193, 'grad_norm': 2.884037494659424, 'learning_rate': 1.9829322619373586e-06, 'epoch': 0.09}


 10%|█         | 175/1716 [25:32<3:42:46,  8.67s/it]

{'loss': 3.4992, 'grad_norm': 1.4326543807983398, 'learning_rate': 1.973157634795602e-06, 'epoch': 0.1}


 12%|█▏        | 200/1716 [27:58<1:54:23,  4.53s/it]

{'loss': 4.9348, 'grad_norm': 4.216427803039551, 'learning_rate': 1.9612154249080087e-06, 'epoch': 0.12}


 13%|█▎        | 225/1716 [32:46<3:23:58,  8.21s/it]

{'loss': 3.385, 'grad_norm': 1.5545883178710938, 'learning_rate': 1.947132232002285e-06, 'epoch': 0.13}


 15%|█▍        | 250/1716 [35:20<2:10:00,  5.32s/it]

{'loss': 4.5918, 'grad_norm': 2.971945285797119, 'learning_rate': 1.9309394245688536e-06, 'epoch': 0.15}


 16%|█▌        | 275/1716 [39:57<3:21:18,  8.38s/it]

{'loss': 3.219, 'grad_norm': 1.5108580589294434, 'learning_rate': 1.912673069991606e-06, 'epoch': 0.16}


 17%|█▋        | 300/1716 [42:26<1:50:15,  4.67s/it]

{'loss': 4.43, 'grad_norm': 4.285124778747559, 'learning_rate': 1.8923738542124643e-06, 'epoch': 0.17}


 19%|█▉        | 325/1716 [47:15<3:06:10,  8.03s/it]

{'loss': 3.0986, 'grad_norm': 1.5533006191253662, 'learning_rate': 1.8700869911087114e-06, 'epoch': 0.19}


 20%|██        | 350/1716 [49:48<2:05:56,  5.53s/it]

{'loss': 4.1201, 'grad_norm': 2.8087158203125, 'learning_rate': 1.8458621217849284e-06, 'epoch': 0.2}


 22%|██▏       | 375/1716 [54:34<3:13:00,  8.64s/it]

{'loss': 3.0502, 'grad_norm': 1.6573121547698975, 'learning_rate': 1.8197532040038546e-06, 'epoch': 0.22}


 23%|██▎       | 400/1716 [57:04<1:34:01,  4.29s/it]

{'loss': 4.1053, 'grad_norm': 4.574338436126709, 'learning_rate': 1.791818392002452e-06, 'epoch': 0.23}


 25%|██▍       | 425/1716 [1:01:44<3:06:22,  8.66s/it]

{'loss': 2.9424, 'grad_norm': 1.7405929565429688, 'learning_rate': 1.7621199069608628e-06, 'epoch': 0.25}


 26%|██▌       | 450/1716 [1:04:17<1:34:00,  4.46s/it]

{'loss': 3.899, 'grad_norm': 4.72987699508667, 'learning_rate': 1.730723898412783e-06, 'epoch': 0.26}


 28%|██▊       | 475/1716 [1:08:54<2:59:15,  8.67s/it]

{'loss': 2.8588, 'grad_norm': 1.599245548248291, 'learning_rate': 1.69770029690593e-06, 'epoch': 0.28}


 29%|██▉       | 500/1716 [1:11:21<1:31:37,  4.52s/it]

{'loss': 3.8447, 'grad_norm': 3.7458689212799072, 'learning_rate': 1.6631226582407952e-06, 'epoch': 0.29}


 31%|███       | 525/1716 [1:15:46<2:45:26,  8.33s/it]

{'loss': 2.8412, 'grad_norm': 1.7310657501220703, 'learning_rate': 1.6270679996346129e-06, 'epoch': 0.31}


 32%|███▏      | 550/1716 [1:18:13<1:21:59,  4.22s/it]

{'loss': 3.6605, 'grad_norm': 4.252100467681885, 'learning_rate': 1.589616628175472e-06, 'epoch': 0.32}


 34%|███▎      | 575/1716 [1:22:37<2:29:58,  7.89s/it]

{'loss': 2.814, 'grad_norm': 2.150968551635742, 'learning_rate': 1.5508519619486648e-06, 'epoch': 0.34}


 35%|███▍      | 600/1716 [1:25:07<1:26:30,  4.65s/it]

{'loss': 3.5827, 'grad_norm': 3.649294853210449, 'learning_rate': 1.5108603442336946e-06, 'epoch': 0.35}


 36%|███▋      | 625/1716 [1:29:21<2:24:23,  7.94s/it]

{'loss': 2.6092, 'grad_norm': 2.0928220748901367, 'learning_rate': 1.469730851185788e-06, 'epoch': 0.36}


 38%|███▊      | 650/1716 [1:31:40<1:17:00,  4.33s/it]

{'loss': 3.4894, 'grad_norm': 4.128393650054932, 'learning_rate': 1.427555093430282e-06, 'epoch': 0.38}


 39%|███▉      | 675/1716 [1:35:52<2:13:00,  7.67s/it]

{'loss': 2.5814, 'grad_norm': 2.366424560546875, 'learning_rate': 1.3844270120118085e-06, 'epoch': 0.39}


 41%|████      | 700/1716 [1:38:17<1:15:29,  4.46s/it]

{'loss': 3.1948, 'grad_norm': 5.949622631072998, 'learning_rate': 1.340442669152766e-06, 'epoch': 0.41}


 42%|████▏     | 725/1716 [1:42:36<2:03:05,  7.45s/it]

{'loss': 2.5308, 'grad_norm': 2.629260778427124, 'learning_rate': 1.29570003428715e-06, 'epoch': 0.42}


 44%|████▎     | 750/1716 [1:44:57<1:11:12,  4.42s/it]

{'loss': 3.002, 'grad_norm': 4.474924564361572, 'learning_rate': 1.2502987658463077e-06, 'epoch': 0.44}


 45%|████▌     | 775/1716 [1:49:44<2:20:12,  8.94s/it]

{'loss': 2.3919, 'grad_norm': 2.0226526260375977, 'learning_rate': 1.2043399892826767e-06, 'epoch': 0.45}


 47%|████▋     | 800/1716 [1:52:11<1:11:04,  4.66s/it]

{'loss': 2.9098, 'grad_norm': 5.016529083251953, 'learning_rate': 1.1579260718259196e-06, 'epoch': 0.47}


 48%|████▊     | 825/1716 [1:56:34<1:56:52,  7.87s/it]

{'loss': 2.3404, 'grad_norm': 1.5506147146224976, 'learning_rate': 1.1111603944731623e-06, 'epoch': 0.48}


 50%|████▉     | 850/1716 [1:58:58<1:04:41,  4.48s/it]

{'loss': 2.9484, 'grad_norm': 6.231569766998291, 'learning_rate': 1.0641471217211957e-06, 'epoch': 0.5}


 51%|█████     | 875/1716 [2:03:31<1:48:23,  7.73s/it]

{'loss': 2.3284, 'grad_norm': 1.6873522996902466, 'learning_rate': 1.0169909695535353e-06, 'epoch': 0.51}


 52%|█████▏    | 900/1716 [2:05:50<1:06:11,  4.87s/it]

{'loss': 2.9166, 'grad_norm': 3.522549629211426, 'learning_rate': 9.697969721991112e-07, 'epoch': 0.52}


 54%|█████▍    | 925/1716 [2:10:22<1:45:33,  8.01s/it]

{'loss': 2.356, 'grad_norm': 2.27146577835083, 'learning_rate': 9.226702481821117e-07, 'epoch': 0.54}


 55%|█████▌    | 950/1716 [2:12:49<55:02,  4.31s/it]  

{'loss': 2.842, 'grad_norm': 10.393353462219238, 'learning_rate': 8.757157661840693e-07, 'epoch': 0.55}


 57%|█████▋    | 975/1716 [2:17:28<1:51:04,  8.99s/it]

{'loss': 2.2303, 'grad_norm': 1.3950856924057007, 'learning_rate': 8.290381112396987e-07, 'epoch': 0.57}


 58%|█████▊    | 1000/1716 [2:20:00<52:32,  4.40s/it] 

{'loss': 2.8139, 'grad_norm': 2.6600706577301025, 'learning_rate': 7.827412517872634e-07, 'epoch': 0.58}


 60%|█████▉    | 1025/1716 [2:24:45<1:34:05,  8.17s/it]

{'loss': 2.2603, 'grad_norm': 1.9067130088806152, 'learning_rate': 7.369283080923268e-07, 'epoch': 0.6}


 61%|██████    | 1050/1716 [2:27:06<48:04,  4.33s/it]  

{'loss': 2.7993, 'grad_norm': 5.454653739929199, 'learning_rate': 6.917013225607009e-07, 'epoch': 0.61}


 63%|██████▎   | 1075/1716 [2:31:26<1:25:10,  7.97s/it]

{'loss': 2.3063, 'grad_norm': 1.9713584184646606, 'learning_rate': 6.471610324521883e-07, 'epoch': 0.63}


 64%|██████▍   | 1100/1716 [2:33:53<52:54,  5.15s/it]  

{'loss': 2.7884, 'grad_norm': 3.515775442123413, 'learning_rate': 6.034066455013649e-07, 'epoch': 0.64}


 66%|██████▌   | 1125/1716 [2:38:13<1:21:26,  8.27s/it]

{'loss': 2.1936, 'grad_norm': 1.8362146615982056, 'learning_rate': 5.605356189451862e-07, 'epoch': 0.66}


 67%|██████▋   | 1150/1716 [2:40:38<43:38,  4.63s/it]  

{'loss': 2.7558, 'grad_norm': 6.22419548034668, 'learning_rate': 5.186434424495979e-07, 'epoch': 0.67}


 68%|██████▊   | 1175/1716 [2:45:19<1:14:45,  8.29s/it]

{'loss': 2.2983, 'grad_norm': 1.5104056596755981, 'learning_rate': 4.778234254186584e-07, 'epoch': 0.68}


 70%|██████▉   | 1200/1716 [2:47:41<36:07,  4.20s/it]  

{'loss': 2.7965, 'grad_norm': 11.976800918579102, 'learning_rate': 4.3816648915991107e-07, 'epoch': 0.7}


 71%|███████▏  | 1225/1716 [2:52:16<1:07:24,  8.24s/it]

{'loss': 2.2446, 'grad_norm': 2.005276679992676, 'learning_rate': 3.997609643689315e-07, 'epoch': 0.71}


 73%|███████▎  | 1250/1716 [2:54:47<35:16,  4.54s/it]  

{'loss': 2.7105, 'grad_norm': 5.0620503425598145, 'learning_rate': 3.6269239438413244e-07, 'epoch': 0.73}


 74%|███████▍  | 1275/1716 [2:59:00<1:01:28,  8.36s/it]

{'loss': 2.2406, 'grad_norm': 1.653465986251831, 'learning_rate': 3.2704334465004114e-07, 'epoch': 0.74}


 76%|███████▌  | 1300/1716 [3:01:31<32:38,  4.71s/it]  

{'loss': 2.6593, 'grad_norm': 3.3039052486419678, 'learning_rate': 2.9289321881345254e-07, 'epoch': 0.76}


 77%|███████▋  | 1325/1716 [3:05:42<52:11,  8.01s/it]  

{'loss': 2.2022, 'grad_norm': 1.8008865118026733, 'learning_rate': 2.603180818620774e-07, 'epoch': 0.77}


 79%|███████▊  | 1350/1716 [3:08:06<25:28,  4.18s/it]

{'loss': 2.7249, 'grad_norm': 5.496046543121338, 'learning_rate': 2.293904906996218e-07, 'epoch': 0.79}


 80%|████████  | 1375/1716 [3:12:43<50:22,  8.86s/it]  

{'loss': 2.1626, 'grad_norm': 2.1156578063964844, 'learning_rate': 2.0017933253467078e-07, 'epoch': 0.8}


 82%|████████▏ | 1400/1716 [3:15:13<24:02,  4.56s/it]

{'loss': 2.6678, 'grad_norm': 6.886733055114746, 'learning_rate': 1.7274967144334152e-07, 'epoch': 0.82}


 83%|████████▎ | 1425/1716 [3:19:21<36:42,  7.57s/it]

{'loss': 2.2324, 'grad_norm': 1.7347679138183594, 'learning_rate': 1.4716260344747045e-07, 'epoch': 0.83}


 84%|████████▍ | 1450/1716 [3:21:49<21:16,  4.80s/it]

{'loss': 2.6701, 'grad_norm': 5.7716522216796875, 'learning_rate': 1.234751204311275e-07, 'epoch': 0.84}


 86%|████████▌ | 1475/1716 [3:26:29<32:43,  8.15s/it]

{'loss': 2.175, 'grad_norm': 1.974193811416626, 'learning_rate': 1.017399831985678e-07, 'epoch': 0.86}


 87%|████████▋ | 1500/1716 [3:28:50<15:02,  4.18s/it]

{'loss': 2.6832, 'grad_norm': 3.193849563598633, 'learning_rate': 8.200560395636414e-08, 'epoch': 0.87}


 89%|████████▉ | 1525/1716 [3:33:23<25:44,  8.08s/it]

{'loss': 2.1896, 'grad_norm': 1.53510582447052, 'learning_rate': 6.431593848147964e-08, 'epoch': 0.89}


 90%|█████████ | 1550/1716 [3:35:51<14:26,  5.22s/it]

{'loss': 2.5928, 'grad_norm': 8.048758506774902, 'learning_rate': 4.871038821546103e-08, 'epoch': 0.9}


 92%|█████████▏| 1575/1716 [3:40:12<19:06,  8.13s/it]

{'loss': 2.1714, 'grad_norm': 1.6797982454299927, 'learning_rate': 3.522371250282363e-08, 'epoch': 0.92}


 93%|█████████▎| 1600/1716 [3:42:36<08:29,  4.39s/it]

{'loss': 2.6748, 'grad_norm': 6.84021520614624, 'learning_rate': 2.3885951169109185e-08, 'epoch': 0.93}


 95%|█████████▍| 1625/1716 [3:46:49<11:34,  7.64s/it]

{'loss': 2.215, 'grad_norm': 1.9782012701034546, 'learning_rate': 1.4722357611058777e-08, 'epoch': 0.95}


 96%|█████████▌| 1650/1716 [3:49:04<04:54,  4.46s/it]

{'loss': 2.7059, 'grad_norm': 6.719315528869629, 'learning_rate': 7.753342547939357e-09, 'epoch': 0.96}


 98%|█████████▊| 1675/1716 [3:53:20<05:28,  8.00s/it]

{'loss': 2.2669, 'grad_norm': 1.9125958681106567, 'learning_rate': 2.9944285593065387e-09, 'epoch': 0.98}


 99%|█████████▉| 1700/1716 [3:55:38<01:19,  4.99s/it]

{'loss': 2.6886, 'grad_norm': 2.9144058227539062, 'learning_rate': 4.562155104665955e-10, 'epoch': 0.99}


100%|██████████| 1716/1716 [3:57:50<00:00,  5.17s/it]

In [10]:
base_model = AutoModelForCausalLM.from_pretrained(
    gemma_model_dir,
    low_cpu_mem_usage=True,
    return_dict=True,
    torch_dtype=torch.float16
)
new_model = ".\\results\\checkpoint-1716"
model = PeftModel.from_pretrained(base_model, new_model) # LoRA 가중치를 가져와 기본 모델에 통합

Loading checkpoint shards: 100%|██████████| 3/3 [00:16<00:00,  5.54s/it]


In [11]:
model = model.merge_and_unload()

In [12]:
# 사전 훈련된 토크나이저를 다시 로드
tokenizer = AutoTokenizer.from_pretrained(gemma_model, trust_remote_code=True)

# 토크나이저의 패딩 토큰을 종료 토큰(end-of-sentence token)과 동일하게 설정
tokenizer.pad_token = tokenizer.eos_token

# 패딩을 시퀀스의 오른쪽에 적용
tokenizer.padding_side = "right"

## Test

In [None]:
def tokenize(prompt, add_eos_token=True):
    cutoff_len = 8196
    
    result = tokenizer(
        prompt,
        truncation=True,
        max_length=cutoff_len,
        padding=False,
        return_tensors=None,
    )
    if (
        result["input_ids"][-1] != tokenizer.eos_token_id
        and len(result["input_ids"]) < cutoff_len
        and add_eos_token
    ):
        result["input_ids"].append(tokenizer.eos_token_id)
        result["attention_mask"].append(1)

    result["labels"] = result["input_ids"].copy()
    result["text"] = prompt

    return result

In [13]:
query = "저는 카페테리아에서 제 평범한 샌드위치 한 입 꺼내요. 그리고 요이치와 평범한 작은 대화를 나눴습니다."
format = f"<start_of_turn>user\n{query}<end_of_turn>\n<start_of_turn>model\n"
text_gen = pipeline(
    task="text-generation",
    model=model,
    tokenizer=tokenizer)
output = text_gen(format, max_new_tokens=256)
print(output[0]['generated_text'])

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


KeyboardInterrupt: 

In [15]:
from huggingface_hub import create_branch
repo_id="kimbong/gemma-2-2b-TalkingDown-ko"
token = "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"
create_branch(repo_id=repo_id, token=token, repo_type="dataset", branch="gemma-2-2b")

RepositoryNotFoundError: 404 Client Error. (Request ID: Root=1-66f95732-5529d9e9552b6e127e0a6bfa;909a1a92-62b3-497d-9f2e-11e6710bf772)

Repository Not Found for url: https://huggingface.co/api/datasets/kimbong/gemma-2-2b-TalkingDown-ko/branch/gemma-2-2b.
Please make sure you specified the correct `repo_id` and `repo_type`.
If you are trying to access a private or gated repo, make sure you are authenticated.