In [1]:
import time
import os 
os.environ["HF_TOKEN"] = "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"

In [2]:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
import json
from peft import LoraConfig, get_peft_model
from transformers import pipeline

model_id = "meta-llama/Llama-3.2-3B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    load_in_8bit=True,
    #device_map="cuda",
    trust_remote_code=True
)

# check https://github.com/huggingface/peft/blob/main/examples/int8_training/Finetune_opt_bnb_peft.ipynb
from peft import prepare_model_for_kbit_training
model = prepare_model_for_kbit_training(model)

  from .autonotebook import tqdm as notebook_tqdm
The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.
Loading checkpoint shards: 100%|█████████████████████████████| 2/2 [00:14<00:00,  7.08s/it]


In [3]:
model

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(128256, 3072)
    (layers): ModuleList(
      (0-27): 28 x LlamaDecoderLayer(
        (self_attn): LlamaAttention(
          (q_proj): Linear8bitLt(in_features=3072, out_features=3072, bias=False)
          (k_proj): Linear8bitLt(in_features=3072, out_features=1024, bias=False)
          (v_proj): Linear8bitLt(in_features=3072, out_features=1024, bias=False)
          (o_proj): Linear8bitLt(in_features=3072, out_features=3072, bias=False)
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear8bitLt(in_features=3072, out_features=8192, bias=False)
          (up_proj): Linear8bitLt(in_features=3072, out_features=8192, bias=False)
          (down_proj): Linear8bitLt(in_features=8192, out_features=3072, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm((3072,), eps=1e-05)
        (post_attention_layernorm): LlamaRMSNorm((3072,), eps=1e-05)
      )
    )
    (norm): LlamaR

In [4]:
for param in model.parameters():
  param.requires_grad = False  # freeze the model - train adapters later
  if param.ndim == 1:
    param.data = param.data.to(torch.float16)

model.gradient_checkpointing_enable()  # reduce number of stored activations

In [5]:
def print_trainable_parameters(model):
    """
    Prints the number of trainable parameters in the model.
    """
    trainable_params = 0
    all_param = 0
    for _, param in model.named_parameters():
        all_param += param.numel()
        if param.requires_grad:
            trainable_params += param.numel()
    print(
        f"trainable params: {trainable_params:,} || all params: {all_param:,} || trainable : {100 * trainable_params / all_param}%"
    )
    return trainable_params

In [6]:
ori_p = print_trainable_parameters(model)

trainable params: 0 || all params: 3,212,749,824 || trainable : 0.0%


In [None]:
#model.unload()

In [7]:
config = LoraConfig(
    r=16, #attention heads
    lora_alpha=32, #alpha scaling
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM" # set this for CAUSAL LANGUAGE MODELS (like Bloom, LLaMA) or SEQ TO SEQ (like FLAN, T5)
)

model = get_peft_model(model, config)

In [8]:
peft_p = print_trainable_parameters(model)

trainable params: 4,587,520 || all params: 3,217,337,344 || trainable : 0.1425874724810952%


In [9]:
import transformers
from datasets import load_dataset
dataset = load_dataset("kimjaewon/baemin_sft_data")

In [10]:
dataset

DatasetDict({
    train: Dataset({
        features: ['question', 'positive_document_list', 'negative_document_list', 'answer'],
        num_rows: 1452
    })
})

In [11]:
peft_dataset = dataset.remove_columns(['positive_document_list', 'negative_document_list'])
peft_dataset

DatasetDict({
    train: Dataset({
        features: ['question', 'answer'],
        num_rows: 1452
    })
})

In [12]:
peft_dataset['train']['question'][:8]

['정산이 이뤄지는 시점은 언제인가요?',
 '주문 차단을 하고 싶다면 어떻게 해야 하나요?',
 '탈퇴 회원의 댓글 작성자 본인 여부를 확인할 수 있는 방법은 없나요?',
 '네이버 플레이스에 가게 정보를 제공하면 연동 여부 반영까지 얼마나 걸리나요?',
 '어떤 음식은 배달의민족을 통해 판매할 수 없나요?',
 '어떤 경우에 고객센터로 문의해야 하나요?',
 '울트라콜과 오픈리스트 상품의 배달팁은 어떻게 구분되나요?',
 '배민라이더스는 배민셀프서비스를 통한 배달지역 수정이 가능한가요?']

In [14]:
def merge_cols(example):
    example["prediction"] = example["question"] + " [배민 데이터 참조] " + example["answer"]
    return example

peft_dataset['train'] = peft_dataset['train'].map(merge_cols) # <-- 모든 문장에 대해 처리해 줍니다.
peft_dataset['train']["prediction"][5:7]

Map: 100%|███████████████████████████████████| 1452/1452 [00:00<00:00, 14529.16 examples/s]


['어떤 경우에 고객센터로 문의해야 하나요? [배민 데이터 참조] 고객의 개인정보와 관련된 문의와 함께 배달의 불만사항, 결제문제 등 배달 서비스와 관련된 문제가 발생한 경우, 그리고 배달 관련 추가 연락이 필요한 경우에는 고객센터로 문의해주시면 최대한 도움을 드리겠습니다.',
 '울트라콜과 오픈리스트 상품의 배달팁은 어떻게 구분되나요? [배민 데이터 참조] 울트라콜과 오픈리스트 상품의 배달팁은 용도에 따라 기본 배달팁과 할증 배달팁으로 나누어집니다. 기본 배달팁은 주문금액에 따른 최대 3개의 배달팁 설정이 가능하며, 할증 배달팁은 지역, 시간대, 공휴일 등을 위해 별도로 설정이 가능합니다.']

In [15]:
peft_dataset['train'][0]

{'question': '정산이 이뤄지는 시점은 언제인가요?',
 'answer': '매출이 발생된 기점(D일)으로부터 영업일 기준 D+3일 이후 정산되어 지급됩니다.',
 'prediction': '정산이 이뤄지는 시점은 언제인가요? [배민 데이터 참조] 매출이 발생된 기점(D일)으로부터 영업일 기준 D+3일 이후 정산되어 지급됩니다.'}

In [16]:
peft_dataset = peft_dataset.map(
                        lambda x: tokenizer(x['prediction']),
                        batched=True
                     )

Map: 100%|████████████████████████████████████| 1452/1452 [00:00<00:00, 7474.44 examples/s]


In [17]:
peft_dataset

DatasetDict({
    train: Dataset({
        features: ['question', 'answer', 'prediction', 'input_ids', 'attention_mask'],
        num_rows: 1452
    })
})

In [18]:
peft_dataset['train'][7]

{'question': '배민라이더스는 배민셀프서비스를 통한 배달지역 수정이 가능한가요?',
 'answer': '아니요, 배민라이더스는 배민셀프서비스를 통한 배달지역 수정이 불가능합니다. 배달지역 조회만 가능하며, 배달지역 수정이 필요한 경우 고객센터를 통해 문의하셔야 합니다.',
 'prediction': '배민라이더스는 배민셀프서비스를 통한 배달지역 수정이 가능한가요? [배민 데이터 참조] 아니요, 배민라이더스는 배민셀프서비스를 통한 배달지역 수정이 불가능합니다. 배달지역 조회만 가능하며, 배달지역 수정이 필요한 경우 고객센터를 통해 문의하셔야 합니다.',
 'input_ids': [128000,
  103588,
  101607,
  108157,
  102913,
  119524,
  74769,
  101607,
  116512,
  101204,
  125935,
  18918,
  102681,
  24486,
  74769,
  104684,
  120257,
  89613,
  13094,
  125502,
  122665,
  30,
  510,
  103588,
  101607,
  55348,
  103718,
  93917,
  60,
  104231,
  36811,
  11,
  74769,
  101607,
  108157,
  102913,
  119524,
  74769,
  101607,
  116512,
  101204,
  125935,
  18918,
  102681,
  24486,
  74769,
  104684,
  120257,
  89613,
  13094,
  102786,
  116669,
  61938,
  13,
  74769,
  104684,
  120257,
  98267,
  73653,
  96451,
  108859,
  11,
  74769,
  104684,
  120257,
  89613,
  13094,
  126168,
  50152,
  116534,
  110816,
  18918

In [19]:
train_args=transformers.TrainingArguments(
        per_device_train_batch_size=30,

        warmup_steps=100,
        max_steps=60,

        learning_rate=2e-4,

        # -- peft -- #
        gradient_accumulation_steps=6,
        fp16=True,
        # ---------- #

        logging_steps=20,
        output_dir='outputs'
    )

tokenizer.pad_token = tokenizer.eos_token 
model=model.to("cuda")

trainer = transformers.Trainer(
    model=model,
    train_dataset=peft_dataset['train'],
    args=train_args,
    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False)
)
model.config.use_cache = False  # silence the warnings. Please re-enable for inference!

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.


In [20]:
trainer.train()



Step,Training Loss
20,3.3053
40,2.92
60,2.3239


TrainOutput(global_step=60, training_loss=2.8497301737467446, metrics={'train_runtime': 1423.7206, 'train_samples_per_second': 7.586, 'train_steps_per_second': 0.042, 'total_flos': 2.2523741514141696e+16, 'train_loss': 2.8497301737467446, 'epoch': 6.73469387755102})

In [21]:
model_path = 'llama_peft'  # it will be directory
trainer.model.save_pretrained(model_path)

In [None]:
lora_config = LoraConfig.from_pretrained(model_path)
model = get_peft_model(model, lora_config)