# 강의 11주차: llama2-food-order-understanding

1. llama-2-7b-chat-hf 를 주문 문장 이해에 미세 튜닝

- food-order-understanding-small-3200.json (학습)
- food-order-understanding-small-800.json (검증)


종속적인 필요 내용
- huggingface 계정 설정 및 llama-2 사용 승인
- 로깅을 위한 wandb

In [None]:
pip install transformers peft accelerate optimum bitsandbytes trl wandb

Collecting peft
  Downloading peft-0.7.1-py3-none-any.whl (168 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m168.3/168.3 kB[0m [31m1.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting accelerate
  Downloading accelerate-0.25.0-py3-none-any.whl (265 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m265.7/265.7 kB[0m [31m5.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting optimum
  Downloading optimum-1.16.1-py3-none-any.whl (403 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m403.3/403.3 kB[0m [31m18.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting bitsandbytes
  Downloading bitsandbytes-0.41.3.post2-py3-none-any.whl (92.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.6/92.6 MB[0m [31m7.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting trl
  Downloading trl-0.7.4-py3-none-any.whl (133 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m133.9/133.9 kB[0m [31m12.5 MB/s[0m eta [36m0

In [None]:
import os
from dataclasses import dataclass, field
from typing import Optional
import re

import torch
import tyro
from accelerate import Accelerator
from datasets import load_dataset, Dataset
from peft import AutoPeftModelForCausalLM, LoraConfig
from tqdm import tqdm
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
)

from trl import SFTTrainer

from trl.trainer import ConstantLengthDataset



In [None]:
from huggingface_hub import notebook_login

notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

드라이브 마운트 후 파일 업로드
- food-order-understanding-small-3200.json
- food-order-understanding-small-800.json

In [None]:
from google.colab import drive
drive.mount('/gdrive')

Mounted at /gdrive


In [None]:
# /gdrive/MyDrive/Lectures/2023/nlp/food-order-understanding-small-3200.json
# /gdrive/MyDrive/Lectures/2023/nlp/food-order-understanding-small-800.json

# 매개 변수 설정

In [None]:
@dataclass
class ScriptArguments:
    cache_dir: Optional[str] = field(
        default=None, metadata={"help": "the cache dir"}
    )
    model_name: Optional[str] = field(
        default="meta-llama/Llama-2-7b-chat-hf", metadata={"help": "the model name"}
    )

    dataset_name: Optional[str] = field(
        default="nsmc",
        metadata={"help": "the dataset name"},
    )
    seq_length: Optional[int] = field(
        default=1024, metadata={"help": "the sequence length"}
    )
    num_workers: Optional[int] = field(
        default=8, metadata={"help": "the number of workers"}
    )
    training_args: TrainingArguments = field(
        default_factory=lambda: TrainingArguments(
            output_dir="./results",
            # max_steps=500,
            logging_steps=20,
            # save_steps=10,
            per_device_train_batch_size=1,
            per_device_eval_batch_size=1,
            gradient_accumulation_steps=1,
            gradient_checkpointing=False,
            group_by_length=False,
            learning_rate=1e-4,
            lr_scheduler_type="cosine",
            # warmup_steps=100,
            warmup_ratio=0.03,
            max_grad_norm=0.3,
            weight_decay=0.05,
            save_total_limit=20,
            save_strategy="epoch",
            num_train_epochs=1,
            optim="paged_adamw_32bit",
            fp16=False,#True를 False로 수정
            remove_unused_columns=False,
            report_to="wandb",
        )
    )

    packing: Optional[bool] = field(
        default=True, metadata={"help": "whether to use packing for SFTTrainer"}
    )

    peft_config: LoraConfig = field(
        default_factory=lambda: LoraConfig(
            r=8,
            lora_alpha=16,
            lora_dropout=0.05,#교수님께서 사용하신 코드
            #lora_dropout=0.1,#내가 추가한 코드
            target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "down_proj", "up_proj", "gate_proj"],
            bias="none",
            task_type="CAUSAL_LM"
            )
    )

    merge_with_final_checkpoint: Optional[bool] = field(
        default=False, metadata={"help": "Do only merge with final checkpoint"}
    )

# 유틸리티

### char per token:토큰당 평균 캐릭터수 즉 유틸리티 함수이다.

In [None]:
def chars_token_ratio(dataset, tokenizer, nb_examples=400):
    """
    Estimate the average number of characters per token in the dataset.
    """
    total_characters, total_tokens = 0, 0
    for _, example in tqdm(zip(range(nb_examples), iter(dataset)), total=nb_examples):
        text = prepare_sample_text(example)
        total_characters += len(text)
        if tokenizer.is_fast:
            total_tokens += len(tokenizer(text).tokens())
        else:
            total_tokens += len(tokenizer.tokenize(text))

    return total_characters / total_tokens


def print_trainable_parameters(model):
    """
    Prints the number of trainable parameters in the model.
    """
    trainable_params = 0
    all_param = 0
    for _, param in model.named_parameters():
        all_param += param.numel()
        if param.requires_grad:
            trainable_params += param.numel()
    print(
        f"trainable params: {trainable_params} || all params: {all_param} || trainable%: {100 * trainable_params / all_param}"
    )

# 데이터 로딩

- 1.prepare sample text:데이터셋에서 system, user, midm(모델이 생성해주는)의 프롬포트를 구성하고 실제 텍스트를 eval_dic에서 사용할 수 있게 반환해준다.  
- 2.create_dataset은 말그대로 nsmc데이터셋 등을 load해서 train,valid(test)dataset으로 구분해서 각각 샘플을 추출할 수 있게 돕는 함수이다.

In [None]:
def prepare_sample_text(example):
    """Prepare the text from a sample of the dataset."""

    prompt_template = """###System;{System}
    ###User;{User}
    ###Midm;{Midm}"""

    default_system_msg = (
        "너는 사용자가 작성한 리뷰의 긍정 또는 부정을 판단해야 한다. 이로부터 그에 대한 결과를 '긍정' 또는 '부정'으로 출력해야한다."
    )

    if isinstance(example, dict):
        # Assuming 'document' and 'label' are present in the dictionary
        label = int(example["label"])
        text = (
            prompt_template.format(System=default_system_msg,
                                   User=example["document"],
                                   Midm="긍정" if label == 1 else "부정")
        )
    elif isinstance(example, str):
        # Handle the case where example is a string
        text = prompt_template.format(System=default_system_msg, User=example, Midm="Unknown")
    else:
        print(f"Unsupported example format: {type(example)}")
        raise ValueError("Unsupported example format")

    return text


In [None]:
def create_datasets(tokenizer, args):
    dataset = load_dataset(args.dataset_name, cache_dir=args.cache_dir)
    train_data = dataset['train'].select(range(2000))
    #valid_data = dataset['test'].select(range(1000))
    chars_per_token = chars_token_ratio(train_data, tokenizer)
    print(f"The character to token ratio of the dataset is: {chars_per_token:.2f}")
    #print(len(train_data),len(valid_data))
    train_dataset = ConstantLengthDataset(
        tokenizer,
        train_data,
        formatting_func=prepare_sample_text,
        infinite=True,
        seq_length=args.seq_length,
        chars_per_token=chars_per_token,
    )
    valid_dataset=load_dataset(script_args.dataset_name,cache_dir=script_args.cache_dir)["test"].select(range(1000))

    # valid_dataset = ConstantLengthDataset(#미세튜닝 후 테스트할때는 ConstantLengthDataset하지 말고
    #     tokenizer,
    #     valid_data,
    #     formatting_func=prepare_sample_text,
    #     infinite=False,
    #     seq_length=args.seq_length,
    #     chars_per_token=chars_per_token,
    # )
    #print(len(train_dataset), len(valid_dataset))#len부분이 조금 이상하게 나옴...??
    return train_dataset, valid_dataset

# 미세 튜닝용 모델 로딩

미세튜닝 과정에서 seq length와 gradient accumulation이 trainer.train()의 loss값에 상당한 영향을 주는 것을 알게되었다.시퀀스 길이를 512로 선정한다면, cuda메모리 오류가 발생하기 때문에 gpu를 비교적 덜 차지하고 오류를 방지하기 위해서 384 시퀀스길이와 gradient accumulation_steps=2로 설정하였다.
### - max steps=2000으로 변경함으로써 안정적인 모델 loss값과 성능이 향상된 모델 정확도 값을 얻을 수 있다.  

### - 사용자에 따라 다르지만 본인은 is trainable을 사용하지 않아도 checkpoint가 설정되었기 때문에 해당 코드를 추가하지 않았다.

In [None]:
script_args = ScriptArguments(
    num_workers=2,
    seq_length=384,#512에서 312->256로 변경...?256테스트 결과 별로였음 ->384로 수정
    dataset_name='nsmc',
    model_name='meta-llama/Llama-2-7b-chat-hf',
    )

In [None]:
# script_args.training_args.logging_steps = 50#step point를 100에서 50으로 축소
# script_args.training_args.max_steps = 200#200d으로 변경
# script_args.training_args.bf16=False#내가 추가
# script_args.training_args.fp16=False#내가 추가-why added this code?
# script_args.training_args.gradient_accumulation_steps=1#내가 추가-why add this code?
# script_args.training_args.output_dir = '/gdrive/MyDrive/nlp/hw-lora-llama-2-7b-nsmc'#hw로 바꾸기
# script_args.training_args.run_name = 'hw-llama-2-7b-nsmc'#hw로 바꾸기

script_args.training_args.logging_steps = 100
script_args.training_args.max_steps = 2000
script_args.training_args.bf16=False#내가 추가
script_args.training_args.fp16=False#내가 추가-why added this code?
script_args.training_args.gradient_accumulation_steps=2#내가 추가-why add this code?2에서 지금 1로 줄이고 훈련할꺼임
script_args.training_args.output_dir = '/gdrive/MyDrive/Lectures/2023/nlp/hw-llama-2-7B-nsmc'
script_args.training_args.run_name = 'hw-llama-2-7B-nsmc'
script_args.training_args.save_total_limit=3# 최근 3개의 체크포인트만 유지
script_args.training_args.save_strategy="steps"# 지정 스텝마다 저장
script_args.training_args.save_steps=300# 지정 스텝을 300으로 설정

In [None]:
print(script_args)

ScriptArguments(cache_dir=None, model_name='meta-llama/Llama-2-7b-chat-hf', dataset_name='nsmc', seq_length=384, num_workers=2, training_args=TrainingArguments(
_n_gpu=1,
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.999,
adam_epsilon=1e-08,
auto_find_batch_size=False,
bf16=False,
bf16_full_eval=False,
data_seed=None,
dataloader_drop_last=False,
dataloader_num_workers=0,
dataloader_pin_memory=True,
ddp_backend=None,
ddp_broadcast_buffers=None,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
ddp_timeout=1800,
debug=[],
deepspeed=None,
disable_tqdm=False,
dispatch_batches=None,
do_eval=False,
do_predict=False,
do_train=False,
eval_accumulation_steps=None,
eval_delay=0,
eval_steps=None,
evaluation_strategy=no,
fp16=False,
fp16_backend=auto,
fp16_full_eval=False,
fp16_opt_level=O1,
fsdp=[],
fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_grad_ckpt': False},
fsdp_min_num_params=0,
fsdp_transformer_layer_cls_to_wrap=None,
full_determinism=False,
gradient_accumulation_steps

In [None]:
bnb_config = BitsAndBytesConfig(#여기 실행
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=False#내가 추가한 double_quant를 false로 설정하는 코드
)

In [None]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
base_model = AutoModelForCausalLM.from_pretrained(#base에 대해 진행(base_model용
    script_args.model_name,
    quantization_config=bnb_config,
    device_map="auto",  # {"": Accelerator().local_process_index},
    #token=True,#use auth token 대신 사용
    #is_trainable=True,
    cache_dir=script_args.cache_dir,
    trust_remote_code=True,
)
base_model.config.use_cache = False

config.json:   0%|          | 0.00/614 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/26.8k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/9.98G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/3.50G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/188 [00:00<?, ?B/s]

In [None]:
trained_model = AutoModelForCausalLM.from_pretrained(#base를 trained로 이후에 변경
    script_args.training_args.output_dir,#허브 아이디:tafodile/hw-llama-2-7B-nsmc
    quantization_config=bnb_config,
    device_map="auto",  # {"": Accelerator().local_process_index},
    trust_remote_code=True,
    use_auth_token=True,
    cache_dir=script_args.cache_dir,
)
trained_model.config.use_cache = False



config.json:   0%|          | 0.00/614 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/26.8k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/9.98G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/3.50G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]



generation_config.json:   0%|          | 0.00/188 [00:00<?, ?B/s]

In [None]:
base_model

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(32000, 4096)
    (layers): ModuleList(
      (0-31): 32 x LlamaDecoderLayer(
        (self_attn): LlamaAttention(
          (q_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
          (v_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
          (o_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear4bit(in_features=4096, out_features=11008, bias=False)
          (up_proj): Linear4bit(in_features=4096, out_features=11008, bias=False)
          (down_proj): Linear4bit(in_features=11008, out_features=4096, bias=False)
          (act_fn): SiLUActivation()
        )
        (input_layernorm): LlamaRMSNorm()
        (post_attention_layernorm): LlamaRMSNorm()
      )
    )
    (norm

In [None]:
peft_config = script_args.peft_config#여기 실행

In [None]:
peft_config

LoraConfig(peft_type=<PeftType.LORA: 'LORA'>, auto_mapping=None, base_model_name_or_path=None, revision=None, task_type='CAUSAL_LM', inference_mode=False, r=8, target_modules={'down_proj', 'q_proj', 'gate_proj', 'k_proj', 'up_proj', 'o_proj', 'v_proj'}, lora_alpha=16, lora_dropout=0.05, fan_in_fan_out=False, bias='none', modules_to_save=None, init_lora_weights=True, layers_to_transform=None, layers_pattern=None, rank_pattern={}, alpha_pattern={}, megatron_config=None, megatron_core='megatron.core', loftq_config={})

In [None]:
tokenizer = AutoTokenizer.from_pretrained(#여기 실행
    script_args.model_name,
    trust_remote_code=True,
    cache_dir=script_args.cache_dir,
)

if getattr(tokenizer, "pad_token", None) is None:
    tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"  # Fix weird overflow issue with fp16 training

base_model.config.pad_token_id = tokenizer.pad_token_id#base model꺼

tokenizer_config.json:   0%|          | 0.00/1.62k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

In [None]:
tokenizer = AutoTokenizer.from_pretrained(#여기 실행
    script_args.model_name,
    trust_remote_code=True,
    cache_dir=script_args.cache_dir,
)

if getattr(tokenizer, "pad_token", None) is None:
    tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"  # Fix weird overflow issue with fp16 training

trained_model.config.pad_token_id = tokenizer.pad_token_id#마찬가지로 trained로 변경

tokenizer_config.json:   0%|          | 0.00/1.62k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

In [None]:
training_args = script_args.training_args
training_args.fp16 = False
script_args.training_args.fp16 = False


In [None]:
train_dataset,valid_dataset = create_datasets(tokenizer, script_args)

Downloading builder script:   0%|          | 0.00/3.18k [00:00<?, ?B/s]

Downloading metadata:   0%|          | 0.00/1.67k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/3.74k [00:00<?, ?B/s]

Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/6.33M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/2.12M [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split:   0%|          | 0/150000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/50000 [00:00<?, ? examples/s]

100%|██████████| 400/400 [00:00<00:00, 2730.70it/s]


The character to token ratio of the dataset is: 0.84


In [None]:
len(train_dataset),len(valid_dataset)

(2000, 1000)

In [None]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
trainer = SFTTrainer(
    model=base_model,
    train_dataset=train_dataset,
    eval_dataset=None,
    peft_config=peft_config,
    packing=script_args.packing,
    max_seq_length=script_args.seq_length,
    tokenizer=tokenizer,
    args=training_args,
)



In [None]:
base_model

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(32000, 4096)
    (layers): ModuleList(
      (0-31): 32 x LlamaDecoderLayer(
        (self_attn): LlamaAttention(
          (q_proj): lora.Linear4bit(
            (base_layer): Linear4bit(in_features=4096, out_features=4096, bias=False)
            (lora_dropout): ModuleDict(
              (default): Dropout(p=0.1, inplace=False)
            )
            (lora_A): ModuleDict(
              (default): Linear(in_features=4096, out_features=8, bias=False)
            )
            (lora_B): ModuleDict(
              (default): Linear(in_features=8, out_features=4096, bias=False)
            )
            (lora_embedding_A): ParameterDict()
            (lora_embedding_B): ParameterDict()
          )
          (k_proj): lora.Linear4bit(
            (base_layer): Linear4bit(in_features=4096, out_features=4096, bias=False)
            (lora_dropout): ModuleDict(
              (default): Dropout(p=0.1, inplace=False)
     

In [None]:
print_trainable_parameters(base_model)

NameError: ignored

구글 코랩 T-4 GPU: 1:37:34 예상시간
- 총 1,600 스텝 필요
- 하지만 이보다 일찍 종료됨 약 900번 미만 스텝에서 종료됨

시퀀스 길이 512의 경우
- 14.4 G / 15.0 G 사용
- 메모리 오버플로우 발생시 512보다 줄일 것

2000스텝으로 해야지 정확도가 가장 잘 나오는편임->근데 문제는 그러면 너무 데이터로딩속도가 느리다는 점....

In [None]:
trainer.train()

<IPython.core.display.Javascript object>

[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


You're using a LlamaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Step,Training Loss
100,1.0445
200,0.6138
300,0.5938
400,0.591
500,0.5717
600,0.5428
700,0.5035
800,0.5024
900,0.4983
1000,0.4894




TrainOutput(global_step=2000, training_loss=0.4874511642456055, metrics={'train_runtime': 15454.4109, 'train_samples_per_second': 0.259, 'train_steps_per_second': 0.129, 'total_flos': 6.1077492596736e+16, 'train_loss': 0.4874511642456055, 'epoch': 2.0})

In [None]:
script_args.training_args.output_dir

'/gdrive/MyDrive/Lectures/2023/nlp/hw-llama-2-7B-nsmc'

In [None]:
trainer.save_model(script_args.training_args.output_dir)

# 추론 테스트

In [None]:
from transformers import pipeline, TextStreamer

In [None]:
instruction_prompt_template = """###System;다음은 네이버 영화리뷰 데이터를 이용해서 감정을 분류하는 문장이다. 이를 분석하여 리뷰, 긍정 또는 부정 여부를 추출하여 분류를 수행하고자 한다.
분석결과를 완성해주기 바란다.
### 리뷰: {0} ### 분석 결과:
"""
prompt_template = """###System;{System}
###User;{User}
###Midm;"""

default_system_msg = (
    "너는 사용자가 작성한 리뷰의 긍정 또는 부정을 판단해야 한다.이로부터 그에 대한 결과를 '긍정' 또는 '부정'으로 출력해야한다."
)

     instruction prompt template은 eval_dic에서 사용가능한 프롬포트 엔지니어링을 수행하는 부분으로써 모델에게 텍스트 생성하게 돕는 역할을 한다.



In [None]:
evaluation_queries = [
    "굳 ㅋ",
    "카밀라벨 발연기",
    "신들린 연기가 정말 돋보인다",#내가 추가한 문장
    "이런 영화를 영화라고 부를 수는 있나 ㅋㅋㅋㅋㅋ 노잼...",#내가 추가한 문장
    "1%라도 기대했던 내가 죄인입니다 죄인입니다....",
    "뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아",
    "지루하지는 않은데 완전 막장임... 돈주고 보기에는....",
    "3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??",
    "참 사람들 웃긴게 바스코가 이기면 락스코라고 까고바비가 이기면 아이돌이라고 깐다.그냥 까고싶어서 안달난것처럼 보인다"
]

In [None]:
def wrapper_generate(model, input_prompt):
    data = tokenizer(input_prompt, return_tensors="pt")
    streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
    input_ids = data.input_ids[..., :-1]
    with torch.no_grad():
        pred = model.generate(
            input_ids=input_ids.cuda(),
            streamer=streamer,
            use_cache=True,
            max_new_tokens=float('inf'),
            temperature=0.5
        )
    decoded_text = tokenizer.batch_decode(pred, skip_special_tokens=True)
    return (decoded_text[0][len(input_prompt):])

In [None]:
eval_dic = {i:wrapper_generate(model=base_model, input_prompt=prompt_template.format(System=default_system_msg, User=evaluation_queries[i]))for i, query in enumerate(evaluation_queries)}

;- 분석 결과 0: 음식명:비가오니깐, 옵션:이거
- 분석 결과 1: 음식명:삼선짬뽕, 수량:하나
- 분석 결과 2: 음식명:사천 탕수육, 옵션:중짜, 수량:한그릇
;- 분석 결과 0: 음식명:아이스아메리카노,옵션:톨사이즈,수량:한잔
- 분석 결과 1: 음식명:딸기스무디,수량:한잔
- 분석 결과 2: 음식명:콜드브루라떼, 수량:하나
;- 분석 결과 0: 음식명:참이슬,수량:한병
- 분석 결과 1: 음식명:코카콜라,옵션:1.5리터,수량:한병
- 분석 결과 2: 음식명:테슬라,수량:한병
;- 분석 결과 0: 음식명:꼬막무침,옵션:1인분
- 분석 결과 1: 음식명:닭도리탕,옵션:중자
- 분석 결과 2: 음식명:소주,수량:한병
;- 분석 결과 0: 음식명:김치찌개,수량:3인분
- 분석 결과 1: 음식명:계란말이,수량:분
;- 분석 결과 0: 음식명:불고기버거세트, 수량:1개
- 분석 결과 1: 음식명:감자튀김, 수량:분석 결과 1 음식명 0: 감자튀김, 수량:분석 결과 1 음식명 1: 분석 결과 1 음식명 2: 분석 결과 1 음식명 3: 분석 결과 1 음식명 4: 분석 결과 1 음식명 5: 분석 결과 1 음식명 6: 분석 결과 1 음식명 7: 분석 결과 1 음식명 8: 분석 결과 1 음식명 9: 분석 결과 1 음식명 10: 분석 결과 1 음식명 11: 분석 결과 1 음식명 12: 분석 결과 1 음식명 13: 분석 결과 1 음식명 14: 분석 결과 1 음식명 15: 분석 결과 1 음식명 16: 분석 결과 1 음식명 17: 분석 결과 1 음식명 18: 분석 결과 1 음식명 19: 분석 결과 1 음식명 20: 분석 결과 1 음식명 21: 분석 결과 1 음식명 22: 분석 결과 1 음식명 23: 분석 결과 1 음식명 24: 분석 결과 1 음식명 25: 분석 결과 1 음식명 26: 분석 결과 1 음식명 27: 분석 결과 1 음식명 28: 분석 결과 1 음식명 29: 분석 결과 1 음식명 30: 분석 결과 1 음식명 31: 분석 결과 1 음식명 32: 분석 결과 1 음식명 3

In [None]:
print(eval_dic[0])

- 분석 결과 0: 음식명:비가오니깐, 옵션:이거
- 분석 결과 1: 음식명:삼선짬뽕, 수량:하나
- 분석 결과 2: 음식명:사천 탕수육, 옵션:중짜, 수량:한그릇


# 미세튜닝된 모델 로딩 후 테스트

In [None]:
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=False#내가 추가한 코드
)

In [None]:
trained_model = AutoPeftModelForCausalLM.from_pretrained(
    script_args.training_args.output_dir,
    quantization_config=bnb_config,
    device_map="auto",
    cache_dir=script_args.cache_dir
)

In [None]:
tokenizer = AutoTokenizer.from_pretrained(
    script_args.model_name,
    trust_remote_code=True,
    cache_dir=script_args.cache_dir,
)

if getattr(tokenizer, "pad_token", None) is None:
    tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"  # Fix weird overflow issue with fp16 training
trained_model.config.pad_token_id = tokenizer.pad_token_id

추론 과정에서는 GPU 메모리를 약 5.5 GB 활용

In [None]:
eval_dic = {i:wrapper_generate(model=trained_model, input_prompt=prompt_template.format(System=default_system_msg, User=valid_dataset[i]))for i, query in enumerate(valid_dataset)}

;긍정
;부정
;부정
;부정
;부정
;긍정
;부정
;부정
;부정
;긍정
;긍정
;부정
;긍정
;긍정
;부정
;긍정
;긍정
;부정
;긍정
;부정
;긍정
;부정
;긍정
;긍정
;부정
;부정
;긍정
;긍정
;부정
;긍정
;긍정
;긍정
;부정
;긍정
;부정
;부정
;부정
;긍정
;부정
;부정
;부정
;부정
;부정
;긍정
;긍정
;긍정
;부정
;부정
;긍정
;긍정
;부정
;긍정
;부정
;긍정
;긍정
;긍정
;긍정
;긍정
;긍정
;긍정
;부정
;부정
;부정
;부정
;긍정
;긍정
;긍정
;긍정
;긍정
;긍정
;부정
;부정
;부정
;부정
;부정
;긍정
;긍정
;긍정
;긍정
;부정
;부정
;긍정
;부정
;긍정
;부정
;긍정
;긍정
;부정
;긍정
;부정
;부정
;긍정
;부정
;긍정
;부정
;부정
;긍정
;긍정
;부정
;긍정
;부정
;부정
;긍정
;부정
;긍정
;부정
;긍정
;긍정
;부정
;긍정
;부정
;긍정
;긍정
;긍정
;긍정
;부정
;부정
;긍정
;긍정
;긍정
;부정
;부정
;긍정
;긍정
;부정
;긍정
;부정
;긍정
;부정
;긍정
;부정
;부정
;부정
;긍정
;긍정
;부정
;긍정
;긍정
;긍정
;긍정
;부정
;부정
;긍정
;긍정
;부정
;긍정
;부정
;부정
;부정
;부정
;긍정
;부정
;긍정
;긍정
;긍정
;긍정
;긍정
;부정
;긍정
;부정
;긍정
;긍정
;긍정
;부정
;긍정
;부정
;긍정
;긍정
;긍정
;부정
;부정
;부정
;부정
;긍정
;긍정
;부정
;긍정
;긍정
;부정
;긍정
;긍정
;부정
;부정
;부정
;긍정
;긍정
;부정
;부정
;부정
;긍정
;긍정
;부정
;긍정
;긍정
;긍정
;부정
;긍정
;긍정
;부정
;부정
;부정
;긍정
;긍정
;긍정
;긍정
;긍정
;긍정
;부정
;부정
;긍정
;긍정
;긍정
;부정
;긍정
;부정
;부정
;부정
;긍정
;긍정
;부정
;긍정
;부정
;부정
;긍정
;부정
;긍정
;긍정
;부정
;긍정
;부정
;긍정
;부정
;긍정
;긍정
;긍정
;부정
;부정
;긍정
;긍정
;부정
;부정
;부정
;긍정
;긍정
;부정
;긍정
;긍정
;긍정
;긍정
;부정


In [None]:
correct_predictions = 0#100개 샘플에 대한 정확도는 약 87% llama2모델의 긍정,부정 레이블링
total_examples = len(valid_dataset)

for i, query in enumerate(valid_dataset):
    actual_label = int(query["label"])
    predicted_label = 1 if eval_dic[i] == "긍정" else 0  # Assuming "긍정" is positive, "부정" is negative

    if actual_label == predicted_label:
        correct_predictions += 1

accuracy = correct_predictions / total_examples
print(f"Accuracy: {accuracy * 100:.2f}%")

Accuracy: 90.20%


### 위의 정확도 측정하는 코드에서 초기에 샘플 100개를 가지고 임의로 정확도를 측정한 결과 787%가 도출되었고 샘플 10개 수행시에는 70%의 정확도를 보였다. 따라서 샘플의 수가 증가함에 따라 정확도가 비교적 상승하는 것을 확인할 수 있었다. 1000개 샘플을 기준으로 할때의 정확도가 약90%가 도출되었다.

In [None]:
import pandas as pd

data = {'TP': [0, 0], 'TN': [0, 0]}
correct_predictions = 0

for i, query in enumerate(valid_dataset):
    actual_label = int(query["label"])
    predicted_label = 1 if eval_dic[i] == "긍정" else 0  # Assuming "긍정" is positive, "부정" is negative

    if predicted_label == 1:
        if actual_label == 1:
            data['TP'][0] += 1  # PP
            correct_predictions += 1
        else:
            data['TP'][1] += 1  # PN
    else:
        if actual_label == 1:
            data['TN'][0] += 1  # PP
        else:
            data['TN'][1] += 1  # PN
            correct_predictions += 1

df = pd.DataFrame(data, index=['PP', 'PN'])
accuracy = correct_predictions / len(valid_dataset)
df.loc['Accuracy'] = ["-", accuracy]

print(df)

           TP       TN
PP        460   48.000
PN         50  442.000
Accuracy    -    0.902


In [None]:
print(eval_dic[0])

긍정


In [None]:
trained_model.save_pretrained("hw-llama-2-7B-nsmc")#모델허브 푸시
tokenizer.save_pretrained("hw-llama-2-7B-nsmc")
from transformers import push_to_hub
#use auth token에 내 토큰(access token)넣기
push_to_hub("hw-llama-2-7B-nsmc", repo_name="hw-llama-2-7B-nsmc", use_auth_token="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",commit_message="initial_commit")#제 토큰입니다.

## 해당 파일을 나의 부계정인 tafodile01@gmail.com에서 수행했기 때문에 create report(wandb)를 수행한 결과 그래프를 html방식으로 제출하였다. 해당 링크를 들어가면 링크를 가진 사용자들은 접근할 수 있도록 권한을 설정했다.(train loss, epoch등 정보 확인 가능)

In [None]:
#https://wandb.ai/tafodile01/huggingface/reports/hw-llama-7B-nsmc--Vmlldzo2MjgxOTc1
from IPython.display import HTML
wandb_url = "https://wandb.ai/tafodile01/huggingface/reports/hw-llama-7B-nsmc--Vmlldzo2MjgxOTc1"
html_code = f'<a href="{wandb_url}" target="_blank">Open the WandB Report</a>'
HTML(html_code)