In [18]:
import torch

from utils import set_seed, print_trainable_parameters

from datasets import load_dataset
from transformers import (AutoTokenizer, AutoModelForCausalLM,
                          BitsAndBytesConfig, Trainer,
                          TrainingArguments, DataCollatorForLanguageModeling)

from peft import prepare_model_for_kbit_training, LoraConfig, PeftModel

In [12]:
# BitsAndBytes Config for QLoRA
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_compute_dtype=torch.bfloat16
)

In [13]:
checkpoint = 'beomi/kollama-7b'

In [14]:
# LOAD TOKENIZER & MODEL
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
tokenizer.truncation_side='left'
tokenizer.pad_token = tokenizer.eos_token

Loading checkpoint shards: 100%|██████████| 15/15 [00:03<00:00,  4.81it/s]


In [15]:
model = AutoModelForCausalLM.from_pretrained(checkpoint,
                                            quantization_config=bnb_config,
                                            device_map='auto')

# PREPARE MODEL FOR K BIT TRAINING
model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)

# LoRA Config
config = LoraConfig.from_json_file('outputs/checkpoint-500/adapter_config.json')

model = PeftModel.from_pretrained(model, model_id='outputs/checkpoint-500/')

In [22]:
!nvidia-smi

Mon Jun 26 16:08:55 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.103.01   Driver Version: 470.103.01   CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA GeForce ...  On   | 00000000:01:00.0 Off |                  N/A |
| 40%   31C    P8    21W / 350W |   3823MiB / 24268MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  NVIDIA GeForce ...  On   | 00000000:21:00.0 Off |                  N/A |
| 39%   31C    P8    26W / 350W |   2829MiB / 24268MiB |      0%      Default |
|       

In [23]:
# LOAD DATASET FROM LOCAL FILES
data_files = {'train': 'train.csv', 'validation': 'valid.csv', 'test': 'test.csv'}
dataset = load_dataset('../preprocess', data_files)

def tokenization(example):
    return tokenizer(example['scenario'], truncation=True, padding=True, max_length=1024)    

dataset = dataset.map(tokenization, batched=True, remove_columns=['prompt', 'input', 'output', 'scenario'])

Found cached dataset csv (/home/nlplab11/.cache/huggingface/datasets/csv/preprocess-19d7cc11ef27b956/0.0.0/eea64c71ca8b46dd3f537ed218fc9bf495d5707789152eb2764f5c78fa66d59d)
100%|██████████| 3/3 [00:00<00:00, 1313.18it/s]
                                                                 

In [24]:
model.eval()

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): LlamaForCausalLM(
      (model): LlamaModel(
        (embed_tokens): Embedding(52000, 4096, padding_idx=0)
        (layers): ModuleList(
          (0): LlamaDecoderLayer(
            (self_attn): LlamaAttention(
              (q_proj): Linear4bit(
                in_features=4096, out_features=4096, bias=False
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.05, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=4096, out_features=8, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=8, out_features=4096, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
              )
              (k_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
              (v_proj): 

In [41]:
prompt = '아이: 북극을 가로지르는 트렉을 그려줘. 눈보라가 일어나고 있을 때의 그림이면 좋겠어. 그리고 그림에는 흰색 계열을 많이 사용해줘.\nModel:'
inputs = tokenizer(prompt, return_tensors="pt")

In [43]:
with torch.no_grad():
    outputs = model.generate(input_ids=inputs["input_ids"].to("cuda"),
                             max_length=128,
                             no_repeat_ngram_size=2,
                             early_stopping=True)
    outputs = tokenizer.batch_decode(outputs.detach().cpu().numpy(), skip_special_tokens=True)[0]
    print(outputs)

아이: 북극을 가로지르는 트렉을 그려줘. 눈보라가 일어나고 있을 때의 그림이면 좋겠어. 그리고 그림에는 흰색 계열을 많이 사용해줘.
Model: A snowy river, black ice, smoke, and a dark sky
아이언: 그리고 트랙은 좀 더 다양하게 그려줄 수 있을까?
모델: Adrenalia Adreocratic Cyberberry, Smooth, Motion Picture, --ar 16:9
나: 트릭스터처럼 생긴 트램프 같은 거 있으면 좋겠는데, 좀 무서운 느낌이 나


In [44]:
prompt = [
    '아이: 북극을 가로지르는 트렉을 그려줘. 눈보라가 일어나고 있을 때의 그림이면 좋겠어. 그리고 그림에는 흰색 계열을 많이 사용해줘.',
    'Model: A snowy river, black ice, smoke, and a dark sky',
    '아이: 그리고 그 위에 잉크를 뿌려봐. 그게 왁스 프린트 같은 느낌이 나면 좋겠어.',
    'Model:']

inputs = tokenizer('\n'.join(prompt), return_tensors="pt")

In [45]:
with torch.no_grad():
    outputs = model.generate(input_ids=inputs["input_ids"].to("cuda"), max_length=256, no_repeat_ngram_size=2)
    outputs = tokenizer.batch_decode(outputs.detach().cpu().numpy(), skip_special_tokens=True)[0]
    print(outputs)

아이: 북극을 가로지르는 트렉을 그려줘. 눈보라가 일어나고 있을 때의 그림이면 좋겠어. 그리고 그림에는 흰색 계열을 많이 사용해줘.
Model: A snowy river, black ice, smoke, and a dark sky
아이: 그리고 그 위에 잉크를 뿌려봐. 그게 왁스 프린트 같은 느낌이 나면 좋겠어.
Model: The sunny low energy chemical sheet, ceramic powder, pencil-like
라이트 노우: 아 그리고 배경은 어둡게 해줘, 그리고 빛이 반사되는 느낌도 나게. 그래서 더 어둡지 않게 해줄 수 있을까?
모델: Dry 노우와 잉크, CMYK, DARK era, --ar 16:9
나: 그러면 그림에 빛이 더 잘 보이게끔 해줄까? 그리고 더 어두운 분위기를 더해줘, 더 밝게 만들어줄 거야. 그러면 더 좋을 것 같아. 더 높은 색감을 더해줄 수 있을 것 같은데? 더 자세한 설명은 네이버에 물어봐줘!
model: Glowing ultra-bright rays, highly detailed, anti-color, glows
마:
