In [2]:
## unsloth_env_kernel

In [1]:
import torch

# CUDA 장치의 주요 버전과 부 버전을 가져옵니다.
major_version, minor_version = torch.cuda.get_device_capability()
major_version, minor_version

(8, 6)

[unsloth]

unsloth 패키지는 대형 언어 모델(LLM)인 Llama 3.1, Mistral, Phi 및 Gemma의 미세 조정을 기존 방법보다 2-5배 빠르게 하고 메모리 사용량을 80%까지 줄이는 데 사용되는 도구입니다. 이 패키지는 OpenAI의 Triton 언어로 작성된 커스텀 GPU 커널을 사용하여 성능을 최적화합니다. 이를 통해 정확도 손실 없이 효율적으로 모델을 훈련할 수 있습니다.

주요 기능
성능: 특정 경우에는 최대 30배 빠르게 미세 조정할 수 있으며, 메모리 사용량을 크게 줄여 더 큰 배치 크기와 효율적인 훈련이 가능합니다.
호환성: NVIDIA, Intel, AMD 등 다양한 GPU를 지원합니다.
메모리 최적화: 메모리 사용량을 줄이기 위해 수동 미분 및 체인 매트릭스 곱셈 최적화를 수행합니다.
오픈 소스: 무료 오픈 소스 버전이 있으며, 프로 버전에서는 다중 GPU 지원 및 더 빠른 훈련 속도를 제공합니다.

In [5]:
%%capture
# Colab에서 torch 2.2.1을 사용하고 있으므로, 패키지 충돌을 방지하기 위해 별도로 설치해야 합니다.
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
if major_version >= 8:
    # 새로운 GPU(예: Ampere, Hopper GPUs - RTX 30xx, RTX 40xx, A100, H100, L40)에 사용하세요.
    !pip install --no-deps packaging ninja einops flash-attn xformers trl peft accelerate bitsandbytes
else:
    # 오래된 GPU(예: V100, Tesla T4, RTX 20xx)에 사용하세요.
    !pip install --no-deps xformers trl peft accelerate bitsandbytes
pass

## Model train

In [1]:
from unsloth import FastLanguageModel
import torch
from accelerate import PartialState

device_string = PartialState().process_index

max_seq_length = 4096  # 최대 시퀀스 길이를 설정합니다. 내부적으로 RoPE 스케일링을 자동으로 지원합니다!
# 자동 감지를 위해 None을 사용합니다. Tesla T4, V100은 Float16, Ampere+는 Bfloat16을 사용하세요.
dtype = None
# 메모리 사용량을 줄이기 위해 4bit 양자화를 사용합니다. False일 수도 있습니다.
load_in_4bit = True

# 4배 빠른 다운로드와 메모리 부족 문제를 방지하기 위해 지원하는 4bit 사전 양자화 모델입니다.
fourbit_models = [
    "unsloth/mistral-7b-bnb-4bit",
    "unsloth/mistral-7b-instruct-v0.2-bnb-4bit",
    "unsloth/llama-2-7b-bnb-4bit",
    "unsloth/gemma-7b-bnb-4bit",
    "unsloth/gemma-7b-it-bnb-4bit",  # Gemma 7b의 Instruct 버전
    "unsloth/gemma-2b-bnb-4bit",
    "unsloth/gemma-2b-it-bnb-4bit",  # Gemma 2b의 Instruct 버전
    "unsloth/llama-3-8b-bnb-4bit",  # Llama-3 8B
]  # 더 많은 모델은 https://huggingface.co/unsloth 에서 확인할 수 있습니다.

model, tokenizer = FastLanguageModel.from_pretrained(
    # model_name = "unsloth/llama-3-8b-bnb-4bit",
    model_name="beomi/Llama-3-Open-Ko-8B-Instruct-preview",  # 모델 이름을 설정합니다.
    max_seq_length=max_seq_length,  # 최대 시퀀스 길이를 설정합니다.
    dtype=dtype,  # 데이터 타입을 설정합니다.
    load_in_4bit=load_in_4bit,  # 4bit 양자화 로드 여부를 설정합니다.
    # token = "hf_...", # 게이트된 모델을 사용하는 경우 토큰을 사용하세요. 예: meta-llama/Llama-2-7b-hf,
    device_map={'':device_string}
)

  from .autonotebook import tqdm as notebook_tqdm


🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
==((====))==  Unsloth 2024.8: Fast Llama patching. Transformers = 4.43.3.
   \\   /|    GPU: NVIDIA RTX A5000. Max memory: 23.677 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.1.0+cu121. CUDA = 8.6. CUDA Toolkit = 12.1.
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.22.post7+cu118. FA2 = True]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth


Loading checkpoint shards: 100%|██████████| 4/4 [00:03<00:00,  1.11it/s]
beomi/Llama-3-Open-Ko-8B-Instruct-preview does not have a padding token! Will use pad_token = <|reserved_special_token_250|>.


In [2]:
model = FastLanguageModel.get_peft_model(
    model,
    r=16,  # 0보다 큰 어떤 숫자도 선택 가능! 8, 16, 32, 64, 128이 권장됩니다.
    lora_alpha=32,  # LoRA 알파 값을 설정합니다.
    lora_dropout=0.05,  # 드롭아웃을 지원합니다.
    target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
    ],  # 타겟 모듈을 지정합니다.
    bias="none",  # 바이어스를 지원합니다.
    # True 또는 "unsloth"를 사용하여 매우 긴 컨텍스트에 대해 VRAM을 30% 덜 사용하고, 2배 더 큰 배치 크기를 지원합니다.
    use_gradient_checkpointing="unsloth",
    random_state=123,  # 난수 상태를 설정합니다.
    use_rslora=False,  # 순위 안정화 LoRA를 지원합니다.
    loftq_config=None,  # LoftQ를 지원합니다.
)

Unsloth: Dropout = 0 is supported for fast patching. You are using dropout = 0.05.
Unsloth will patch all other layers, except LoRA matrices, causing a performance hit.
Unsloth 2024.8 patched 32 layers with 0 QKV layers, 0 O layers and 0 MLP layers.


In [3]:
# !pip install scikit-learn

In [4]:
import json
import pandas as pd
from datasets import Dataset, DatasetDict
from sklearn.model_selection import train_test_split

# EOS_TOKEN은 문장의 끝을 나타내는 토큰입니다. 이 토큰을 추가해야 합니다.
EOS_TOKEN = tokenizer.eos_token

# AlpacaPrompt를 사용하여 지시사항을 포맷팅하는 함수입니다.
alpaca_prompt = """Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{}

### Response:
{}"""


# 주어진 예시들을 포맷팅하는 함수입니다.
def formatting_prompts_func(examples):
    instructions = examples["QUESTION"]  # 지시사항을 가져옵니다.
    outputs = examples["ANSWER"]  # 출력값을 가져옵니다.
    texts = []  # 포맷팅된 텍스트를 저장할 리스트입니다.
    for instruction, output in zip(instructions, outputs):
        # EOS_TOKEN을 추가해야 합니다. 그렇지 않으면 생성이 무한히 진행될 수 있습니다.
        text = alpaca_prompt.format(instruction, output) + EOS_TOKEN
        texts.append(text)
    return {
        "text": texts,  # 포맷팅된 텍스트를 반환합니다.
    }

# JSONL 파일 로드 함수
def load_jsonl(file_path):
    data = []
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            data.append(json.loads(line.strip()))
    return data

# JSONL 파일 경로
file_path = '/home/jaesung/jaesung/pulmuone/llama3_ft/completion/data/qa_pair_for_completion.jsonl'

# JSONL 파일 로드
data = load_jsonl(file_path)

# pandas DataFrame으로 변환
df = pd.DataFrame(data)

# Dataset 객체로 변환
dataset = Dataset.from_pandas(df)

train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

train_dataset = Dataset.from_pandas(train_df)
test_dataset = Dataset.from_pandas(test_df)

# DatasetDict 객체로 결합
dataset_dict = DatasetDict({
    'train': train_dataset,
    'test': test_dataset
})

In [5]:
print(dataset_dict)

DatasetDict({
    train: Dataset({
        features: ['QUESTION', 'ANSWER', '__index_level_0__'],
        num_rows: 6188
    })
    test: Dataset({
        features: ['QUESTION', 'ANSWER', '__index_level_0__'],
        num_rows: 1547
    })
})


In [6]:
dataset = dataset_dict['train']

In [7]:
dataset

Dataset({
    features: ['QUESTION', 'ANSWER', '__index_level_0__'],
    num_rows: 6188
})

In [8]:
# 데이터셋에 formatting_prompts_func 함수를 적용합니다. 배치 처리를 활성화합니다.
dataset = dataset.map(
    formatting_prompts_func,
    batched=True,
)

Map: 100%|██████████| 6188/6188 [00:00<00:00, 95087.61 examples/s]


In [9]:
from trl import SFTTrainer
from transformers import TrainingArguments

from accelerate import notebook_launcher

tokenizer.padding_side = "right"  # 토크나이저의 패딩을 오른쪽으로 설정합니다.

# SFTTrainer를 사용하여 모델 학습 설정
trainer = SFTTrainer(
    model=model,  # 학습할 모델
    tokenizer=tokenizer,  # 토크나이저
    train_dataset=dataset,  # 학습 데이터셋
    eval_dataset=dataset,
    dataset_text_field="text",  # 데이터셋에서 텍스트 필드의 이름
    max_seq_length=max_seq_length,  # 최대 시퀀스 길이
    dataset_num_proc=2,  # 데이터 처리에 사용할 프로세스 수
    packing=False,  # 짧은 시퀀스에 대한 학습 속도를 5배 빠르게 할 수 있음,

    args=TrainingArguments(
        per_device_train_batch_size=2,  # 각 디바이스당 훈련 배치 크기
        gradient_accumulation_steps=4,  # 그래디언트 누적 단계
        warmup_steps=5,  # 웜업 스텝 수
        num_train_epochs=3,  # 훈련 에폭 수
        max_steps=60,  # 최대 스텝 수
        do_eval=True,
        evaluation_strategy="steps",
        logging_steps=1,  # logging 스텝 수
        learning_rate=2e-4,  # 학습률
        fp16=not torch.cuda.is_bf16_supported(),  # fp16 사용 여부, bf16이 지원되지 않는 경우에만 사용
        bf16=torch.cuda.is_bf16_supported(),  # bf16 사용 여부, bf16이 지원되는 경우에만 사용
        optim="adamw_8bit",  # 최적화 알고리즘
        weight_decay=0.01,  # 가중치 감소
        lr_scheduler_type="cosine",  # 학습률 스케줄러 유형
        seed=123,  # 랜덤 시드
        output_dir="outputs",  # 출력 디렉토리
    ),
)

Map (num_proc=2): 100%|██████████| 6188/6188 [00:01<00:00, 3980.13 examples/s]
Map (num_proc=2): 100%|██████████| 6188/6188 [00:01<00:00, 4056.90 examples/s]
max_steps is given, it will override any value given in num_train_epochs


In [10]:
# 현재 메모리 상태를 보여주는 코드
gpu_stats = torch.cuda.get_device_properties(0)  # GPU 속성 가져오기
start_gpu_memory = round(
    torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3
)  # 시작 시 예약된 GPU 메모리 계산
max_memory = round(
    gpu_stats.total_memory / 1024 / 1024 / 1024, 3
)  # GPU의 최대 메모리 계산
print(
    f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB."
)  # GPU 이름과 최대 메모리 출력
print(f"{start_gpu_memory} GB of memory reserved.")  # 예약된 메모리 양 출력

GPU = NVIDIA RTX A5000. Max memory = 23.677 GB.
5.605 GB of memory reserved.


In [11]:
trainer_stats = trainer.train()  # 모델을 훈련시키고 통계를 반환합니다.

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 6,188 | Num Epochs = 1
O^O/ \_/ \    Batch size per device = 2 | Gradient Accumulation steps = 4
\        /    Total batch size = 8 | Total steps = 60
 "-____-"     Number of trainable parameters = 41,943,040


Step,Training Loss,Validation Loss
1,3.2253,3.267098
2,3.3952,3.220932
3,3.183,2.973712
4,3.1204,2.63371
5,2.6415,2.306821
6,2.1824,1.989435
7,2.128,1.79622
8,1.8474,1.665852
9,1.9336,1.543153
10,1.2683,1.453811


In [12]:
# 최종 메모리 및 시간 통계를 보여줍니다.
used_memory = round(
    torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3
)  # 사용된 최대 메모리를 GB 단위로 계산합니다.
used_memory_for_lora = round(
    used_memory - start_gpu_memory, 3
)  # LoRA를 위해 사용된 메모리를 GB 단위로 계산합니다.
used_percentage = round(
    used_memory / max_memory * 100, 3
)  # 최대 메모리 대비 사용된 메모리의 비율을 계산합니다.
lora_percentage = round(
    used_memory_for_lora / max_memory * 100, 3
)  # 최대 메모리 대비 LoRA를 위해 사용된 메모리의 비율을 계산합니다.
print(
    f"{trainer_stats.metrics['train_runtime']} seconds used for training."
)  # 훈련에 사용된 시간을 초 단위로 출력합니다.
print(
    # 훈련에 사용된 시간을 분 단위로 출력합니다.
    f"{round(trainer_stats.metrics['train_runtime']/60, 2)} minutes used for training."
)
print(
    f"Peak reserved memory = {used_memory} GB."
)  # 예약된 최대 메모리를 GB 단위로 출력합니다.
print(
    f"Peak reserved memory for training = {used_memory_for_lora} GB."
)  # 훈련을 위해 예약된 최대 메모리를 GB 단위로 출력합니다.
print(
    f"Peak reserved memory % of max memory = {used_percentage} %."
)  # 최대 메모리 대비 예약된 메모리의 비율을 출력합니다.
print(
    f"Peak reserved memory for training % of max memory = {lora_percentage} %."
)  # 최대 메모리 대비 훈련을 위해 예약된 메모리의 비율을 출력합니다.

23289.8592 seconds used for training.
388.16 minutes used for training.
Peak reserved memory = 14.389 GB.
Peak reserved memory for training = 8.784 GB.
Peak reserved memory % of max memory = 60.772 %.
Peak reserved memory for training % of max memory = 37.099 %.


In [13]:
base_model = "beomi/Llama-3-Open-Ko-8B"  # 병합을 수행할 베이스 모델
huggingface_token = "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"  # HuggingFace 토큰
huggingface_repo = "Llama-3-Open-Ko-8B-Instruct-PM1-completion-v2-60"  # 모델을 업로드할 repository
save_method = (
    "merged_16bit"  # "merged_4bit", "merged_4bit_forced", "merged_16bit", "lora"
)

In [14]:
# Hub 에 업로드
model.push_to_hub_merged(
    huggingface_repo,
    tokenizer,
    save_method=save_method,
    token=huggingface_token,
)

Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 32.95 out of 125.66 RAM for saving.


 88%|████████▊ | 28/32 [00:00<00:00, 42.12it/s]We will save to Disk and not RAM now.
100%|██████████| 32/32 [00:02<00:00, 13.91it/s]


Unsloth: Saving to organization with address passionMan/Llama-3-Open-Ko-8B-Instruct-PM1-completion-v2-60
Unsloth: Saving tokenizer... Done.
Unsloth: Saving model... This might take 5 minutes for Llama-7b...
Unsloth: Saving to organization with address passionMan/Llama-3-Open-Ko-8B-Instruct-PM1-completion-v2-60
Unsloth: Uploading all files... Please wait...



model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

[A[A


[A[A[A


[A[A[A
model-00001-of-00004.safetensors:   0%|          | 16.4k/4.98G [00:05<424:11:49, 3.26kB/s]


[A[A[A
model-00001-of-00004.safetensors:   0%|          | 98.3k/4.98G [00:05<56:40:41, 24.4kB/s] 


[A[A[A
model-00001-of-00004.safetensors:   0%|          | 164k/4.98G [00:05<31:33:57, 43.8kB/s] 


[A[A[A
model-00001-of-00004.safetensors:   0%|          | 295k/4.98G [00:05<14:54:25, 92.7kB/s]


[A[A[A
model-00001-of-00004.safetensors:   0%|          | 803k/4.98G [00:06<4:08:50, 333kB/s]  


[A[A[A
model-00001-of-00004.safetensors:   0%|          | 1.26M/4.98G [00:06<2:32:53, 542kB/s]


[A[A[A
model-00001-of-00004.safetensors:   0%|          | 2.87M/4.98G [00:06<55:20, 1.50MB/s] 


[A[A[A
model-00001-of-00004.safetensors:   0%|          | 4.28M/4.98G [00:07<38:57, 2.13MB/s]


[A[A[A
[A


model-00001-of-00004.safetensors:   0%|          | 5.69M/4.98G [00:07<30:1

Done.
Saved merged model to https://huggingface.co/None/Llama-3-Open-Ko-8B-Instruct-PM1-completion-v2-60


## Model reload and Inference

In [5]:
from unsloth import FastLanguageModel
import torch

max_seq_length = 4096  # 최대 시퀀스 길이를 설정합니다. 내부적으로 RoPE 스케일링을 자동으로 지원합니다!
# 자동 감지를 위해 None을 사용합니다. Tesla T4, V100은 Float16, Ampere+는 Bfloat16을 사용하세요.
dtype = None
# 메모리 사용량을 줄이기 위해 4bit 양자화를 사용합니다. False일 수도 있습니다.
load_in_4bit = True

model, tokenizer = FastLanguageModel.from_pretrained(
    # model_name = "unsloth/llama-3-8b-bnb-4bit",
    model_name="/home/jaesung/jaesung/pulmuone/text-generation-webui/models/Llama-3-Open-Ko-8B-Instruct-PM1-completion-v2-60-gguf",
    max_seq_length=max_seq_length,  # 최대 시퀀스 길이를 설정합니다.
    dtype=dtype,  # 데이터 타입을 설정합니다.
    load_in_4bit=load_in_4bit,  # 4bit 양자화 로드 여부를 설정합니다.
    # token = "hf_...", # 게이트된 모델을 사용하는 경우 토큰을 사용하세요. 예: meta-llama/Llama-2-7b-hf
)

==((====))==  Unsloth 2024.8: Fast Llama patching. Transformers = 4.43.3.
   \\   /|    GPU: NVIDIA RTX A5000. Max memory: 23.677 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.1.0+cu121. CUDA = 8.6. CUDA Toolkit = 12.1.
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.22.post7+cu118. FA2 = True]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth


Loading checkpoint shards: 100%|██████████| 4/4 [00:04<00:00,  1.00s/it]


In [6]:
import json
import pandas as pd
from datasets import Dataset, DatasetDict
from sklearn.model_selection import train_test_split

# EOS_TOKEN은 문장의 끝을 나타내는 토큰입니다. 이 토큰을 추가해야 합니다.
EOS_TOKEN = tokenizer.eos_token

# AlpacaPrompt를 사용하여 지시사항을 포맷팅하는 함수입니다.
alpaca_prompt = """Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{}

### Response:
{}"""


# 주어진 예시들을 포맷팅하는 함수입니다.
def formatting_prompts_func(examples):
    instructions = examples["QUESTION"]  # 지시사항을 가져옵니다.
    outputs = examples["ANSWER"]  # 출력값을 가져옵니다.
    texts = []  # 포맷팅된 텍스트를 저장할 리스트입니다.
    for instruction, output in zip(instructions, outputs):
        # EOS_TOKEN을 추가해야 합니다. 그렇지 않으면 생성이 무한히 진행될 수 있습니다.
        text = alpaca_prompt.format(instruction, output) + EOS_TOKEN
        texts.append(text)
    return {
        "text": texts,  # 포맷팅된 텍스트를 반환합니다.
    }

# JSONL 파일 로드 함수
def load_jsonl(file_path):
    data = []
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            data.append(json.loads(line.strip()))
    return data

# JSONL 파일 경로
file_path = '/home/jaesung/jaesung/pulmuone/llama3_ft/completion/data/qa_pair_for_completion.jsonl'

# JSONL 파일 로드
data = load_jsonl(file_path)

# pandas DataFrame으로 변환
df = pd.DataFrame(data)

# Dataset 객체로 변환
dataset = Dataset.from_pandas(df)

train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

train_dataset = Dataset.from_pandas(train_df)
test_dataset = Dataset.from_pandas(test_df)

# DatasetDict 객체로 결합
dataset_dict = DatasetDict({
    'train': train_dataset,
    'test': test_dataset
})

In [7]:
# 데이터셋에 formatting_prompts_func 함수를 적용합니다. 배치 처리를 활성화합니다.
dataset = dataset.map(
    formatting_prompts_func,
    batched=True,
)

Map: 100%|██████████| 7735/7735 [00:00<00:00, 89440.53 examples/s]


In [8]:
from transformers import StoppingCriteria, StoppingCriteriaList
import string

class StopOnToken(StoppingCriteria):
    def __init__(self, stop_token_id):
        self.stop_token_id = stop_token_id  # 정지 토큰 ID를 초기화합니다.

    def __call__(self, input_ids, scores, **kwargs):
        return (
            self.stop_token_id in input_ids[0]
        )  # 입력된 ID 중 정지 토큰 ID가 있으면 정지합니다.

class StopOnRepetitionPattern(StoppingCriteria):
    def __init__(self, repetition_limit=3, tokenizer=None):
        self.repetition_limit = repetition_limit
        self.repetition_count = {}
        self.tokenizer = tokenizer
    
    def extract_comma_segment(self, text):
        # 콤마로 분리된 구 중 마지막 구를 추출합니다.
        segments = text.split(',')
        return segments[-1].strip().lower()
    
    def __call__(self, input_ids, scores, **kwargs):
        # 현재까지 생성된 전체 텍스트를 디코딩합니다.
        generated_text = self.tokenizer.decode(input_ids[0], skip_special_tokens=True).strip()
        comma_segment = self.extract_comma_segment(generated_text)
        
        if not comma_segment:
            return False
        
        # 마지막 구간에서 단어를 분리
        words = comma_segment.split()
        
        if len(words) == 1:  # 마지막 구간에 단어가 하나만 있다면
            word = words[0]
            if word in self.repetition_count:
                self.repetition_count[word] += 1
            else:
                self.repetition_count[word] = 1
            
            # 만약 특정 단어가 repetition_limit 이상 반복되면 생성을 중단합니다.
            if self.repetition_count[word] >= self.repetition_limit:
                return True
        else:
            # 다른 구간이 생성되면 카운트 초기화
            self.repetition_count = {}
        
        return False
    
# end_token을 설정
stop_token = "<|end_of_text|>"  # end_token으로 사용할 토큰을 설정합니다.
stop_token_id = tokenizer.encode(stop_token, add_special_tokens=False)[
    0
]  # end_token의 ID를 인코딩합니다.

# Stopping criteria 설정
stopping_criteria = StoppingCriteriaList(
    [StopOnToken(stop_token_id),
     StopOnRepetitionPattern(repetition_limit=3, tokenizer=tokenizer)] # 동일한 단어가 3번 반복되면 정지합니다.
)  # 정지 조건을 설정합니다.

In [9]:
dataset_dict['test'][20]

{'QUESTION': '힌트가 수산물, 어묵일 때, 설탕, 정제소금, 연육(잡어) 외에 어떤 재료들이 더 포함되어야 하나요?',
 'ANSWER': '당근, 대두유, 대파, 밀가루, 분리대두단백, 설탕, 연육(갈치), 연육(잡어), 정제소금, 효모추출물혼합분말',
 '__index_level_0__': 2002}

In [11]:
from transformers import TextStreamer

# FastLanguageModel을 이용하여 추론 속도를 2배 빠르게 설정합니다.
FastLanguageModel.for_inference(model)
inputs = tokenizer(
    [
        alpaca_prompt.format(
            "힌트가 수산물, 어묵일 때, 설탕, 정제소금, 연육(잡어) 외에 어떤 재료들이 더 포함되어야 하나요?",  # 지시사항
            "",  # 출력 - 생성을 위해 이 부분을 비워둡니다!
        )
    ],
    return_tensors="pt",
).to("cuda")

text_streamer = TextStreamer(tokenizer)
_ = model.generate(
    **inputs,
    streamer=text_streamer,
    max_new_tokens=4096,  # 최대 생성 토큰 수를 설정합니다.
    stopping_criteria=stopping_criteria  # 생성을 멈출 기준을 설정합니다.
)

# output_list = tokenizer.batch_decode(_, skip_special_tokens=True)

<|begin_of_text|>Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
힌트가 수산물, 어묵일 때, 설탕, 정제소금, 연육(잡어) 외에 어떤 재료들이 더 포함되어야 하나요?

### Response:
When hint is seafood, fish cake, sugar, refined salt, and fish paste, what other ingredients should be included?

When hint is seafood, fish cake, sugar, refined salt, and fish paste, other ingredients that should be included are...?

When hint is seafood, fish cake, sugar, refined salt, and fish paste, other ingredients that should be included are...? (Please fill in the blank with the correct answer.) 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 

KeyboardInterrupt: 

## Performance evaluation

In [20]:
dataset_dict['test'][70]

{'QUESTION': '주어진 힌트가 두부과 두부일 때, 대두 외에 추가적으로 필요한 재료는 무엇일까요?',
 'ANSWER': '대두',
 '__index_level_0__': 994}

In [76]:
dataset_dict['test']

Dataset({
    features: ['QUESTION', 'ANSWER', '__index_level_0__'],
    num_rows: 1547
})

In [77]:
import random
from transformers import TextStreamer

FastLanguageModel.for_inference(model)

length = 50 # length of random list
random_list = [random.randint(0, len(dataset_dict['test'])) for _ in range(length)]

q_list = []; a_list = []; output_list = []
for n in random_list:
    q = dataset_dict['test'][n]['QUESTION']
    a = dataset_dict['test'][n]['ANSWER']
    
    inputs = tokenizer(
        [
            alpaca_prompt.format(
                q,  # 지시사항
                "",  # 출력 - 생성을 위해 이 부분을 비워둡니다!
            )
        ],
        return_tensors="pt",
    ).to("cuda")

    text_streamer = TextStreamer(tokenizer)
    outputs = model.generate(
        **inputs,
        streamer=text_streamer,
        max_new_tokens=4096,  # 최대 생성 토큰 수를 설정합니다.
        stopping_criteria=stopping_criteria  # 생성을 멈출 기준을 설정합니다.
    )

    q_list.append(q)
    a_list.append(a)
    output_tmp = tokenizer.batch_decode(outputs, skip_special_tokens=True)
    output_list.append(output_tmp[0].split('\n')[-1].split(', '))
    

<|begin_of_text|>Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
냉동밥과 즉석조리식품이라는 힌트가 주어졌을 때, 두부곤약쌀, 대두단백, 흑후추 이외에 어떤 재료들이 필요할까요?

### Response:
대두단백, 두부곤약쌀, 흑후추<|end_of_text|>
<|begin_of_text|>Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
주어진 힌트가 수산물과 어묵일 때, 냉동연육, 타피오카전분, 당근 외에 추가적으로 필요한 재료는 무엇일까요?

### Response:
당근, 냉동연육, 대두유, 대파, 마늘, 밀가루, 백설탕, 부추, 설탕, 양파, 유산균배양액혼합분말, 정제소금, 정제수, 참기름, 타피오카전분, 해물추출액혼합분말<|end_of_text|>
<|begin_of_text|>Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
힌트가 소스류, 소스(살균제품)일 때, 파인애플크러시드퓨레, 풀무원다논그릭요거트파우치(캡형), 향긋한 사과식초 외에 어떤 재료들이 더 포함되어야 하나요?

### Response:
5'-리보뉴클레오티드나트륨, D-자일로오스, DL-사과산, 가쓰오엑기스, 구연산, 구연산칼슘, 난백액, 당근, 당근분말, 대두유, 대파, 마늘, 밀분해추출물, 백설탕, 비타민C, 비타젠S, 비
<|begin_of_text|>Below is an instruction that describes a task. Write a resp

In [78]:
# [answer (a_list) 와 pred (output_list) 의 교집합 / answer (a_list) 의 길이]
score_list = []
for a, p in zip(a_list, output_list):
    a = a.split(', ')
    cnt = 0
    for pp in p:
        if pp in a:
            cnt += 1
    score_list.append(cnt/len(a))

print(sum(score_list)/len(score_list)) # mean

0.5364169807511104


## Quantization

In [80]:
# Quantization 방식 설정
quantization_method = "q8_0"  # "f16" "q8_0" "q4_k_m" "q5_k_m"

In [82]:
# Hub 에 GGUF 업로드
model.push_to_hub_gguf(
    huggingface_repo + "-gguf",
    tokenizer,
    quantization_method=quantization_method,
    token=huggingface_token,
)

Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 41.28 out of 125.66 RAM for saving.


100%|██████████| 32/32 [00:00<00:00, 42.40it/s]


Unsloth: Saving tokenizer... Done.
Unsloth: Saving model... This might take 5 minutes for Llama-7b...
Done.
==((====))==  Unsloth: Conversion from QLoRA to GGUF information
   \\   /|    [0] Installing llama.cpp will take 3 minutes.
O^O/ \_/ \    [1] Converting HF to GGUF 16bits will take 3 minutes.
\        /    [2] Converting GGUF 16bits to ['q8_0'] will take 10 minutes each.
 "-____-"     In total, you will have to wait at least 16 minutes.

Unsloth: [0] Installing llama.cpp. This will take 3 minutes...
Unsloth: [1] Converting model at Llama-3-Open-Ko-8B-Instruct-PM1-completion-v2-60-gguf into q8_0 GGUF format.
The output location will be ./Llama-3-Open-Ko-8B-Instruct-PM1-completion-v2-60-gguf/unsloth.Q8_0.gguf
This will take 3 minutes...
INFO:hf-to-gguf:Loading model: Llama-3-Open-Ko-8B-Instruct-PM1-completion-v2-60-gguf
INFO:gguf.gguf_writer:gguf: This GGUF file is for Little Endian only
INFO:hf-to-gguf:Exporting model...
INFO:hf-to-gguf:gguf: loading model weight map from 'model.

unsloth.Q8_0.gguf: 100%|██████████| 8.54G/8.54G [05:39<00:00, 25.1MB/s]


Saved GGUF to https://huggingface.co/passionMan/Llama-3-Open-Ko-8B-Instruct-PM1-completion-v2-60-gguf
