In [None]:
## unsloth_env_kernel

In [2]:
import torch

# CUDA 장치의 주요 버전과 부 버전을 가져옵니다.
major_version, minor_version = torch.cuda.get_device_capability()
major_version, minor_version

(8, 6)

[unsloth]

unsloth 패키지는 대형 언어 모델(LLM)인 Llama 3.1, Mistral, Phi 및 Gemma의 미세 조정을 기존 방법보다 2-5배 빠르게 하고 메모리 사용량을 80%까지 줄이는 데 사용되는 도구입니다. 이 패키지는 OpenAI의 Triton 언어로 작성된 커스텀 GPU 커널을 사용하여 성능을 최적화합니다. 이를 통해 정확도 손실 없이 효율적으로 모델을 훈련할 수 있습니다.

주요 기능
성능: 특정 경우에는 최대 30배 빠르게 미세 조정할 수 있으며, 메모리 사용량을 크게 줄여 더 큰 배치 크기와 효율적인 훈련이 가능합니다.
호환성: NVIDIA, Intel, AMD 등 다양한 GPU를 지원합니다.
메모리 최적화: 메모리 사용량을 줄이기 위해 수동 미분 및 체인 매트릭스 곱셈 최적화를 수행합니다.
오픈 소스: 무료 오픈 소스 버전이 있으며, 프로 버전에서는 다중 GPU 지원 및 더 빠른 훈련 속도를 제공합니다.

In [3]:
%%capture
# Colab에서 torch 2.2.1을 사용하고 있으므로, 패키지 충돌을 방지하기 위해 별도로 설치해야 합니다.
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
if major_version >= 8:
    # 새로운 GPU(예: Ampere, Hopper GPUs - RTX 30xx, RTX 40xx, A100, H100, L40)에 사용하세요.
    !pip install --no-deps packaging ninja einops flash-attn xformers trl peft accelerate bitsandbytes
else:
    # 오래된 GPU(예: V100, Tesla T4, RTX 20xx)에 사용하세요.
    !pip install --no-deps xformers trl peft accelerate bitsandbytes
pass

## Model train

In [1]:
from unsloth import FastLanguageModel
import torch
from accelerate import PartialState

device_string = PartialState().process_index

max_seq_length = 4096  # 최대 시퀀스 길이를 설정합니다. 내부적으로 RoPE 스케일링을 자동으로 지원합니다!
# 자동 감지를 위해 None을 사용합니다. Tesla T4, V100은 Float16, Ampere+는 Bfloat16을 사용하세요.
dtype = None
# 메모리 사용량을 줄이기 위해 4bit 양자화를 사용합니다. False일 수도 있습니다.
load_in_4bit = True

# 4배 빠른 다운로드와 메모리 부족 문제를 방지하기 위해 지원하는 4bit 사전 양자화 모델입니다.
fourbit_models = [
    "unsloth/mistral-7b-bnb-4bit",
    "unsloth/mistral-7b-instruct-v0.2-bnb-4bit",
    "unsloth/llama-2-7b-bnb-4bit",
    "unsloth/gemma-7b-bnb-4bit",
    "unsloth/gemma-7b-it-bnb-4bit",  # Gemma 7b의 Instruct 버전
    "unsloth/gemma-2b-bnb-4bit",
    "unsloth/gemma-2b-it-bnb-4bit",  # Gemma 2b의 Instruct 버전
    "unsloth/llama-3-8b-bnb-4bit",  # Llama-3 8B
]  # 더 많은 모델은 https://huggingface.co/unsloth 에서 확인할 수 있습니다.

model, tokenizer = FastLanguageModel.from_pretrained(
    # model_name = "unsloth/llama-3-8b-bnb-4bit",
    model_name="beomi/Llama-3-Open-Ko-8B-Instruct-preview",  # 모델 이름을 설정합니다.
    max_seq_length=max_seq_length,  # 최대 시퀀스 길이를 설정합니다.
    dtype=dtype,  # 데이터 타입을 설정합니다.
    load_in_4bit=load_in_4bit,  # 4bit 양자화 로드 여부를 설정합니다.
    # token = "hf_...", # 게이트된 모델을 사용하는 경우 토큰을 사용하세요. 예: meta-llama/Llama-2-7b-hf,
    device_map={'':device_string}
)

  from .autonotebook import tqdm as notebook_tqdm


🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
==((====))==  Unsloth 2024.8: Fast Llama patching. Transformers = 4.44.0.
   \\   /|    GPU: NVIDIA A10. Max memory: 21.988 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.4.0+cu121. CUDA = 8.6. CUDA Toolkit = 12.1.
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.27.post2. FA2 = True]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth


Loading checkpoint shards: 100%|██████████| 4/4 [00:05<00:00,  1.35s/it]
beomi/Llama-3-Open-Ko-8B-Instruct-preview does not have a padding token! Will use pad_token = <|reserved_special_token_250|>.


In [2]:
model = FastLanguageModel.get_peft_model(
    model,
    # r=16,
    r=32,  # 0보다 큰 어떤 숫자도 선택 가능! 8, 16, 32, 64, 128이 권장됩니다. # 얼마나 압축할지, 많이 압축할 수록 파라미터 수가 작아집니다.
    lora_alpha=32,  # LoRA 알파 값을 설정합니다.
    lora_dropout=0.05,  # 드롭아웃을 지원합니다.
    target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
    ],  # 타겟 모듈을 지정합니다.
    bias="none",  # 바이어스를 지원합니다.
    # True 또는 "unsloth"를 사용하여 매우 긴 컨텍스트에 대해 VRAM을 30% 덜 사용하고, 2배 더 큰 배치 크기를 지원합니다.
    use_gradient_checkpointing="unsloth",
    random_state=123,  # 난수 상태를 설정합니다.
    use_rslora=False,  # 순위 안정화 LoRA를 지원합니다.
    loftq_config=None,  # LoftQ를 지원합니다.
)

Unsloth: Dropout = 0 is supported for fast patching. You are using dropout = 0.05.
Unsloth will patch all other layers, except LoRA matrices, causing a performance hit.
Unsloth 2024.8 patched 32 layers with 0 QKV layers, 0 O layers and 0 MLP layers.


In [3]:
# %pip install scikit-learn

In [4]:
import json
import pandas as pd
from datasets import Dataset, DatasetDict
from sklearn.model_selection import train_test_split

# EOS_TOKEN은 문장의 끝을 나타내는 토큰입니다. 이 토큰을 추가해야 합니다.
EOS_TOKEN = tokenizer.eos_token

# AlpacaPrompt를 사용하여 지시사항을 포맷팅하는 함수입니다.
alpaca_prompt = """Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{}

### Response:
{}"""


# 주어진 예시들을 포맷팅하는 함수입니다.
def formatting_prompts_func(examples):
    instructions = examples["QUESTION"]  # 지시사항을 가져옵니다.
    outputs = examples["ANSWER"]  # 출력값을 가져옵니다.
    texts = []  # 포맷팅된 텍스트를 저장할 리스트입니다.
    for instruction, output in zip(instructions, outputs):
        # EOS_TOKEN을 추가해야 합니다. 그렇지 않으면 생성이 무한히 진행될 수 있습니다.
        text = alpaca_prompt.format(instruction, output) + EOS_TOKEN
        texts.append(text)
    return {
        "text": texts,  # 포맷팅된 텍스트를 반환합니다.
    }

# JSONL 파일 로드 함수
def load_jsonl(file_path):
    data = []
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            data.append(json.loads(line.strip()))
    return data

# JSONL 파일 경로
file_path = '/home/jaesung/pulmuone/alpaca_rec_turning/completion/data/qa_pair_for_completion.jsonl'

# JSONL 파일 로드
data = load_jsonl(file_path)

# pandas DataFrame으로 변환
df = pd.DataFrame(data)

# Dataset 객체로 변환
dataset = Dataset.from_pandas(df)

train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

train_dataset = Dataset.from_pandas(train_df)
test_dataset = Dataset.from_pandas(test_df)

# DatasetDict 객체로 결합
dataset_dict = DatasetDict({
    'train': train_dataset,
    'test': test_dataset
})

In [5]:
print(dataset_dict)

DatasetDict({
    train: Dataset({
        features: ['QUESTION', 'ANSWER', '__index_level_0__'],
        num_rows: 3398
    })
    test: Dataset({
        features: ['QUESTION', 'ANSWER', '__index_level_0__'],
        num_rows: 850
    })
})


In [6]:
dataset = dataset_dict['train']

In [7]:
dataset

Dataset({
    features: ['QUESTION', 'ANSWER', '__index_level_0__'],
    num_rows: 3398
})

In [8]:
# 데이터셋에 formatting_prompts_func 함수를 적용합니다. 배치 처리를 활성화합니다.
dataset = dataset.map(
    formatting_prompts_func,
    batched=True,
)

Map: 100%|██████████| 3398/3398 [00:00<00:00, 47143.69 examples/s]


In [9]:
from trl import SFTTrainer
from transformers import TrainingArguments

from accelerate import notebook_launcher

tokenizer.padding_side = "right"  # 토크나이저의 패딩을 오른쪽으로 설정합니다.

# SFTTrainer를 사용하여 모델 학습 설정
trainer = SFTTrainer(
    model=model,  # 학습할 모델
    tokenizer=tokenizer,  # 토크나이저
    train_dataset=dataset,  # 학습 데이터셋
    eval_dataset=dataset,
    dataset_text_field="text",  # 데이터셋에서 텍스트 필드의 이름
    max_seq_length=max_seq_length,  # 최대 시퀀스 길이
    dataset_num_proc=2,  # 데이터 처리에 사용할 프로세스 수
    packing=False,  # 짧은 시퀀스에 대한 학습 속도를 5배 빠르게 할 수 있음,

    args=TrainingArguments(
        per_device_train_batch_size=2,  # 각 디바이스당 훈련 배치 크기
        gradient_accumulation_steps=4,
        # gradient_accumulation_steps=2,  # 그래디언트 누적 단계
        warmup_steps=5,  # 웜업 스텝 수
        num_train_epochs=3,  # 훈련 에폭 수
        max_steps=30,  # 최대 스텝 수
        do_eval=True,
        evaluation_strategy="steps",
        logging_steps=1,  # logging 스텝 수
        learning_rate=2e-4,  # 학습률
        fp16=not torch.cuda.is_bf16_supported(),  # fp16 사용 여부, bf16이 지원되지 않는 경우에만 사용
        bf16=torch.cuda.is_bf16_supported(),  # bf16 사용 여부, bf16이 지원되는 경우에만 사용
        optim="adamw_8bit",  # 최적화 알고리즘
        weight_decay=0.01,  # 가중치 감소
        lr_scheduler_type="cosine",  # 학습률 스케줄러 유형
        seed=123,  # 랜덤 시드
        output_dir="outputs",  # 출력 디렉토리
    ),
)

Map (num_proc=2): 100%|██████████| 3398/3398 [00:01<00:00, 2449.11 examples/s]
Map (num_proc=2): 100%|██████████| 3398/3398 [00:01<00:00, 2457.10 examples/s]
max_steps is given, it will override any value given in num_train_epochs


In [10]:
# 현재 메모리 상태를 보여주는 코드
gpu_stats = torch.cuda.get_device_properties(0)  # GPU 속성 가져오기
start_gpu_memory = round(
    torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3
)  # 시작 시 예약된 GPU 메모리 계산
max_memory = round(
    gpu_stats.total_memory / 1024 / 1024 / 1024, 3
)  # GPU의 최대 메모리 계산
print(
    f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB."
)  # GPU 이름과 최대 메모리 출력
print(f"{start_gpu_memory} GB of memory reserved.")  # 예약된 메모리 양 출력

GPU = NVIDIA A10. Max memory = 21.988 GB.
5.781 GB of memory reserved.


In [11]:
trainer_stats = trainer.train()  # 모델을 훈련시키고 통계를 반환합니다.

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 3,398 | Num Epochs = 1
O^O/ \_/ \    Batch size per device = 2 | Gradient Accumulation steps = 4
\        /    Total batch size = 8 | Total steps = 30
 "-____-"     Number of trainable parameters = 83,886,080


Step,Training Loss,Validation Loss
1,3.4253,3.427506
2,3.3722,3.378253
3,3.4159,3.102912
4,3.139,2.672275
5,2.6132,2.317697
6,2.2582,1.977137
7,1.8902,1.667182
8,1.6336,1.468275
9,1.3396,1.325193
10,1.3066,1.263174


In [12]:
# 최종 메모리 및 시간 통계를 보여줍니다.
used_memory = round(
    torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3
)  # 사용된 최대 메모리를 GB 단위로 계산합니다.
used_memory_for_lora = round(
    used_memory - start_gpu_memory, 3
)  # LoRA를 위해 사용된 메모리를 GB 단위로 계산합니다.
used_percentage = round(
    used_memory / max_memory * 100, 3
)  # 최대 메모리 대비 사용된 메모리의 비율을 계산합니다.
lora_percentage = round(
    used_memory_for_lora / max_memory * 100, 3
)  # 최대 메모리 대비 LoRA를 위해 사용된 메모리의 비율을 계산합니다.
print(
    f"{trainer_stats.metrics['train_runtime']} seconds used for training."
)  # 훈련에 사용된 시간을 초 단위로 출력합니다.
print(
    # 훈련에 사용된 시간을 분 단위로 출력합니다.
    f"{round(trainer_stats.metrics['train_runtime']/60, 2)} minutes used for training."
)
print(
    f"Peak reserved memory = {used_memory} GB."
)  # 예약된 최대 메모리를 GB 단위로 출력합니다.
print(
    f"Peak reserved memory for training = {used_memory_for_lora} GB."
)  # 훈련을 위해 예약된 최대 메모리를 GB 단위로 출력합니다.
print(
    f"Peak reserved memory % of max memory = {used_percentage} %."
)  # 최대 메모리 대비 예약된 메모리의 비율을 출력합니다.
print(
    f"Peak reserved memory for training % of max memory = {lora_percentage} %."
)  # 최대 메모리 대비 훈련을 위해 예약된 메모리의 비율을 출력합니다.

8694.7836 seconds used for training.
144.91 minutes used for training.
Peak reserved memory = 9.637 GB.
Peak reserved memory for training = 3.856 GB.
Peak reserved memory % of max memory = 43.828 %.
Peak reserved memory for training % of max memory = 17.537 %.


In [13]:
base_model = "beomi/Llama-3-Open-Ko-8B-Instruct-preview" # 병합을 수행할 베이스 모델
huggingface_token = "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"  # HuggingFace 토큰
huggingface_repo = "Llama-3-Open-Ko-8B-Instruct-previe-PM1-completion-v4-30"  # 모델을 업로드할 repository
save_method = (
    "merged_16bit"  # "merged_4bit", "merged_4bit_forced", "merged_16bit", "lora"
)

In [14]:
# Hub 에 업로드
model.push_to_hub_merged(
    huggingface_repo,
    tokenizer,
    save_method=save_method,
    token=huggingface_token,
)

Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 366.57 out of 503.13 RAM for saving.


 69%|██████▉   | 22/32 [00:00<00:00, 32.28it/s]We will save to Disk and not RAM now.
100%|██████████| 32/32 [00:05<00:00,  6.29it/s]


Unsloth: Saving to organization with address passionMan/Llama-3-Open-Ko-8B-Instruct-previe-PM1-completion-v4-30
Unsloth: Saving tokenizer... Done.
Unsloth: Saving model... This might take 5 minutes for Llama-7b...
Unsloth: Saving to organization with address passionMan/Llama-3-Open-Ko-8B-Instruct-previe-PM1-completion-v4-30
Unsloth: Uploading all files... Please wait...


model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

[A[A


[A[A[A
[A

[A[A


model-00001-of-00004.safetensors:   0%|          | 16.4k/4.98G [00:00<12:00:40, 115kB/s]

[A[A


model-00001-of-00004.safetensors:   0%|          | 393k/4.98G [00:00<46:34, 1.78MB/s]   

[A[A


model-00001-of-00004.safetensors:   0%|          | 2.64M/4.98G [00:00<13:24, 6.18MB/s]

[A[A


model-00001-of-00004.safetensors:   0%|          | 3.65M/4.98G [00:00<13:47, 6.01MB/s]

[A[A


model-00001-of-00004.safetensors:   0%|          | 9.11M/4.98G [00:00<05:28, 15.1MB/s]


[A[A[A

model-00001-of-00004.safetensors:   0%|          | 10.8M/4.98G [00:01<08:48, 9.40MB/s]


[A[A[A

model-00001-of-00004.safetensors:   0%|          | 12.4M/4.98G [00:01<08:52, 9.32MB/s]


[A[A[A

[A[A


model-00001-of-00004.safetensors:   0%|          | 13.9M/4.98G [00:01<08:39, 9.56MB/s]

model-00001-of-00004.safetensors:   0%|          | 16.0M/4.98G [00:02<13:45, 6.01MB/s]


[A[A[A


Done.
Saved merged model to https://huggingface.co/None/Llama-3-Open-Ko-8B-Instruct-previe-PM1-completion-v4-30


## Model reload and Inference

In [5]:
from unsloth import FastLanguageModel
import torch

max_seq_length = 4096  # 최대 시퀀스 길이를 설정합니다. 내부적으로 RoPE 스케일링을 자동으로 지원합니다!
# 자동 감지를 위해 None을 사용합니다. Tesla T4, V100은 Float16, Ampere+는 Bfloat16을 사용하세요.
dtype = None
# 메모리 사용량을 줄이기 위해 4bit 양자화를 사용합니다. False일 수도 있습니다.
load_in_4bit = True

model, tokenizer = FastLanguageModel.from_pretrained(
    # model_name = "unsloth/llama-3-8b-bnb-4bit",
    model_name="/home/jaesung/jaesung/pulmuone/text-generation-webui/models/Llama-3-Open-Ko-8B-Instruct-PM1-completion-v2-60-gguf",
    max_seq_length=max_seq_length,  # 최대 시퀀스 길이를 설정합니다.
    dtype=dtype,  # 데이터 타입을 설정합니다.
    load_in_4bit=load_in_4bit,  # 4bit 양자화 로드 여부를 설정합니다.
    # token = "hf_...", # 게이트된 모델을 사용하는 경우 토큰을 사용하세요. 예: meta-llama/Llama-2-7b-hf
)

==((====))==  Unsloth 2024.8: Fast Llama patching. Transformers = 4.43.3.
   \\   /|    GPU: NVIDIA RTX A5000. Max memory: 23.677 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.1.0+cu121. CUDA = 8.6. CUDA Toolkit = 12.1.
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.22.post7+cu118. FA2 = True]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth


Loading checkpoint shards: 100%|██████████| 4/4 [00:04<00:00,  1.00s/it]


In [15]:
import json
import pandas as pd
from datasets import Dataset, DatasetDict
from sklearn.model_selection import train_test_split

# EOS_TOKEN은 문장의 끝을 나타내는 토큰입니다. 이 토큰을 추가해야 합니다.
EOS_TOKEN = tokenizer.eos_token

# AlpacaPrompt를 사용하여 지시사항을 포맷팅하는 함수입니다.
alpaca_prompt = """Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{}

### Response:
{}"""


# 주어진 예시들을 포맷팅하는 함수입니다.
def formatting_prompts_func(examples):
    instructions = examples["QUESTION"]  # 지시사항을 가져옵니다.
    outputs = examples["ANSWER"]  # 출력값을 가져옵니다.
    texts = []  # 포맷팅된 텍스트를 저장할 리스트입니다.
    for instruction, output in zip(instructions, outputs):
        # EOS_TOKEN을 추가해야 합니다. 그렇지 않으면 생성이 무한히 진행될 수 있습니다.
        text = alpaca_prompt.format(instruction, output) + EOS_TOKEN
        texts.append(text)
    return {
        "text": texts,  # 포맷팅된 텍스트를 반환합니다.
    }

# JSONL 파일 로드 함수
def load_jsonl(file_path):
    data = []
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            data.append(json.loads(line.strip()))
    return data

# JSONL 파일 경로
file_path = '/home/jaesung/pulmuone/alpaca_rec_turning/completion/data/qa_pair_for_completion.jsonl'

# JSONL 파일 로드
data = load_jsonl(file_path)

# pandas DataFrame으로 변환
df = pd.DataFrame(data)

# Dataset 객체로 변환
dataset = Dataset.from_pandas(df)

train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

train_dataset = Dataset.from_pandas(train_df)
test_dataset = Dataset.from_pandas(test_df)

# DatasetDict 객체로 결합
dataset_dict = DatasetDict({
    'train': train_dataset,
    'test': test_dataset
})

In [16]:
# 데이터셋에 formatting_prompts_func 함수를 적용합니다. 배치 처리를 활성화합니다.
dataset = dataset.map(
    formatting_prompts_func,
    batched=True,
)

Map: 100%|██████████| 4248/4248 [00:00<00:00, 55195.39 examples/s]


In [31]:
from transformers import StoppingCriteria, StoppingCriteriaList
import string

class StopOnToken(StoppingCriteria):
    def __init__(self, stop_token_id):
        self.stop_token_id = stop_token_id  # 정지 토큰 ID를 초기화합니다.

    def __call__(self, input_ids, scores, **kwargs):
        return (
            self.stop_token_id in input_ids[0]
        )  # 입력된 ID 중 정지 토큰 ID가 있으면 정지합니다.

class StopOnRepetitionPattern(StoppingCriteria):
    def __init__(self, repetition_limit=3, tokenizer=None):
        self.repetition_limit = repetition_limit
        self.repetition_count = {}
        self.tokenizer = tokenizer
    
    def extract_comma_segment(self, text):
        # 콤마로 분리된 구 중 마지막 구를 추출합니다.
        segments = text.split(',')
        return segments[-1].strip().lower()
    
    def __call__(self, input_ids, scores, **kwargs):
        # 현재까지 생성된 전체 텍스트를 디코딩합니다.
        generated_text = self.tokenizer.decode(input_ids[0], skip_special_tokens=True).strip()
        comma_segment = self.extract_comma_segment(generated_text)
        
        if not comma_segment:
            return False
        
        # 마지막 구간에서 단어를 분리
        words = comma_segment.split()
        
        if len(words) == 1:  # 마지막 구간에 단어가 하나만 있다면
            word = words[0]
            if word in self.repetition_count:
                self.repetition_count[word] += 1
            else:
                self.repetition_count[word] = 1
            
            # 만약 특정 단어가 repetition_limit 이상 반복되면 생성을 중단합니다.
            if self.repetition_count[word] >= self.repetition_limit:
                return True
        else:
            # 다른 구간이 생성되면 카운트 초기화
            self.repetition_count = {}
        
        return False
    
# end_token을 설정
stop_token = "<|end_of_text|>"  # end_token으로 사용할 토큰을 설정합니다.
stop_token_id = tokenizer.encode(stop_token, add_special_tokens=False)[
    0
]  # end_token의 ID를 인코딩합니다.

# Stopping criteria 설정
stopping_criteria = StoppingCriteriaList(
    [StopOnToken(stop_token_id),
    StopOnRepetitionPattern(repetition_limit=5, tokenizer=tokenizer)
    ] # 동일한 단어가 3번 반복되면 정지합니다.
)  # 정지 조건을 설정합니다.

In [22]:
dataset_dict['test'][40]

{'QUESTION': {'instruction': '아래에 냉동밥에 들어갈 몇 가지 재료가 나열되어 있어. 이 냉동밥에 추가로 사용될 수 있는, 많은 식품에서 공통적으로 등장하는 공통 재료 외에도 독특하고 특화된 다른 식재료가 뭐가 있을까?',
  '제공된 재료': '닭가슴살, 치킨스톡P, 스크램블드에그P, 마늘풍미유',
  '카테고리': '냉동밥'},
 'ANSWER': '굴소스, 당근, 마늘, 맛내기양념, 쌀, 애호박, 양배추, 양조간장, 양파, 옥수수유, 정백당, 정제염, 참기름, 청피망, 콩발효맛내기진, 풍미베이스-SP, 핵산IG, 홍파프리카',
 '__index_level_0__': 109}

In [27]:
from transformers import TextStreamer

# FastLanguageModel을 이용하여 추론 속도를 2배 빠르게 설정합니다.
FastLanguageModel.for_inference(model)
inputs = tokenizer(
    [
        alpaca_prompt.format(
            dataset_dict['test'][100]['QUESTION'],

           # {'instruction': '이 두부를 만들 때 사용할 몇 가지 재료가 이미 정해졌어. 여기에 어울릴 만한 다른 재료를 제안해줄 수 있니?', '제공된 재료': '대두', '카테고리': '두부'}, # 지시사항
            "",  # 출력 - 생성을 위해 이 부분을 비워둡니다!
        )
    ],
    return_tensors="pt",
).to("cuda")

text_streamer = TextStreamer(tokenizer)
_ = model.generate(
    **inputs,
    streamer=text_streamer,
    max_new_tokens=4096,  # 최대 생성 토큰 수를 설정합니다.
    stopping_criteria=stopping_criteria  # 생성을 멈출 기준을 설정합니다.
)

# output_list = tokenizer.batch_decode(_, skip_special_tokens=True)

<|begin_of_text|>Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{'instruction': '다음에 나열된 대체육 재료들 외에, 추가로 어떤 재료를 넣으면 좋을지 추천해줄래? 이 때, 많은 식품에서 공통적으로 등장하는 공통 재료 외에도 독특하고 특화된 다른 식재료를 추천해주길 부탁해.', '제공된 재료': '식물성간장소스', '카테고리': '대체육'}

### Response:
5'-리보뉴클레오티드이나트륨, 아미노베이스-P, 아미노베이스-S, 아미노베이스-T, 아미노베이스-XP, 아미노베이스-XT, 아미노베이스-XTL, 아미노베이스-XTM, 아미노베이스-XTS, 아미노베이스-XTT, 아미노베이스-XTU, 아미노베이스-XTV, 아미노베이스-XTW, 

KeyboardInterrupt: 

## Performance evaluation

In [32]:
dataset_dict['test'][70]

{'QUESTION': {'instruction': '아래에 소스류에 들어갈 몇 가지 재료가 나열되어 있어. 이 소스류에 추가로 사용될 수 있는, 많은 식품에서 공통적으로 등장하는 공통 재료 외에도 독특하고 특화된 다른 식재료가 뭐가 있을까?',
  '제공된 재료': '백설탕, 발효농축액, 재래된장, 바지락소스, 멀티롬파우더',
  '카테고리': '소스류'},
 'ANSWER': "5'-리보뉴클레오티드나트륨, PA-1, 건표고버섯, 고춧가루(냉홍초), 냉동다이스양파, 냉동대파, 돼지고기, 마늘추출농축액-P, 막사보와이비페이스트, 멸치추출농축액, 사골엑기스, 새우젓분말, 쇠고기추출분말P, 슬라이스 조각두부 마파/탕수용, 아미노베이스-P, 야채엑기스분말MX1, 옥수수유, 정제수, 정제염, 찰옥수수전분, 참맛고추장, 청국장, 포크엑기스P",
 '__index_level_0__': 1061}

In [33]:
dataset_dict['test']

Dataset({
    features: ['QUESTION', 'ANSWER', '__index_level_0__'],
    num_rows: 850
})

In [34]:
import random
from transformers import TextStreamer

FastLanguageModel.for_inference(model)

length = 50 # length of random list
random_list = [random.randint(0, len(dataset_dict['test'])) for _ in range(length)]

q_list = []; a_list = []; output_list = []
for n in random_list:
    q = dataset_dict['test'][n]['QUESTION']
    a = dataset_dict['test'][n]['ANSWER']
    
    inputs = tokenizer(
        [
            alpaca_prompt.format(
                q,  # 지시사항
                "",  # 출력 - 생성을 위해 이 부분을 비워둡니다!
            )
        ],
        return_tensors="pt",
    ).to("cuda")

    text_streamer = TextStreamer(tokenizer)
    outputs = model.generate(
        **inputs,
        streamer=text_streamer,
        max_new_tokens=4096,  # 최대 생성 토큰 수를 설정합니다.
        stopping_criteria=stopping_criteria  # 생성을 멈출 기준을 설정합니다.
    )

    q_list.append(q)
    a_list.append(a)
    output_tmp = tokenizer.batch_decode(outputs, skip_special_tokens=True)
    output_list.append(output_tmp[0].split('\n')[-1].split(', '))
    

<|begin_of_text|>Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{'instruction': '다음은 수산물에 사용될 일부 재료야. 이 수산물에 들어갈 수 있는, 많은 식품에서 공통적으로 등장하는 공통 재료 외에도 독특하고 특화된 다른 식재료들을 추천해줄래?', '제공된 재료': '대두유, 정제염', '카테고리': None}

### Response:
고추씨기름, 대두단백, 대파, 마늘, 밀가루, 백설탕, 양배추, 양조간장, 정제수, 정제소금, 참기름, 참깨, 참치액, 참치액분말, 참
<|begin_of_text|>Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{'instruction': '다음에 나열된 소스류 재료들 외에, 추가로 어떤 재료를 넣으면 좋을지 추천해줄래? 이 때, 많은 식품에서 공통적으로 등장하는 공통 재료 외에도 독특하고 특화된 다른 식재료를 추천해주길 부탁해.', '제공된 재료': '얼큰탕베이스, 설탕, 양꼬치시즈닝, 칠리오일R, 산초고농축액-P', '카테고리': '소스류'}

### Response:
5'-리보뉴클레오티드이나트륨, 아미노베이스-P, 아미노베이스-SP, 아미노베이스-SS, 아미노베이스-SS-P, 아
<|begin_of_text|>Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{'instruction': '이 면, 만두를 만들 때 사용할 몇 가지 재료가 이미 정해졌어. 여기에 어울릴 만한, 많은 식

In [35]:
# [answer (a_list) 와 pred (output_list) 의 교집합 / answer (a_list) 의 길이]
score_list = []
for a, p in zip(a_list, output_list):
    a = a.split(', ')
    cnt = 0
    for pp in p:
        if pp in a:
            cnt += 1
    score_list.append(cnt/len(a))

print(sum(score_list)/len(score_list)) # mean

0.12352446260384746


## Quantization

In [36]:
# Quantization 방식 설정
quantization_method = "q8_0"  # "f16" "q8_0" "q4_k_m" "q5_k_m"

In [37]:
# Hub 에 GGUF 업로드
model.push_to_hub_gguf(
    huggingface_repo + "-gguf",
    tokenizer,
    quantization_method=quantization_method,
    token=huggingface_token,
)

make: Entering directory '/home/jaesung/pulmuone/alpaca_rec_turning/completion/modeling/llama.cpp'
I ccache not found. Consider installing it for faster compilation.
I llama.cpp build info: 
I UNAME_S:   Linux
I UNAME_P:   x86_64
I UNAME_M:   x86_64
I CFLAGS:    -Iggml/include -Iggml/src -Iinclude -Isrc -Icommon -D_XOPEN_SOURCE=600 -D_GNU_SOURCE -DNDEBUG -DGGML_USE_OPENMP -DGGML_USE_LLAMAFILE  -std=c11   -fPIC -O3 -g -Wall -Wextra -Wpedantic -Wcast-qual -Wno-unused-function -Wshadow -Wstrict-prototypes -Wpointer-arith -Wmissing-prototypes -Werror=implicit-int -Werror=implicit-function-declaration -pthread -march=native -mtune=native -fopenmp -Wdouble-promotion 
I CXXFLAGS:  -std=c++11 -fPIC -O3 -g -Wall -Wextra -Wpedantic -Wcast-qual -Wno-unused-function -Wmissing-declarations -Wmissing-noreturn -pthread -fopenmp  -march=native -mtune=native -Wno-array-bounds -Wno-format-truncation -Wextra-semi -Iggml/include -Iggml/src -Iinclude -Isrc -Icommon -D_XOPEN_SOURCE=600 -D_GNU_SOURCE -DNDEBU

100%|██████████| 32/32 [00:02<00:00, 14.37it/s]


Unsloth: Saving tokenizer... Done.
Unsloth: Saving model... This might take 5 minutes for Llama-7b...
Done.


Unsloth: Converting llama model. Can use fast conversion = False.


==((====))==  Unsloth: Conversion from QLoRA to GGUF information
   \\   /|    [0] Installing llama.cpp will take 3 minutes.
O^O/ \_/ \    [1] Converting HF to GGUF 16bits will take 3 minutes.
\        /    [2] Converting GGUF 16bits to ['q8_0'] will take 10 minutes each.
 "-____-"     In total, you will have to wait at least 16 minutes.

Unsloth: [0] Installing llama.cpp. This will take 3 minutes...
Unsloth: [1] Converting model at Llama-3-Open-Ko-8B-Instruct-previe-PM1-completion-v4-30-gguf into q8_0 GGUF format.
The output location will be ./Llama-3-Open-Ko-8B-Instruct-previe-PM1-completion-v4-30-gguf/unsloth.Q8_0.gguf
This will take 3 minutes...
INFO:hf-to-gguf:Loading model: Llama-3-Open-Ko-8B-Instruct-previe-PM1-completion-v4-30-gguf
INFO:gguf.gguf_writer:gguf: This GGUF file is for Little Endian only
INFO:hf-to-gguf:Exporting model...
INFO:hf-to-gguf:gguf: loading model weight map from 'model.safetensors.index.json'
INFO:hf-to-gguf:gguf: loading model part 'model-00001-of-00004.

unsloth.Q8_0.gguf: 100%|██████████| 8.54G/8.54G [04:51<00:00, 29.3MB/s]


Saved GGUF to https://huggingface.co/passionMan/Llama-3-Open-Ko-8B-Instruct-previe-PM1-completion-v4-30-gguf
