In [53]:
import torch

# CUDA 장치 버전 확인
major_version, minor_version = torch.cuda.get_device_capability()
major_version, minor_version

(8, 0)

In [54]:
!pip install --no-deps trl==0.8.6



In [55]:
# unsloth 설치
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"

# 각종 필요한 라이브러리 설치
!pip install --no-deps packaging ninja einops flash-attn xformers peft accelerate bitsandbytes

Collecting unsloth[colab-new]@ git+https://github.com/unslothai/unsloth.git
  Cloning https://github.com/unslothai/unsloth.git to /tmp/pip-install-86ka9h1i/unsloth_d3b1fff3199e46ddb47964dd13eb7fda
  Running command git clone --filter=blob:none --quiet https://github.com/unslothai/unsloth.git /tmp/pip-install-86ka9h1i/unsloth_d3b1fff3199e46ddb47964dd13eb7fda
  Resolved https://github.com/unslothai/unsloth.git to commit 8d9bd0ea8bf662618ba96fe7fe3478c5b81d0dff
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Installing backend dependencies ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone


In [56]:
import gc

# 가비지 컬렉션 실행, GPU 메모리 해제
gc.collect()
torch.cuda.empty_cache()

In [57]:
from unsloth import FastLanguageModel
import torch

max_seq_length = 4096  # 최대 시퀀스 길이
dtype = None
load_in_4bit = True  # 메모리 사용량을 줄이기 위해 4bit 양자화

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/llama-3-8b-bnb-4bit",  # Llama-3 8B 4bit 사전 양자화 모델
    max_seq_length=max_seq_length,  # 최대 시퀀스 길이
    dtype=dtype,  # 데이터 타입
    load_in_4bit=load_in_4bit,  # 4bit 양자화 로드 여부
)

config.json:   0%|          | 0.00/1.20k [00:00<?, ?B/s]

==((====))==  Unsloth: Fast Llama patching release 2024.5
   \\   /|    GPU: NVIDIA A100-SXM4-40GB. Max memory: 39.564 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.3.0+cu121. CUDA = 8.0. CUDA Toolkit = 12.1.
\        /    Bfloat16 = TRUE. Xformers = 0.0.26.post1. FA = True.
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth


model.safetensors:   0%|          | 0.00/5.70G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/172 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [58]:
model = FastLanguageModel.get_peft_model(
    model,
    r=32,
    lora_alpha=64,  # LoRA 알파 값
    lora_dropout=0.05,  # 드롭아웃
    target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
        "embed_tokens",
        "lm_head",
    ],
    bias="none",
    # 긴 컨텍스트에 대해 VRAM 사용을 줄이기 위해 unsloth 사용
    use_gradient_checkpointing="unsloth",
    random_state=123,  # 난수 상태
    use_rslora=False,  # LoRA
    loftq_config=None,  # LoftQ
)

Unsloth: Offloading input_embeddings to disk to save VRAM
Unsloth: Offloading output_embeddings to disk to save VRAM
Unsloth: Casting embed_tokens to float32
Unsloth: Casting lm_head to float32


In [59]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [60]:
!pip install jsonlines



In [61]:
import jsonlines

jsonl_file = "/content/drive/MyDrive/qa_pair.jsonl"

# jsonl 파일을 읽어 리스트로 변환
qa_pair = []
with jsonlines.open(jsonl_file) as reader:
    for obj in reader:
        qa_pair.append(obj)

In [62]:
qa_pair

[{'QUESTION': '금융실명거래의 기본 원칙은 무엇입니까?  ',
  'ANSWER': '금융실명거래의 기본 원칙은 모든 금융거래가 실지명의로 이루어져야 한다는 것입니다.'},
 {'QUESTION': '금융실명거래에서 실지명의란 무엇을 의미합니까?  ',
  'ANSWER': '실지명의란 주민등록표상의 명의나 사업자등록증상의 명의를 의미합니다.'},
 {'QUESTION': '실명확인자는 누구입니까?  ',
  'ANSWER': '실명확인자는 실명확인업무에 대한 권한과 의무가 주어진 금융회사의 영업점 직원입니다.'},
 {'QUESTION': '실명확인증표의 예시는 무엇입니까?',
  'ANSWER': '실명확인증표의 예시는 주민등록증, 운전면허증, 여권, 학생증 등이 있습니다.'},
 {'QUESTION': '실명확인이 생략될 수 있는 거래는 무엇입니까?',
  'ANSWER': '실명이 확인된 계좌에 의한 계속거래, 각종 공과금 등의 수납, 100만원 이하의 원화 송금 등이 실명확인이 생략될 수 있습니다.'},
 {'QUESTION': '불법 탈법 차명거래 금지의 목적은 무엇입니까?',
  'ANSWER': '불법 탈법 차명거래 금지는 불법재산의 은닉, 자금세탁행위, 공중협박자금조달행위 등을 방지하기 위함입니다.'},
 {'QUESTION': '계좌에 의한 거래에서 실명확인 필수 서류는 무엇입니까?',
  'ANSWER': '계좌에 의한 거래에서 실명확인 필수 서류는 실명확인증표 원본입니다.'},
 {'QUESTION': '비대면 실명확인은 어떤 방식으로 이루어집니까?',
  'ANSWER': '비대면 실명확인은 실명확인증표 사본 제출, 영상통화, 기존 계좌와의 거래 등을 통해 이루어집니다.'},
 {'QUESTION': '금융거래에 대한 비밀보장제도의 목적은 무엇입니까?',
  'ANSWER': '금융거래에 대한 비밀보장제도의 목적은 거래자의 개인정보를 보호하고 금융거래의 비밀을 유지하는 것입니다.'},
 {'QUESTION': '실명전환 절차는

In [63]:
# 추가로 정의한 qa_pari 데이터 셋

additional_qa = [
  {
     'QUESTION': '한양대학교 산업융합학부는 어떤 곳이야?',
     'ANSWER': '특성화고 재직자 전형으로 갈 수 있는 최고의 대학교라고 할 수 있습니다.'
  },
  {
     'QUESTION': '정민혁은 어떤 사람이야?',
     'ANSWER': '카카오뱅크의 데이터 아키텍트로써, 클라이밍을 굉장히 좋아하는 사람입니다.'
  },
  {
     'QUESTION': '정철현 교수님은 어떤 사람이야?',
     'ANSWER': '한양대학교 산업융합학부 교수로, 인공지능 분야 최고 전문가 입니다.'
  },
]

In [64]:
qa_pair.extend(additional_qa)
qa_pair

[{'QUESTION': '금융실명거래의 기본 원칙은 무엇입니까?  ',
  'ANSWER': '금융실명거래의 기본 원칙은 모든 금융거래가 실지명의로 이루어져야 한다는 것입니다.'},
 {'QUESTION': '금융실명거래에서 실지명의란 무엇을 의미합니까?  ',
  'ANSWER': '실지명의란 주민등록표상의 명의나 사업자등록증상의 명의를 의미합니다.'},
 {'QUESTION': '실명확인자는 누구입니까?  ',
  'ANSWER': '실명확인자는 실명확인업무에 대한 권한과 의무가 주어진 금융회사의 영업점 직원입니다.'},
 {'QUESTION': '실명확인증표의 예시는 무엇입니까?',
  'ANSWER': '실명확인증표의 예시는 주민등록증, 운전면허증, 여권, 학생증 등이 있습니다.'},
 {'QUESTION': '실명확인이 생략될 수 있는 거래는 무엇입니까?',
  'ANSWER': '실명이 확인된 계좌에 의한 계속거래, 각종 공과금 등의 수납, 100만원 이하의 원화 송금 등이 실명확인이 생략될 수 있습니다.'},
 {'QUESTION': '불법 탈법 차명거래 금지의 목적은 무엇입니까?',
  'ANSWER': '불법 탈법 차명거래 금지는 불법재산의 은닉, 자금세탁행위, 공중협박자금조달행위 등을 방지하기 위함입니다.'},
 {'QUESTION': '계좌에 의한 거래에서 실명확인 필수 서류는 무엇입니까?',
  'ANSWER': '계좌에 의한 거래에서 실명확인 필수 서류는 실명확인증표 원본입니다.'},
 {'QUESTION': '비대면 실명확인은 어떤 방식으로 이루어집니까?',
  'ANSWER': '비대면 실명확인은 실명확인증표 사본 제출, 영상통화, 기존 계좌와의 거래 등을 통해 이루어집니다.'},
 {'QUESTION': '금융거래에 대한 비밀보장제도의 목적은 무엇입니까?',
  'ANSWER': '금융거래에 대한 비밀보장제도의 목적은 거래자의 개인정보를 보호하고 금융거래의 비밀을 유지하는 것입니다.'},
 {'QUESTION': '실명전환 절차는

In [65]:
# 알파카 프롬프트 형태로 변환 후 저장

import json

with open("qa_pair.jsonl", "w", encoding="utf-8") as f:
  for qa in qa_pair:
    qa_modified = {
        "instruction": qa["QUESTION"],
        "input": "",
        "output": qa["ANSWER"],
    }
    f.write(json.dumps(qa_modified, ensure_ascii=False) + "\n")

In [66]:
# 저장한 jsonl 파일 불러오기

from datasets import load_dataset

jsonl_file = "/content/qa_pair.jsonl"

dataset = load_dataset("json", data_files=jsonl_file)

Generating train split: 0 examples [00:00, ? examples/s]

In [67]:
dataset

DatasetDict({
    train: Dataset({
        features: ['instruction', 'input', 'output'],
        num_rows: 303
    })
})

In [68]:
# 저장한 jsonl 파일 허깅페이스에 업로드

from huggingface_hub import HfApi

api = HfApi()

repo_name = "Minhyuck/qa-test"

dataset.push_to_hub(repo_name, token="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")

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

README.md:   0%|          | 0.00/345 [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/datasets/Minhyuck/qa-test/commit/7ceec70083b94c2b139d5361c7b518ff74504c60', commit_message='Upload dataset', commit_description='', oid='7ceec70083b94c2b139d5361c7b518ff74504c60', pr_url=None, pr_revision=None, pr_num=None)

In [69]:
from datasets import load_dataset

# 문장의 끝을 나타내는 토큰 추가
EOS_TOKEN = tokenizer.eos_token

# AlpacaPrompt를 사용하여 지시사항 포맷팅
alpaca_prompt = """Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{}

### Response:
{}"""


# 포맷팅
def formatting_prompts_func(examples):
    instructions = examples["instruction"]  # 지시사항
    outputs = examples["output"]  # 출력값
    texts = []  # 포맷팅된 텍스트를 저장
    for instruction, output in zip(instructions, outputs):
        # EOS_TOKEN 추가(무한 생성 방지)
        text = alpaca_prompt.format(instruction, output) + EOS_TOKEN
        texts.append(text)
    return {
        "text": texts,  # 포맷팅된 텍스트 반환
    }


# 허깅페이스에 저장된 데이터셋 불러오기(훈련 데이터만 사용)
dataset = load_dataset("Minhyuck/qa-test", split="train")

# 데이터셋에 formatting_prompts_func 함수 적용 및 배치 처리 활성화
dataset = dataset.map(
    formatting_prompts_func,
    batched=True,
)

Downloading readme:   0%|          | 0.00/345 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/52.6k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/303 [00:00<?, ? examples/s]

Map:   0%|          | 0/303 [00:00<?, ? examples/s]

In [70]:
from trl import SFTTrainer
from transformers import TrainingArguments

tokenizer.padding_side = "right"  # 토크나이저의 패딩을 오른쪽으로 설정

# SFTTrainer를 사용하여 모델 학습 설정
trainer = SFTTrainer(
    model=model,  # 학습할 모델
    tokenizer=tokenizer,  # 토크나이저
    train_dataset=dataset,  # 학습 데이터셋
    dataset_text_field="text",  # 데이터셋에서 텍스트 필드의 이름
    max_seq_length=max_seq_length,  # 최대 시퀀스 길이
    dataset_num_proc=2,  # 데이터 처리에 사용할 프로세스 수
    packing=False,
    dataset_batch_size=2,  # 데이터셋 배치 크기
    args=TrainingArguments(
        per_device_train_batch_size=2,  # 각 디바이스당 훈련 배치 크기
        gradient_accumulation_steps=4,  # 그래디언트 누적 단계
        warmup_steps=5,  # 웜업 스텝 수
        num_train_epochs=3,  # 훈련 에폭 수
        max_steps=100,  # 최대 스텝 수
        logging_steps=20,  # logging 스텝 수
        learning_rate=2e-4,  # 학습률
        fp16=not torch.cuda.is_bf16_supported(),  # fp16 사용 여부
        bf16=torch.cuda.is_bf16_supported(),  # bf16 사용 여부
        optim="adamw_8bit",  # 최적화 알고리즘
        weight_decay=0.01,  # 가중치 감소
        lr_scheduler_type="cosine",  # 학습률 스케줄러 유형
        seed=123,  # 랜덤 시드
        output_dir="outputs",  # 출력 디렉토리
    ),
)

  self.pid = os.fork()


Map (num_proc=2):   0%|          | 0/303 [00:00<?, ? examples/s]

max_steps is given, it will override any value given in num_train_epochs


In [71]:
# 현재 메모리 상태
gpu_stats = torch.cuda.get_device_properties(0)  # GPU 속성
start_gpu_memory = round(
    torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3
)  # 시작 시 예약된 GPU 메모리 계산
max_memory = round(
    gpu_stats.total_memory / 1024 / 1024 / 1024, 3
)  # GPU의 최대 메모리 계산
print(
    f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB."
)  # GPU 이름과 최대 메모리 출력
print(f"{start_gpu_memory} GB of memory reserved.")  # 예약된 메모리 양 출력

GPU = NVIDIA A100-SXM4-40GB. Max memory = 39.564 GB.
25.68 GB of memory reserved.


In [None]:
trainer_stats = trainer.train()  # 모델 훈련 및 통계 반환

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 303 | Num Epochs = 3
O^O/ \_/ \    Batch size per device = 2 | Gradient Accumulation steps = 4
\        /    Total batch size = 8 | Total steps = 100
 "-____-"     Number of trainable parameters = 1,134,559,232


Step,Training Loss
20,1.6705
40,1.2076
60,0.719
80,0.6093
100,0.436


In [None]:
# 최종 메모리 및 시간 통계
used_memory = round(
    torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3
)  # 사용된 최대 메모리 계산
used_memory_for_lora = round(
    used_memory - start_gpu_memory, 3
)  # LoRA를 위해 사용된 메모리 계산
used_percentage = round(
    used_memory / max_memory * 100, 3
)  # 최대 메모리 대비 사용된 메모리의 비율 계산
lora_percentage = round(
    used_memory_for_lora / max_memory * 100, 3
)  # 최대 메모리 대비 LoRA를 위해 사용된 메모리 비율 계산
print(
    f"{trainer_stats.metrics['train_runtime']} seconds used for training."
)  # 훈련에 사용된 시간(초)
print(
    # 훈련에 사용된 시간을(분)
    f"{round(trainer_stats.metrics['train_runtime']/60, 2)} minutes used for training."
)
print(
    f"Peak reserved memory = {used_memory} GB."
)  # 예약된 최대 메모리 출력
print(
    f"Peak reserved memory for training = {used_memory_for_lora} GB."
)  # 훈련을 위해 예약된 최대 메모리 출력
print(
    f"Peak reserved memory % of max memory = {used_percentage} %."
)  # 최대 메모리 대비 예약된 메모리 비율
print(
    f"Peak reserved memory for training % of max memory = {lora_percentage} %."
)  # 최대 메모리 대비 훈련을 위해 예약된 메모리 비율

247.3258 seconds used for training.
4.12 minutes used for training.
Peak reserved memory = 29.17 GB.
Peak reserved memory for training = 3.49 GB.
Peak reserved memory % of max memory = 73.729 %.
Peak reserved memory for training % of max memory = 8.821 %.


In [None]:
# 추론을 위한 셋팅

from transformers import StoppingCriteria, StoppingCriteriaList


class StopOnToken(StoppingCriteria):
    def __init__(self, stop_token_id):
        self.stop_token_id = stop_token_id  # 정지 토큰 ID 초기화

    def __call__(self, input_ids, scores, **kwargs):
        return (
            self.stop_token_id in input_ids[0]
        )  # 입력된 ID 중 정지 토큰 ID가 있으면 정지


# end_token 설정
stop_token = "<|end_of_text|>"  # end_token으로 사용할 토큰 설정
stop_token_id = tokenizer.encode(stop_token, add_special_tokens=False)[
    0
]  # end_token의 ID를 인코딩

# Stopping criteria 설정
stopping_criteria = StoppingCriteriaList(
    [StopOnToken(stop_token_id)]
)

In [None]:
# 첫 번째 예시

from transformers import TextStreamer

FastLanguageModel.for_inference(model)
inputs = tokenizer(
    [
        alpaca_prompt.format(
            "실명확인자는 누구입니까?.",  # 지시사항
            "",  # 출력
        )
    ],
    return_tensors="pt",
).to("cuda")


text_streamer = TextStreamer(tokenizer)
_ = model.generate(
    **inputs,
    streamer=text_streamer,
    max_new_tokens=4096,  # 최대 생성 토큰 수
    stopping_criteria=stopping_criteria  # 생성을 멈출 기준
)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


<|begin_of_text|>Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
실명확인자는 누구입니까?.

### Response:
실명확인자는 금융회사가 정한 기준에 따라 정해진 실명확인업무를 수행하는 직원입니다.<|end_of_text|>


In [None]:
# 두 번째 예시

inputs = tokenizer(
    [
        alpaca_prompt.format(
            "피보나치 수열을 이어가세요",  # 지시사항
            "1, 1, 2, 3, 5, 8",  # 출력
        )
    ],
    return_tensors="pt",
).to("cuda")


text_streamer = TextStreamer(tokenizer)
_ = model.generate(
    **inputs,
    streamer=text_streamer,
    max_new_tokens=4096,  # 최대 생성 토큰 수
    stopping_criteria=stopping_criteria  # 생성을 멈출 기준
)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


<|begin_of_text|>Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
피보나치 수열을 이어가세요

### Response:
1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597, 2584, 4181, 6765, 10946, 17711, 28657, 46368, 75025, 121393, 196418, 317811, 514229, 832040, 1346269, 2178309, 3524578, 5702887, 9227465, 14930352, 24157817, 39088169, 63245986, 102334155, 165580141, 267443612, 433494437, 701408733, 1134903170, 1836311903, 2971215073, 4807526976, 7778742049, 12586269025, 20365011074, 32749120889, 5306122184, 85356332179, 1384139155, 2242511035, 3656336380, 5912867299, 9567220261, 1548008750, 2504730782, 4052739537, 6557470314, 10610209808, 17167619105, 27777890036, 44945590277, 7272346029, 117669030460, 19058427289, 3080615217, 4984540118, 8065153083, 13049695421, 21114851397, 34164546299, 5524869425, 8944394327, 1447233402, 2341672833, 3788906230, 6130578702, 9894717211, 1598192029, 2596954969, 4201961402, 679891637

KeyboardInterrupt: 

In [None]:
# 세 번째 예시

inputs = tokenizer(
    [
        alpaca_prompt.format(
            "친권자인 아버지가 통장을 개설하러 오셨어. 개설가능할까?",  # 지시사항
            "",  # 출력
        )
    ],
    return_tensors="pt",
).to("cuda")


text_streamer = TextStreamer(tokenizer)
_ = model.generate(
    **inputs,
    streamer=text_streamer,
    max_new_tokens=4096,  # 최대 생성 토큰 수
    stopping_criteria=stopping_criteria  # 생성을 멈출 기준
)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


<|begin_of_text|>Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
친권자인 아버지가 통장을 개설하러 오셨어. 개설가능할까?

### Response:
실명법에 따라 개설이 가능함.<|end_of_text|>


In [None]:
model.save_pretrained("Llama-3-Open-Ko-8B")  # 모델을 로컬에 저장

In [None]:
model.push_to_hub("Minhyuck/test-model2", token = "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") # 모델을 허깅페이스에 저장

adapter_model.safetensors:   0%|          | 0.00/4.54G [00:00<?, ?B/s]

KeyboardInterrupt: 

In [None]:
base_model = "unsloth/llama-3-8b-bnb-4bit"  # 병합을 수행할 베이스 모델
huggingface_token = "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"  # HuggingFace 토큰
huggingface_repo = "test-model5"  # 모델을 업로드할 repository

save_method = (
    "merged_16bit"
)

In [None]:
# 머지된 모델 로컬에 저장

model.save_pretrained_merged(
    base_model,
    tokenizer,
    save_method=save_method,
)

Unsloth: Kaggle/Colab has limited disk space. We need to delete the downloaded
model which will save 4-16GB of disk space, allowing you to save on Kaggle/Colab.
Unsloth: Will remove a cached repo with size 5.7G


Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 32.91 out of 52.96 RAM for saving.


 34%|███▍      | 11/32 [00:00<00:01, 17.78it/s]We will save to Disk and not RAM now.
 38%|███▊      | 12/32 [00:00<00:01, 13.55it/s]


KeyboardInterrupt: 

In [None]:
# 머지된 모델 허깅페이스에 저장

model.push_to_hub_merged(
    huggingface_repo,
    tokenizer,
    save_method=save_method,
    token=huggingface_token,
)

Unsloth: Kaggle/Colab has limited disk space. We need to delete the downloaded
model which will save 4-16GB of disk space, allowing you to save on Kaggle/Colab.
Unsloth: Will remove a cached repo with size 5.7G


Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 55.05 out of 83.48 RAM for saving.


100%|██████████| 32/32 [00:00<00:00, 60.98it/s]


Unsloth: Saving to organization with address Minhyuck/test-model5
Unsloth: Saving tokenizer... Done.
Unsloth: Saving model... This might take 5 minutes for Llama-7b...
Unsloth: Saving to organization with address Minhyuck/test-model5
Unsloth: Uploading all files... Please wait...


model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

Upload 4 LFS files:   0%|          | 0/4 [00:00<?, ?it/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

Done.
Saved merged model to https://huggingface.co/None/test-model5


In [None]:
# Quantization 방식
quantization_method = "q8_0"

In [None]:
# gguf 파일 구글 드라이브에 저장

model.save_pretrained_gguf(
    "./drive/MyDrive/gguf",
    tokenizer=tokenizer,
    quantization_method=quantization_method,
)

Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 36.42 out of 52.96 RAM for saving.


100%|██████████| 32/32 [00:19<00:00,  1.68it/s]


Unsloth: Saving tokenizer... Done.
Unsloth: Saving model... This might take 5 minutes for Llama-7b...
Done.
==((====))==  Unsloth: Conversion from QLoRA to GGUF information
   \\   /|    [0] Installing llama.cpp will take 3 minutes.
O^O/ \_/ \    [1] Converting HF to GUUF 16bits will take 3 minutes.
\        /    [2] Converting GGUF 16bits to q8_0 will take 20 minutes.
 "-____-"     In total, you will have to wait around 26 minutes.

Unsloth: [0] Installing llama.cpp. This will take 3 minutes...
Unsloth: [1] Converting model at /drive/MyDrive/gguf into f16 GGUF format.
The output location will be .//drive/MyDrive/gguf-unsloth.F16.gguf
This will take 3 minutes...
INFO:hf-to-gguf:Loading model: gguf
INFO:gguf.gguf_writer:gguf: This GGUF file is for Little Endian only
INFO:hf-to-gguf:Set model parameters
INFO:hf-to-gguf:gguf: context length = 8192
INFO:hf-to-gguf:gguf: embedding length = 4096
INFO:hf-to-gguf:gguf: feed forward length = 14336
INFO:hf-to-gguf:gguf: head count = 32
INFO:hf-t

In [None]:
# Quantization 방식
quantization_method = "q8_0"

In [None]:
# gguf 파일 허기페이스에 저장

model.push_to_hub_gguf(
    "gguf5",  # 허깅페이스 모델 레포지토리 이름
    tokenizer,
    quantization_method=quantization_method,
    token=huggingface_token,
)

Unsloth: Merging 4bit and LoRA weights to 16bit...
Unsloth: Will use up to 61.37 out of 83.48 RAM for saving.


100%|██████████| 32/32 [00:00<00:00, 45.35it/s]


Unsloth: Saving tokenizer... Done.
Unsloth: Saving model... This might take 5 minutes for Llama-7b...
Done.


Unsloth: Converting llama model. Can use fast conversion = False.
Unsloth: We must use f16 for non Llama and Mistral models.


==((====))==  Unsloth: Conversion from QLoRA to GGUF information
   \\   /|    [0] Installing llama.cpp will take 3 minutes.
O^O/ \_/ \    [1] Converting HF to GUUF 16bits will take 3 minutes.
\        /    [2] Converting GGUF 16bits to q8_0 will take 20 minutes.
 "-____-"     In total, you will have to wait around 26 minutes.

Unsloth: [0] Installing llama.cpp. This will take 3 minutes...
Unsloth: [1] Converting model at gguf5 into f16 GGUF format.
The output location will be ./gguf5-unsloth.F16.gguf
This will take 3 minutes...
INFO:hf-to-gguf:Loading model: gguf5
INFO:gguf.gguf_writer:gguf: This GGUF file is for Little Endian only
INFO:hf-to-gguf:Set model parameters
INFO:hf-to-gguf:gguf: context length = 8192
INFO:hf-to-gguf:gguf: embedding length = 4096
INFO:hf-to-gguf:gguf: feed forward length = 14336
INFO:hf-to-gguf:gguf: head count = 32
INFO:hf-to-gguf:gguf: key-value head count = 8
INFO:hf-to-gguf:gguf: rope theta = 500000.0
INFO:hf-to-gguf:gguf: rms norm epsilon = 1e-05
INFO:h

gguf5-unsloth.Q8_0.gguf:   0%|          | 0.00/8.54G [00:00<?, ?B/s]

Saved GGUF to https://huggingface.co/Minhyuck/gguf5
