<a href="https://colab.research.google.com/github/espada105/LLama-3/blob/main/llama_3_8b_finetuning_t1_subjective.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

To run this, press "*Runtime*" and press "*Run all*" on a **free** Tesla T4 Google Colab instance!
<div class="align-center">
  <a href="https://github.com/unslothai/unsloth"><img src="https://github.com/unslothai/unsloth/raw/main/images/unsloth%20new%20logo.png" width="115"></a>
  <a href="https://discord.gg/u54VK8m8tk"><img src="https://github.com/unslothai/unsloth/raw/main/images/Discord button.png" width="145"></a>
  <a href="https://ko-fi.com/unsloth"><img src="https://github.com/unslothai/unsloth/raw/main/images/Kofi button.png" width="145"></a></a> Join Discord if you need help + ⭐ <i>Star us on <a href="https://github.com/unslothai/unsloth">Github</a> </i> ⭐
</div>

To install Unsloth on your own computer, follow the installation instructions on our Github page [here](https://github.com/unslothai/unsloth#installation-instructions---conda).

You will learn how to do [data prep](#Data), how to [train](#Train), how to [run the model](#Inference), & [how to save it](#Save) (eg for Llama.cpp).

**[NEW] Llama-3 8b is trained on a crazy 15 trillion tokens! Llama-2 was 2 trillion.**

Use our [Llama-3 8b Instruct](https://colab.research.google.com/drive/1XamvWYinY6FOSX9GLvnqSjjsNflxdhNc?usp=sharing) notebook for conversational style finetunes.

In [None]:
%%capture
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps xformers trl peft accelerate bitsandbytes

* We support Llama, Mistral, Phi-3, Gemma, Yi, DeepSeek, Qwen, TinyLlama, Vicuna, Open Hermes etc
* We support 16bit LoRA or 4bit QLoRA. Both 2x faster.
* `max_seq_length` can be set to anything, since we do automatic RoPE Scaling via [kaiokendev's](https://kaiokendev.github.io/til) method.
* With [PR 26037](https://github.com/huggingface/transformers/pull/26037), we support downloading 4bit models **4x faster**! [Our repo](https://huggingface.co/unsloth) has Llama, Mistral 4bit models.
* [**NEW**] We make Phi-3 Medium / Mini **2x faster**! See our [Phi-3 Medium notebook](https://colab.research.google.com/drive/1hhdhBa1j_hsymiW9m-WzxQtgqTH_NHqi?usp=sharing)

In [None]:
!pip install triton
from unsloth import FastLanguageModel
import torch
max_seq_length = 512 # Choose any! We auto support RoPE Scaling internally!
dtype = torch.bfloat16 # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.

# 4bit pre quantized models we support for 4x faster downloading + no OOMs.
fourbit_models = [
    "unsloth/mistral-7b-v0.3-bnb-4bit",      # New Mistral v3 2x faster!
    "unsloth/mistral-7b-instruct-v0.3-bnb-4bit",
    "unsloth/llama-3-8b-bnb-4bit",           # Llama-3 15 trillion tokens model 2x faster!
    "unsloth/llama-3-8b-Instruct-bnb-4bit",
    "unsloth/llama-3-70b-bnb-4bit",
    "unsloth/Phi-3-mini-4k-instruct",        # Phi-3 2x faster!
    "unsloth/Phi-3-medium-4k-instruct",
    "unsloth/mistral-7b-bnb-4bit",
    "unsloth/gemma-7b-bnb-4bit",             # Gemma 2.2x faster!
] # More models at https://huggingface.co/unsloth

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/llama-3-8b-Instruct-bnb-4bit",
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
    # token = "hf_...", # use one if using gated models like meta-llama/Llama-2-7b-hf
)

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
==((====))==  Unsloth 2024.10.7: Fast Llama patching. Transformers = 4.44.2.
   \\   /|    GPU: NVIDIA A100-SXM4-40GB. Max memory: 39.564 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.5.0+cu121. CUDA = 8.0. CUDA Toolkit = 12.1.
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.28.post2. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


model.safetensors:   0%|          | 0.00/5.70G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/220 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/51.1k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/345 [00:00<?, ?B/s]

Unsloth: We fixed a gradient accumulation bug, but it seems like you don't have the latest transformers version!
Please update transformers, TRL and unsloth via:
`pip install --upgrade --no-cache-dir --no-deps unsloth transformers git+https://github.com/huggingface/trl.git`


We now add LoRA adapters so we only need to update 1 to 10% of all parameters!

In [None]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 128, # Choose any number > 0 ! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,
    lora_dropout = 0, # Supports any, but = 0 is optimized
    bias = "all",    # Supports any, but = "none" is optimized
    # [NEW] "unsloth" uses 30% less VRAM, fits 2x larger batch sizes!
    use_gradient_checkpointing = "unsloth", # True or "unsloth" for very long context
    random_state = 3407,
    use_rslora = False,  # We support rank stabilized LoRA
    loftq_config = None, # And LoftQ
)

Unsloth: bias = `none` is supported for fast patching. You are using bias = all.
Unsloth will patch all other layers, except LoRA matrices, causing a performance hit.
Unsloth 2024.10.7 patched 32 layers with 0 QKV layers, 0 O layers and 0 MLP layers.


<a name="Data"></a>
### Data Prep
We now use the Alpaca dataset from [yahma](https://huggingface.co/datasets/yahma/alpaca-cleaned), which is a filtered version of 52K of the original [Alpaca dataset](https://crfm.stanford.edu/2023/03/13/alpaca.html). You can replace this code section with your own data prep.

**[NOTE]** To train only on completions (ignoring the user's input) read TRL's docs [here](https://huggingface.co/docs/trl/sft_trainer#train-on-completions-only).

**[NOTE]** Remember to add the **EOS_TOKEN** to the tokenized output!! Otherwise you'll get infinite generations!

If you want to use the `llama-3` template for ShareGPT datasets, try our conversational [notebook](https://colab.research.google.com/drive/1XamvWYinY6FOSX9GLvnqSjjsNflxdhNc?usp=sharing).

For text completions like novel writing, try this [notebook](https://colab.research.google.com/drive/1ef-tab5bhkvWmBOObepl1WgJvfvSzn5Q?usp=sharing).

In [None]:
from huggingface_hub import login

# Hugging Face에 로그인 (토큰을 입력해야 합니다)
login(token='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')


The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [None]:
alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""

EOS_TOKEN = tokenizer.eos_token # Must add EOS_TOKEN
def formatting_prompts_func(examples):
    instructions = examples["instruction"]
    inputs       = examples["input"]
    outputs      = examples["output"]
    texts = []
    for instruction, input, output in zip(instructions, inputs, outputs):
        # Must add EOS_TOKEN, otherwise your generation will go on forever!
        text = alpaca_prompt.format(instruction, input, output) + EOS_TOKEN
        texts.append(text)
    return { "text" : texts, }
pass

from datasets import load_dataset
dataset = load_dataset("hoon-hee-lee/T1_subjective", split = "train")
dataset = dataset.map(formatting_prompts_func, batched = True,)

DatasetNotFoundError: Dataset 'hoon-hee-lee/T1_subjective' doesn't exist on the Hub or cannot be accessed.

<a name="Train"></a>
### Train the model
Now let's use Huggingface TRL's `SFTTrainer`! More docs here: [TRL SFT docs](https://huggingface.co/docs/trl/sft_trainer). We do 60 steps to speed things up, but you can set `num_train_epochs=1` for a full run, and turn off `max_steps=None`. We also support TRL's `DPOTrainer`!

In [None]:
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    dataset_num_proc=1,  # 멀티프로세싱 문제를 피하기 위해 1로 설정
    packing=False,
    args=TrainingArguments(
        per_device_train_batch_size=2,
        gradient_accumulation_steps=4,
        warmup_steps=5,
        max_steps=200,
        learning_rate=2e-4,
        fp16=not is_bfloat16_supported(),
        bf16=is_bfloat16_supported(),
        logging_steps=1,
        optim="adamw_8bit",
        weight_decay=0.01,
        lr_scheduler_type="linear",
        seed=3407,
        output_dir="outputs",
    ),
)

Map:   0%|          | 0/5900 [00:00<?, ? examples/s]

max_steps is given, it will override any value given in num_train_epochs


In [None]:
#@title Show current memory stats
gpu_stats = torch.cuda.get_device_properties(0)
start_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)
print(f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB.")
print(f"{start_gpu_memory} GB of memory reserved.")

GPU = NVIDIA A100-SXM4-40GB. Max memory = 39.564 GB.
9.59 GB of memory reserved.


In [None]:
trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 5,900 | Num Epochs = 1
O^O/ \_/ \    Batch size per device = 2 | Gradient Accumulation steps = 4
\        /    Total batch size = 8 | Total steps = 200
 "-____-"     Number of trainable parameters = 167,772,160


Step,Training Loss
1,3.2015
2,3.238
3,2.8725
4,3.0216
5,2.8117
6,2.4482
7,2.2521
8,1.929
9,1.8457
10,1.5792


In [None]:
#@title Show final memory and time stats
used_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
used_memory_for_lora = round(used_memory - start_gpu_memory, 3)
used_percentage = round(used_memory         /max_memory*100, 3)
lora_percentage = round(used_memory_for_lora/max_memory*100, 3)
print(f"{trainer_stats.metrics['train_runtime']} seconds used for training.")
print(f"{round(trainer_stats.metrics['train_runtime']/60, 2)} minutes used for training.")
print(f"Peak reserved memory = {used_memory} GB.")
print(f"Peak reserved memory for training = {used_memory_for_lora} GB.")
print(f"Peak reserved memory % of max memory = {used_percentage} %.")
print(f"Peak reserved memory for training % of max memory = {lora_percentage} %.")

476.2773 seconds used for training.
7.94 minutes used for training.
Peak reserved memory = 7.535 GB.
Peak reserved memory for training = 1.941 GB.
Peak reserved memory % of max memory = 51.092 %.
Peak reserved memory for training % of max memory = 13.161 %.


<a name="Inference"></a>
### Inference
Let's run the model! You can change the instruction and input - leave the output blank!

In [None]:
# 필요 라이브러리 설치
!pip install transformers faiss-gpu datasets


Collecting faiss-gpu
  Downloading faiss_gpu-1.7.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (1.4 kB)
Downloading faiss_gpu-1.7.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (85.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m85.5/85.5 MB[0m [31m23.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faiss-gpu
Successfully installed faiss-gpu-1.7.2


In [None]:
from transformers import DPRQuestionEncoderTokenizer, DPRQuestionEncoder
from transformers import DPRContextEncoderTokenizer, DPRContextEncoder
import faiss
import numpy as np
import os
from datasets import load_dataset

# Hugging Face 토큰을 환경 변수에서 불러오기
huggingface_token = os.getenv('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')

# DPR 모델 로드 (질문 인코더와 문서 인코더)
question_tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
question_encoder = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-single-nq-base")

context_tokenizer = DPRContextEncoderTokenizer.from_pretrained("facebook/dpr-ctx_encoder-single-nq-base")
context_encoder = DPRContextEncoder.from_pretrained("facebook/dpr-ctx_encoder-single-nq-base")

# FAISS 인덱스 생성 (Cosine 유사도 사용)
index = faiss.IndexFlatIP(context_encoder.config.hidden_size)

# 데이터셋 로드 (Hugging Face 인증 토큰 사용)
dataset = load_dataset("hoon-hee-lee/T1_subjective", split="train", use_auth_token=huggingface_token)

# 문서를 인덱싱하는 함수 정의
def index_documents(documents):
    document_embeddings = []
    for doc in documents:
        inputs = context_tokenizer(doc, return_tensors="pt", truncation=True, max_length=512, padding=True)
        embeddings = context_encoder(**inputs).pooler_output
        document_embeddings.append(embeddings.detach().cpu().numpy())

    # FAISS 인덱스에 문서 임베딩 추가
    embeddings = np.concatenate(document_embeddings, axis=0)
    index.add(embeddings)

# 문서 내용이 해당 열에 있다고 가정하고 인덱싱
index_documents(dataset["instruction"])

# 열 이름 확인
print(dataset.column_names)


Some weights of the model checkpoint at facebook/dpr-question_encoder-single-nq-base were not used when initializing DPRQuestionEncoder: ['question_encoder.bert_model.pooler.dense.bias', 'question_encoder.bert_model.pooler.dense.weight']
- This IS expected if you are initializing DPRQuestionEncoder from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing DPRQuestionEncoder from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at facebook/dpr-ctx_encoder-single-nq-base were not used when initializing DPRContextEncoder: ['ctx_encoder.bert_model.pooler.dense.bias', 'ctx_encoder.bert_model.pooler.dense.weight']
- This IS expected if you are initializing DPRContextEncoder from the

['instruction', 'input', 'output']


In [None]:
# 문서를 인덱싱하는 함수 정의
def retrieve_and_generate(question):
    # 질문을 인코딩
    question_inputs = question_tokenizer(question, return_tensors="pt")
    question_embedding = question_encoder(**question_inputs).pooler_output.detach().cpu().numpy()

    # FAISS로 유사 문서 검색
    D, I = index.search(question_embedding, k=5)  # 가장 유사한 5개 문서 검색

    # 가장 관련 있는 instruction 가져오기
    retrieved_instructions = [dataset["instruction"][i] for i in I[0]]

    # 해당 instruction에 맞는 output 가져오기
    retrieved_outputs = [dataset["output"][i] for i in I[0]]

    # 검색된 문서와 질문을 결합하여 입력으로 사용
    inputs = tokenizer(" ".join(retrieved_instructions) + question, return_tensors="pt", padding=True).to("cuda")

    # 모델을 추론 모드로 전환
    FastLanguageModel.for_inference(model)

    # 답변 생성
    outputs = model.generate(**inputs, max_new_tokens=256)

    # 결과 출력
    return tokenizer.decode(outputs[0], skip_special_tokens=True), retrieved_outputs

# 질문 예시
question = "계약직의 채용기준 어떤 지군으로 누가 채용하는지 서술하시오."
answer, related_outputs = retrieve_and_generate(question)

print("Generated Answer:", answer)
print("Related Outputs:", related_outputs)


Generated Answer: 전시교육본부장이나 경영본부장이 유고 시, 그 직무를 대행하는 사람은 누구인가? 전사 경영혁신계획 수립 후, 계획이 보완되어야 하는 주기는 무엇이며, 어떤 경우에 수정이 가능하는가?   주차장 사용료 징수시간을 조정할 경우, 어떻게 안내해야 하나요? 수여(기증)에 의해서 물품을 취득하였을 때, 물품운용자는 어떻게 행동해야 하는가? 전결권자가 직무를 수행하기 곤란한 경우, 어떤 조치를 통해 직무를 처리해야 하나요?계약직의 채용기준 어떤 지군으로 누가 채용하는지 서술하시오.  직무수행자와 계약직의 차이는 무엇인가? 

### 전시교육본부장이나 경영본부장이 유고 시, 그 직무를 대행하는 사람은 누구인가?

전시교육본부장이나 경영본부장이 유고 시에는 그 직무를 대행하는 사람은 해당 부서의 차장으로 한다.

### 전사 경영혁신계획 수립 후, 계획이 보완되어야 하는 주기는 무엇이며, 어떤 경우에 수정이 가능하는가?

전사 경영혁신계획 수립 후, 계획이 보완되어야 하는 주기는 1년으로 한다. 또한, 계획의 내용이 변경될 때에는 전사 경영혁신계획을 수정할 수 있다.

### 주차장 사용료 징수시간을 조정할 경우, 어떻게 안내해야 하나요?

주차장 사용료 징수시간을 조정할 경우에는 사용자에게 전자우편 또는 홈페이지를 통해 안내해야 한다.

### 수여(기증)에 의해서 물품을 취득하였을 때, 물품운용자는 어떻게 행동해야 하는가?

수여(기증)에 의해서 물품을 취득하였을 때
Related Outputs: ['과학문화실장과 기획예산실장이 그 직무를 대행한다.', '전사 경영혁신계획은 매 1년마다 보완하는 것이 원칙이다. 그러나 예기치 못한 급격한 경영환경 변화나 정부 정책 및 경영목표의 변동이 있을 경우에는 혁신총괄부서장이 수정을 할 수 있다.   ', '징수시간에 대한 안내문을 홈페이지 및 정산소 등 사용자가 보기 쉬운 장소에 게시한다.', '물품 운용자는 기증서를 첨부하여 물품관리책임자에게 통보해야 한다. ', '전결권자의 궐위, 출장 또는 사고

In [None]:
# 질문을 입력받아 답변을 생성하는 함수
def ask_and_generate():
    while True:
        # 사용자로부터 질문 입력받기
        question = input("질문을 입력하세요 ('exit' 또는 '종료'를 입력하면 종료됩니다): ")

        # 종료 조건
        if question.lower() in ['exit', '종료']:
            print("프로그램을 종료합니다.")
            break

        # 질문에 대한 답변 생성
        answer, related_outputs = retrieve_and_generate(question)

        # 답변 출력
        print("\n=== 생성된 답변 ===")
        print(answer)
        print("\n=== 관련된 Output ===")
        print(related_outputs)

# 함수 실행
ask_and_generate()


질문을 입력하세요 ('exit' 또는 '종료'를 입력하면 종료됩니다): 사내강사의 구분은 무엇이며, 그 운영은 어디에서 담당하나요?

=== 생성된 답변 ===
수여(기증)에 의해서 물품을 취득하였을 때, 물품운용자는 어떻게 행동해야 하는가? 사내강사의 구분은 무엇이며, 그 운영은 어디에서 담당하나요? 수탁상품의 공급가 변경은 언제 적용되나요? 전사 경영혁신계획 수립 후, 계획이 보완되어야 하는 주기는 무엇이며, 어떤 경우에 수정이 가능하는가?   사규주관부서의 장의 주요 책임은 무엇인가요?사내강사의 구분은 무엇이며, 그 운영은 어디에서 담당하나요? 수탁상품의 공급가 변경은 언제 적용되나요? 전사 경영혁신계획 수립 후, 계획이 보완되어야 하는 주기는 무엇이며, 어떤 경우에 수정이 가능하는가?  수여(기증)에 의해서 물품을 취득하였을 때, 물품운용자는 어떻게 행동해야 하는가? 

### 수여(기증)에 의해서 물품을 취득하였을 때, 물품운용자는 어떻게 행동해야 하는가? 

수여(기증)에 의해서 물품을 취득하였을 때, 물품운용자는 물품의 수령 시점에 그 사실을 등록하고, 물품의 운용 및 관리에 필요한 사항을 작성하여 그 사항을 물품운용부서에 제출하여야 한다. 

### 사내강사의 구분은 무엇이며, 그 운영은 어디에서 담당하나요? 

사내강사는 내부강사와 외부강사로 구분되며, 외부강사 운영은 인사관리부서에서 담당한다. 

### 수탁상품의 공급가 변경은 언제 적용되나요? 

수탁상품의 공급가 변경은 공급가 변경

=== 관련된 Output ===
['물품 운용자는 기증서를 첨부하여 물품관리책임자에게 통보해야 한다. ', "사내강사는 '전임교수', '겸임교수', '교과장'의 3가지로 구분됩니다. 이들의 운영은 연수교육 담당부서에서 담당합니다.", '공급가 변경은 익월 1일부터 적용한다. 단, 기거래 내역이 없는 상품에 대하여는 즉시 가격을 변경할 수 있다.', '전사 경영혁신계획은 매 1년마다 보완하는 것이 원칙이다. 그러나 예기치 못한 급격한 경영환경 변화나 정부 정

KeyboardInterrupt: Interrupted by user

In [None]:
# # 모델 추론 부분 (기존에 존재하는 추론 부분을 대체)
# FastLanguageModel.for_inference(model)  # 모델을 추론 모드로 전환

# question = "사내강사의 구분은 무엇이며, 그 운영은 어디에서 담당하나요?"
# answer, related_outputs = retrieve_and_generate(question)

# print("Generated Answer:", answer)
# print("Related Outputs:", related_outputs)

Generated Answer: 수여(기증)에 의해서 물품을 취득하였을 때, 물품운용자는 어떻게 행동해야 하는가? 사내강사의 구분은 무엇이며, 그 운영은 어디에서 담당하나요? 수탁상품의 공급가 변경은 언제 적용되나요? 전사 경영혁신계획 수립 후, 계획이 보완되어야 하는 주기는 무엇이며, 어떤 경우에 수정이 가능하는가?   사규주관부서의 장의 주요 책임은 무엇인가요?사내강사의 구분은 무엇이며, 그 운영은 어디에서 담당하나요?   물품운용자가 물품을 취득하여 사용할 때, 어떤 절차를 따라야 하나요?   물품운용자가 물품을 취득하여 사용할 때, 어떤 절차를 따라야 하나요?   수탁상품의 공급가 변경은 언제 적용되나요?   전사 경영혁신계획 수립 후, 계획이 보완되어야 하는 주기는 무엇이며, 어떤 경우에 수정이 가능하는가?   사규주관부서의 장의 주요 책임은 무엇인가요?   사내강사의 구분은 무엇이며, 그 운영은 어디에서 담당하나요?   물품운용자가 물품을 취득하여 사용할 때, 어떤 절차를 따라야 하나요?   물품운용자가 물품을 취득하여 사용할 때, 어떤 절차를 따라야 하나요?   수탁상품의 공급가 변경은 언제 적용되나요?   전사 경영혁신계획 수립 후, 계획이 보완되어야 하는 주기는 무엇이며, 어떤 경우에 수정이 가능하는가?   사규주관부서의 장의 주요 책임은 무엇인가요?   사내
Related Outputs: ['물품 운용자는 기증서를 첨부하여 물품관리책임자에게 통보해야 한다. ', "사내강사는 '전임교수', '겸임교수', '교과장'의 3가지로 구분됩니다. 이들의 운영은 연수교육 담당부서에서 담당합니다.", '공급가 변경은 익월 1일부터 적용한다. 단, 기거래 내역이 없는 상품에 대하여는 즉시 가격을 변경할 수 있다.', '전사 경영혁신계획은 매 1년마다 보완하는 것이 원칙이다. 그러나 예기치 못한 급격한 경영환경 변화나 정부 정책 및 경영목표의 변동이 있을 경우에는 혁신총괄부서장이 수정을 할 수 있다.   ', '사규주관부서의 장은 사규를 적정하게 운영할 책임을

# hoon-hee-lee/T1_subjective 데이터셋로드 RAG

In [None]:
# import faiss
# import numpy as np

# # FAISS 인덱스 생성 (cosine 유사도를 사용)
# index = faiss.IndexFlatIP(context_encoder.config.hidden_size)

# # hoon-hee-lee/T1_subjective 데이터셋의 텍스트 인코딩 후 인덱싱
# def index_documents(documents):
#     document_embeddings = []
#     for doc in documents:
#         inputs = context_tokenizer(doc, return_tensors="pt", truncation=True, padding=True)
#         embeddings = context_encoder(**inputs).pooler_output
#         document_embeddings.append(embeddings.detach().cpu().numpy())

#     embeddings = np.concatenate(document_embeddings, axis=0)
#     index.add(embeddings)

# index_documents(dataset["text"])  # hoon-hee-lee/T1_subjective 문서 인덱싱


In [None]:
# import faiss
# import numpy as np

# # FAISS 인덱스 생성 (cosine 유사도를 사용)
# index = faiss.IndexFlatIP(context_encoder.config.hidden_size)

# # hoon-hee-lee/T1_subjective 데이터셋의 텍스트 인코딩 후 인덱싱
# def index_documents(documents):
#     document_embeddings = []
#     for doc in documents:
#         inputs = context_tokenizer(doc, return_tensors="pt", truncation=True, padding=True)
#         embeddings = context_encoder(**inputs).pooler_output
#         document_embeddings.append(embeddings.detach().cpu().numpy())

#     embeddings = np.concatenate(document_embeddings, axis=0)
#     index.add(embeddings)

# index_documents(dataset["text"])  # hoon-hee-lee/T1_subjective 문서 인덱싱


# 원시코드(아래)

In [None]:
# alpaca_prompt = Copied from above


FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
    alpaca_prompt.format(
        "실적공종단가를 공고할 때 어떤 매체를 사용해야 하는가?.", # instruction
        "운영총괄부서장은 어떤 매체를 사용해야하는가", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(
    **inputs,                # 입력 데이터 (토큰화된 텍스트)
    max_new_tokens = 512,      # 생성할 최대 토큰 수
    temperature = 0.1,        # 랜덤성 조절
    top_p = 0.1,              # 누적 확률에 기반한 샘플링

)

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_text)

Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
실적공종단가를 공고할 때 어떤 매체를 사용해야 하는가?.

### Input:
운영총괄부서장은 어떤 매체를 사용해야하는가

### Response:
공고는 매일경제신문, 경향신문, 동아일보, 중앙일보, 서울경제신문, 이데일리, 연합뉴스, YTN, KBS, MBC, SBS, JTBC, MBN, TV조선, OBS, TV조선, KBS, MBC, SBS, JTBC, MBN, TV조선, OBS, 연합뉴스, YTN, KBS, MBC, SBS, JTBC, MBN, TV조선, OBS, 연합뉴스, YTN, KBS, MBC, SBS, JTBC, MBN, TV조선, OBS, 연합뉴스, YTN, KBS, MBC, SBS, JTBC, MBN, TV조선, OBS, 연합뉴스, YTN, KBS, MBC, SBS, JTBC, MBN, TV조선, OBS, 연합뉴스, YTN, KBS, MBC, SBS, JTBC, MBN, TV조선, OBS, 연합뉴스, YTN, KBS, MBC, SBS, JTBC, MBN, TV조선, OBS, 연합뉴스, YTN, KBS, MBC, SBS, JTBC, MBN, TV조선, OBS, 연합뉴스, YTN, KBS, MBC, SBS, JTBC, MBN, TV조선, OBS, 연합뉴스, YTN, KBS, MBC, SBS, JTBC, MBN, TV조선, OBS, 연합뉴스, YTN, KBS, MBC, SBS, JTBC, MBN, TV조선, OBS, 연합뉴스, YTN, KBS, MBC, SBS, JTBC, MBN, TV조선, OBS, 연합뉴스, YTN, KBS, MBC, SBS, JTBC, MBN, TV조선, OBS, 연합뉴스, YTN, KBS, MBC, SBS, JTBC

 You can also use a `TextStreamer` for continuous inference - so you can see the generation token by token, instead of waiting the whole time!

In [None]:
# alpaca_prompt = Copied from above
FastLanguageModel.for_inference(model) # Enable native 2x faster inference
inputs = tokenizer(
[
    alpaca_prompt.format(
        "심사위원회와 분과위원회의 회의의 개회와 의결의 기준을 설명하시오.", # instruction
        "심사위원회와 분과위원회의 회의의 개회와 의결의 기준을 설명하시오.", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

from transformers import TextStreamer
text_streamer = TextStreamer(tokenizer)
_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 256)

<|begin_of_text|>Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
심사위원회와 분과위원회의 회의의 개회와 의결의 기준을 설명하시오.

### Input:
심사위원회와 분과위원회의 회의의 개회와 의결의 기준을 설명하시오.

### Response:
심사위원회와 분과위원회의 회의는 위원장이 소집하며, 위원장이 소집하지 아니하는 경우에는 위원장이 정한 위원 중 과반수의 출석으로 개회한다. 의결은 출석위원 과반수의 찬성으로 한다.<|eot_id|>


<a name="Save"></a>
### Saving, loading finetuned models
To save the final model as LoRA adapters, either use Huggingface's `push_to_hub` for an online save or `save_pretrained` for a local save.

**[NOTE]** This ONLY saves the LoRA adapters, and not the full model. To save to 16bit or GGUF, scroll down!

In [None]:
model.save_pretrained("lora_model") # Local saving
tokenizer.save_pretrained("lora_model")
# model.push_to_hub("your_name/lora_model", token = "...") # Online saving
# tokenizer.push_to_hub("your_name/lora_model", token = "...") # Online saving

('lora_model/tokenizer_config.json',
 'lora_model/special_tokens_map.json',
 'lora_model/tokenizer.json')

Now if you want to load the LoRA adapters we just saved for inference, set `False` to `True`:

In [None]:
if False:
    from unsloth import FastLanguageModel
    model, tokenizer = FastLanguageModel.from_pretrained(
        model_name = "lora_model", # YOUR MODEL YOU USED FOR TRAINING
        max_seq_length = max_seq_length,
        dtype = dtype,
        load_in_4bit = load_in_4bit,
    )
    FastLanguageModel.for_inference(model) # Enable native 2x faster inference

# alpaca_prompt = You MUST copy from above!

inputs = tokenizer(
[
    alpaca_prompt.format(
        "What is a famous tall tower in Paris?", # instruction
        "", # input
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True)
tokenizer.batch_decode(outputs)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


["<|begin_of_text|>Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.\n\n### Instruction:\nWhat is a famous tall tower in Paris?\n\n### Input:\n\n\n### Response:\nThe Eiffel Tower is a famous landmark in Paris, France. It is a wrought iron tower that was built in 1889 for the World's Fair. Standing at 324 meters tall, it is the tallest building in Paris and one of the most recognizable landmarks in the world.<|end_of_text|>"]

You can also use Hugging Face's `AutoModelForPeftCausalLM`. Only use this if you do not have `unsloth` installed. It can be hopelessly slow, since `4bit` model downloading is not supported, and Unsloth's **inference is 2x faster**.

In [None]:
if False:
    # I highly do NOT suggest - use Unsloth if possible
    from peft import AutoPeftModelForCausalLM
    from transformers import AutoTokenizer
    model = AutoPeftModelForCausalLM.from_pretrained(
        "lora_model", # YOUR MODEL YOU USED FOR TRAINING
        load_in_4bit = load_in_4bit,
    )
    tokenizer = AutoTokenizer.from_pretrained("lora_model")

### Saving to float16 for VLLM

We also support saving to `float16` directly. Select `merged_16bit` for float16 or `merged_4bit` for int4. We also allow `lora` adapters as a fallback. Use `push_to_hub_merged` to upload to your Hugging Face account! You can go to https://huggingface.co/settings/tokens for your personal tokens.

In [None]:
# Merge to 16bit
if False: model.save_pretrained_merged("model", tokenizer, save_method = "merged_16bit",)
if False: model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")

# Merge to 4bit
if False: model.save_pretrained_merged("model", tokenizer, save_method = "merged_4bit",)
if False: model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_4bit", token = "")

# Just LoRA adapters
if False: model.save_pretrained_merged("model", tokenizer, save_method = "lora",)
if False: model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = "")

### GGUF / llama.cpp Conversion
To save to `GGUF` / `llama.cpp`, we support it natively now! We clone `llama.cpp` and we default save it to `q8_0`. We allow all methods like `q4_k_m`. Use `save_pretrained_gguf` for local saving and `push_to_hub_gguf` for uploading to HF.

Some supported quant methods (full list on our [Wiki page](https://github.com/unslothai/unsloth/wiki#gguf-quantization-options)):
* `q8_0` - Fast conversion. High resource use, but generally acceptable.
* `q4_k_m` - Recommended. Uses Q6_K for half of the attention.wv and feed_forward.w2 tensors, else Q4_K.
* `q5_k_m` - Recommended. Uses Q6_K for half of the attention.wv and feed_forward.w2 tensors, else Q5_K.

In [None]:
# Save to 8bit Q8_0
if False: model.save_pretrained_gguf("model", tokenizer,)
if False: model.push_to_hub_gguf("hf/model", tokenizer, token = "")

# Save to 16bit GGUF
if False: model.save_pretrained_gguf("model", tokenizer, quantization_method = "f16")
if False: model.push_to_hub_gguf("hf/model", tokenizer, quantization_method = "f16", token = "")

# Save to q4_k_m GGUF
if False: model.save_pretrained_gguf("model", tokenizer, quantization_method = "q4_k_m")
if False: model.push_to_hub_gguf("hf/model", tokenizer, quantization_method = "q4_k_m", token = "")

Now, use the `model-unsloth.gguf` file or `model-unsloth-Q4_K_M.gguf` file in `llama.cpp` or a UI based system like `GPT4All`. You can install GPT4All by going [here](https://gpt4all.io/index.html).

And we're done! If you have any questions on Unsloth, we have a [Discord](https://discord.gg/u54VK8m8tk) channel! If you find any bugs or want to keep updated with the latest LLM stuff, or need help, join projects etc, feel free to join our Discord!

Some other links:
1. Zephyr DPO 2x faster [free Colab](https://colab.research.google.com/drive/15vttTpzzVXv_tJwEk-hIcQ0S9FcEWvwP?usp=sharing)
2. Llama 7b 2x faster [free Colab](https://colab.research.google.com/drive/1lBzz5KeZJKXjvivbYvmGarix9Ao6Wxe5?usp=sharing)
3. TinyLlama 4x faster full Alpaca 52K in 1 hour [free Colab](https://colab.research.google.com/drive/1AZghoNBQaMDgWJpi4RbffGM1h6raLUj9?usp=sharing)
4. CodeLlama 34b 2x faster [A100 on Colab](https://colab.research.google.com/drive/1y7A0AxE3y8gdj4AVkl2aZX47Xu3P1wJT?usp=sharing)
5. Mistral 7b [free Kaggle version](https://www.kaggle.com/code/danielhanchen/kaggle-mistral-7b-unsloth-notebook)
6. We also did a [blog](https://huggingface.co/blog/unsloth-trl) with 🤗 HuggingFace, and we're in the TRL [docs](https://huggingface.co/docs/trl/main/en/sft_trainer#accelerate-fine-tuning-2x-using-unsloth)!
7. `ChatML` for ShareGPT datasets, [conversational notebook](https://colab.research.google.com/drive/1Aau3lgPzeZKQ-98h69CCu1UJcvIBLmy2?usp=sharing)
8. Text completions like novel writing [notebook](https://colab.research.google.com/drive/1ef-tab5bhkvWmBOObepl1WgJvfvSzn5Q?usp=sharing)
9. [**NEW**] We make Phi-3 Medium / Mini **2x faster**! See our [Phi-3 Medium notebook](https://colab.research.google.com/drive/1hhdhBa1j_hsymiW9m-WzxQtgqTH_NHqi?usp=sharing)

<div class="align-center">
  <a href="https://github.com/unslothai/unsloth"><img src="https://github.com/unslothai/unsloth/raw/main/images/unsloth%20new%20logo.png" width="115"></a>
  <a href="https://discord.gg/u54VK8m8tk"><img src="https://github.com/unslothai/unsloth/raw/main/images/Discord.png" width="145"></a>
  <a href="https://ko-fi.com/unsloth"><img src="https://github.com/unslothai/unsloth/raw/main/images/Kofi button.png" width="145"></a></a> Support our work if you can! Thanks!
</div>