In [None]:
# from unsloth import FastLanguageModel
# import torch
# max_seq_length = 8192 # Choose any! We auto support RoPE Scaling internally!
# dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
# load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.
# model_name = "MTruc/llama3.2-1b-instruct-orpo-v2"  # Corrected example

# model, tokenizer = FastLanguageModel.from_pretrained(
#     model_name = model_name, # YOUR MODEL YOU USED FOR TRAINING
#     max_seq_length = max_seq_length,
#     dtype = dtype,
#     load_in_4bit = load_in_4bit,
#     token = "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"
# )
# FastLanguageModel.for_inference(model) # Enable native 2x faster inference

In [1]:
from peft import PeftModel, PeftConfig
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Load the PEFT configuration
config = PeftConfig.from_pretrained("MTruc/llama3.2-1b-instruct-orpo-v2", torch_dtype=torch.float16)

# Load the base model
base_model = AutoModelForCausalLM.from_pretrained(
    "unsloth/Llama-3.2-1B-Instruct-bnb-4bit", 
    torch_dtype=torch.float16,
)

# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained(
    "unsloth/Llama-3.2-1B-Instruct-bnb-4bit"  # Match the tokenizer to the base model
)

# Load the PEFT model
model = PeftModel.from_pretrained(
    base_model, 
    "MTruc/llama3.2-1b-instruct-orpo-v2", 
    torch_dtype=torch.float16,
)

# Move model to GPU
model = model.to("cuda")


  from .autonotebook import tqdm as notebook_tqdm
Unused kwargs: ['_load_in_4bit', '_load_in_8bit', 'quant_method']. These kwargs are not used in <class 'transformers.utils.quantization_config.BitsAndBytesConfig'>.
`low_cpu_mem_usage` was None, now default to True since model is quantized.


In [2]:
from transformers import TextStreamer
text_streamer = TextStreamer(tokenizer)
#FastLanguageModel.for_inference(model) # Enable native 2x faster inference


In [3]:
alpaca_prompt = """Instruction: {}

### Context:
{}

### Input:
{}

### Response:
{}"""

In [4]:
from datasets import load_dataset
import random
test_data = load_dataset("MTruc/vn_qa_finance_orpo")["test"]

In [5]:
i = random.randrange(1, 100)
test_data[i]

{'Instruction': 'Bạn là một chuyên gia tài chính, bạn được cung cấp những chỉ số tài chính của một mô hình dự đoán giá và những tài liệu tài chính kèm theo. Người dùng có thể hỏi về những chỉ số này hoặc những câu hỏi khác, nếu người dùng hỏi về chỉ số hoặc thông tin liên quan đến mô hình, hãy dùng số liệu được cung cấp để trả lời, còn nếu người dùng hỏi những câu hỏi khác không liên quan đến mô hình thì không cần dùng những chỉ số tài chính của mô hình.',
 'Context': 'Chỉ số của mô hình:\n Return (Ann.) [%]: 18.88,\n Volatility (Ann.) [%]: 5.79,\n Max. Drawdown [%]: -30.16,\n Sharpe Ratio: 3.26,\n Sortino Ratio: 0.87,\n Calmar Ratio: 0.63,\n Win Rate [%]: 46.25,\n AvgTrade [%]: 2.34,\n Generalization Score: 0.07,\n Tỉ lệ dự đoán gần đây [%]: 100.',
 'Text': 'Một trong các nhược điểm trong hoạt động của công ty cổ phần là:',
 'Choose': 'Thiếu động lực và sự quan tâm cá nhân, vì trách nhiệm chung trong thua lỗ',
 'Reject': 'Tách rời quyền sở hữu và quyền điều hành\nKhông giữ được bí mật

In [6]:
if tokenizer.pad_token_id is None:
    tokenizer.pad_token = tokenizer.eos_token


In [7]:
inputs = tokenizer(
[
    alpaca_prompt.format(
        test_data[i]['Instruction'], # instruction
        test_data[i]['Context'], # context,
        test_data[i]['Text'], # input,
        "", # output - leave this blank for generation!
    )
], return_tensors = "pt").to("cuda") 


from transformers import TextStreamer
text_streamer = TextStreamer(tokenizer)
_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 256)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


<|begin_of_text|>Instruction: Bạn là một chuyên gia tài chính, bạn được cung cấp những chỉ số tài chính của một mô hình dự đoán giá và những tài liệu tài chính kèm theo. Người dùng có thể hỏi về những chỉ số này hoặc những câu hỏi khác, nếu người dùng hỏi về chỉ số hoặc thông tin liên quan đến mô hình, hãy dùng số liệu được cung cấp để trả lời, còn nếu người dùng hỏi những câu hỏi khác không liên quan đến mô hình thì không cần dùng những chỉ số tài chính của mô hình.

### Context:
Chỉ số của mô hình:
 Return (Ann.) [%]: 18.88,
 Volatility (Ann.) [%]: 5.79,
 Max. Drawdown [%]: -30.16,
 Sharpe Ratio: 3.26,
 Sortino Ratio: 0.87,
 Calmar Ratio: 0.63,
 Win Rate [%]: 46.25,
 AvgTrade [%]: 2.34,
 Generalization Score: 0.07,
 Tỉ lệ dự đoán gần đây [%]: 100.

### Input:
Một trong các nhược điểm trong hoạt động của công ty cổ phần là:

### Response:
Tác động tiêu cực đến lợi nhuận và giá cổ phiếu<|eot_id|>
