## Installation

In [1]:
%%capture
import os
if "COLAB_" not in "".join(os.environ.keys()):
    !pip install unsloth
else:
    # Do this only in Colab notebooks! Otherwise use pip install unsloth
    !pip install --no-deps bitsandbytes accelerate xformers==0.0.29.post3 peft trl triton cut_cross_entropy unsloth_zoo
    !pip install sentencepiece protobuf "datasets>=3.4.1" huggingface_hub hf_transfer
    !pip install --no-deps unsloth

In [None]:
%%capture
import os
if "COLAB_" not in "".join(os.environ.keys()):
    !pip install unsloth vllm
else:
    # [NOTE] Do the below ONLY in Colab! Use [[pip install unsloth vllm]]
    !pip install --no-deps unsloth vllm==0.8.5.post1

In [None]:
%%capture
#@title Colab Extra Install { display-mode: "form" }
import os
if "COLAB_" not in "".join(os.environ.keys()):
    !pip install unsloth vllm
else:
    !pip install --no-deps unsloth vllm==0.8.5.post1
    # [NOTE] Do the below ONLY in Colab! Use [[pip install unsloth vllm]]
    # Skip restarting message in Colab
    import sys, re, requests; modules = list(sys.modules.keys())
    for x in modules: sys.modules.pop(x) if "PIL" in x or "google" in x else None
    !pip install --no-deps bitsandbytes accelerate xformers==0.0.29.post3 peft trl triton cut_cross_entropy unsloth_zoo
    !pip install sentencepiece protobuf "datasets>=3.4.1,<4.0.0" huggingface_hub hf_transfer
    
    # vLLM requirements - vLLM breaks Colab due to reinstalling numpy
    f = requests.get("https://raw.githubusercontent.com/vllm-project/vllm/refs/heads/main/requirements/common.txt").content
    with open("vllm_requirements.txt", "wb") as file:
        file.write(re.sub(rb"(transformers|numpy|xformers)[^\n]{1,}\n", b"", f))
    !pip install -r vllm_requirements.txt

In [None]:
!pip install langid -qq

## Unsloth

In [None]:
from unsloth import FastModel
import torch
max_seq_length = 4096

model, tokenizer = FastModel.from_pretrained(
    model_name = "lmq1909/Qwen3-8B-LQA-14e-full",
    max_seq_length = max_seq_length, # Choose any for long context!
    load_in_4bit = True,  # 4 bit quantization to reduce memory
    load_in_8bit = False, # [NEW!] A bit more accurate, uses 2x memory
    full_finetuning = False, # [NEW!] We have full finetuning now!
    # token = "hf_...", # use one if using gated models
)

In [None]:
model = FastModel.get_peft_model(
    model,
    finetune_vision_layers     = False, # Turn off for just text!
    finetune_language_layers   = True,  # Should leave on!
    finetune_attention_modules = True,  # Attention good for GRPO
    finetune_mlp_modules       = True,  # SHould leave on always!

    r = 8,           # Larger = higher accuracy, but might overfit
    lora_alpha = 16,  # Recommended alpha == r at least
    lora_dropout = 0,
    bias = "none",
    random_state = 3407,
)

In [None]:
reasoning_start = None
reasoning_end = None
user_token = None
assistant_token = None

for token in tokenizer.get_added_vocab().keys():
    if "think" in token and "/" in token:
        reasoning_end = token
    elif "think" in token:
        reasoning_start = token
    elif "user" in token:
        user_token = token
    elif "assistant" in token:
        assistant_token = token

## data ALQAC 2025

In [2]:
!gdown 13WRuCCpUFPSqwQ3csIe7-UcoSfVcHjpU

Downloading...
From: https://drive.google.com/uc?id=13WRuCCpUFPSqwQ3csIe7-UcoSfVcHjpU
To: /kaggle/working/data_train_legal_qa_new.json
100%|███████████████████████████████████████| 5.83M/5.83M [00:00<00:00, 215MB/s]


In [3]:
import json
import random

random.seed(42)

# Giả định đường dẫn tệp JSON
file_path = 'data_train_legal_qa_new.json'

# Bước 1: Tải dữ liệu
try:
    with open(file_path, 'r', encoding='utf-8') as f:
        questions = json.load(f)
except FileNotFoundError:
    print(f"Lỗi: Không tìm thấy tệp {file_path}. Vui lòng đảm bảo tệp tồn tại và đúng đường dẫn.")
    exit()
except json.JSONDecodeError:
    print(f"Lỗi: Không thể giải mã JSON từ tệp {file_path}. Đảm bảo tệp có định dạng JSON hợp lệ.")
    exit()

# Bước 2: Phân loại câu hỏi
true_false_questions = [q for q in questions if q['question_type'] == 'Đúng/Sai']
multiple_choice_questions = [q for q in questions if q['question_type'] == 'Trắc nghiệm']
essay_questions = [q for q in questions if q['question_type'] == 'Tự luận']

# Số lượng ban đầu của từng loại
num_true_false_total = len(true_false_questions)
num_multiple_choice_total = len(multiple_choice_questions)
num_essay_total = len(essay_questions)
total_samples = len(questions)

print(f"Tổng số mẫu ban đầu: {total_samples}")
print(f" - Đúng/Sai: {num_true_false_total}")
print(f" - Trắc nghiệm: {num_multiple_choice_total}")
print(f" - Tự luận: {num_essay_total}\n")

# Bước 3: Chuẩn bị chia tập dữ liệu
validation_set_target_size = 100
num_essay_in_val_requested = 5

validation_questions = []
train_questions = []

# --- Xử lý câu hỏi 'Tự luận' cho tập validation ---
if num_essay_total < num_essay_in_val_requested:
    print(f"Cảnh báo: Số lượng câu hỏi 'Tự luận' ({num_essay_total}) ít hơn số lượng yêu cầu cho tập validation ({num_essay_in_val_requested}). Sẽ lấy tất cả {num_essay_total} câu hỏi 'Tự luận' cho tập validation.")
    num_essay_in_val_actual = num_essay_total
else:
    num_essay_in_val_actual = num_essay_in_val_requested

random.shuffle(essay_questions)
val_essay_q = essay_questions[:num_essay_in_val_actual]
train_essay_q = essay_questions[num_essay_in_val_actual:]

validation_questions.extend(val_essay_q)
train_questions.extend(train_essay_q)

# --- Xử lý câu hỏi 'Đúng/Sai' và 'Trắc nghiệm' cho phần còn lại của tập validation ---
remaining_val_slots = validation_set_target_size - len(val_essay_q)

if remaining_val_slots > 0:
    total_tf_mc_available = num_true_false_total + num_multiple_choice_total

    if total_tf_mc_available == 0:
        print("Không có câu hỏi 'Đúng/Sai' hoặc 'Trắc nghiệm' nào trong dữ liệu gốc để chia cho tập validation.")
    else:
        # Tính toán tỷ lệ dựa trên tổng số câu hỏi Đúng/Sai và Trắc nghiệm ban đầu
        prop_tf = num_true_false_total / total_tf_mc_available
        prop_mc = num_multiple_choice_total / total_tf_mc_available

        # Tính số lượng mong muốn cho tập validation dựa trên tỷ lệ và số slot còn lại
        num_tf_val_desired = round(remaining_val_slots * prop_tf)
        num_mc_val_desired = round(remaining_val_slots * prop_mc)
        
        # Điều chỉnh làm tròn để tổng số lượng chính xác với remaining_val_slots
        current_sum_desired = num_tf_val_desired + num_mc_val_desired
        diff = remaining_val_slots - current_sum_desired
        if diff != 0:
            if diff > 0: # Cần thêm mẫu
                # Ưu tiên thêm vào loại có tỷ lệ lớn hơn để duy trì tính đại diện
                if prop_tf >= prop_mc:
                    num_tf_val_desired += diff
                else:
                    num_mc_val_desired += diff
            else: # Cần bớt mẫu (diff là số âm)
                # Ưu tiên bớt từ loại có tỷ lệ lớn hơn
                if prop_tf >= prop_mc:
                    num_tf_val_desired += diff # diff là số âm
                else:
                    num_mc_val_desired += diff # diff là số âm
        
        # Đảm bảo không lấy quá số lượng có sẵn trong dữ liệu gốc
        num_tf_val_final = min(num_tf_val_desired, num_true_false_total)
        num_mc_val_final = min(num_mc_val_desired, num_multiple_choice_total)

        # Kiểm tra xem tổng số lượng sau khi capping có đủ để điền vào remaining_val_slots không
        if num_tf_val_final + num_mc_val_final < remaining_val_slots:
            print(f"Cảnh báo: Không đủ câu hỏi Đúng/Sai và Trắc nghiệm để điền đầy đủ {remaining_val_slots} vị trí còn lại trong tập validation. Sẽ lấy tất cả {num_tf_val_final + num_mc_val_final} câu hỏi Đúng/Sai và Trắc nghiệm có thể.")
        
        random.shuffle(true_false_questions)
        random.shuffle(multiple_choice_questions)

        val_tf_q = true_false_questions[:num_tf_val_final]
        val_mc_q = multiple_choice_questions[:num_mc_val_final]

        train_tf_q = true_false_questions[num_tf_val_final:]
        train_mc_q = multiple_choice_questions[num_mc_val_final:]

        validation_questions.extend(val_tf_q)
        validation_questions.extend(val_mc_q)

        train_questions.extend(train_tf_q)
        train_questions.extend(train_mc_q)
else:
    print("Không còn chỗ trống trong tập validation để thêm câu hỏi Đúng/Sai hoặc Trắc nghiệm (đã đủ 100 mẫu từ 'Tự luận').")


# Bước 4: Kiểm tra và in kết quả
num_train_true_false = sum(1 for q in train_questions if q['question_type'] == 'Đúng/Sai')
num_train_multiple_choice = sum(1 for q in train_questions if q['question_type'] == 'Trắc nghiệm')
num_train_essay = sum(1 for q in train_questions if q['question_type'] == 'Tự luận')
total_train = len(train_questions)

num_val_true_false = sum(1 for q in validation_questions if q['question_type'] == 'Đúng/Sai')
num_val_multiple_choice = sum(1 for q in validation_questions if q['question_type'] == 'Trắc nghiệm')
num_val_essay = sum(1 for q in validation_questions if q['question_type'] == 'Tự luận')

print("\n--- Kết quả chia tập dữ liệu ---")
print(f"Tổng số mẫu tập huấn luyện (train): {total_train}")
print(f" - Đúng/Sai: {num_train_true_false}")
print(f" - Trắc nghiệm: {num_train_multiple_choice}")
print(f" - Tự luận: {num_train_essay}\n")

print(f"Tổng số mẫu tập kiểm định (valid): {len(validation_questions)}")
print(f" - Đúng/Sai: {num_val_true_false}")
print(f" - Trắc nghiệm: {num_val_multiple_choice}")
print(f" - Tự luận: {num_val_essay}\n")

print(f"Tổng cộng: {total_train + len(validation_questions)} mẫu (khớp với {total_samples} ban đầu).")

Tổng số mẫu ban đầu: 728
 - Đúng/Sai: 387
 - Trắc nghiệm: 285
 - Tự luận: 56


--- Kết quả chia tập dữ liệu ---
Tổng số mẫu tập huấn luyện (train): 628
 - Đúng/Sai: 332
 - Trắc nghiệm: 245
 - Tự luận: 51

Tổng số mẫu tập kiểm định (valid): 100
 - Đúng/Sai: 55
 - Trắc nghiệm: 40
 - Tự luận: 5

Tổng cộng: 728 mẫu (khớp với 728 ban đầu).


In [4]:
from datasets import Dataset
train_dataset = Dataset.from_list(train_questions)
valid_dataset = Dataset.from_list(validation_questions)

In [5]:
# Format lại để phù hợp với GRPO training
def format_to_chat_template(example):
    return {
        "prompt": [
            {"role": "system", "content": example["system_prompt"]},
            {"role": "user", "content": example["prompt"]},
        ],
        "answer": example["answer"],  ############ hoặc extract_hash_answer(...) nếu cần
    }

# # Loại bỏ các cột không cần thiết
# columns_to_remove = [
#     'question_id', 'text', 'relevant_articles', 'system_prompt',
#     'prompt', 'answer', 'answer_think', 'question_type'
# ]

# Áp dụng lên train và valid datasets
train_dataset = train_dataset.map(format_to_chat_template)
valid_dataset = valid_dataset.map(format_to_chat_template)

Map:   0%|          | 0/628 [00:00<?, ? examples/s]

Map:   0%|          | 0/100 [00:00<?, ? examples/s]

In [6]:
dataset = train_dataset

In [7]:
dataset[100]

{'question_id': 'train_alqac25_14',
 'question_type': 'Đúng/Sai',
 'text': 'Chồng có nguồn thu nhập nhiều hơn vợ thì chồng có quyền chiếm hữu, sử dụng tài sản chung nhiều hơn so với vợ, đúng hay sai?',
 'relevant_articles': ['Nguyên tắc chung về chế độ tài sản của vợ chồng\n1. Vợ, chồng bình đẳng với nhau về quyền, nghĩa vụ trong việc tạo lập, chiếm hữu, sử dụng, định đoạt tài sản chung; không phân biệt giữa lao động trong gia đình và lao động có thu nhập.\n\n2. Vợ, chồng có nghĩa vụ bảo đảm điều kiện để đáp ứng nhu cầu thiết yếu của gia đình.\n\n3. Việc thực hiện quyền, nghĩa vụ về tài sản của vợ chồng mà xâm phạm đến quyền, lợi ích hợp pháp của vợ, chồng, gia đình và của người khác thì phải bồi thường.'],
 'answer': 'Sai',
 'system_prompt': 'Bạn là một trợ lý pháp lý Tiếng Việt, có nhiệm vụ trả lời các câu hỏi ngắn gọn, chính xác, dựa trên nội dung điều luật được cung cấp. Chỉ trả lời bằng Tiếng Việt.\n\nBạn hãy trả lời theo định dạng sau:\n<think>\n[Suy nghĩ, phân tích của bạn]\n</t

## reward funciton

In [None]:
import re

# Add optional EOS token matching
solution_end_regex = rf"{reasoning_end}(.*)"

match_format = re.compile(solution_end_regex, re.DOTALL)
match_format

In [None]:
# check xem có </think> hay không
def match_format_exactly(completions, **kwargs):
    scores = []
    for completion in completions:
        score = 0
        response = completion[0]["content"]
        # Match if format is seen exactly!
        
        if match_format.search(response) is not None: score += 1.0
        scores.append(score)
    return scores

completions = [
    [{"content": "<think>\n\n**1. Phân tích câu hỏi:**\nCâu hỏi yêu cầu phân tích và giải thích cho kết luận về các quyền của Hội đồng xét xử phúc thẩm khi xem xét quyết định sơ thẩm bị kháng cáo, kháng nghị. Kết luận đưa ra là Hội đồng xét xử có ba quyền: Giữ nguyên, Sửa, Hủy và chuyển hồ sơ.\n\n**2. Dẫn chứng từ bối cảnh:**\n- Hội đồng xét xử phúc thẩm có quyền **giữ nguyên** quyết định của Tòa án cấp sơ thẩm (Điểm a, Mục 5).\n- Hội đồng xét xử phúc thẩm có quyền **sửa** quyết định của Tòa án cấp sơ thẩm (Điểm b, Mục 5).\n- Hội đồng xét xử phúc thẩm có quyền **hủy** quyết định của Tòa án cấp sơ thẩm và chuyển hồ sơ vụ án cho Tòa án cấp sơ thẩm để tiếp tục giải quyết vụ án (Điểm c, Mục 5).\n\n**3. Suy luận step-by-step:**\na) Căn cứ vào quy định tại Mục 5, Hội đồng xét xử phúc thẩm có ba quyền khi giải quyết kháng cáo, kháng nghị.\nb) Quyền Giữ nguyên được quy định tại Điểm a, Mục 5.\nc) Quyền Sửa được quy định tại Điểm b, Mục 5.\nd) Quyền Hủy và chuyển hồ sơ được quy định tại Điểm c, Mục 5.\n\n**4. Kết luận:**\nGiữ nguyên quyết định của Tòa án cấp sơ thẩm; sửa quyết định của Tòa án cấp sơ thẩm; hủy quyết định của Tòa án cấp sơ thẩm và chuyển hồ sơ vụ án cho Tòa án cấp sơ thẩm để tiếp tục giải quyết vụ án.\n</think>\nGiữ nguyên quyết định của Tòa án cấp sơ thẩm; sửa quyết định của Tòa án cấp sơ thẩm; hủy quyết định của Tòa án cấp sơ thẩm và chuyển hồ sơ vụ án cho Tòa án cấp sơ thẩm để tiếp tục giải quyết vụ án."}],
    [{"content": "**1. Phân tích câu hỏi:**\nCâu hỏi yêu cầu phân tích và giải thích cho kết luận về các quyền của Hội đồng xét xử phúc thẩm khi xem xét quyết định sơ thẩm bị kháng cáo, kháng nghị. Kết luận đưa ra là Hội đồng xét xử có ba quyền: Giữ nguyên, Sửa, Hủy và chuyển hồ sơ.\n\n**2. Dẫn chứng từ bối cảnh:**\n- Hội đồng xét xử phúc thẩm có quyền **giữ nguyên** quyết định của Tòa án cấp sơ thẩm (Điểm a, Mục 5).\n- Hội đồng xét xử phúc thẩm có quyền **sửa** quyết định của Tòa án cấp sơ thẩm (Điểm b, Mục 5).\n- Hội đồng xét xử phúc thẩm có quyền **hủy** quyết định của Tòa án cấp sơ thẩm và chuyển hồ sơ vụ án cho Tòa án cấp sơ thẩm để tiếp tục giải quyết vụ án (Điểm c, Mục 5).\n\n**3. Suy luận step-by-step:**\na) Căn cứ vào quy định tại Mục 5, Hội đồng xét xử phúc thẩm có ba quyền khi giải quyết kháng cáo, kháng nghị.\nb) Quyền Giữ nguyên được quy định tại Điểm a, Mục 5.\nc) Quyền Sửa được quy định tại Điểm b, Mục 5.\nd) Quyền Hủy và chuyển hồ sơ được quy định tại Điểm c, Mục 5.\n\n**4. Kết luận:**\nGiữ nguyên quyết định của Tòa án cấp sơ thẩm; sửa quyết định của Tòa án cấp sơ thẩm; hủy quyết định của Tòa án cấp sơ thẩm và chuyển hồ sơ vụ án cho Tòa án cấp sơ thẩm để tiếp tục giải quyết vụ án.\n</think>\nGiữ nguyên quyết định của Tòa án cấp sơ thẩm; sửa quyết định của Tòa án cấp sơ thẩm; hủy quyết định của Tòa án cấp sơ thẩm và chuyển hồ sơ vụ án cho Tòa án cấp sơ thẩm để tiếp tục giải quyết vụ án."}],
    [{"content": "Đáp án là 42."}],
]
scores = match_format_exactly(completions)
print(scores)  

In [None]:
# Đúng định dạng (<think> 1 lần, </think> 1 lần)
def match_format_approximately(completions, **kwargs):
    scores = []
    for completion in completions:
        score = 0
        response = completion[0]["content"]
        # Count how many keywords are seen - we penalize if too many!
        # If we see 1, then plus some points!

        # No need to reward <think> since we always prepend it!
        score += 0.5 if response.count(reasoning_start) == 1 else -2.0
        score += 0.5 if response.count(reasoning_end)   == 1 else -2.0
        scores.append(score)
    return scores

completions = [
    # ✅ 1. Đúng định dạng
    [{"content": "<think> reasoning here </think>\nThe answer is 42."}],
    # ❌ 2. Thiếu <think>
    [{"content": "reasoning here </think>\nThe answer is 42."}],
    # ❌ 3. Thiếu </think>
    [{"content": "<think> reasoning here \nThe answer is 42."}],
    # ❌ 4. Không có gì
    [{"content": "The answer is 42."}],
    # ❌ 5. Quá nhiều <think>
    [{"content": "<think> step 1 </think>\n<think> step 2 </think>\nAnswer: 10"}],
    # ❌ 6. Lặp </think>
    [{"content": "<think> a </think> </think>\nAnswer"}],
]
scores = match_format_approximately(completions)
for i, score in enumerate(scores):
    print(f"Test case {i+1} - Score: {score}")

In [None]:
def check_answer(prompts, completions, answer, **kwargs):
    question = prompts[0][-1]["content"]

    responses = [completion[0]["content"] for completion in completions]

    extracted_responses = [
        guess.group(1)
        if (guess := match_format.search(r)) is not None else None \
        for r in responses
    ]

    scores = []
    for guess, true_answer in zip(extracted_responses, answer):
        score = 0
        if guess is None:
            scores.append(-2.0)
            continue

        guess = str(guess)
        true_answer = str(true_answer)  # lấy từ list, không phải list nguyên

        if true_answer not in ['Đúng','Sai','A','B','C','D']:
            score = 0
        elif guess == true_answer:
            score += 5
        elif guess.strip() == true_answer.strip():
            score += 3
        else:
            try:
                ratio = float(guess) / float(true_answer)
                if   0.9 <= ratio <= 1.1:
                    score += 2.0
                elif 0.8 <= ratio <= 1.2:
                    score += 1
                else:
                    score -= 5
            except:
                score -= 20
        scores.append(score)
    return scores

prompts = [[{"role": "user", "content": "Tính 7 x 6"}]]

completions = [
    [{"content": "<think>\n\n1. Phân tích câu hỏi: Câu hỏi đặt ra vấn đề về việc, nếu chồng có nguồn thu nhập nhiều hơn vợ, thì liệu chồng có được phép chiếm hữu, sử dụng tài sản chung nhiều hơn so với vợ hay không. Điều này liên quan đến nguyên tắc bình đẳng giữa vợ và chồng trong việc quản lý tài sản chung.\n\n2. Dẫn chứng từ bối cảnh:\n   - 'Vợ, chồng bình đẳng với nhau về quyền, nghĩa vụ trong việc tạo lập, chiếm hữu, sử dụng, định đoạt tài sản chung; không phân biệt giữa lao động trong gia đình và lao động có thu nhập.' (Điểm 1)\n   - 'Vợ, chồng có nghĩa vụ bảo đảm điều kiện để đáp ứng nhu cầu thiết yếu của gia đình.' (Điểm 2)\n   - 'Việc thực hiện quyền, nghĩa vụ về tài sản của vợ chồng mà xâm phạm đến quyền, lợi ích hợp pháp của vợ, chồng, gia đình và của người khác thì phải bồi thường.' (Điểm 3)\n\n3. Suy luận step-by-step:\n   a) Căn cứ vào điểm 1 của bối cảnh, vợ và chồng bình đẳng về mọi quyền và nghĩa vụ trong tài sản chung, không phân biệt thu nhập hay lao động có thu nhập hay không.\n   b) Thu nhập nhiều hơn không tạo ra quyền ưu tiên hơn trong việc chiếm hữu, sử dụng tài sản chung.\n   c) Đặt biệt, điểm 3 nêu rõ nếu có hành vi xâm phạm quyền lợi thì phải bồi thường, điều này cũng xác nhận rằng không có sự ưu tiên nào được phép xâm phạm quyền lợi của vợ/chồng.\n\n4. Kết luận: Sai. Quyền chiếm hữu tài sản chung phải bình đẳng giữa vợ và chồng, không phụ thuộc vào thu nhập cá nhân.\n</think>\nSai"}],  
    [{"content": "<think> 7 x 6 = 42 </think>Sai"}],           # ĐÚng kết quả
    [{"content": "<think> 7 x 6 = 42 </think>Đúng"}],          # Sai kết quả
]

answer = ["Sai"] * len(completions)
scores = check_answer(prompts, completions, answer)
for i, score in enumerate(scores, 1):
    print(f"Test case {i}: Score = {score}")

In [None]:
import langid

def get_lang(text: str) -> str:
    if not text:
        return "und"
    lang, _ = langid.classify(text)
    return lang


print(get_lang("Hello, How are you")) # This should return en
print(get_lang("Aku berpikir kalau aku adalah kamu")) # This should return id
print(get_lang("Xin chào mọi người")) # This should return vi

In [None]:
import re

# think với tiếng việt
def format_and_language_reward_func(completions, **kwargs):
    scores = []

    for completion_item in completions:
        if not completion_item or not isinstance(completion_item[0], dict) or "content" not in completion_item[0]:
            scores.append(-5.0)
            print(f"Warning: Malformed completion item, assigning default low score: {completion_item}")
            continue

        content = completion_item[0]["content"]

        lang = get_lang(content)

        if lang == 'vi':
            score = 0.5
        elif lang == 'en':
            score = -7.0
        elif lang == 'zh':
            score = -7.0
        else:
            score = -10.0

        scores.append(score)

    return scores

completions = [
    [{"role": "assistant", "content": "<think>The sum of 1 and 2 is 3, which we multiply by 4 to get 12.</think><answer>(1 + 2) * 4 = 12</answer>"}],
    [{"role": "assistant", "content": "<think>The sum of 1 and 2 is 3, which we multiply by 4 to get 12.</think>\nĐúng"}],
    [{"role": "assistant", "content": "<think>Phân tích</think>\nĐúng"}],
]
format_and_language_reward_func(prompts=prompts, completions=completions)

In [None]:
# trắc nghiệm, đúng/ sai phải đúng format
def format_answer(prompts, completions, answer, **kwargs):
    question = prompts[0][-1]["content"]

    responses = [completion[0]["content"] for completion in completions]

    extracted_responses = [
        guess.group(1)
        if (guess := match_format.search(r)) is not None else None \
        for r in responses
    ]

    scores = []
    for guess, true_answer in zip(extracted_responses, answer):
        score = 0
        if guess is None:
            scores.append(-2.0)
            continue

        guess = str(guess).strip()
        true_answer = str(true_answer).strip()  # lấy từ list, không phải list nguyên
        # print(guess, true_answer)

        if true_answer in ['Đúng','Sai']:
            if guess in ['Đúng','Sai']:
                score += 2
            else:
                score -= 20
        elif true_answer in ['A','B', 'C', 'D']:
            if guess in ['A','B', 'C', 'D']:
                score += 2
            else:
                score -= 20
        else:
            pass

        scores.append(score)
    return scores

prompts = [[{"role": "user", "content": "Tính 7 x 6"}]]

completions = [
    [{"content": "<think>\n\n1. Phân tích câu hỏi: Câu hỏi đặt ra vấn đề về việc, nếu chồng có nguồn thu nhập nhiều hơn vợ, thì liệu chồng có được phép chiếm hữu, sử dụng tài sản chung nhiều hơn so với vợ hay không. Điều này liên quan đến nguyên tắc bình đẳng giữa vợ và chồng trong việc quản lý tài sản chung.\n\n2. Dẫn chứng từ bối cảnh:\n   - 'Vợ, chồng bình đẳng với nhau về quyền, nghĩa vụ trong việc tạo lập, chiếm hữu, sử dụng, định đoạt tài sản chung; không phân biệt giữa lao động trong gia đình và lao động có thu nhập.' (Điểm 1)\n   - 'Vợ, chồng có nghĩa vụ bảo đảm điều kiện để đáp ứng nhu cầu thiết yếu của gia đình.' (Điểm 2)\n   - 'Việc thực hiện quyền, nghĩa vụ về tài sản của vợ chồng mà xâm phạm đến quyền, lợi ích hợp pháp của vợ, chồng, gia đình và của người khác thì phải bồi thường.' (Điểm 3)\n\n3. Suy luận step-by-step:\n   a) Căn cứ vào điểm 1 của bối cảnh, vợ và chồng bình đẳng về mọi quyền và nghĩa vụ trong tài sản chung, không phân biệt thu nhập hay lao động có thu nhập hay không.\n   b) Thu nhập nhiều hơn không tạo ra quyền ưu tiên hơn trong việc chiếm hữu, sử dụng tài sản chung.\n   c) Đặt biệt, điểm 3 nêu rõ nếu có hành vi xâm phạm quyền lợi thì phải bồi thường, điều này cũng xác nhận rằng không có sự ưu tiên nào được phép xâm phạm quyền lợi của vợ/chồng.\n\n4. Kết luận: Sai. Quyền chiếm hữu tài sản chung phải bình đẳng giữa vợ và chồng, không phụ thuộc vào thu nhập cá nhân.\n</think>\nSai"}],           # ✅ Chính xác
    [{"content": "<think> 7 x 6 = 42 </think>Kết luận: Sai"}],           # 🔢 Không gần đúng
    [{"content": "<think> 7 x 6 = 42 </think>Đúng"}],          # ❌ Không phải số
]

answer = ["Sai"] * len(completions)
scores = format_answer(prompts, completions, answer)
for i, score in enumerate(scores, 1):
    print(f"Test case {i}: Score = {score}")

<a name="Train"></a>
## Train the model

Now set up GRPO Trainer and all configurations!

In [None]:
from datasets import Dataset
from collections import Counter

# Tính độ dài prompt sau khi tokenize
def compute_prompt_length(example):
    tokens = tokenizer.apply_chat_template(example["prompt"], tokenize=True)
    example["prompt_length"] = len(tokens)
    return example

# Thêm cột prompt_length
dataset_with_length = dataset.map(compute_prompt_length)

# Đếm loại câu hỏi
type_counts = Counter(dataset_with_length["question_type"])
print("Tổng số câu hỏi theo loại:", type_counts)

# Số mẫu cần lấy
target_counts = {
    "Tự luận": 60,
    "Trắc nghiệm": 160,
    "Đúng/Sai": 60,
}

# Lấy sample ngắn nhất theo từng loại
selected_samples = []
for q_type, n_samples in target_counts.items():
    filtered = dataset_with_length.filter(lambda x: x["question_type"] == q_type)
    sorted_samples = filtered.sort("prompt_length")
    selected = sorted_samples.select(range(min(n_samples, len(sorted_samples))))
    selected_samples.extend(selected)

# Tạo lại Dataset
final_dataset = Dataset.from_list(selected_samples)

# In kết quả
final_counts = Counter(final_dataset["question_type"])
print("Số lượng mẫu sau khi chọn:")
for k, v in final_counts.items():
    print(f"{k}: {v} mẫu")

print(f"Tổng cộng: {len(final_dataset)} mẫu")

In [None]:
tokenized = final_dataset.map(
    lambda x: {"tokens" : tokenizer.apply_chat_template(x["prompt"], add_generation_prompt = True, tokenize = True)},
    batched = True,
)
# print(tokenizer.decode(tokenized[0]["tokens"]))
tokenized = tokenized.map(lambda x: {"L" : len(x["tokens"])})

import numpy as np
maximum_length = int(np.quantile(tokenized["L"], 1))
print("Max Length = ", maximum_length)

# Filter only samples smaller than 90% max length
final_dataset = final_dataset.select(np.where(np.array(tokenized["L"]) <= maximum_length)[0])
print(final_dataset)
del tokenized

In [None]:
max_prompt_length = maximum_length + 1 # + 1 just in case!
max_completion_length = max_seq_length - max_prompt_length

from trl import GRPOConfig, GRPOTrainer
training_args = GRPOConfig(
    learning_rate = 5e-6,
    adam_beta1 = 0.9,
    adam_beta2 = 0.99,
    weight_decay = 0.1,
    warmup_ratio = 0.1,
    lr_scheduler_type = "cosine",
    optim = "adamw_torch_fused",
    logging_steps = 1,
    per_device_train_batch_size = 1,
    gradient_accumulation_steps = 1, # Increase to 4 for smoother training
    num_generations = 4, # Decrease if out of memory
    max_prompt_length = max_prompt_length,
    max_completion_length = max_seq_length - max_prompt_length,
    # num_train_epochs = 1, # Set to 1 for a full training run
    max_steps = 100,
    save_steps = 10,
    max_grad_norm = 0.1,
    report_to = "none", # Can use Weights & Biases
    output_dir = "outputs",
)

trainer = GRPOTrainer(
    model = model,
    processing_class = tokenizer,
    reward_funcs = [
        match_format_exactly,
        match_format_approximately,
        check_answer,
        # check_numbers,
        format_and_language_reward_func,
        format_answer,
    ],
    args = training_args,
    train_dataset = final_dataset,
)
trainer.train()

## save model

In [21]:
hf_token = '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'
username = 'lmq1909'
your_model_repo = 'Qwen3-8B-LQA-14e-GRPO-100s-save3-full'
# model.save_pretrained_merged("model", tokenizer, save_method = "merged_16bit")
model.push_to_hub_merged(f"{username}/{your_model_repo}", tokenizer, save_method = "merged_16bit", token = hf_token)

No files have been modified since last commit. Skipping to prevent empty commit.
No files have been modified since last commit. Skipping to prevent empty commit.


Found HuggingFace hub cache directory: /root/.cache/huggingface/hub
Checking cache directory for required files...
Successfully copied all 4 files from cache to /tmp/tmp6nhk8xjy.
Downloading safetensors index for lmq1909/Qwen3-8B-LQA-14e-full...


Fetching 1 files:   0%|          | 0/1 [00:00<?, ?it/s]

No files have been modified since last commit. Skipping to prevent empty commit.
Unsloth: Merging weights into 16bit:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.90G [00:00<?, ?B/s]

Unsloth: Merging weights into 16bit:  25%|██▌       | 1/4 [02:50<08:30, 170.19s/it]

model-00002-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

Unsloth: Merging weights into 16bit:  50%|█████     | 2/4 [05:45<05:46, 173.23s/it]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

Unsloth: Merging weights into 16bit:  75%|███████▌  | 3/4 [08:28<02:48, 168.50s/it]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.58G [00:00<?, ?B/s]

Unsloth: Merging weights into 16bit: 100%|██████████| 4/4 [09:17<00:00, 139.48s/it]


<a name="Inference"></a>
## Inference
Now let's try the model we just trained!

In [8]:
import os
from unsloth import FastLanguageModel
import torch

# Tìm checkpoint lớn nhất trong ./results
def get_latest_checkpoint(results_dir="./results"):
    checkpoints = []
    for name in os.listdir(results_dir):
        if name.startswith("checkpoint-"):
            try:
                step = int(name.split("-")[1])
                checkpoints.append((step, name))
            except ValueError:
                continue
    if not checkpoints:
        raise ValueError("❌ Không tìm thấy checkpoint trong thư mục.")
    latest = max(checkpoints)[1]
    return os.path.join(results_dir, latest)

# Lấy checkpoint mới nhất
results_dir="./outputs"
results_dir="/kaggle/input/alqac-qwen-grpo-save3-full/outputs"
checkpoint_path = get_latest_checkpoint(results_dir)
checkpoint_path

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.


2025-07-22 06:57:34.230819: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1753167454.613568      36 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1753167454.710766      36 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


🦥 Unsloth Zoo will now patch everything to make training faster!


'/kaggle/input/alqac-qwen-grpo-save3-full/outputs/checkpoint-100'

In [9]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 4096 # Can increase for longer reasoning traces
lora_rank = 8 # Larger rank = smarter, but slower

model, tokenizer = FastLanguageModel.from_pretrained(
    # model_name = "/kaggle/input/alqac-qwen-grpo/outputs/checkpoint-100",
    model_name = checkpoint_path,
    max_seq_length = max_seq_length,
    load_in_4bit = True, # False for LoRA 16bit
    fast_inference = False, # Enable vLLM fast inference
    # fast_inference = False, 
    max_lora_rank = lora_rank,
    gpu_memory_utilization = 0.7, # Reduce if out of memory
)

Unrecognized keys in `rope_scaling` for 'rope_type'='yarn': {'attn_factor'}


==((====))==  Unsloth 2025.7.6: Fast Qwen3 patching. Transformers: 4.52.4.
   \\   /|    Tesla T4. Num GPUs = 2. Max memory: 14.741 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.6.0+cu124. CUDA: 7.5. CUDA Toolkit: 12.4. Triton: 3.2.0
\        /    Bfloat16 = FALSE. FA [Xformers = 0.0.29.post3. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Unrecognized keys in `rope_scaling` for 'rope_type'='yarn': {'attn_factor'}
Unrecognized keys in `rope_scaling` for 'rope_type'='yarn': {'attn_factor'}


model.safetensors.index.json: 0.00B [00:00, ?B/s]

Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.58G [00:00<?, ?B/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.90G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/171 [00:00<?, ?B/s]

Unsloth 2025.7.6 patched 36 layers with 36 QKV layers, 36 O layers and 36 MLP layers.


In [10]:
valid_dataset[-1]['prompt']

[{'content': 'Bạn là một trợ lý pháp lý Tiếng Việt, có nhiệm vụ trả lời các câu hỏi ngắn gọn, chính xác, dựa trên nội dung điều luật được cung cấp. Chỉ trả lời bằng Tiếng Việt.\n\nBạn hãy trả lời theo định dạng sau:\n<think>\n[Suy nghĩ, phân tích của bạn]\n</think>\n[Câu trả lời của bạn]\n',
  'role': 'system'},
 {'content': "Dựa vào bối cảnh bên dưới, hãy phân tích kỹ trước khi trả lời câu hỏi.\n\nLoại câu hỏi: Trắc nghiệm (format của Kết luận cuối cùng sau khi suy luận là 1 trong 4 kết luận: 'A', 'B', 'C', 'D'. Không được giải thích gì thêm.)\n\nCâu hỏi: Chồng không có quyền yêu cầu ly hôn \ntrong trường hợp nào ?\n\nBối cảnh: \nQuyền yêu cầu giải quyết ly hôn\n1. Vợ, chồng hoặc cả hai người có quyền yêu cầu Tòa án giải quyết ly hôn.\n\n2. Cha, mẹ, người thân thích khác có quyền yêu cầu Tòa án giải quyết ly hôn khi một bên vợ, chồng do bị bệnh tâm thần hoặc mắc bệnh khác mà không thể nhận thức, làm chủ được hành vi của mình, đồng thời là nạn nhân của bạo lực gia đình do chồng, vợ của

In [None]:
import time
start = time.time()
# prompt = 'Dựa vào bối cảnh bên dưới, hãy phân tích kỹ trước khi trả lời câu hỏi.\n\nCâu hỏi: Việc sử dụng tài sản công của cơ quan để quyên góp từ thiện có trái quy định của pháp luật không?\n\nBối cảnh: 1. Cơ quan, tổ chức, đơn vị, người có chức vụ, quyền hạn chỉ được sử dụng tài chính công, tài sản công để làm quà tặng vì mục đích từ thiện, đối ngoại và thực hiện chế độ, chính sách theo quy định của pháp luật.\n2. Việc tặng quà phải thực hiện đúng chế độ, định mức, tiêu chuẩn, đối tượng theo quy định của pháp luật; cơ quan, đơn vị tặng quà phải hạch toán kế toán và thực hiện công khai trong cơ quan, đơn vị mình theo đúng quy định của pháp luật.\n\nHãy sinh phần suy luận chi tiết theo mẫu bên dưới trong thẻ <think>...</think>. Bạn cần viết đầy đủ các bước phân tích, dẫn chứng và suy luận trước khi đưa ra câu trả lời ngắn gọn.\nKhông được trả lời ngay mà phải suy luận đầy đủ trước trong <think>.\n\n<think>\n1. Phân tích câu hỏi: [trình bày ngắn gọn nội dung và ý định của câu hỏi]\n2. Dẫn chứng từ bối cảnh:\n   - Hãy tách từng đoạn dài trong bối cảnh thành nhiều ý nhỏ rõ ràng.\n   - Mỗi ý nên nêu rõ nội dung pháp lý, viết ngắn gọn dễ hiểu.\n   - Ví dụ:\n       - [ý 1 từ đoạn luật A]\n       - [ý 2 từ đoạn luật A]\n       - [ý 3 từ đoạn luật B]\n   - Ghi rõ đoạn nào có liên quan đến câu hỏi.\n3. Suy luận step-by-step:\n   a) [bước suy luận 1 dựa trên dẫn chứng ở trên]\n   b) [bước suy luận 2 tiếp theo]\n   …\n4. Kết luận: [tóm tắt câu trả lời cuối cùng dựa trên suy luận]\n</think>\n\n[Đáp án cuối cùng sau khi suy luận]'
prompt = [msg['content'] for msg in valid_dataset[-1]['prompt'] if msg['role'] == 'user'][0]
# prompt += "\n<think>\n"
messages = [{'role': 'system',
  'content': 'Bạn là một trợ lý pháp lý, có nhiệm vụ trả lời các câu hỏi ngắn gọn, chính xác, dựa trên nội dung điều luật được cung cấp.'},
  {'role': 'user',
  'content': prompt}
          ]
# print(messages)

text = tokenizer.apply_chat_template(
    messages,
    tokenize = False,
    add_generation_prompt = True, # Must add for generation
    enable_thinking = True, # không cần trong mô hình này
)
max_input_tokens = len(tokenizer(prompt)["input_ids"])
max_new_tokens = max_seq_length - max_input_tokens
max_new_tokens = 1024
print(max_new_tokens)

# from transformers import TextStreamer
# _ = model.generate(
#     **tokenizer(text, return_tensors = "pt").to("cuda"),
#     max_new_tokens = max_new_tokens,
#     temperature = 0.6, top_p = 0.95, top_k = 20, # For thinking
#     streamer = TextStreamer(tokenizer, skip_prompt = True),
# )

generated_output = model.generate(
    **tokenizer(text, return_tensors = "pt").to("cuda"),
    max_new_tokens = max_new_tokens,
    temperature = 0.6, top_p = 0.95, top_k = 20, # For thinking
    # temperature = 1.0,
    # top_k = 50,
)

# Giải mã token ID thành chuỗi văn bản
decoded_output = tokenizer.decode(generated_output[0], skip_special_tokens=True)
output = decoded_output.split('<｜Assistant｜>')[-1]
print(output)

end = time.time()
print(end-start)

In [None]:
output.find('<think>'), output.find('</think>')

In [None]:
#10 token ~ 1s