### Installation

In [1]:
%%capture
import os
if "COLAB_" not in "".join(os.environ.keys()):
    !pip install unsloth
else:
    # Do this only in Colab notebooks! Otherwise use pip install unsloth
    !pip install --no-deps bitsandbytes accelerate xformers==0.0.29.post3 peft trl triton cut_cross_entropy unsloth_zoo
    !pip install sentencepiece protobuf "datasets>=3.4.1" huggingface_hub hf_transfer
    !pip install --no-deps unsloth

### Unsloth

In [3]:
from unsloth import FastLanguageModel
import torch

max_seq_length = 8192
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/DeepSeek-R1-0528-Qwen3-8B-unsloth-bnb-4bit",
    max_seq_length = max_seq_length,   # Context length - can be longer, but uses more memory
    load_in_4bit = True,     # 4bit uses much less memory
    load_in_8bit = False,    # A bit more accurate, uses 2x memory
    full_finetuning = False, # We have full finetuning now!
    # token = "hf_...",      # use one if using gated models
)

Unrecognized keys in `rope_scaling` for 'rope_type'='yarn': {'attn_factor'}


==((====))==  Unsloth 2025.7.5: Fast Qwen3 patching. Transformers: 4.52.4.
   \\   /|    Tesla T4. Num GPUs = 2. Max memory: 14.741 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.6.0+cu124. CUDA: 7.5. CUDA Toolkit: 12.4. Triton: 3.2.0
\        /    Bfloat16 = FALSE. FA [Xformers = 0.0.29.post3. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Unrecognized keys in `rope_scaling` for 'rope_type'='yarn': {'attn_factor'}
Unrecognized keys in `rope_scaling` for 'rope_type'='yarn': {'attn_factor'}


model.safetensors.index.json: 0.00B [00:00, ?B/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/2.47G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/171 [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.json:   0%|          | 0.00/11.4M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/472 [00:00<?, ?B/s]

chat_template.jinja: 0.00B [00:00, ?B/s]

We now add LoRA adapters so we only need to update 1 to 10% of all parameters!

In [None]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 8,           # Choose any number > 0! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,  # Best to choose alpha = rank or rank*2
    lora_dropout = 0, # Supports any, but = 0 is optimized
    bias = "none",    # Supports any, but = "none" is optimized
    # [NEW] "unsloth" uses 30% less VRAM, fits 2x larger batch sizes!
    use_gradient_checkpointing = "unsloth", # True or "unsloth" for very long context
    random_state = 3407,
    use_rslora = True,   # We support rank stabilized LoRA
    loftq_config = None,  # And LoftQ
)

## data train alqac

In [7]:
!gdown 13WRuCCpUFPSqwQ3csIe7-UcoSfVcHjpU

Downloading...
From: https://drive.google.com/uc?id=13WRuCCpUFPSqwQ3csIe7-UcoSfVcHjpU
To: /kaggle/working/data_train_legal_qa_new.json
100%|███████████████████████████████████████| 5.83M/5.83M [00:00<00:00, 128MB/s]


In [9]:
import json
file_path = 'data_train_legal_qa_new.json'
with open(file_path, 'r', encoding='utf-8') as f:
    questions = json.load(f)

In [10]:
from datasets import Dataset
train_dataset = Dataset.from_list(questions)
# valid_dataset = Dataset.from_list(validation_questions)

In [11]:
# Chuyển đổi định dạng dataset sang 'messages' nếu bạn muốn fine-tune với chat_template
# Điều này rất hữu ích cho các mô hình như Qwen, DeepSeek-R1-Distill-Qwen2.5-7B
def format_to_chat_template(example):
    messages = [
        {"role": "system", "content": example["system_prompt"]},
        {"role": "user", "content": example["prompt"]},
        {"role": "assistant", "content": example["answer_think"]},
    ]
    # Unsloth sẽ tự động áp dụng tokenizer.apply_chat_template khi bạn huấn luyện
    # Tuy nhiên, nếu bạn muốn kiểm tra trước, bạn có thể gọi tokenizer.apply_chat_template(messages, tokenize=False)
    return {"messages": messages}

# Áp dụng hàm chuyển đổi cho toàn bộ dataset
train_dataset = train_dataset.map(format_to_chat_template, remove_columns=['question_id', 'text', 'relevant_articles', 'system_prompt', 'prompt', 'answer', 'answer_think', 'question_type'])
# valid_dataset = valid_dataset.map(format_to_chat_template, remove_columns=['question_id', 'text', 'relevant_articles', 'system_prompt', 'prompt', 'answer', 'answer_think', 'question_type'])

Map:   0%|          | 0/728 [00:00<?, ? examples/s]

In [12]:
print("\nMột mẫu dữ liệu sau khi được định dạng lại cho chat_template:")
print(train_dataset[0])
print("\nCác cột trong dataset sau khi xử lý:")
print(train_dataset.column_names)
print(len(train_dataset))


Một mẫu dữ liệu sau khi được định dạng lại cho chat_template:
{'messages': [{'content': 'Bạn là một trợ lý pháp lý Tiếng Việt, có nhiệm vụ trả lời các câu hỏi ngắn gọn, chính xác, dựa trên nội dung điều luật được cung cấp. Chỉ trả lời bằng Tiếng Việt.\n\nBạn hãy trả lời theo định dạng sau:\n<think>\n[Suy nghĩ, phân tích của bạn]\n</think>\n[Câu trả lời của bạn]\n', 'role': 'system'}, {'content': "Dựa vào bối cảnh bên dưới, hãy phân tích kỹ trước khi trả lời câu hỏi.\n\nLoại câu hỏi: Đúng/Sai (format của Kết luận cuối cùng sau khi suy luận là 1 trong 2 kết luận: 'Đúng', 'Sai'. Không được giải thích gì thêm.)\n\nCâu hỏi: Người nghiện ma túy từ đủ 18 tuổi trở lên bị áp dụng biện pháp xử lý hành chính đưa vào cơ sở cai nghiện bắt buộc theo quy định của Luật Xử lý vi phạm hành chính khi bị phát hiện sử dụng chất ma túy một cách trái phép trong thời gian cai nghiện ma túy tự nguyện, đúng hay sai?\n\nBối cảnh: \nĐối tượng bị áp dụng biện pháp xử lý hành chính đưa vào cơ sở cai nghiện bắt buộ

## format data

In [None]:
from jinja2 import Template

chat_template = """{%- if not add_generation_prompt is defined -%}
{%- set add_generation_prompt = false -%}
{%- endif -%}
{%- set ns = namespace(is_first=false, is_tool=false, is_output_first=true, system_prompt="", is_first_sp=true, is_last_user=false) -%}
{%- for message in messages -%}
{%- if message["role"] == "system" -%}
{%- if ns.is_first_sp -%}
{%- set ns.system_prompt = ns.system_prompt + message["content"] -%}
{%- set ns.is_first_sp = false -%}
{%- else -%}
{%- set ns.system_prompt = ns.system_prompt + "\\n\\n" + message["content"] -%}
{%- endif -%}
{%- endif -%}
{%- endfor -%}
{{- bos_token -}}
{{- ns.system_prompt -}}
{%- for message in messages -%}
{%- set content = message["content"] -%}
{%- if message["role"] == "user" -%}
{%- set ns.is_tool = false -%}
{%- set ns.is_first = false -%}
{%- set ns.is_last_user = true -%}
{{- "<｜User｜>" + content + "<｜Assistant｜>" -}}
{%- endif -%}
{%- if message["role"] == "assistant" and message["tool_calls"] is defined and message["tool_calls"] is not none -%}
{%- set ns.is_last_user = false -%}
{%- if ns.is_tool -%}
{{- "<｜tool▁outputs▁end｜>" -}}
{%- endif -%}
{%- set ns.is_first = false -%}
{%- set ns.is_tool = false -%}
{%- set ns.is_output_first = true -%}
{%- for tool in message["tool_calls"] -%}
{%- if not ns.is_first -%}
{%- if content is none -%}
{{- "<｜tool▁calls▁begin｜><｜tool▁call▁begin｜>" + tool["type"] + "<｜tool▁sep｜>" + tool["function"]["name"] + "\\n```json\\n" + tool["function"]["arguments"] + "\\n```<｜tool▁call▁end｜>" -}}
{%- else -%}
{{- content + "<｜tool▁calls▁begin｜><｜tool▁call▁begin｜>" + tool["type"] + "<｜tool▁sep｜>" + tool["function"]["name"] + "\\n```json\\n" + tool["function"]["arguments"] + "\\n```<｜tool▁call▁end｜>" -}}
{%- endif -%}
{%- set ns.is_first = true -%}
{%- else -%}
{{- "\\n<｜tool▁call▁begin｜>" + tool["type"] + "<｜tool▁sep｜>" + tool["function"]["name"] + "\\n```json\\n" + tool["function"]["arguments"] + "\\n```<｜tool▁call▁end｜>" -}}
{%- endif -%}
{%- endfor -%}
{{- "<｜tool▁calls▁end｜><｜end▁of▁sentence｜>" -}}
{%- endif -%}
{%- if message["role"] == "assistant" and (message["tool_calls"] is not defined or message["tool_calls"] is none) -%}
{%- set ns.is_last_user = false -%}
{%- if ns.is_tool -%}
{{- "<｜tool▁outputs▁end｜>" + content + "<｜end▁of▁sentence｜>" -}}
{%- set ns.is_tool = false -%}
{%- else -%}
{{- content + "<｜end▁of▁sentence｜>" -}}
{%- endif -%}
{%- endif -%}
{%- if message["role"] == "tool" -%}
{%- set ns.is_last_user = false -%}
{%- set ns.is_tool = true -%}
{%- if ns.is_output_first -%}
{{- "<｜tool▁outputs▁begin｜><｜tool▁output▁begin｜>" + content + "<｜tool▁output▁end｜>" -}}
{%- set ns.is_output_first = false -%}
{%- else -%}
{{- "\\n<｜tool▁output▁begin｜>" + content + "<｜tool▁output▁end｜>" -}}
{%- endif -%}
{%- endif -%}
{%- endfor -%}
{%- if ns.is_tool -%}
{{- "<｜tool▁outputs▁end｜>" -}}
{%- endif -%}
{#- if add_generation_prompt and not ns.is_last_user and not ns.is_tool #}
{%- if add_generation_prompt and not ns.is_tool %}
{{- "<｜Assistant｜>" -}}
{%- endif -%}"""
tokenizer.chat_template = chat_template
# chat_template = tokenizer.chat_template

# Load the template
chat_template = Template(chat_template)

In [None]:
import json
combined_dataset = train_dataset.map(
    lambda x: {
        "text": chat_template.render(
                messages=x["messages"],
                add_generation_prompt=False,)
    }
)

# combined_dataset = combined_dataset.remove_columns("messages")

In [None]:
combined_dataset[0]['text']

In [None]:
max_text_length = 0
longest_text = ""

if 'text' in combined_dataset.column_names:
    for item in combined_dataset['text']:
        if isinstance(item, str): # Đảm bảo phần tử là chuỗi để tránh lỗi
            current_length = len(item)
            if current_length > 25000:
                print(current_length)
            if current_length > max_text_length:
            # if current_length == 25202:
                max_text_length = current_length
                longest_text = item
else:
    print("Cột 'text' không tồn tại trong combined_dataset.")

print(f"Độ dài tối đa của cột 'text' trong combined_dataset (Hugging Face Dataset): {max_text_length} ký tự")
# print(f"Đoạn văn bản dài nhất là:\n---\n{longest_text}\n---")

# Tokenize đoạn văn bản dài nhất
if longest_text: # Đảm bảo có đoạn văn bản dài nhất để tokenize
    # tokenizer.encode_plus hoặc tokenizer() sẽ trả về dictionary có 'input_ids'
    # Bạn có thể dùng tokenizer.encode() để chỉ lấy list of token ids
    tokenized_output = tokenizer.encode(longest_text)
    num_tokens = len(tokenized_output)
    print(f"Số lượng token của đoạn văn bản dài nhất: {num_tokens}")
else:
    print("Không tìm thấy đoạn văn bản nào để tokenize.")

## Train the model

In [None]:
from trl import SFTTrainer, SFTConfig
# save_steps = 314
trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = combined_dataset,
    eval_dataset = None, # Can set up evaluation!
    args = SFTConfig(
        dataset_text_field = "text",
        per_device_train_batch_size = 1,
        gradient_accumulation_steps = 1, # Use GA to mimic batch size!
        warmup_steps = 5,
        num_train_epochs = 14, # Set this for 1 full training run.
        # max_steps = 30,
        
        # --- Cấu hình logging và saving theo bước ---
        logging_strategy = "steps", # Ghi log theo số bước
        logging_steps = 20,          # Ghi log sau mỗi 1 bước

        # save_strategy = "steps",    # Lưu checkpoint theo số bước
        # save_steps = save_steps,            # Ví dụ: Lưu sau mỗi 50 bước. Bạn có thể điều 
        save_strategy = "epoch",

        save_total_limit = 15,       # Giữ tối đa 5 checkpoint.
        output_dir = "./results",   # Thêm thư mục đầu ra để lưu checkpoint và log
        
        # Để đảm bảo floating point chính xác nếu GPU hỗ trợ
        fp16 = not torch.cuda.is_bf16_supported(),
        bf16 = torch.cuda.is_bf16_supported(),
        
        learning_rate = 2e-4, # Reduce to 2e-5 for long training runs
        optim = "adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        report_to = "none", # Use this for WandB etc
    ),
)

In [None]:
# @title Show current memory stats
gpu_stats = torch.cuda.get_device_properties(0)
start_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)
print(f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB.")
print(f"{start_gpu_memory} GB of memory reserved.")

Let's train the model! To resume a training run, set `trainer.train(resume_from_checkpoint = True)`

In [None]:
trainer_stats = trainer.train()

In [None]:
# @title Show final memory and time stats
used_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
used_memory_for_lora = round(used_memory - start_gpu_memory, 3)
used_percentage = round(used_memory / max_memory * 100, 3)
lora_percentage = round(used_memory_for_lora / max_memory * 100, 3)
print(f"{trainer_stats.metrics['train_runtime']} seconds used for training.")
print(
    f"{round(trainer_stats.metrics['train_runtime']/60, 2)} minutes used for training."
)
print(f"Peak reserved memory = {used_memory} GB.")
print(f"Peak reserved memory for training = {used_memory_for_lora} GB.")
print(f"Peak reserved memory % of max memory = {used_percentage} %.")
print(f"Peak reserved memory for training % of max memory = {lora_percentage} %.")

## Save model

In [None]:
hf_token = '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'
username = 'lmq1909'
your_model_repo = 'Qwen3-8B-LQA-14e-full'
model.save_pretrained_merged("model", tokenizer, save_method = "merged_16bit")
model.push_to_hub_merged(f"{username}/{your_model_repo}", tokenizer, save_method = "merged_16bit", token = hf_token)

Found HuggingFace hub cache directory: /root/.cache/huggingface/hub
Checking cache directory for required files...
Cache check failed: model-00001-of-00004.safetensors not found in local cache.
Not all required files found in cache. Will proceed with downloading.
Downloading safetensors index for unsloth/deepseek-r1-0528-qwen3-8b...


model.safetensors.index.json: 0.00B [00:00, ?B/s]

Unsloth: Merging weights into 16bit:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.90G [00:00<?, ?B/s]

Unsloth: Merging weights into 16bit:  25%|██▌       | 1/4 [00:51<02:34, 51.60s/it]

model-00002-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

Unsloth: Merging weights into 16bit:  50%|█████     | 2/4 [01:31<01:30, 45.00s/it]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

Unsloth: Merging weights into 16bit:  75%|███████▌  | 3/4 [02:17<00:45, 45.35s/it]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.58G [00:00<?, ?B/s]

Unsloth: Merging weights into 16bit: 100%|██████████| 4/4 [02:35<00:00, 38.98s/it]


Unsloth: Saving to lmq1909/Qwen3-8B-LQA-3e-full will fail, but using a temp folder works! Switching to a temp folder then uploading!


  0%|          | 0/1 [00:00<?, ?it/s]

tokenizer.json:   0%|          | 0.00/11.4M [00:00<?, ?B/s]

Found HuggingFace hub cache directory: /root/.cache/huggingface/hub
Checking cache directory for required files...
Cache check failed: model-00001-of-00004.safetensors not found in local cache.
Not all required files found in cache. Will proceed with downloading.
Downloading safetensors index for unsloth/deepseek-r1-0528-qwen3-8b...


model.safetensors.index.json: 0.00B [00:00, ?B/s]

Unsloth: Merging weights into 16bit:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.90G [00:00<?, ?B/s]

  0%|          | 0/1 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.90G [00:00<?, ?B/s]

Unsloth: Merging weights into 16bit:  25%|██▌       | 1/4 [01:29<04:27, 89.17s/it]

model-00002-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

  0%|          | 0/1 [00:00<?, ?it/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

Unsloth: Merging weights into 16bit:  50%|█████     | 2/4 [02:45<02:42, 81.49s/it]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

  0%|          | 0/1 [00:00<?, ?it/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

Unsloth: Merging weights into 16bit:  75%|███████▌  | 3/4 [04:08<01:22, 82.31s/it]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.58G [00:00<?, ?B/s]

  0%|          | 0/1 [00:00<?, ?it/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.58G [00:00<?, ?B/s]

Unsloth: Merging weights into 16bit: 100%|██████████| 4/4 [04:31<00:00, 67.95s/it]


## Inference

In [7]:
import os
from unsloth import FastLanguageModel
import torch

# Tìm checkpoint lớn nhất trong ./results
def get_latest_checkpoint(results_dir="./results"):
    checkpoints = []
    for name in os.listdir(results_dir):
        if name.startswith("checkpoint-"):
            try:
                step = int(name.split("-")[1])
                checkpoints.append((step, name))
            except ValueError:
                continue
    if not checkpoints:
        raise ValueError("❌ Không tìm thấy checkpoint trong thư mục.")
    latest = max(checkpoints)[1]
    return os.path.join(results_dir, latest)

# Lấy checkpoint mới nhất
results_dir="./results"
# results_dir="/kaggle/input/alqac-qwen-14e-full/results"
checkpoint_path = get_latest_checkpoint(results_dir)
checkpoint_path

'/kaggle/input/alqac-qwen-14e-full/results/checkpoint-5096'

In [2]:
from unsloth import FastLanguageModel
import torch

# max_seq_length = 10000 # set cao hơn khi train?
max_seq_length = 8192 
model, tokenizer = FastLanguageModel.from_pretrained(
    # model_name = checkpoint_path,
    model_name = '/kaggle/input/alqac-qwen-14e-full/results/checkpoint-1092',
    max_seq_length = max_seq_length,   # Context length - can be longer, but uses more memory
    load_in_4bit = True,     # 4bit uses much less memory
    load_in_8bit = False,    # A bit more accurate, uses 2x memory
    full_finetuning = False, # We have full finetuning now!
    # token = "hf_...",      # use one if using gated models
)

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.


2025-07-21 09:05:00.700784: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1753088700.899668      36 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1753088700.966406      36 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


🦥 Unsloth Zoo will now patch everything to make training faster!


Unrecognized keys in `rope_scaling` for 'rope_type'='yarn': {'attn_factor'}


==((====))==  Unsloth 2025.7.5: Fast Qwen3 patching. Transformers: 4.52.4.
   \\   /|    Tesla T4. Num GPUs = 2. Max memory: 14.741 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.6.0+cu124. CUDA: 7.5. CUDA Toolkit: 12.4. Triton: 3.2.0
\        /    Bfloat16 = FALSE. FA [Xformers = 0.0.29.post3. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Unrecognized keys in `rope_scaling` for 'rope_type'='yarn': {'attn_factor'}
Unrecognized keys in `rope_scaling` for 'rope_type'='yarn': {'attn_factor'}


model.safetensors.index.json: 0.00B [00:00, ?B/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/2.47G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/171 [00:00<?, ?B/s]

Unsloth 2025.7.5 patched 36 layers with 36 QKV layers, 36 O layers and 36 MLP layers.


In [13]:
train_dataset[-1]['messages']

[{'content': 'Bạn là một trợ lý pháp lý Tiếng Việt, có nhiệm vụ trả lời các câu hỏi ngắn gọn, chính xác, dựa trên nội dung điều luật được cung cấp. Chỉ trả lời bằng Tiếng Việt.\n\nBạn hãy trả lời theo định dạng sau:\n<think>\n[Suy nghĩ, phân tích của bạn]\n</think>\n[Câu trả lời của bạn]\n',
  'role': 'system'},
 {'content': 'Dựa vào bối cảnh bên dưới, hãy phân tích kỹ trước khi trả lời câu hỏi.\n\nLoại câu hỏi: Tự luận\n\nCâu hỏi: Cơ quan nào có trách nhiệm là cơ quan giúp Chính phủ thực hiện quản lý nhà nước về điện ảnh?\n\nBối cảnh: \nTrách nhiệm quản lý nhà nước về điện ảnh của Chính phủ, Bộ Văn hóa, Thể thao và Du lịch\n\n1. Chính phủ thống nhất quản lý nhà nước về điện ảnh.\n\n2. Bộ Văn hóa, Thể thao và Du lịch là cơ quan giúp Chính phủ thực hiện quản lý nhà nước về điện ảnh và có trách nhiệm sau đây:\n\na) Ban hành hoặc trình cơ quan nhà nước có thẩm quyền ban hành và tổ chức thực hiện chính sách, văn bản quy phạm pháp luật về điện ảnh, chiến lược, kế hoạch phát triển điện ảnh;\

In [14]:
import time
start = time.time()
# prompt = 'Dựa vào bối cảnh bên dưới, hãy phân tích kỹ trước khi trả lời câu hỏi.\n\nCâu hỏi: Việc sử dụng tài sản công của cơ quan để quyên góp từ thiện có trái quy định của pháp luật không?\n\nBối cảnh: 1. Cơ quan, tổ chức, đơn vị, người có chức vụ, quyền hạn chỉ được sử dụng tài chính công, tài sản công để làm quà tặng vì mục đích từ thiện, đối ngoại và thực hiện chế độ, chính sách theo quy định của pháp luật.\n2. Việc tặng quà phải thực hiện đúng chế độ, định mức, tiêu chuẩn, đối tượng theo quy định của pháp luật; cơ quan, đơn vị tặng quà phải hạch toán kế toán và thực hiện công khai trong cơ quan, đơn vị mình theo đúng quy định của pháp luật.\n\nHãy sinh phần suy luận chi tiết theo mẫu bên dưới trong thẻ <think>...</think>. Bạn cần viết đầy đủ các bước phân tích, dẫn chứng và suy luận trước khi đưa ra câu trả lời ngắn gọn.\nKhông được trả lời ngay mà phải suy luận đầy đủ trước trong <think>.\n\n<think>\n1. Phân tích câu hỏi: [trình bày ngắn gọn nội dung và ý định của câu hỏi]\n2. Dẫn chứng từ bối cảnh:\n   - Hãy tách từng đoạn dài trong bối cảnh thành nhiều ý nhỏ rõ ràng.\n   - Mỗi ý nên nêu rõ nội dung pháp lý, viết ngắn gọn dễ hiểu.\n   - Ví dụ:\n       - [ý 1 từ đoạn luật A]\n       - [ý 2 từ đoạn luật A]\n       - [ý 3 từ đoạn luật B]\n   - Ghi rõ đoạn nào có liên quan đến câu hỏi.\n3. Suy luận step-by-step:\n   a) [bước suy luận 1 dựa trên dẫn chứng ở trên]\n   b) [bước suy luận 2 tiếp theo]\n   …\n4. Kết luận: [tóm tắt câu trả lời cuối cùng dựa trên suy luận]\n</think>\n\n[Đáp án cuối cùng sau khi suy luận]'
prompt = [msg['content'] for msg in train_dataset[-1]['messages'] if msg['role'] == 'user'][0]
# prompt += "\n<think>\n"
messages = [{'role': 'system',
  'content': 'Bạn là một trợ lý pháp lý, có nhiệm vụ trả lời các câu hỏi ngắn gọn, chính xác, dựa trên nội dung điều luật được cung cấp.'},
  {'role': 'user',
  'content': prompt}
          ]
# print(messages)

text = tokenizer.apply_chat_template(
    messages,
    tokenize = False,
    add_generation_prompt = True, # Must add for generation
    enable_thinking = True, # không cần trong mô hình này
)
max_input_tokens = len(tokenizer(prompt)["input_ids"])
max_new_tokens = max_seq_length - max_input_tokens
print(max_new_tokens)

# from transformers import TextStreamer
# _ = model.generate(
#     **tokenizer(text, return_tensors = "pt").to("cuda"),
#     max_new_tokens = max_new_tokens,
#     temperature = 0.6, top_p = 0.95, top_k = 20, # For thinking
#     streamer = TextStreamer(tokenizer, skip_prompt = True),
# )

generated_output = model.generate(
    **tokenizer(text, return_tensors = "pt").to("cuda"),
    max_new_tokens = max_new_tokens,
    temperature = 0.6, top_p = 0.95, top_k = 20, # For thinking
)

# Giải mã token ID thành chuỗi văn bản
decoded_output = tokenizer.decode(generated_output[0], skip_special_tokens=True)
print(decoded_output.split('<｜Assistant｜>')[-1])

end = time.time()
print(end-start)

7516
<think>

1. **Phân tích câu hỏi**:  
   Câu hỏi xác định cơ quan giúp Chính phủ thực hiện quản lý nhà nước về điện ảnh.

2. **Dẫn chứng từ bối cảnh**:  
   - Chính phủ thống nhất quản lý nhà nước về điện ảnh.  
   - Bộ Văn hóa, Thể thao và Du lịch là cơ quan giúp Chính phủ thực hiện quản lý nhà nước về điện ảnh.  
   - Bộ có trách nhiệm ban hành chính sách, văn bản quy phạm pháp luật về điện ảnh, chiến lược, kế hoạch phát triển điện ảnh.  
   - Bộ chịu trách nhiệm thông tin, tuyên truyền, phổ biến, giáo dục pháp luật về điện ảnh.  
   - Bộ có trách nhiệm xây dựng tiêu chuẩn quốc gia, quy chuẩn kỹ thuật, hệ thống chỉ tiêu thống kê, cơ sở dữ liệu ngành điện ảnh.  
   - Bộ đảm nhận việc cấp, thu hồi giấy phép, dừng phổ biến phim theo thẩm quyền.  
   - Bộ thực hiện thanh tra, kiểm tra, giải quyết khiếu nại, tố cáo và xử lý vi phạm pháp luật trong hoạt động điện ảnh.

3. **Suy luận step-by-step**:  
   a) Câu hỏi xác định cơ quan giúp Chính phủ quản lý nhà nước về điện ảnh.  
   b) Bố