In [1]:
%%capture
%pip install unsloth
# %pip install --force-reinstall --no-cache-dir --no-deps git+https://github.com/unslothai/unsloth.git
%pip install -qq -U accelerate peft bitsandbytes transformers trl
%pip install --upgrade huggingface_hub
%pip install datasets torch

In [2]:
from huggingface_hub import login
import os

huggingface_write_token = "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"
login(huggingface_write_token)

In [3]:
import torch
print(torch.__version__)  # Check PyTorch version
print(torch.version.cuda)  # Check CUDA version used by PyTorch
print(torch.backends.cudnn.version())  # Check cuDNN version
print(torch.cuda.is_available())  # Check if CUDA is available

2.6.0+cu124
12.4
90100
True


# Load model

In [4]:
from unsloth import FastLanguageModel
import torch

# Apply the RoPE patches before loading the mode
max_seq_length = 2048
dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
# load_in_

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "ntkhoi/MedQwen-3B",
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit=False,
    token = huggingface_write_token,
)

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
Unsloth: Failed to patch Gemma3ForConditionalGeneration.
🦥 Unsloth Zoo will now patch everything to make training faster!
==((====))==  Unsloth 2025.3.19: Fast Qwen2 patching. Transformers: 4.51.3.
   \\   /|    NVIDIA L40S. Num GPUs = 1. Max memory: 44.527 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.6.0+cu124. CUDA: 8.9. CUDA Toolkit: 12.4. Triton: 3.2.0
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.29.post3. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Sliding Window Attention is enabled but not implemented for `eager`; unexpected results may be encountered.


Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

In [5]:
EOS_TOKEN = tokenizer.eos_token
EOS_TOKEN

'<|endoftext|>'

In [6]:
for params in model.parameters():
    params.requires_grad = True

# Pre Data

In [9]:
from unsloth.chat_templates import get_chat_template
from datasets import load_dataset

tokenizer = get_chat_template(
    tokenizer,
    chat_template = "qwen2.5",
)

def create_conversation():
    dataset = load_dataset("tmnam20/ViMedAQA", "disease", split="train")
    dataset = dataset.map(lambda sample: {
         "messages": [
      {"role": "system", "content": "Bạn là một trợ lý hữu ích, tôn trọng và trung thực. Luôn trả lời một cách hữu ích nhất có thể trong khi vẫn an toàn. Câu trả lời của bạn không được bao gồm bất kỳ nội dung có hại, phi đạo đức, phân biệt chủng tộc, phân biệt giới tính, độc hại, nguy hiểm hoặc bất hợp pháp. Hãy đảm bảo rằng câu trả lời của bạn mang tính chất tích cực và không thiên vị về mặt xã hội.\n\nNếu một câu hỏi không có ý nghĩa gì hoặc không mạch lạc về mặt thực tế, hãy giải thích lý do thay vì trả lời điều gì đó không chính xác. Nếu bạn không biết câu trả lời cho một câu hỏi, vui lòng không chia sẻ thông tin sai lệch."},
      {"role": "user", "content": sample["question"]},
      {"role": "assistant", "content": sample["answer"]}
    ]
    }) # type: ignore
    return dataset

dataset = create_conversation()

def formatting_prompts_func(examples):
#     # We'll store the transformed prompts here

    convos = examples["messages"]
    texts = [tokenizer.apply_chat_template(convo, tokenize = False, add_generation_prompt = False) for convo in convos]
    

#     # Return a dict so that huggingface `map()` can create a new column
    return {"text" : texts}

# #################################
# # 4. Load and transform the dataset
# #################################
# from datasets import load_dataset
dataset = dataset.map(formatting_prompts_func, remove_columns=dataset.features, batched=True)
# # Load the desired split (e.g. 'train')


Map:   0%|          | 0/14121 [00:00<?, ? examples/s]

# Train model

In [10]:
from trl import SFTTrainer
from transformers import TrainingArguments, DataCollatorForLanguageModeling
from unsloth import is_bfloat16_supported

data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
 
trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset,
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    data_collator = data_collator,
    dataset_num_proc = 4,
    packing = False, # Can make training 5x faster for short sequences.
    args = TrainingArguments(
        per_device_train_batch_size = 32,
        gradient_accumulation_steps = 1,
        warmup_ratio = 0.1,
        num_train_epochs = 1, # Set this for 1 full training run.
        learning_rate = 5e-5,
        max_grad_norm = 0.3,
        fp16 = not is_bfloat16_supported(),
        bf16 = is_bfloat16_supported(),
        logging_steps = 1,
        optim = "adamw_torch_fused",
        weight_decay = 1e-4,
        lr_scheduler_type = "cosine",
        seed = 3407,
        output_dir = "outputs_sft",
        report_to = "none", # Use this for WandB etc
    ),
)

Unsloth: Tokenizing ["text"] (num_proc=4):   0%|          | 0/14121 [00:00<?, ? examples/s]

In [11]:
#@title Show current memory stats
gpu_stats = torch.cuda.get_device_properties(0)
start_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)
print(f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB.")
print(f"{start_gpu_memory} GB of memory reserved.")

GPU = Tesla P100-PCIE-16GB. Max memory = 15.888 GB.
6.48 GB of memory reserved.


In [11]:
# Start training with the patched RoPE implementation
trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 14,121 | Num Epochs = 1 | Total steps = 442
O^O/ \_/ \    Batch size per device = 32 | Gradient accumulation steps = 1
\        /    Data Parallel GPUs = 1 | Total batch size (32 x 1 x 1) = 32
 "-____-"     Trainable parameters = 3,085,938,688/3,085,938,688 (100.00% trained)


Step,Training Loss
1,2.4056
2,2.4163
3,2.3869
4,2.359
5,2.327
6,2.2002
7,2.1468
8,2.0039
9,1.8607
10,1.6333


Unsloth: Will smartly offload gradients to save VRAM!


In [13]:
save_directory = "outputs_sft/checkpoint-442"

repo_name = "ntkhoi/MedQwen-3B-SFT-v2" # Thay bằng tên repo bạn muốn
try:
    print(f"Bắt đầu đẩy model lên Hub repo: {repo_name}")
    model.push_to_hub(repo_name)
    print(f"Đã đẩy model thành công.")

    print(f"Bắt đầu đẩy tokenizer lên Hub repo: {repo_name}")
    tokenizer.push_to_hub(repo_name)
    print(f"Đã đẩy tokenizer thành công.")

    print(f"\nHoàn tất! Kiểm tra repo của bạn tại: https://huggingface.co/{repo_name}")

except Exception as e:
    print(f"Có lỗi xảy ra khi đẩy lên Hub: {e}")

Bắt đầu đẩy model lên Hub repo: ntkhoi/MedQwen-3B-SFT-v2


README.md:   0%|          | 0.00/553 [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/1.21G [00:00<?, ?B/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.96G [00:00<?, ?B/s]

Upload 2 LFS files:   0%|          | 0/2 [00:00<?, ?it/s]

Saved model to https://huggingface.co/ntkhoi/MedQwen-3B-SFT-v2
Đã đẩy model thành công.
Bắt đầu đẩy tokenizer lên Hub repo: ntkhoi/MedQwen-3B-SFT-v2


README.md:   0%|          | 0.00/559 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/11.4M [00:00<?, ?B/s]

Đã đẩy tokenizer thành công.

Hoàn tất! Kiểm tra repo của bạn tại: https://huggingface.co/ntkhoi/MedQwen-3B-SFT-v2


In [16]:
# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)

eos_token = tokenizer("<|im_end|>",add_special_tokens=False)["input_ids"][0]

Device set to use cuda:0


In [19]:
prompts = [
    "Tỷ lệ sống sót sau 5 năm khi điều trị ung thư vòm mũi họng bằng phương pháp hóa trị là bao nhiêu?",
    "Nnang keo não III có triệu chứng thường gặp nhất là gì?"
]
def test_inference(prompt):
    prompt = pipe.tokenizer.apply_chat_template([{"role": "user", "content": prompt}], tokenize=False, add_generation_prompt=True)
    outputs = pipe(
        prompt,
        max_new_tokens=128,
        do_sample=True,
        temperature=0.7,
        top_k=50,
        top_p=0.95,
        eos_token_id=eos_token,
        pad_token_id=eos_token,
    )
    return outputs[0]['generated_text'][len(prompt):].strip()


for prompt in prompts:
    print(f"    prompt:\n{prompt}")
    print(f"    response:\n{test_inference(prompt)}")
    print("-"*50)


    prompt:
Tỷ lệ sống sót sau 5 năm khi điều trị ung thư vòm mũi họng bằng phương pháp hóa trị là bao nhiêu?
    response:
Số liệu được báo cáo từ 2009 đến 2015 cho thấy tỷ lệ sống sót sau 5 năm ở người mắc ung thư vòm mũi họng là 93,1% ở những bệnh nhân được điều trị và 88,2% ở những bệnh nhân không được điều trị.
--------------------------------------------------
    prompt:
Nnang keo não III có triệu chứng thường gặp nhất là gì?
    response:
Chứng khó nuốt.
--------------------------------------------------
