### Installation

In [1]:
%%capture
# !pip install unsloth

!pip install unsloth
# !pip install --force-reinstall --no-cache-dir --no-deps git+https://github.com/unslothai/unsloth.git
!pip install -qq -U accelerate peft bitsandbytes transformers trl
!pip install --upgrade huggingface_hub
!pip install datasets torch

In [2]:
from huggingface_hub import login

# Paste your token inside the quotes
login("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")

### Unsloth

In [3]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 4096 # Choose any! We auto support RoPE Scaling internally!
dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
load_in_4bit = False # Use 4bit quantization to reduce memory usage. Can be False.

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/Qwen3-4B-Base",
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
    full_finetuning = True
)

Could not load bitsandbytes native library: /usr/lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.34' not found (required by /home/zeus/miniconda3/envs/cloudspace/lib/python3.10/site-packages/bitsandbytes/libbitsandbytes_cuda126.so)
Traceback (most recent call last):
  File "/home/zeus/miniconda3/envs/cloudspace/lib/python3.10/site-packages/bitsandbytes/cextension.py", line 85, in <module>
    lib = get_native_library()
  File "/home/zeus/miniconda3/envs/cloudspace/lib/python3.10/site-packages/bitsandbytes/cextension.py", line 72, in get_native_library
    dll = ct.cdll.LoadLibrary(str(binary_path))
  File "/home/zeus/miniconda3/envs/cloudspace/lib/python3.10/ctypes/__init__.py", line 452, in LoadLibrary
    return self._dlltype(name)
  File "/home/zeus/miniconda3/envs/cloudspace/lib/python3.10/ctypes/__init__.py", line 374, in __init__
    self._handle = _dlopen(self._name, mode)
OSError: /usr/lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.34' not found (required by /home/zeus/minic

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
🦥 Unsloth Zoo will now patch everything to make training faster!


AttributeError: 'NoneType' object has no attribute 'cdequantize_blockwise_fp32'

<a name="Data"></a>
### Data Prep

In [5]:
from datasets import load_dataset, concatenate_datasets

youmed_ds = load_dataset("codin-research/youmed-pretrain", split="train")
youmed_ds.select_columns(['title', 'content'])
boyte_ds = load_dataset("codin-research/boyte-pretrain", split="train")

dataset = concatenate_datasets([youmed_ds, boyte_ds])

README.md:   0%|          | 0.00/313 [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/5.85M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/7937 [00:00<?, ? examples/s]

README.md:   0%|          | 0.00/315 [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/10.1M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/21027 [00:00<?, ? examples/s]

README.md:   0%|          | 0.00/311 [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/3.07M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/4072 [00:00<?, ? examples/s]

In [6]:
medical_prompt = """Bệnh học Việt Nam
### Chủ đề: {}

### Nội dung:
{}"""

EOS_TOKEN = tokenizer.eos_token # Must add EOS_TOKEN
def formatting_prompts_func(examples):
    titles = examples["title"]
    texts  = examples["content"]
    outputs = []
    for title, text in zip(titles, texts):
        # Must add EOS_TOKEN, otherwise your generation will go on forever!
        text = medical_prompt.format(title, text) + EOS_TOKEN
        outputs.append(text)
    return {"text" : outputs}


dataset = dataset.map(formatting_prompts_func, batched = True)

Map:   0%|          | 0/33036 [00:00<?, ? examples/s]

In [7]:
print(dataset[0]['text'])

Bệnh học Việt Nam
### Chủ đề: Chủ đề: Bệnh teo đa hệ thống (MSA): nguyên nhân, chẩn đoán và điều trị
Phụ đề: Bệnh teo đa hệ thống là gì?

### Nội dung:
Bệnh teo đa hệ thống (MSA) là một rối loạn thoái hóa thần kinh hiếm gặp. Chúng ảnh hưởng đến các hệ thần kinh tự chủ. Chúng chi phối huyết áp, nhịp thở, chức năng bàng quang và kiểm soát cơ bắp.
Trước đây, bệnh còn được biết đến dưới tên là hội chứng Shy-Drager. Teo đa hệ thống có triệu chứng giống bệnh Parkinson, như di chuyển chậm, cứng cơ và giảm khả năng giữ thăng bằng.
Điều trị bệnh teo đa hệ thống gồm thuốc và thay đổi lối sống. Tuy chúng không điều trị triệt để bệnh nhưng có thể giúp giảm triệu chứng. Bệnh sẽ diễn tiến nặng dần và có thể đe dọa tính mạng.<|endoftext|>


<a name="Train"></a>
### Continued Pretraining

In [8]:
from transformers import TrainingArguments, DataCollatorForLanguageModeling
from unsloth import is_bfloat16_supported
from trl import SFTTrainer

data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset,
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    data_collator = data_collator,
    dataset_num_proc = 4,
    packing = False, # Can make training 5x faster for short sequences.
    
    args = TrainingArguments(
        per_device_train_batch_size = 8,
        gradient_accumulation_steps = 2,
        
        num_train_epochs = 1,
        warmup_ratio = 0.1,
        
        learning_rate = 2e-5,
        # embedding_learning_rate = 1e-5,
        weight_decay = 1e-4,
        logging_steps = 100,

        fp16 = not is_bfloat16_supported(),
        bf16 = is_bfloat16_supported(),
        optim = "adamw_torch_fused",
        lr_scheduler_type = "cosine",
        seed = 3407,
        output_dir = "./outputs",
        report_to = "none", # Use this for WandB etc
    ),
)

Unsloth: Tokenizing ["text"] (num_proc=4):   0%|          | 0/33036 [00:00<?, ? examples/s]

In [9]:
trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 33,036 | Num Epochs = 1 | Total steps = 2,065
O^O/ \_/ \    Batch size per device = 8 | Gradient accumulation steps = 2
\        /    Data Parallel GPUs = 1 | Total batch size (8 x 2 x 1) = 16
 "-____-"     Trainable parameters = 3,085,938,688/3,085,938,688 (100.00% trained)


Unsloth: Will smartly offload gradients to save VRAM!


Step,Training Loss
1,2.0778
2,2.0562
3,2.0112
4,2.2745
5,1.9832
6,2.0244
7,2.1006
8,2.1667
9,2.033
10,2.1481


<a name="Save"></a>
### Saving, loading finetuned models

In [10]:
model.push_to_hub("ntkhoi/MedQwen-Pretrain-YouMed") # Online saving
tokenizer.push_to_hub("ntkhoi/MedQwen-Pretrain-YouMed") # Online saving

README.md:   0%|          | 0.00/555 [00:00<?, ?B/s]

Upload 2 LFS files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/1.21G [00:00<?, ?B/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.96G [00:00<?, ?B/s]

Saved model to https://huggingface.co/ntkhoi/MedQwen-Pretrain-YouMed


README.md:   0%|          | 0.00/561 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/11.4M [00:00<?, ?B/s]