In [11]:
# 1. Cài đặt Unsloth
!pip install -qq "unsloth[kaggle-new] @ git+https://github.com/unslothai/unsloth.git"

# 2. Cài đặt các thư viện phụ thuộc (QUAN TRỌNG: Ép phiên bản tokenizers)
!pip install -qq --no-deps "transformers>=4.50.3" "tokenizers>=0.22.0,<=0.23.0" "trl<0.9.0" peft accelerate bitsandbytes

  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.0/44.0 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.1/59.1 MB[0m [31m34.3 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m110.6 MB/s[0m eta [36m0:00:00[0m00:01[0m0:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m89.7 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m46.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
import os
import gc # Garbage Collection để dọn rác bộ nhớ
import torch
from datasets import Dataset
from unsloth import FastLanguageModel

# --- 1. CONFIG MÔI TRƯỜNG ---
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

# Cài đặt thư viện nếu chưa có (Chạy 1 lần ở cell trên cùng)
# !pip install sentence-transformers unsloth

# --- 2. CHUẨN BỊ DỮ LIỆU ---
print("--- ĐANG TẢI DỮ LIỆU ---")
# Đường dẫn file của bạn
with open("/kaggle/input/medicaldataset-vlsp/MedicalDataset_VLSP/train.vi.txt", "r", encoding="utf-8") as f:
    src_texts = f.read().strip().split("\n")
with open("/kaggle/input/medicaldataset-vlsp/MedicalDataset_VLSP/train.en.txt", "r", encoding="utf-8") as f:
    tgt_texts = f.read().strip().split("\n")

# Tạo dataset ban đầu
dataset = Dataset.from_dict({"src": src_texts, "tgt": tgt_texts})
print(f"Số lượng mẫu ban đầu: {len(dataset)}")

# -------------------------------------------------------------------------
# --- BƯỚC MỚI: LỌC DỮ LIỆU BẰNG SENTENCE-TRANSFORMERS (QUAN TRỌNG) ---
# -------------------------------------------------------------------------
print("\n--- ĐANG KHỞI ĐỘNG BỘ LỌC AI (SENTENCE TRANSFORMERS) ---")
from sentence_transformers import SentenceTransformer, util

# 1. Load model nhẹ để check (paraphrase-multilingual-MiniLM-L12-v2 rất nhanh và nhẹ)
# Lưu ý: Model này hỗ trợ tốt cả Tiếng Việt và Tiếng Anh
st_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2', device="cuda")

def semantic_filter(batch):
    # Mã hóa lô dữ liệu thành Vector
    embeddings_src = st_model.encode(batch['src'], convert_to_tensor=True, show_progress_bar=False)
    embeddings_tgt = st_model.encode(batch['tgt'], convert_to_tensor=True, show_progress_bar=False)
    
    # Tính độ tương đồng giữa câu nguồn và câu đích (Pairwise Cosine Similarity)
    # Kết quả trả về danh sách điểm số từ -1 đến 1
    cosine_scores = util.pairwise_cos_sim(embeddings_src, embeddings_tgt)
    
    # Lọc: Chỉ giữ lại cặp nào có độ tương đồng >= 0.5
    # (Dưới 0.5 thường là dịch sai hoặc lệch dòng kiểu "Răng hàm mặt" vs "Covid")
    # Bạn có thể hạ xuống 0.4 nếu thấy nó lọc quá tay
    valid_mask = cosine_scores >= 0.45 
    
    return {
        "src": [s for s, v in zip(batch['src'], valid_mask) if v],
        "tgt": [t for t, v in zip(batch['tgt'], valid_mask) if v],
        "score": [s.item() for s, v in zip(cosine_scores, valid_mask) if v] # (Tuỳ chọn) Lưu lại điểm để check
    }

# Chạy bộ lọc (Batch size lớn để chạy nhanh trên GPU)
print("Đang quét và loại bỏ dữ liệu rác...")
dataset = dataset.map(semantic_filter, batched=True, batch_size=256)

print(f"Số lượng mẫu SAU KHI LỌC: {len(dataset)}")
print("Ví dụ mẫu tốt còn lại:", dataset[0])

# --- DỌN DẸP BỘ NHỚ (CỰC KỲ QUAN TRỌNG) ---
# Xóa model lọc đi để nhường chỗ cho model Train
del st_model
gc.collect()
torch.cuda.empty_cache()
print("\n--- ĐÃ GIẢI PHÓNG VRAM, BẮT ĐẦU LOAD LLM ---")
# -------------------------------------------------------------------------

# --- 3. LOAD MODEL UNSLOTH (CODE CŨ CỦA BẠN) ---
max_seq_length = 1024 
dtype = None 
load_in_4bit = True 

# Cấu hình Prompt
SYSTEM_PROMPT = """Bạn là một chuyên gia dịch thuật y khoa. 
Nhiệm vụ: Dịch văn bản lâm sàng từ Tiếng Việt sang Tiếng Anh.
Yêu cầu:
1. Dịch chính xác thuật ngữ chuyên ngành (Ví dụ: 'trứng cá' -> 'acne', 'thương tổn' -> 'lesions').
2. Giữ nguyên văn phong báo cáo y khoa (khách quan, thụ động).
3. Không được bịa đặt thông tin không có trong văn bản gốc.
4. Nếu gặp dữ liệu lỗi, hãy cố gắng dịch sát nghĩa nhất có thể."""

# Load model (3B hoặc 7B tùy bạn chọn)
model_name = "unsloth/Qwen2.5-3B-Instruct-bnb-4bit" 

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = model_name,
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)

# --- 4. TẠO LORA ADAPTERS ---
model = FastLanguageModel.get_peft_model(
    model,
    r = 32, 
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 32,
    lora_dropout = 0, 
    bias = "none",
    use_gradient_checkpointing = "unsloth", # Đã fix lại thành string "unsloth" cho tối ưu
    random_state = 3407,
)

# --- 5. HÀM FORMAT DỮ LIỆU ---
def formatting_prompts_func(examples):
    inputs = examples["src"]
    outputs = examples["tgt"]
    texts = []
    
    for input_text, output_text in zip(inputs, outputs):
        messages = [
            {"role": "system", "content": SYSTEM_PROMPT},
            {"role": "user", "content": input_text},
            {"role": "assistant", "content": output_text} 
        ]
        
        text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
        texts.append(text)
        
    return { "text": texts }

formatted_dataset = dataset.map(formatting_prompts_func, batched=True)

# --- 6. KHỞI TẠO TRAINER (BỔ SUNG ĐỂ CHẠY ĐƯỢC) ---
from transformers import TrainingArguments
from trl import SFTTrainer

training_args = TrainingArguments(
    output_dir = "./results_filtered",
    per_device_train_batch_size = 2, # Tăng lên 4 nếu dùng 3B model
    gradient_accumulation_steps = 4,
    warmup_steps = 10,
    max_steps = 300, # Train thử 300 bước
    learning_rate = 2e-4,
    fp16 = not torch.cuda.is_bf16_supported(),
    bf16 = torch.cuda.is_bf16_supported(),
    logging_steps = 1,
    optim = "adamw_8bit",
    weight_decay = 0.01,
    lr_scheduler_type = "linear",
    seed = 3407,
    report_to = "none",
)

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = formatted_dataset,
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    args = training_args,
)

# Bắt đầu train
print("Đang train trên dữ liệu sạch...")
trainer_stats = trainer.train()

In [None]:
import os
# --- FIX LỖI GPU ---
os.environ["CUDA_VISIBLE_DEVICES"] = "0" # Mở lại nếu gặp lỗi trên môi trường multi-gpu

from unsloth import FastLanguageModel
import torch
from datasets import Dataset
from transformers import TrainingArguments
from trl import SFTTrainer

# --- 1. CONFIG ---
max_seq_length = 1024 
dtype = None 
load_in_4bit = True 

# CẢI TIẾN PROMPT: Thêm ngữ cảnh Dermatology (Da liễu) và yêu cầu giữ nguyên thuật ngữ nếu không chắc
SYSTEM_PROMPT = """Bạn là một chuyên gia dịch thuật y khoa chuyên ngành Da liễu (Dermatology). 
Nhiệm vụ: Dịch văn bản lâm sàng từ Tiếng Việt sang Tiếng Anh.
Yêu cầu:
1. Dịch chính xác thuật ngữ chuyên ngành (Ví dụ: 'trứng cá' -> 'acne', 'thương tổn' -> 'lesions').
2. Giữ nguyên văn phong báo cáo y khoa (khách quan, thụ động).
3. Không được bịa đặt thông tin không có trong văn bản gốc."""

# --- 2. CHUẨN BỊ DỮ LIỆU ---
print("Đang tải dữ liệu...")
with open("/kaggle/input/medicaldataset-vlsp/MedicalDataset_VLSP/train.vi.txt", "r", encoding="utf-8") as f:
    src_texts = f.read().strip().split("\n")
with open("/kaggle/input/medicaldataset-vlsp/MedicalDataset_VLSP/train.en.txt", "r", encoding="utf-8") as f:
    tgt_texts = f.read().strip().split("\n")

# Lấy 50k mẫu ngẫu nhiên hoặc lấy hết nếu RAM cho phép
dataset = Dataset.from_dict({"src": src_texts, "tgt": tgt_texts})
dataset = dataset.shuffle(seed=42).select(range(min(50000, len(dataset))))

# --- 3. LOAD MODEL (NÂNG CẤP LÊN 7B) ---
# 7B đủ sức chứa trên Kaggle T4 GPU nhờ Unsloth và 4-bit loading
# Model này tư duy tốt hơn nhiều so với 0.5B
model_name = "unsloth/Qwen2.5-3B-Instruct-bnb-4bit" 

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = model_name,
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)

# --- 4. TẠO LORA ADAPTERS ---
model = FastLanguageModel.get_peft_model(
    model,
    r = 32, # Tăng rank lên 32 hoặc 64 để model học được nhiều chi tiết hơn
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 32,
    lora_dropout = 0, 
    bias = "none",
    use_gradient_checkpointing = True, 
    random_state = 3407,
)

# --- 5. HÀM FORMAT DỮ LIỆU ---
def formatting_prompts_func(examples):
    inputs = examples["src"]
    outputs = examples["tgt"]
    texts = []
    
    for input_text, output_text in zip(inputs, outputs):
        messages = [
            {"role": "system", "content": SYSTEM_PROMPT},
            {"role": "user", "content": input_text},
            {"role": "assistant", "content": output_text} 
        ]
        
        # Tokenize False để trl tự xử lý, nhưng ở đây ta ép thành text luôn
        text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
        texts.append(text)
        
    return { "text": texts }

formatted_dataset = dataset.map(formatting_prompts_func, batched=True)



In [13]:
# --- 6. TRAINING ARGUMENTS ---
training_args = TrainingArguments(
    output_dir = "./results_qwen_medical_3b",
    
    # Giữ nguyên 16 vì VRAM bạn chịu được (9.9GB/15GB là đẹp)
    per_device_train_batch_size = 16, 
    gradient_accumulation_steps = 2, # Tổng batch 32
    
    warmup_steps = 50,
    max_steps = 300,
    learning_rate = 2e-4,
    fp16 = not torch.cuda.is_bf16_supported(),
    bf16 = torch.cuda.is_bf16_supported(),
    logging_steps = 10,
    optim = "adamw_8bit",
    weight_decay = 0.01,
    lr_scheduler_type = "linear",
    seed = 3407,
    report_to = "none",
    
    # --- DÒNG QUAN TRỌNG CỨU CPU ---
    # Tắt hoàn toàn worker phụ, để CPU tập trung nuôi GPU
    dataloader_num_workers = 0, 
)

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = formatted_dataset,
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    # XÓA HOẶC COMMENT DÒNG DƯỚI ĐÂY
    # dataset_num_proc = 2, 
    args = training_args,
)

# --- 7. TRAIN & SAVE ---
print("Bắt đầu train Qwen 3B...")
trainer_stats = trainer.train()

print("Đang lưu model...")
model.save_pretrained("qwen_3b_medical_finetuned")
tokenizer.save_pretrained("qwen_3b_medical_finetuned")

# Merge LoRA để lấy model full (tùy chọn, tốn RAM)
# model.save_pretrained_merged("model_merged", tokenizer, save_method = "merged_16bit")

Map:   0%|          | 0/50000 [00:00<?, ? examples/s]

Bắt đầu train Qwen 3B...


==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 50,000 | Num Epochs = 1 | Total steps = 300
O^O/ \_/ \    Batch size per device = 16 | Gradient accumulation steps = 2
\        /    Data Parallel GPUs = 1 | Total batch size (16 x 2 x 1) = 32
 "-____-"     Trainable parameters = 59,867,136 of 3,145,805,824 (1.90% trained)


Step,Training Loss
10,2.5701
20,2.202
30,1.8451
40,1.4387
50,0.9298
60,0.7547
70,0.7542
80,0.7443
90,0.7485
100,0.7311


Đang lưu model...


('qwen_3b_medical_finetuned/tokenizer_config.json',
 'qwen_3b_medical_finetuned/special_tokens_map.json',
 'qwen_3b_medical_finetuned/chat_template.jinja',
 'qwen_3b_medical_finetuned/vocab.json',
 'qwen_3b_medical_finetuned/merges.txt',
 'qwen_3b_medical_finetuned/added_tokens.json',
 'qwen_3b_medical_finetuned/tokenizer.json')

In [14]:
!pip install -qq evaluate sacrebleu jiwer

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.8/51.8 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.1/84.1 kB[0m [31m625.4 kB/s[0m eta [36m0:00:00[0m [36m0:00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m104.1/104.1 kB[0m [31m8.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.2/3.2 MB[0m [31m53.1 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25h

In [19]:
import torch
import evaluate
from tqdm import tqdm
from unsloth import FastLanguageModel

# 1. Kích hoạt chế độ Inference (nhanh gấp 2 lần)
FastLanguageModel.for_inference(model)

# 2. Tải các metrics
bleu = evaluate.load("bleu")
ter = evaluate.load("ter")
chrf = evaluate.load("chrf")

# 3. Chuẩn bị dữ liệu test (Lấy 100 câu cuối để test)
# Bạn có thể thay đổi số lượng mẫu test ở đây
with open("/kaggle/input/medicaldataset-vlsp/MedicalDataset_VLSP/public_test.vi.txt", "r", encoding="utf-8") as f:
    test_src = f.read().strip().split("\n")
with open("/kaggle/input/medicaldataset-vlsp/MedicalDataset_VLSP/public_test.en.txt", "r", encoding="utf-8") as f:
    test_tgt = f.read().strip().split("\n")
test_size = 1000 
test_src = test_src[-test_size:] # Lấy từ nguồn dữ liệu gốc bạn đã load
test_tgt = test_tgt[-test_size:]

print(f"Đang đánh giá trên {test_size} câu...")

predictions = []
references = []

# 4. Chạy Inference
for i in tqdm(range(len(test_src))):
    input_text = test_src[i]
    reference_text = test_tgt[i]
    
    # Format giống hệt lúc train
    messages = [
        {"role": "system", "content": SYSTEM_PROMPT},
        {"role": "user", "content": input_text},
    ]
    
    # Tokenize input
    inputs = tokenizer.apply_chat_template(
        messages,
        tokenize=True,
        add_generation_prompt=True, # Thêm token báo hiệu bắt đầu câu trả lời
        return_tensors="pt",
    ).to("cuda")

    # Sinh câu dịch
    outputs = model.generate(
        input_ids=inputs,
        max_new_tokens=256, # Độ dài tối đa câu dịch
        use_cache=True,
        temperature=0.3, # Thấp để model dịch ổn định, ít sáng tạo linh tinh
        top_p=0.9,
    )
    
    # Giải mã (Decode) kết quả
    # Cắt bỏ phần input, chỉ lấy phần model mới sinh ra
    generated_text = tokenizer.batch_decode(outputs[:, inputs.shape[1]:], skip_special_tokens=True)[0]
    
    predictions.append(generated_text.strip())
    references.append([reference_text.strip()]) # References cần là list of list

# 5. Tính toán các chỉ số
results_bleu = bleu.compute(predictions=predictions, references=references)
results_ter = ter.compute(predictions=predictions, references=references)
results_chrf = chrf.compute(predictions=predictions, references=references)

# 6. In kết quả
print("\n" + "="*30)
print("KẾT QUẢ ĐÁNH GIÁ (EVALUATION)")
print("="*30)
print(f"BLEU Score: {results_bleu['bleu'] * 100:.2f}") # Thường nhân 100 cho dễ đọc
print(f"chrF Score: {results_chrf['score']:.2f}")
print(f"TER Score : {results_ter['score']:.2f}")
print("="*30)

# Xem thử 3 mẫu đầu tiên để kiểm tra bằng mắt
print("\n--- Ví dụ thực tế ---")
for i in range(3):
    print(f"Src : {test_src[i]}")
    print(f"Ref : {test_tgt[i]}")
    print(f"Pred: {predictions[i]}")
    print("-" * 20)

Đang đánh giá trên 1000 câu...


100%|██████████| 1000/1000 [40:59<00:00,  2.46s/it] 



KẾT QUẢ ĐÁNH GIÁ (EVALUATION)
BLEU Score: 26.68
chrF Score: 53.17
TER Score : 69.25

--- Ví dụ thực tế ---
Src : Sữa công thức bổ sung thức ăn đặc có thể không chảy qua đầu bình sữa, do đó có thể cần phải cắt chéo núm vú của bình sữa để sữa có thể đi qua.
Ref : Thickened formula may not flow through the nipple properly, so the nipple orifice may need to be cross-cut to allow adequate flow.
Pred: Infant formula can be too thick to pass through the nipple of a bottle, and may need to be inverted to allow it to flow.
--------------------
Src : So sánh kết quả sớm và trung hạnphẫu thuật nội soi và mổ mở trong điều trị u tuyến ức không nhược cơ
Ref : Comparison of early and mid-term outcomes of trans-sternal (ts)and video thoracoscopic surgery (vts) resectionfor thymoma without myasthenia gravis
Pred: A comparative study of early and mid-term results of endoscopic and open surgery in the treatment of non-metastatic breast cancer
--------------------
Src : Chế tạo glucosamine hydrochloride 

In [24]:
from huggingface_hub import HfApi,login
local_dir = "submission_final"

print(f"1. Đang lưu model vào thư mục '{local_dir}'...")
model.save_pretrained(local_dir)
tokenizer.save_pretrained(local_dir)
print("✅ Đã lưu cục bộ thành công.")
# 1. Đăng nhập (Bạn cần tạo Token dạng WRITE ở cài đặt HF)
# Vào https://huggingface.co/settings/tokens -> New token -> Chọn Write
login("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") 

# 2. Đặt tên và Push
# Đặt tên dễ nhớ, ví dụ: ten_ban/model_y_khoa_7b
repo_name = "nmd29105/Medical-ViEn-Qwen3B-LoRA" 

# 3. Lưu Model (chỉ mất tầm 1-2 phút)
api = HfApi()
api.upload_folder(
        folder_path=local_dir,
        repo_id=repo_name,
        repo_type="model",
    )

print(f"✅ Đã lưu xong! Link model: https://huggingface.co/{repo_name}")

1. Đang lưu model vào thư mục 'submission_final'...
✅ Đã lưu cục bộ thành công.


Processing Files (0 / 0): |          |  0.00B /  0.00B            

New Data Upload: |          |  0.00B /  0.00B            

✅ Đã lưu xong! Link model: https://huggingface.co/nmd29105/Medical-ViEn-Qwen3B-LoRA
