In [20]:
from tqdm import tqdm

In [21]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [22]:
from google import genai
from google.genai import types
import time

class GeminiCaller:
  def __init__(self, keys:list[str], model:str, rpm:int=1):
    self.clients = [genai.Client(api_key=key) for key in keys]
    self.model = model
    self.rpm = rpm * len(self.clients)
    self.cidx = 0
    self.last_call_time = 0

  def _rate_limit_wait(self):
    time_since_last_call = time.time() - self.last_call_time
    if time_since_last_call < 60 / self.rpm:
      time.sleep(60 / self.rpm - time_since_last_call)

  def _get_client_and_update_index(self):
    client = self.clients[self.cidx]
    self.cidx = (self.cidx + 1) % len(self.clients)
    self.last_call_time = time.time()
    return client

  def call(self, contents:list, output_struct={ "type": "string" }):
    self._rate_limit_wait()
    client = self._get_client_and_update_index()

    try:
      response = client.models.generate_content(
        model=self.model,
        contents=contents,
        config={
          'response_mime_type': 'application/json',
          'response_schema': output_struct
        }
      )
      return response.parsed, None
    except Exception as e:
      print(f"Error calling Gemini API: {e}")
      return None, e

  def calculate_token(self, contents:list=[]):
    client = self.clients[self.cidx]
    token_resp = client.models.count_tokens(
        model=self.model,
        contents=contents
    )
    return token_resp.total_tokens

In [23]:
def llm_score_prompt(source_sentence, reference_translation, model_translation):
    return f"""
Bạn là một chuyên gia đánh giá chất lượng DỊCH MÁY Y TẾ.

Nhiệm vụ của bạn là CHẤM ĐIỂM bản dịch do mô hình tạo ra.

---

### QUY TẮC BẮT BUỘC (PHẢI TUÂN THỦ):

1. Nếu bản dịch KHÔNG phải ngôn ngữ đích (ví dụ: giống hoặc trùng với câu nguồn),
   thì điểm TỐI ĐA là 30.

2. Nếu bản dịch là chuỗi vô nghĩa, chỉ gồm ký tự đặc biệt, ký hiệu, hoặc không tạo thành câu có nghĩa,
   thì điểm PHẢI nằm trong khoảng 0–30.

3. Nếu bản dịch thiếu nội dung nghiêm trọng, thêm sai thông tin y khoa,
   hoặc có khả năng gây nguy hiểm trong bối cảnh y tế,
   thì điểm KHÔNG được vượt quá 55.

4. Chỉ cho điểm ≥ 90 khi bản dịch:
   - Đúng ngôn ngữ đích
   - Đúng thuật ngữ y khoa
   - Truyền tải đầy đủ nội dung câu nguồn
   - Tương đương hoặc rất gần với bản dịch tham chiếu

---

### TIÊU CHÍ ĐÁNH GIÁ:
- Độ chính xác ngữ nghĩa so với câu nguồn
- Độ đúng thuật ngữ y khoa
- Mức độ đầy đủ thông tin
- Tính dễ hiểu trong ngôn ngữ đích
- Mức độ an toàn y khoa

---

### CÂU NGUỒN:
{source_sentence}

### BẢN DỊCH THAM CHIẾU (ĐÚNG):
{reference_translation}

### BẢN DỊCH CỦA MÔ HÌNH:
{model_translation}

---

### THANG ĐIỂM (0–100):

- 90–100: Perfect
- 75–89: Good
- 56–74: Comprehensible
- 31–55: Partially understandable
- 0–30: Unable to understand

---

### YÊU CẦU ĐẦU RA:

Chỉ trả về MỘT SỐ NGUYÊN từ 0 đến 100.
"""

In [24]:
gemini = GeminiCaller(keys=["AIzaSyDYMyvMmxloNTIb158OZ2nID7ID09cEWiw"], model="gemini-2.5-flash-lite", rpm=500)

In [25]:
def score(source_sentence, reference_translation, model_translation):
    prompt = llm_score_prompt(
        source_sentence,
        reference_translation,
        model_translation
    )

    res, e = gemini.call(
        [prompt],
        output_struct={
            "type": "integer",
            "minimum": 0,
            "maximum": 100
        }
    )

    return res if not e else None

# References public test

In [26]:
import json
import os

ref_en_path = "/content/public_test.en.txt"
ref_vi_path = "/content/public_test.vi.txt"

with open(ref_en_path, 'r', encoding='utf-8') as f:
  en_refs = f.read().strip().split('\n')

with open(ref_vi_path, 'r', encoding='utf-8') as f:
  vi_refs = f.read().strip().split('\n')

In [27]:
len(en_refs), len(vi_refs)

(3000, 3000)

In [28]:
en_refs[:5]

['Knowledge, practices in public health service utilization among health insurance card’s holders and influencing factors in Vientiane, Lao',
 "Describe knowledge, practices in public health service utilization among health insurance card's holders and influencing factors in Vientiane, Lao PDR, 2017.",
 "Methodology: A cross sectional study was used among 928 adult health insurance card's holders in Phone Hong and Keo Oudom districts, Vientiane province.",
 "Results: Percentage of card's holders who knew the finance-free utilization of the first registered public health services was 44.5% and being provided health insurance information was 34.8%.",
 "Percentage of card's holders who went to the first registered public health services was 61.8%."]

In [29]:
vi_refs[:5]

['Thực trạng kiến thức và thực hành của người có thẻ bảo hiểm y tế trong sử dụng dịch vụ khám chữa bệnh ở các cơ sở y tế công và một số yếu tố ảnh hưởng tại tỉnh Viêng Chăn, CHDCND Lào, năm 2017',
 'Mô tả thực trạng kiến thức, thực hành của người có thẻ bảo hiểm y tế trong sử dụng dịch vụ khám chữa bệnh ở các cơ sở y tế công và một số yếu tố liên quan tại tỉnh Viêng Chăn, Cộng hoà Dân chủ Nhân dân Lào năm 2017.',
 'Phương pháp: Thiết kế nghiên mô tả cắt ngang được thực hiện trên 928 người trưởng thành có thẻ bảo hiểm y tế tại 2 huyện Phone Hong và Keo Oudom, tỉnh Viêng Chăn.',
 'Kết quả: Tỷ lệ người biết được khám chữa bệnh (KCB) miễn phí tại nơi đăng ký ban đầu chiếm 44,5%, được cung cấp thông tin về bảo hiểm y tế (BHYT) chiếm 34,8%.',
 'Tỷ lệ người có thẻ BHYT thực hành khám chữa bệnh đúng nơi đăng ký KCB ban đầu chiếm 61,8%.']

In [30]:
def gemini_score(src_sentences, ref_sentences, model_sentences, desc="Calculate Gemini Score"):
  scores = []
  valid_sample = 0

  pbar = tqdm(range(1500), desc=desc)
  for i in pbar:
      source_sentence = src_sentences[i]
      reference_translation = ref_sentences[i]
      model_translation = model_sentences[i]

      s = score(source_sentence, reference_translation, model_translation)

      if s is None:
          continue

      if not isinstance(s, int):
          continue

      scores.append(s)
      medium_score = sum(scores) / len(scores)
      valid_sample += 1
      pbar.set_postfix(medium_score=f"{medium_score:.4f}", valid_sample=f"{valid_sample}", valid_rate=f"{valid_sample / (i+1) * 100:.0f}%")

# Qwen3-1.7b

## En-Vi

In [31]:
import pandas as pd

In [32]:
df = pd.read_csv("/content/public_test_en-vi_predictions.csv")

qwen_ft_en_vi = df["pred_vi"].tolist()

print(len(qwen_ft_en_vi))

print(qwen_ft_en_vi[:3])
print("\n\n")

gemini_score(
    src_sentences=en_refs,
    ref_sentences=vi_refs,
    model_sentences=qwen_ft_en_vi,
    desc="Qwen3-1.7b en-vi"
)

3000
['in Vientiane, Lao\nassistant\n<think>\n\n</think>\n\nKiến thức, thực hành sử dụng dịch vụ y tế công cộng của người dân có thẻ bảo hiểm y tế và các yếu tố ảnh hưởng tại thành phố Vientiane, Lào Cai', 'assistant\n<think>\n\n</think>\n\nMô tả kiến thức, thực hành sử dụng dịch vụ y tế công cộng của người dân có thẻ bảo hiểm y tế và các yếu tố ảnh hưởng tại thành phố Vientiane, Lào PDR, 2017.', '<think>\n\n</think>\n\nPhương pháp: Nghiên cứu cắt ngang mô tả trên 928 người dân có thẻ BHYT tại huyện Phố Huế và huyện Khoái Châu, tỉnh Vĩnh Phúc.']





Qwen3-1.7b en-vi: 100%|██████████| 1500/1500 [09:22<00:00,  2.66it/s, medium_score=70.7893, valid_rate=100%, valid_sample=1500]


## Vi-En

In [33]:
df = pd.read_csv("/content/public_test_vi-en_predictions.csv")

qwen_ft_vi_en = df["pred_en"].tolist()

print(len(qwen_ft_vi_en))

print(qwen_ft_vi_en[:3])
print("\n\n")

gemini_score(
    src_sentences=vi_refs,
    ref_sentences=en_refs,
    model_sentences=qwen_ft_vi_en,
    desc="Qwen3-1.7b vi-en"
)

3000
['assistant\n<think>\n\n</think>\n\nKnowledge and practice of people with health insurance card in using health services at public health facilities and some factors affecting in Vientiane, Laos, 2017', 'To describe the status of knowledge and practice of people with health insurance card in using health services at public health facilities and some related factors in Vientiane, Laos in 2017.', ', tỉnh Viêng Chăn.\nassistant\n<think>\n\n</think>\n\nMethods: A cross-sectional descriptive study was conducted on 928 adults with health insurance cards in two districts of Phone Hong and Keo Oudom, Viet Nhan province.']





Qwen3-1.7b vi-en: 100%|██████████| 1500/1500 [09:19<00:00,  2.68it/s, medium_score=71.3480, valid_rate=100%, valid_sample=1500]


# Helainki


## En-Vi

In [34]:
# Đọc prediction
with open("/content/predictions-en2vi.txt", "r", encoding="utf-8") as f:
    qwen_ft_rag_en_vi = [line.strip() for line in f]

print(len(qwen_ft_rag_en_vi))
print(qwen_ft_rag_en_vi[:3])

# Check độ dài (BẮT BUỘC)
assert len(qwen_ft_rag_en_vi) == len(en_refs) == len(vi_refs)

# Chấm điểm
gemini_score(
    src_sentences=en_refs,
    ref_sentences=vi_refs,
    model_sentences=qwen_ft_rag_en_vi,
    desc="helsinki en-vi"
)


3000
['Kiến thức, thực hành trong dịch vụ y tế cộng đồng được sử dụng trong các nhà bảo hiểm và các yếu tố ảnh hưởng ở Vientiane, Lào', 'Mô tả kiến thức, thực hành trong dịch vụ y tế cộng đồng được sử dụng trong các chủ nhân của thẻ bảo hiểm sức khỏe và ảnh hưởng đến các yếu tố ở Vientiane, Lao PDR, 2017.', 'Phương pháp nghiên cứu: Nghiên cứu cắt ngang được sử dụng trong số 928 nhân viên bảo hiểm nhân viên ở quận Điện thoại Hồng và Keo Oudom, tỉnh Vientianne.']


helsinki en-vi: 100%|██████████| 1500/1500 [08:56<00:00,  2.79it/s, medium_score=63.4233, valid_rate=100%, valid_sample=1500]


## Vi-En

In [36]:
# Đọc prediction
with open("/content/predictions-vi2en.txt", "r", encoding="utf-8") as f:
    qwen_ft_rag_vi_en = [line.strip() for line in f]

print(len(qwen_ft_rag_vi_en))
print(qwen_ft_rag_vi_en[:3])

# Check độ dài (BẮT BUỘC)
assert len(qwen_ft_rag_vi_en) == len(en_refs) == len(vi_refs), \
    f"Length mismatch: pred={len(qwen_ft_rag_vi_en)}, en={len(en_refs)}, vi={len(vi_refs)}"

# Chấm điểm
gemini_score(
    src_sentences=en_refs,
    ref_sentences=vi_refs,
    model_sentences=qwen_ft_rag_vi_en,
    desc="helsinki vi-en"
)


3000
['The state of knowledge and practice of people with health insurance cards in medical care services in public health facilities and some factors in the province of Shepherd, INCLE, 2017', 'Describe the fact that the knowledge, practice of people with medical insurance cards in medical care services in public health facilities and related factors in the province of Chisang, Democratic Republic of Laos in 2017.', 'Methods: A cross-sectional design was done on 928 adults with medical insurance cards in 2 districts of Phone Hong and Odoum Odom, Chien Chienh province.']


helsinki vi-en: 100%|██████████| 1500/1500 [09:19<00:00,  2.68it/s, medium_score=51.3340, valid_rate=100%, valid_sample=1500]
