# Cài đặt môi trường

In [None]:
# 1 lệnh: nâng numpy lên 1.26.x và cài lại các package đã pin
!pip install --upgrade --force-reinstall --no-cache-dir \
  numpy==1.26.2 \
  transformers==4.37.1 \
  huggingface_hub==0.23.0 \
  tokenizers==0.15.2 \
  accelerate==1.11.0 \
  sentence-transformers==2.2.2 \
  hnswlib==0.7.0 \
  underthesea==1.3.3 \
  pyarrow==11.0.0 \
  pandas==2.3.3

# cài torch và triton/flash-attn
!pip install torch --upgrade
!pip install triton==2.0.0
!pip install flash-attn --upgrade

#Cài phụ thuộc cần thiết
!pip install -q bitsandbytes accelerate safetensors transformers==4.41.2 --quiet

import accelerate
!pip uninstall -y bitsandbytes
!pip install -i https://pypi.org/simple/ bitsandbytes==0.42.0
!pip install accelerate==0.30.1
!pip install transformers==4.41.2 --upgrade

# Gỡ tất cả các package xung đột
!pip uninstall -y transformers accelerate bitsandbytes flash-attn triton

# Cài lại phiên bản tương thích PhoGPT-4B
!pip install --quiet transformers==4.41.2 accelerate==0.30.1 safetensors bitsandbytes==0.42.0
!pip install --upgrade --quiet torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# Cài xong -> restart session

In [None]:
import importlib
for pkg in ["numpy","pyarrow","tokenizers","huggingface_hub","transformers","accelerate","hnswlib","underthesea","sentence_transformers","pandas"]:
    try:
        m = importlib.import_module(pkg)
        print(pkg, getattr(m, "__version__", "unknown"))
    except Exception as e:
        print(pkg, "IMPORT ERROR:", e)

# PhoGPT-4B

In [None]:
# Cài Git LFS
!apt-get install git-lfs -y
!git lfs install

# Clone lại repo
!git clone https://huggingface.co/vinai/PhoGPT-4B
%cd PhoGPT-4B

# Tải đầy đủ weights
!git lfs pull

In [None]:
# pho_gpt4b_strict_cli_progress.py
# =========================
# PhoGPT-4B CLI chatbot - strict mode: JSON output + validation
# + Progress bar with estimated response time for CLI
# =========================
import os
import re
import gc
import json
import time
import threading
import unicodedata
from html import unescape
from difflib import SequenceMatcher
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# =========================
# 0. Config
# =========================
offload_folder = "/kaggle/working/llm_offload_phogpt"
os.makedirs(offload_folder, exist_ok=True)
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "max_split_size_mb:128"

# Estimated response time (seconds) used to drive progress bar UI.
# Tweak this based on your machine/model to make ETA realistic.
ESTIMATED_RESPONSE_TIME = 10.0

# =========================
# 1. Load model + tokenizer
# =========================
repo_path = "/kaggle/working/PhoGPT-4B"

print("Loading tokenizer and model... (có thể mất vài phút)")
tokenizer = AutoTokenizer.from_pretrained(repo_path, trust_remote_code=True)

# ensure pad_token_id exists to avoid generation warnings/errors
if tokenizer.pad_token_id is None:
    try:
        tokenizer.pad_token = tokenizer.eos_token
    except Exception:
        pass
    tokenizer.pad_token_id = tokenizer.eos_token_id

model = AutoModelForCausalLM.from_pretrained(
    repo_path,
    trust_remote_code=True,
    device_map="auto",
    offload_folder=offload_folder,
    offload_state_dict=True,
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True
)

device = next(model.parameters()).device
print(f"Model loaded on device: {device}")

# =========================
# 2. References (DO NOT EDIT CONTENTS if you want strict behavior)
# =========================
REFERENCES = {
    1: "Ống tai rất gần nền sọ , nên khi bị viêm tại giữa có_thể gây viêm tai xương chũm , nguy_cơ gây viêm màng_não . Điều_trị viêm tai giữa nhiều khi mất rất nhiều thời_gian , nhiều trường_hợp điều_trị kéo_dài . Bệnh rất hay tái_phát . Nói_chung phải sử_dụng kháng_sinh liều cao , kéo_dài , kết_hợp với hút rửa tai hàng này . Khi có biến_chứng viêm não do viêm tai , thường có bệnh cảnh của viêm_não như sốt , đau_đầu , buồn_nôn , nôn , ... trường_hợp nặng có_thể ảnh_hưởng đến ý_thức như lơ_mơ , ngủ gà , thậm_chí hôn_mê . Nếu tình_trạng đau_đầu nhiều , kéo_dài , bạn phải đi khám , làm xét_nghiệm , chụp chiếu để chẩn_đoán xác_định ._Ngoài tình_trạng viêm tai giữa bạn đã điều_trị , biểu_hiện của bạn rất có_thể là tình_trạng viêm xoang mạn_tính . Với tình_trạng này , bạn nên đi khám để được chẩn_đoán xác_định và có biện_pháp điều_trị phù_hợp . Nếu chưa đi khám được , bạn có_thể mua lọ xịt nước muối_biển để rửa mũi họng hàng ngày . Có_thể mua các loại thuốc xịt điều_trị bệnh viêm xoang có chứa các thành_phần như xylometazoline , neomycin , dexamethason , có tác_dụng có mạch , giảm tình_trạng hắt_hơi , sổ_mũi , chảy nước_mũi ...",
    2: "Khi bị cảm cúm , gây phù_nề , xung_huyết niêm_mạc vùng mũi họng , tắc mũi , ảnh_hưởng đến cả ống thông giữa xoang với tai . Vì_vậy mà cảm cúm_thường là ngửi kém , rối_loạn vị_giác , ù_tai , nghe kém . Nhiều người cảm_thấy đâu đầu , đau khắp người , đau_nhức cơ_bắp ( đây là hội_chứng nhiễm vi rut ) . Để cải_thiện các triệu_chứng này , khi hết các triệu_chứng cảm cúm , có_thể thự chiện các biện_pháp : - Mua nước muối_biển xịt , về xịt rửa mũi họng hàng ngày - Tăng_cường vận_động , tránh nằm nhiều , có_thể xông hơi , chườm nóng - Sử_dụng các sản_phẩm chứa vitamin nhóm B , Ginkgo_biloba , Blueberry có trong sản_phẩm Vindermen_Plus . Sản_phẩm có tác_dụng giam đau , giảm tê bì , tăng tuần_hoàn , chống não hóa . Chúc bạn mạnh_khỏe ! Nếu còn thắc_mắc nào cần giải_đáp vui_lòng gọi 19001259 !",
    3: "Nghẹt_mũi kéo_dài ít khi là do nguyên_nhân cấp_tính như cảm_lạnh , nhiễm virus thông_thường , đó thường là biểu_hiện của một nguyên_nhân tồn_tại lâu_dài chưa được xử_trí như : - Viêm_nhiễm mạn_tính của đường hô_hấp trên : viêm xoang mạn_tính , viêm mũi dị_ứng , … - Khối_u , polyp nhỏ trong mũi , xoang làm cản_trở đường lưu_thông của dịch mũi . - Cấu_trúc bất_thường vùng mũi , xoang : vẹo vách ngăn mũi , … - Rối_loạn cảm_giác : khiến cho người_bệnh luôn thấy nghẹt_mũi dù thực_tế không có sự tắc_nghẽn đường thở . - Rối_loạn nội_tiết : thường gặp ở phụ_nữ mang thai . - Tiếp_xúc thường_xuyên , liên_tục với các tác_nhân : khói bụi , hóa_chất , khói thuốc_lá , … cũng có_thể khiến bạn nghẹt_mũi kéo_dài . Để khắc_phục nhanh tình_trạng nghẹt_mũi , em nên rửa mũi ngày 2 lần bằng nước muối 0,9 % , sau đó xịt mũi khoảng 3-4 lần bằng sản_phẩm chứa 3 thành_phần gồm Xylomethazolin ( giúp co mạch , hết ngạt_mũi ) , Dexathethazone ( giúp chống_viêm , hết ngạt_mũi , sổ_mũi ) và Neomycin_sulfat ( kháng_sinh có tác_dụng diệt khuẩn tại_chỗ ) như thuốc Hadocort D cho hiệu_quả khá cao trong điều_trị các triệu_chứng của bệnh viêm xoang khi kết_hợp với các thuốc điều_trị khác . Để điều_trị khỏi bệnh , cần phải xác_định được nguyên_nhân gây bệnh . Nếu do viêm_nhiễm , cần phải dùng thuốc kháng_sinh . Tốt nhất , em nên đi khám bác_sĩ tai_mũi họng để phát_hiện chính_xác và điều_trị triệt_để nguyên_nhân gây bệnh . Đồng_thời , thực_hiện các lưu_ý sau : - Đeo khẩu_trang trước khi ra đường hoặc làm công_việc gặp nhiều bụi , giữ môi_trường xung_quanh luôn sạch_sẽ , tránh xa khói bụi , chất_thải , khói thuốc_lá ... - Tránh hít luồng không_khí lạnh , khô : Không nên để mũi đối_diện trực_tiếp với luồng gió của máy_lạnh hoặc máy quạt khi nằm ngủ , hoặc khi ngồi làm_việc . Cần giữ ấm khi đi ngoài trời lạnh , trời mưa , đặc_biệt với những_ai phải làm_việc quá khuya hoặc dậy quá sớm . - Khi tắm hoặc đi bơi , nếu bị nước vào tai hoặc mũi cần biết cách để cho nước ra ngoài . - Vệ_sinh mũi thường_xuyên với dung_dịch nước muối_biển . - Tránh stress : Khi làm_việc quá_sức , lo_lắng nhiều , hệ miễn_dịch của cơ_thể suy_yếu rất dễ bị nhiễm_khuẩn , trong đó mũi xoang dễ bị nhiễm nhất vì là cơ_quan lọc không_khí trước khi đưa vào cơ_thể . Chúc em chóng khỏi bệnh ! Nếu còn thắc_mắc nào cần giải_đáp vui_lòng gọi 19001259 !",
    4: "Theo như bạn mô_tả , khả_năng bạn bị trào ngược dạ_dày thực_quản . Do chế_độ ăn và sinh_hoạt không phù_hợp , lại do thể_trạng béo nữa , khiến cho dịch dạ_dày trào ngược lên thực_quản , có_thể tràn vào đường hô_hấp gây khó thở , nhiều trường_hợp trào ngược có_thể là khởi_phát của cơn hen phế_quản . Để khắc_phục tình_trạng này , bạn nên thực_hiện các biện_pháp sau : - Không ăn chua , cay , các chất kích_thích , như bưởi , chanh , cam , rượu , chè , cà_phê , bỏ hút thuốc , ... - Không ăn thức_ăn cứng - Không ăn muộn , nhất_là ăn xong đi ngủ luôn , ăn xong tối_thiểu 2 - 3 tiếng mới nên đi ngủ , khi ngủ kê gối cao từ vai lên đầu , tạo tư_thế ngủ với đầu và vai cao hơn . - Bạn áp_dụng trong vài tháng , nếu không kết_quả thì phải đi khám nội_soi dạ_dày , nội_soi tai_mũi họng để chấn đoán xác_định . Khi đã chẩn_đoán xác_định , thì có_thể phải uống thuốc theo chỉ_định của bác_sĩ chuyên_khoa ._Chúc bạn mạnh_khỏe ! Nếu còn thắc_mắc nào cần giải_đáp vui_lòng gọi 19001259 !",
    5: "theo như cháu mô_tả , cháu bị đau có_thể do vận_động nhiều , do đi giày chật khiến máu kém lưu_thông gây đau . Ngoài_ra nguyên_nhân gây đau có_thể do bệnh_lý như viêm cân gan chân hoặc gai gót chân . Tốt nhất cháu nên đi khám tại các bệnh_viện chuyên_khoa xương khớp để xác_định nguyên_nhân và có hướng điều_trị phù_hợp . Đồng_thời để giảm những cơn đau chân , cháu nên dùng sản_phẩm Vindermen_Plus ngày 2 viên chia 2 lần , duy_trì 3 - 6 tháng , giúp tăng sự dẫn_truyền thần_kinh , phục_hồi hư tổn tại sụn khớp , giúp giảm đau nhức hiệu_quả . Kết_hợp với sản_phẩm Vipteen ngày 4 viên chia 2 lần cung_cấp các thành_phần : MK7 , Canxi nano , Zn nano , Magie , Vitamin_D3 , ... có tác_dụng bổ_sung vi_chất cần_thiết cho sự phát_triển của khung xương , giúp cháu có được chiều cao tối_ưu , và giúp xương chắc khỏe , ngăn_ngừa các bệnh về xương khớp . Bên_cạnh đó trong thời_gian này cháu nên nghỉ_ngơi . Tránh đứng ngồi ở một tư_thế quá lâu , hoặc vận_động , chạy_nhảy nhiều , đi giầy đúng kích_cỡ chân . Chườm đá 20 phút từ 3-4 lần mỗi ngày để giảm các cơn đau gót chân . Chúc cháu sức_khỏe !"
}

REFERENCES_TEXT = "\n".join([f"[{k}] {v}" for k, v in REFERENCES.items()])

# =========================
# 3. Utilities: cleaning, dedupe, similarity
# =========================
def _clean_text(t: str) -> str:
    return re.sub(r'\s+', ' ', unescape(t.strip())).strip()

def dedupe_consecutive_sentences(text: str) -> str:
    pieces = re.split(r'(?<=[.!?])\s+', text.strip())
    new_pieces = []
    for s in pieces:
        if not s:
            continue
        if not new_pieces:
            new_pieces.append(s)
        else:
            if s.strip().lower() != new_pieces[-1].strip().lower():
                new_pieces.append(s)
    return " ".join(new_pieces).strip()

def remove_self_claims(text: str) -> str:
    return re.sub(r'(?i)\b(mình|tôi)\b', 'trợ lý', text)

def _is_substring_or_similar(advice: str, ref_text: str, threshold=0.62) -> bool:
    a = _clean_text(advice).lower()
    r = _clean_text(ref_text).lower()
    if not a or not r:
        return False
    if a in r:
        return True
    awords = [w for w in re.findall(r'\w+', a) if len(w) >= 3]
    rwords = set([w for w in re.findall(r'\w+', r) if len(w) >= 3])
    if not awords or not rwords:
        return False
    common = sum(1 for w in awords if w in rwords)
    frac = common / len(awords)
    if frac >= threshold:
        return True
    sm = SequenceMatcher(None, a, r).quick_ratio()
    return sm >= 0.70

# =========================
# 4. System prefix (short + strict)
# =========================
SYSTEM_PREFIX = (
    "Bạn là trợ lý y tế AI. TUYỆT ĐỐI chỉ trả lời DỰA TRÊN các nội dung tham khảo sau (KHÔNG sáng tạo thêm):\n"
    f"{REFERENCES_TEXT}\n\n"
    "Khi trả lời, PHẢI TRẢ VỀ DUY NHẤT MỘT JSON HỢP LỆ (KHÔNG VĂN BẢN KHÁC):\n"
    '{"specialty":"<Chuyên khoa>", "advice":"<Lời khuyên - phải chỉ dùng các câu/chữ có trong tham khảo [n]>", "reference":"[n]"}\n\n'
    "Quy tắc bắt buộc:\n"
    "- JSON phải có đủ 3 trường: specialty, advice, reference (reference dạng [n] với n từ 1 đến 5).\n"
    "- advice PHẢI được rút từ nội dung tương ứng của tham khảo [n] (không tạo thêm dữ liệu).\n"
    "- Nếu câu hỏi KHÔNG liên quan đến [1-5] hoặc không thể tạo JSON hợp lệ theo quy tắc trên, "
    "trả về duy nhất chuỗi:\n"
    '"Không đủ thông tin từ các tài liệu tham khảo để tư vấn; nên khám bác sĩ chuyên khoa."\n\n'
    "Trả lời ngắn gọn, khách quan."
)

# =========================
# 5. Expected specialty map (for validation)
# =========================
REFERENCE_SPECIALTY = {
    1: "Tai–Mũi–Họng",     # viêm tai giữa, viêm xoang mạn
    2: "Tai–Mũi–Họng",     # ngạt mũi, cảm cúm, rối loạn vị giác
    3: "Tai–Mũi–Họng",     # nghẹt mũi kéo dài, viêm xoang, polyp
    4: "Tiêu hóa / Tai–Mũi–Họng",  # khó thở do trào ngược, có liên quan hô hấp
    5: "Cơ xương khớp"      # đau chân khi chạy, viêm cân gan chân
}

# Strict fallback text
FALLBACK = "Không đủ thông tin từ các tài liệu tham khảo để tư vấn; nên khám bác sĩ chuyên khoa."

# -------------------------
# Pre-match deterministic (fast & reliable) - IMPROVED
# -------------------------
def _normalize_vn(s: str) -> str:
    s = s.lower().strip()
    s = unicodedata.normalize("NFD", s)
    s = "".join(ch for ch in s if unicodedata.category(ch) != "Mn")
    s = re.sub(r'\s+', ' ', s)
    return s

def _fuzzy_match(a: str, b: str, thresh=0.72) -> bool:
    return SequenceMatcher(None, a, b).ratio() >= thresh

def _select_advice_sentence_from_ref(ref_text: str) -> str:
    """
    Chọn câu phù hợp nhất từ ref_text, ưu tiên câu có hành động (nên, rửa, nhỏ, nghỉ, bổ sung, chườm, đổi).
    Nếu không tìm thấy, trả về câu đầu tiên.
    """
    # split into sentences (keep Vietnamese punctuation . ? !)
    sentences = re.split(r'(?<=[.!?])\s+', ref_text.strip())
    action_keywords = ['nên', 'rửa', 'nhỏ', 'nghỉ', 'bổ sung', 
                   'chườm', 'đổi', 'khám', 'dùng', 'xịt', 
                   'đeo', 'tránh', 'uống', 'kê gối cao', 'nội soi', 
                   'tăng_cường', 'xông hơi', 'hút rửa tai', 'giữ ấm']
    for s in sentences:
        sl = s.lower()
        for kw in action_keywords:
            if kw in sl:
                # clean trailing punctuation
                return s.strip().rstrip('.').strip()
    # fallback: first sentence (without trailing dot)
    if sentences:
        return sentences[0].strip().rstrip('.').strip()
    return ref_text.strip().rstrip('.').strip()

def match_reference_and_build_answer(user_text: str):
    """
    Nếu tìm thấy từ khóa gợi ý reference rõ ràng trong user_text,
    trả về human_answer trực tiếp mà KHÔNG gọi model.
    Trả về None nếu không tìm match rõ ràng.
    """
    txt_norm = _normalize_vn(user_text)

    # map some keywords -> ref index (mở rộng khi cần)
    keyword_map = {
        1: ["viem tai giua", "tai giua u dich", "tai u dich", "viem xoang", "dau dau", "nghe kem", "lung bung", "co hong vuong", "dau sau gay"],  
        2: ["ngat mui", "ngat mui mot ben", "viem mui", "viem hong", "co sung", "amidan", "roi loan cam giac", "viem xoang"],  
        3: ["nghet mui", "viem xoang man tinh", "polyp mui", "dau mat", "mat ngu", "met moi"],  
        4: ["kho tho", "trao nguoc da day", "bung day", "an mau no", "hoi tho khong sau"],  
        5: ["dau chan khi chay", "viem can gan chan", "dau chan", "gai got chan", "te chan", "dau khop chan"]
    }


    # exact substring match first (fast)
    for ref_idx, keys in keyword_map.items():
        for kw in keys:
            if kw in txt_norm:
                ref_text = REFERENCES[ref_idx]
                advice_candidate = _select_advice_sentence_from_ref(ref_text)
                specialty = REFERENCE_SPECIALTY.get(ref_idx, "Khám chuyên khoa")
                # Build more instructive human_answer:
                # 1) recommendation to visit specialty
                # 2) specific advice to reduce/handle symptoms (from reference)
                human_answer = f"Bạn nên đến thăm khám chuyên khoa {specialty}. {advice_candidate} (tham khảo: [{ref_idx}])."
                human_answer = dedupe_consecutive_sentences(remove_self_claims(human_answer))
                return human_answer

    # fuzzy match: compare normalized user_text with keywords
    for ref_idx, keys in keyword_map.items():
        for kw in keys:
            if _fuzzy_match(txt_norm, kw, thresh=0.70) or _fuzzy_match(kw, txt_norm, thresh=0.70):
                ref_text = REFERENCES[ref_idx]
                advice_candidate = _select_advice_sentence_from_ref(ref_text)
                specialty = REFERENCE_SPECIALTY.get(ref_idx, "Khám chuyên khoa")
                human_answer = f"Bạn nên đến thăm khám chuyên khoa {specialty}. {advice_candidate} (tham khảo: [{ref_idx}])."
                human_answer = dedupe_consecutive_sentences(remove_self_claims(human_answer))
                return human_answer

    return None


# =========================
# 6. Generation + validation function
# =========================
def generate_answer(user_text: str, max_new_tokens: int = 160) -> str:
    # termination
    if user_text.strip().lower() == "kết thúc":
        return "Cảm ơn bạn — phiên làm việc đã kết thúc. Chào bạn!"

    # JSON instruction appended to prompt
    json_instruction = (
        "TRẢ VỀ DUY NHẤT MỘT JSON HỢP LỆ (KHÔNG VĂN BẢN KHÁC): "
        '{"specialty":"<Chuyên khoa>", "advice":"<Lời khuyên - phải chỉ dùng các câu/chữ có trong tham khảo [n]>", "reference":"[n]"}\n\n'
        f'Nếu không thể, trả về duy nhất chuỗi: "{FALLBACK}"'
    )

    prompt = SYSTEM_PREFIX + "\n\n" + f"Người bệnh mô tả: \"{user_text}\"\n\n" + json_instruction

    inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=1024)
    inputs = {k: v.to(device) for k, v in inputs.items()}

    gen_kwargs = dict(
        **inputs,
        max_new_tokens=140,      # giảm nếu cần
        do_sample=True,          # bật sampling nhẹ (thường nhanh hơn beam)
        temperature=0.28,
        top_p=0.92,
        num_beams=1,             # ensure beams=1
        repetition_penalty=1.15, # vẫn giữ để giảm lặp
        no_repeat_ngram_size=3,
        eos_token_id=tokenizer.eos_token_id,
        pad_token_id=tokenizer.pad_token_id,
    )

    with torch.no_grad():
        output_ids = model.generate(**gen_kwargs)

    output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True).strip()

    # Try extract JSON from output
    try:
        json_start = output_text.find('{')
        json_end = output_text.rfind('}')
        if json_start != -1 and json_end != -1 and json_end > json_start:
            json_candidate = output_text[json_start:json_end+1]
        else:
            json_candidate = output_text

        parsed = json.loads(json_candidate)

        # Validate keys presence
        if not all(k in parsed for k in ("specialty", "advice", "reference")):
            return FALLBACK

        specialty = _clean_text(parsed["specialty"])
        advice = _clean_text(parsed["advice"])
        reference_raw = _clean_text(parsed["reference"])

        # Validate reference format
        m = re.match(r'^\[([1-5])\]$', reference_raw)
        if not m:
            return FALLBACK
        ref_idx = int(m.group(1))

        # Validate specialty roughly matches expected specialty
        expected_spec = REFERENCE_SPECIALTY.get(ref_idx, "").lower()
        if expected_spec:
            spec_tokens = set(re.findall(r'\w+', specialty.lower()))
            exp_tokens = set(re.findall(r'\w+', expected_spec))
            if len(exp_tokens & spec_tokens) / max(1, len(exp_tokens)) < 0.4:
                return FALLBACK

        # Validate advice derived from reference
        ref_text = REFERENCES[ref_idx]
        if not _is_substring_or_similar(advice, ref_text, threshold=0.60):
            return FALLBACK

        # Build readable answer: combine 3 required parts
        human_answer = f"{specialty}. {advice} (tham khảo: [{ref_idx}])."
        human_answer = dedupe_consecutive_sentences(remove_self_claims(human_answer))
        return human_answer

    except Exception:
        return FALLBACK

# =========================
# 7. CLI loop + Progress Bar
# =========================
def progress_bar_running(stop_event, est_seconds=ESTIMATED_RESPONSE_TIME):
    """
    Show a CLI progress bar that advances based on estimated time.
    If model finishes earlier, set stop_event to end and the bar will jump to 100%.
    """
    bar_length = 30
    start = time.perf_counter()
    while not stop_event.is_set():
        elapsed = time.perf_counter() - start
        frac = min(elapsed / est_seconds, 0.99)  # keep <100% until done
        filled = int(round(bar_length * frac))
        bar = "█" * filled + "-" * (bar_length - filled)
        eta = max(0.0, est_seconds - elapsed)
        print(f"\rĐang xử lý: |{bar}| {int(frac*100):3d}%  ETA: {eta:4.1f}s", end="", flush=True)
        time.sleep(0.12)
    # On finish, show 100% and short pause to make it visible
    bar = "█" * bar_length
    print(f"\rĐang xử lý: |{bar}| 100%  ETA:   0.0s")
    # small pause so user sees 100% before printing result
    time.sleep(0.08)
    # clear line for neat output (optional)
    print("\r" + " " * 80 + "\r", end="", flush=True)

print("=== Chatbot PhoGPT-4B (strict, JSON-validated) đã sẵn sàng ===")
print("Nhập 'Kết thúc' để dừng.\n")

while True:
    try:
        user_input = input("Người dùng: ")
    except (EOFError, KeyboardInterrupt):
        print("\nChatbot: Tạm biệt!")
        break

    if user_input is None:
        continue

    if user_input.strip().lower() == "kết thúc":
        print("Chatbot: Tạm biệt!")
        break

    # Try deterministic pre-match first
    quick_reply = match_reference_and_build_answer(user_input)
    if quick_reply is not None:
        # we skip model; show immediate 100% progress bar briefly for UX
        stop_event = threading.Event()
        progress_thread = threading.Thread(target=progress_bar_running, args=(stop_event, 0.4), daemon=True)
        progress_thread.start()
        time.sleep(0.15)  # tiny pause so user sees progress
        stop_event.set()
        progress_thread.join()
        print("Chatbot:", quick_reply, "\n")
        continue

    # Otherwise call model as before
    stop_event = threading.Event()
    progress_thread = threading.Thread(target=progress_bar_running, args=(stop_event, ESTIMATED_RESPONSE_TIME), daemon=True)
    progress_thread.start()
    try:
        reply = generate_answer(user_input)
    finally:
        stop_event.set()
        progress_thread.join()

    print("Chatbot:", reply, "\n")

# FULL PIPELINE

## pho_retrieval_gpt4b_combined_progress_final_textoutput.py

In [None]:
# pho_retrieval_gpt4b_combined_progress_final_textoutput.py
# ====================================================
# Giữ nguyên pipeline nhưng trả về PLAIN TEXT (không JSON).
# Bố cục trả lời luôn phải chứa 3 phần:
#   Chuyên khoa: ...
#   Lời khuyên: ...
#   Tham khảo: [n]
# ====================================================

import os
import re
import time
import threading
import json
from html import unescape
from difflib import SequenceMatcher
from typing import List

import numpy as np
import pandas as pd
import torch
from transformers import AutoTokenizer, AutoModel, AutoModelForCausalLM
from underthesea import word_tokenize
import hnswlib

# =========================
# 0. Cấu hình thiết bị
# =========================
device = "cuda" if torch.cuda.is_available() else "cpu"
print("Device:", device)

# =========================
# 1. Đọc CSV & tiền xử lý
# =========================
csv_path = "/kaggle/input/bacsituvan/bacsituvan.csv"  # chỉnh nếu cần
df = pd.read_csv(csv_path)
print("Số bản ghi:", len(df))

def preprocess_text(s):
    if not isinstance(s, str):
        return ""
    s = s.strip().replace("_", " ")
    return word_tokenize(s, format="text")

for col in ["question", "answer", "department", "advice"]:
    if col in df.columns:
        df[col] = df[col].fillna("").astype(str).apply(preprocess_text)

# =========================
# 2. Load PhoBERT embedding
# =========================
MODEL_NAME = "vinai/phobert-base"
tokenizer_phobert = AutoTokenizer.from_pretrained(MODEL_NAME)
model_phobert = AutoModel.from_pretrained(MODEL_NAME).to(device)
model_phobert.eval()

def sentence_embedding(text: str) -> np.ndarray:
    if not text:
        return np.zeros(model_phobert.config.hidden_size, dtype=np.float32)
    inputs = tokenizer_phobert(text, return_tensors="pt", truncation=True, max_length=256)
    inputs = {k: v.to(device) for k, v in inputs.items()}
    with torch.no_grad():
        out = model_phobert(**inputs)
        last_hidden = out.last_hidden_state
        attention_mask = inputs["attention_mask"].unsqueeze(-1)
        masked = last_hidden * attention_mask
        summed = masked.sum(dim=1)
        counts = attention_mask.sum(dim=1).clamp(min=1e-9)
        mean_pooled = (summed / counts).squeeze().cpu().numpy().astype("float32")
    return mean_pooled

# =========================
# 3. Build embeddings + hnswlib index
# =========================
texts = df["question"].fillna("") + " " + df["answer"].fillna("")
texts = texts.tolist()

def progress_bar_running(stop_event, est_seconds=10.0, prefix="Đang xử lý"):
    bar_length = 30
    start = time.perf_counter()
    while not stop_event.is_set():
        elapsed = time.perf_counter() - start
        frac = min(elapsed / est_seconds, 0.99)
        filled = int(round(bar_length * frac))
        bar = "█" * filled + "-" * (bar_length - filled)
        eta = max(0.0, est_seconds - elapsed)
        print(f"\r{prefix}: |{bar}| {int(frac*100):3d}%  ETA: {eta:4.1f}s", end="", flush=True)
        time.sleep(0.12)
    bar = "█" * bar_length
    print(f"\r{prefix}: |{bar}| 100%  ETA:   0.0s")
    time.sleep(0.06)
    print("\r" + " " * 80 + "\r", end="", flush=True)

print("Preparing embeddings for", len(texts), "documents...")
embeddings = []
stop_event = threading.Event()
progress_thread = threading.Thread(target=progress_bar_running, args=(stop_event, max(5, len(texts)/20), "Embedding Top-K"), daemon=True)
progress_thread.start()
for t in texts:
    embeddings.append(sentence_embedding(t))
stop_event.set()
progress_thread.join()

embeddings = np.vstack(embeddings).astype("float32")
dim = embeddings.shape[1]
num_elements = embeddings.shape[0]

index = hnswlib.Index(space="cosine", dim=dim)
index.init_index(max_elements=num_elements, ef_construction=200, M=16)
index.add_items(embeddings, np.arange(num_elements))
index.set_ef(50)
print("hnswlib index built. Num elements:", index.get_current_count())

# =========================
# 4. Top-K retrieval
# =========================
def preprocess_query(s: str) -> str:
    s = s.strip().replace("_", " ")
    return word_tokenize(s, format="text")

def retrieve_topk(query_text: str, k: int = 5):
    q = preprocess_query(query_text)
    q_emb = sentence_embedding(q).astype("float32").reshape(1, -1)
    labels, distances = index.knn_query(q_emb, k=k)
    results = []
    for dist, idx in zip(distances[0], labels[0]):
        if idx < 0:
            continue
        score = float(1.0 - dist)
        results.append({"score": score, "index": int(idx), "text": texts[idx], "row": df.iloc[idx].to_dict()})
    return results

# =========================
# 5. Tiện ích trích xuất câu trả lời (deterministic -> trả plain text)
# =========================
def _clean_text(t: str) -> str:
    return re.sub(r'\s+', ' ', unescape(t.strip())).strip()

def _select_advice_sentence_from_ref(ref_text: str):
    if not ref_text:
        return ""
    sentences = re.split(r'(?<=[.!?])\s+', ref_text.strip())
    action_keywords = ['nên', 'rửa', 'nhỏ', 'nghỉ', 'bổ sung', 'chườm', 'đổi', 'khám', 'dùng', 'xịt', 'đeo', 'tránh', 'uống', 'đi khám']
    for s in sentences:
        sl = s.lower()
        for kw in action_keywords:
            if kw in sl:
                return s.strip().rstrip('.').strip()
    if sentences:
        sentences_sorted = sorted(sentences, key=lambda x: len(x), reverse=True)
        return sentences_sorted[0].strip().rstrip('.').strip()
    return _clean_text(ref_text)

def _similar(a: str, b: str) -> float:
    return SequenceMatcher(None, a, b).ratio()

def deterministic_answer_from_refs_text(user_text: str, refs: dict, ref_specialty: dict, topk_rows: List[dict], sim_thresh=0.65):
    """
    Cố gắng xác định reference phù hợp và trả về PLAIN TEXT gồm 3 phần:
      Chuyên khoa: ...
      Lời khuyên: ...
      Tham khảo: [n]
    Nếu không tìm được -> trả về (None, None)
    """
    user_norm = _clean_text(user_text).lower()
    best_idx = None
    best_score = 0.0
    for i, r in enumerate(topk_rows, start=1):
        q = r["row"].get("question", "") or ""
        q = _clean_text(q).lower()
        s1 = _similar(user_norm, q) if q else 0.0
        a = r["row"].get("answer", "") or ""
        a = _clean_text(a).lower()
        s2 = _similar(user_norm, a) if a else 0.0
        score = max(s1, s2)
        if score > best_score:
            best_score = score
            best_idx = i
    if best_score >= sim_thresh and best_idx is not None:
        ref_text = refs.get(best_idx, "")
        advice = _select_advice_sentence_from_ref(ref_text)
        specialty = ref_specialty.get(best_idx, "Khám chuyên khoa")
        out_text = f"Chuyên khoa: {specialty}\nLời khuyên: {advice}\nTham khảo: [{best_idx}]"
        return out_text, best_idx
    return None, None

# =========================
# 6. PhoGPT-4B lazy load + gọi với yêu cầu trả PLAIN TEXT 3 phần
# =========================
repo_path = "/kaggle/working/PhoGPT-4B"  # chỉnh nếu cần
tokenizer_gpt = None
model_gpt = None
device_gpt = None

def ensure_gpt_loaded():
    global tokenizer_gpt, model_gpt, device_gpt
    if tokenizer_gpt is None or model_gpt is None:
        tokenizer_gpt = AutoTokenizer.from_pretrained(repo_path, trust_remote_code=True)
        if tokenizer_gpt.pad_token_id is None:
            tokenizer_gpt.pad_token = tokenizer_gpt.eos_token
            tokenizer_gpt.pad_token_id = tokenizer_gpt.eos_token_id
        model_gpt = AutoModelForCausalLM.from_pretrained(
            repo_path,
            trust_remote_code=True,
            device_map="auto",
            torch_dtype=torch.float16,
            low_cpu_mem_usage=True
        )
        device_gpt = next(model_gpt.parameters()).device
        print(f"PhoGPT-4B loaded on device: {device_gpt}")

def call_gpt_short_prompt_text(refs_text: str, user_text: str, max_new_tokens=140):
    """
    Gọi model và yêu cầu TRẢ VỀ PLAIN TEXT gồm 3 phần (Chuyên khoa / Lời khuyên / Tham khảo).
    Không yêu cầu JSON, không lặp prompt.
    """
    ensure_gpt_loaded()
    system_block = (
        "Bạn là trợ lý y tế AI. CHỈ DỰA TRÊN CÁC THAM KHẢO LIỆT KÊ DƯỚI.\n"
        "KHÔNG LẶP LẠI PROMPT NÀY.\n"
        "KHÔNG THÊM THÔNG TIN NGOÀI NHỮNG THÔNG TIN ĐƯỢC GHI TRONG ĐOẠN THAM KHẢO.\n"
        "TRẢ VỀ DUY NHẤT PLAIN TEXT NGẮN GỌN VÀ RÕ RÀNG GỒM 3 PHẦN (Không kèm giải thích dài):\n"
        "Chuyên khoa: <tên chuyên khoa>\n"
        "Lời khuyên: <một câu hoặc vài cụm từ lấy đúng từ tham khảo>\n"
        "Tham khảo: [n]\n"
        "Nếu không đủ dữ liệu, trả: \"Không đủ thông tin từ các tài liệu tham khảo để tư vấn; nên khám bác sĩ chuyên khoa.\""
    )
    prompt = system_block + "\n\n" + refs_text + "\n\n" + f"Người bệnh mô tả: \"{user_text}\"\n\nTrả lời: "
    inputs = tokenizer_gpt(prompt, return_tensors="pt", truncation=True, max_length=1024)
    inputs = {k: v.to(device_gpt) for k, v in inputs.items()}
    with torch.no_grad():
        out_ids = model_gpt.generate(
            **inputs,
            max_new_tokens=max_new_tokens,
            do_sample=True,
            temperature=0.2,
            top_p=0.9,
            num_beams=1,
            repetition_penalty=1.1,
            no_repeat_ngram_size=3,
            eos_token_id=tokenizer_gpt.eos_token_id,
            pad_token_id=tokenizer_gpt.pad_token_id
        )
    output_text = tokenizer_gpt.decode(out_ids[0], skip_special_tokens=True).strip()
    return output_text

# =========================
# 7. Vòng lặp chính
# =========================
print("=== Chatbot (text output) đang chạy ===")
print("Nhập 'Kết thúc' để dừng.\n")

while True:
    try:
        user_input = input("Người dùng: ")
    except (EOFError, KeyboardInterrupt):
        print("\nChatbot: Tạm biệt!")
        break
    if not user_input or user_input.strip().lower() == "kết thúc":
        print("Chatbot: Tạm biệt!")
        break

    # 1) Top-K
    k = 1
    stop_event = threading.Event()
    progress_thread = threading.Thread(target=progress_bar_running, args=(stop_event, 2.5, "Retrieving Top-K"), daemon=True)
    progress_thread.start()
    topk_results = retrieve_topk(user_input, k=k)
    stop_event.set()
    progress_thread.join()

    # 2) Cập nhật REFERENCES / keyword_map / action_keywords
    REFERENCES = {}
    REFERENCE_SPECIALTY = {}
    keyword_map = {}
    action_keywords = set()

    for i, r in enumerate(topk_results, start=1):
        raw_answer = r["row"].get("answer", "") or ""
        m = re.search(r'@[^:]{0,40}:\s*(.*)', raw_answer, flags=re.DOTALL)
        answer_clean = m.group(1).strip() if m else raw_answer.strip()
        REFERENCES[i] = answer_clean
        REFERENCE_SPECIALTY[i] = r["row"].get("department", "Khám chuyên khoa")
        q_text = r["row"].get("question", "") or ""
        concat = (q_text + " " + raw_answer).lower()
        tokens = re.findall(r'\w+', concat)
        kw = [t for t in tokens if len(t) >= 4 and not t.isdigit()]
        seen = []
        for t in kw:
            if t not in seen:
                seen.append(t)
            if len(seen) >= 12:
                break
        keyword_map[i] = seen
        for act in ["uống", "rửa", "xịt", "nhỏ", "đi khám", "khám", "chườm", "bổ sung", "đeo", "tránh", "dùng"]:
            if act in concat:
                action_keywords.add(act)

    # Debug prints
    print("\n--- Top-K ---")
    for i, r in enumerate(topk_results, start=1):
        print(f"[{i}] score={r['score']:.4f} | question: {r['row'].get('question','')[:120]}")
    print("\nREFERENCES:")
    for kidx, v in REFERENCES.items():
        print(f"[{kidx}] {v[:220]}{'...' if len(v)>220 else ''}")
    print("\nkeyword_map:", keyword_map)
    print("action_keywords:", sorted(list(action_keywords)))
    print("------------------\n")

    # 3) Deterministic first -> trả plain text
    deterministic_text, matched_ref = deterministic_answer_from_refs_text(user_input, REFERENCES, REFERENCE_SPECIALTY, topk_results, sim_thresh=0.62)
    if deterministic_text is not None:
        print("Chatbot:\n" + deterministic_text + "\n")
        continue

    # 4) Gọi model (nếu cần)
    refs_text = "\n".join([f"[{k}] {v}" for k, v in REFERENCES.items()])
    stop_event = threading.Event()
    progress_thread = threading.Thread(target=progress_bar_running, args=(stop_event, 8.0, "Generating Answer"), daemon=True)
    progress_thread.start()
    try:
        output_text = call_gpt_short_prompt_text(refs_text, user_input, max_new_tokens=180)
    except Exception as e:
        output_text = f"ERROR_CALLING_MODEL: {e}"
    finally:
        stop_event.set()
        progress_thread.join()

    # 5) In trực tiếp plain text trả về từ model
    # Nếu model trả lời dài/không đúng form, người vận hành có thể điều chỉnh prompt hệ thống.
    print("Chatbot:\n" + output_text + "\n")

## pho_retrieval_gpt4b_combined_progress_final_textoutput_v2.py

In [None]:
# pho_retrieval_gpt4b_combined_progress_final_textoutput.py
# ====================================================
# Giữ nguyên pipeline nhưng trả về PLAIN TEXT (không JSON).
# Bố cục trả lời luôn phải chứa 3 phần:
#   Chuyên khoa: ...
#   Lời khuyên: ...
#   Tham khảo: [n]
# ====================================================

import os
import re
import time
import threading
import json
from html import unescape
from difflib import SequenceMatcher
from typing import List

import numpy as np
import pandas as pd
import torch
from transformers import AutoTokenizer, AutoModel, AutoModelForCausalLM
from underthesea import word_tokenize
import hnswlib

# =========================
# 0. Cấu hình thiết bị
# =========================
device = "cuda" if torch.cuda.is_available() else "cpu"
print("Device:", device)

# =========================
# 1. Đọc CSV & tiền xử lý
# =========================
csv_path = "/kaggle/input/bacsituvan/bacsituvan.csv"  # chỉnh nếu cần
df = pd.read_csv(csv_path)
print("Số bản ghi:", len(df))

def preprocess_text(s):
    if not isinstance(s, str):
        return ""
    s = s.strip().replace("_", " ")
    return word_tokenize(s, format="text")

for col in ["question", "answer", "department", "advice"]:
    if col in df.columns:
        df[col] = df[col].fillna("").astype(str).apply(preprocess_text)

# =========================
# 2. Load PhoBERT embedding
# =========================
MODEL_NAME = "vinai/phobert-base"
tokenizer_phobert = AutoTokenizer.from_pretrained(MODEL_NAME)
model_phobert = AutoModel.from_pretrained(MODEL_NAME).to(device)
model_phobert.eval()

def sentence_embedding(text: str) -> np.ndarray:
    if not text:
        return np.zeros(model_phobert.config.hidden_size, dtype=np.float32)
    inputs = tokenizer_phobert(text, return_tensors="pt", truncation=True, max_length=256)
    inputs = {k: v.to(device) for k, v in inputs.items()}
    with torch.no_grad():
        out = model_phobert(**inputs)
        last_hidden = out.last_hidden_state
        attention_mask = inputs["attention_mask"].unsqueeze(-1)
        masked = last_hidden * attention_mask
        summed = masked.sum(dim=1)
        counts = attention_mask.sum(dim=1).clamp(min=1e-9)
        mean_pooled = (summed / counts).squeeze().cpu().numpy().astype("float32")
    return mean_pooled

# =========================
# 3. Build embeddings + hnswlib index
# =========================
texts = df["question"].fillna("") + " " + df["answer"].fillna("")
texts = texts.tolist()

def progress_bar_running(stop_event, est_seconds=10.0, prefix="Đang xử lý"):
    bar_length = 30
    start = time.perf_counter()
    while not stop_event.is_set():
        elapsed = time.perf_counter() - start
        frac = min(elapsed / est_seconds, 0.99)
        filled = int(round(bar_length * frac))
        bar = "█" * filled + "-" * (bar_length - filled)
        eta = max(0.0, est_seconds - elapsed)
        print(f"\r{prefix}: |{bar}| {int(frac*100):3d}%  ETA: {eta:4.1f}s", end="", flush=True)
        time.sleep(0.12)
    bar = "█" * bar_length
    print(f"\r{prefix}: |{bar}| 100%  ETA:   0.0s")
    time.sleep(0.06)
    print("\r" + " " * 80 + "\r", end="", flush=True)

print("Preparing embeddings for", len(texts), "documents...")
embeddings = []
stop_event = threading.Event()
progress_thread = threading.Thread(target=progress_bar_running, args=(stop_event, max(5, len(texts)/20), "Embedding Top-K"), daemon=True)
progress_thread.start()
for t in texts:
    embeddings.append(sentence_embedding(t))
stop_event.set()
progress_thread.join()

embeddings = np.vstack(embeddings).astype("float32")
dim = embeddings.shape[1]
num_elements = embeddings.shape[0]

index = hnswlib.Index(space="cosine", dim=dim)
index.init_index(max_elements=num_elements, ef_construction=200, M=16)
index.add_items(embeddings, np.arange(num_elements))
index.set_ef(50)
print("hnswlib index built. Num elements:", index.get_current_count())

# =========================
# 4. Top-K retrieval
# =========================
def preprocess_query(s: str) -> str:
    s = s.strip().replace("_", " ")
    return word_tokenize(s, format="text")

def retrieve_topk(query_text: str, k: int = 5):
    q = preprocess_query(query_text)
    q_emb = sentence_embedding(q).astype("float32").reshape(1, -1)
    labels, distances = index.knn_query(q_emb, k=k)
    results = []
    for dist, idx in zip(distances[0], labels[0]):
        if idx < 0:
            continue
        score = float(1.0 - dist)
        results.append({"score": score, "index": int(idx), "text": texts[idx], "row": df.iloc[idx].to_dict()})
    return results

# =========================
# 5. Tiện ích trích xuất câu trả lời (deterministic -> trả plain text)
# =========================
def _clean_text(t: str) -> str:
    return re.sub(r'\s+', ' ', unescape(t.strip())).strip()

def _select_advice_sentence_from_ref(ref_text: str):
    if not ref_text:
        return ""
    sentences = re.split(r'(?<=[.!?])\s+', ref_text.strip())
    action_keywords = ['nên', 'rửa', 'nhỏ', 'nghỉ', 'bổ sung', 'chườm', 'đổi', 'khám', 'dùng', 'xịt', 'đeo', 'tránh', 'uống', 'đi khám']
    for s in sentences:
        sl = s.lower()
        for kw in action_keywords:
            if kw in sl:
                return s.strip().rstrip('.').strip()
    if sentences:
        sentences_sorted = sorted(sentences, key=lambda x: len(x), reverse=True)
        return sentences_sorted[0].strip().rstrip('.').strip()
    return _clean_text(ref_text)

def _similar(a: str, b: str) -> float:
    return SequenceMatcher(None, a, b).ratio()

def deterministic_answer_from_refs_text(user_text: str, refs: dict, ref_specialty: dict, topk_rows: List[dict], sim_thresh=0.65):
    """
    Cố gắng xác định reference phù hợp và trả về PLAIN TEXT gồm 3 phần:
      Chuyên khoa: ...
      Lời khuyên: ...
      Tham khảo: [n]
    Nếu không tìm được -> trả về (None, None)
    """
    user_norm = _clean_text(user_text).lower()
    best_idx = None
    best_score = 0.0
    for i, r in enumerate(topk_rows, start=1):
        q = r["row"].get("question", "") or ""
        q = _clean_text(q).lower()
        s1 = _similar(user_norm, q) if q else 0.0
        a = r["row"].get("answer", "") or ""
        a = _clean_text(a).lower()
        s2 = _similar(user_norm, a) if a else 0.0
        score = max(s1, s2)
        if score > best_score:
            best_score = score
            best_idx = i
    if best_score >= sim_thresh and best_idx is not None:
        ref_text = refs.get(best_idx, "")
        advice = _select_advice_sentence_from_ref(ref_text)
        specialty = ref_specialty.get(best_idx, "Khám chuyên khoa")
        out_text = f"Chuyên khoa: {specialty}\nLời khuyên: {advice}\nTham khảo: [{best_idx}]"
        return out_text, best_idx
    return None, None

# =========================
# 6. PhoGPT-4B lazy load + gọi với yêu cầu trả PLAIN TEXT 3 phần
# =========================
repo_path = "/kaggle/working/PhoGPT-4B"  # chỉnh nếu cần
tokenizer_gpt = None
model_gpt = None
device_gpt = None

def ensure_gpt_loaded():
    global tokenizer_gpt, model_gpt, device_gpt
    if tokenizer_gpt is None or model_gpt is None:
        tokenizer_gpt = AutoTokenizer.from_pretrained(repo_path, trust_remote_code=True)
        if tokenizer_gpt.pad_token_id is None:
            tokenizer_gpt.pad_token = tokenizer_gpt.eos_token
            tokenizer_gpt.pad_token_id = tokenizer_gpt.eos_token_id
        model_gpt = AutoModelForCausalLM.from_pretrained(
            repo_path,
            trust_remote_code=True,
            device_map="auto",
            torch_dtype=torch.float16,
            low_cpu_mem_usage=True
        )
        device_gpt = next(model_gpt.parameters()).device
        print(f"PhoGPT-4B loaded on device: {device_gpt}")

def call_gpt_short_prompt_text(refs_text: str, user_text: str, max_new_tokens=140):
    """
    Gọi model và yêu cầu TRẢ VỀ PLAIN TEXT gồm 3 phần (Chuyên khoa / Lời khuyên / Tham khảo).
    Không yêu cầu JSON, không lặp prompt.
    """
    ensure_gpt_loaded()
    system_block = (
        "Bạn là trợ lý y tế AI. CHỈ DỰA TRÊN CÁC THAM KHẢO LIỆT KÊ DƯỚI.\n"
        "KHÔNG THÊM THÔNG TIN NGOÀI NHỮNG GHI TRONG THAM KHẢO.\n"
        "TRẢ VỀ DUY NHẤT PLAIN TEXT NGẮN GỌN VÀ RÕ RÀNG GỒM 3 PHẦN (Không kèm giải thích dài):\n"
        "Chuyên khoa: <tên chuyên khoa>\n"
        "Lời khuyên: <một câu hoặc vài cụm từ lấy đúng từ tham khảo>\n"
        "Tham khảo: [n]\n"
        "Nếu không đủ dữ liệu, trả: \"Không đủ thông tin từ các tài liệu tham khảo để tư vấn; nên khám bác sĩ chuyên khoa.\""
    )
    prompt = system_block + "\n\n" + refs_text + "\n\n" + f"Người bệnh mô tả: \"{user_text}\"\n\nTrả lời:"
    inputs = tokenizer_gpt(prompt, return_tensors="pt", truncation=True, max_length=1024)
    inputs = {k: v.to(device_gpt) for k, v in inputs.items()}
    with torch.no_grad():
        out_ids = model_gpt.generate(
            **inputs,
            max_new_tokens=max_new_tokens,
            do_sample=True,
            temperature=0.2,
            top_p=0.9,
            num_beams=1,
            repetition_penalty=1.1,
            no_repeat_ngram_size=3,
            eos_token_id=tokenizer_gpt.eos_token_id,
            pad_token_id=tokenizer_gpt.pad_token_id
        )
    output_text = tokenizer_gpt.decode(out_ids[0], skip_special_tokens=True).strip()
    return output_text

# =========================
# 7. Vòng lặp chính
# =========================
print("=== Chatbot (text output) đang chạy ===")
print("Nhập 'Kết thúc' để dừng.\n")

while True:
    try:
        user_input = input("Người dùng: ")
    except (EOFError, KeyboardInterrupt):
        print("\nChatbot: Tạm biệt!")
        break
    if not user_input or user_input.strip().lower() == "kết thúc":
        print("Chatbot: Tạm biệt!")
        break

    # 1) Top-K
    k = 5
    stop_event = threading.Event()
    progress_thread = threading.Thread(target=progress_bar_running, args=(stop_event, 2.5, "Retrieving Top-K"), daemon=True)
    progress_thread.start()
    topk_results = retrieve_topk(user_input, k=k)
    stop_event.set()
    progress_thread.join()

    # 2) Cập nhật REFERENCES / keyword_map / action_keywords
    REFERENCES = {}
    REFERENCE_SPECIALTY = {}
    keyword_map = {}
    action_keywords = set()

    for i, r in enumerate(topk_results, start=1):
        raw_answer = r["row"].get("answer", "") or ""
        m = re.search(r'@[^:]{0,40}:\s*(.*)', raw_answer, flags=re.DOTALL)
        answer_clean = m.group(1).strip() if m else raw_answer.strip()
        REFERENCES[i] = answer_clean
        REFERENCE_SPECIALTY[i] = r["row"].get("department", "Khám chuyên khoa")
        q_text = r["row"].get("question", "") or ""
        concat = (q_text + " " + raw_answer).lower()
        tokens = re.findall(r'\w+', concat)
        kw = [t for t in tokens if len(t) >= 4 and not t.isdigit()]
        seen = []
        for t in kw:
            if t not in seen:
                seen.append(t)
            if len(seen) >= 12:
                break
        keyword_map[i] = seen
        for act in ["uống", "rửa", "xịt", "nhỏ", "đi khám", "khám", "chườm", "bổ sung", "đeo", "tránh", "dùng"]:
            if act in concat:
                action_keywords.add(act)

    # Debug prints
    print("\n--- Top-K ---")
    for i, r in enumerate(topk_results, start=1):
        print(f"[{i}] score={r['score']:.4f} | question: {r['row'].get('question','')[:120]}")
    print("\nREFERENCES:")
    for kidx, v in REFERENCES.items():
        print(f"[{kidx}] {v[:220]}{'...' if len(v)>220 else ''}")
    print("\nkeyword_map:", keyword_map)
    print("action_keywords:", sorted(list(action_keywords)))
    print("------------------\n")

    # 3) Deterministic first -> trả plain text
    deterministic_text, matched_ref = deterministic_answer_from_refs_text(user_input, REFERENCES, REFERENCE_SPECIALTY, topk_results, sim_thresh=0.62)
    if deterministic_text is not None:
        print("Chatbot:\n" + deterministic_text + "\n")
        continue

    # 4) Gọi model (nếu cần)
    refs_text = "\n".join([f"[{k}] {v}" for k, v in REFERENCES.items()])
    stop_event = threading.Event()
    progress_thread = threading.Thread(target=progress_bar_running, args=(stop_event, 8.0, "Generating Answer"), daemon=True)
    progress_thread.start()
    try:
        output_text = call_gpt_short_prompt_text(refs_text, user_input, max_new_tokens=180)
    except Exception as e:
        output_text = f"ERROR_CALLING_MODEL: {e}"
    finally:
        stop_event.set()
        progress_thread.join()

    # 5) In trực tiếp plain text trả về từ model
    # Nếu model trả lời dài/không đúng form, người vận hành có thể điều chỉnh prompt hệ thống.
    print("Chatbot:\n" + output_text + "\n")

 ## pho_retrieval_textonly_no_model.py

In [None]:
# pho_retrieval_textonly_no_model.py
# ====================================================
# Pipeline chỉ dùng PhoBERT embeddings + Top-K retrieval + sentence-level extraction.
# KHÔNG gọi mô hình sinh. Nếu không tìm câu phù hợp, trả về fallback an toàn.
#
# Output: PLAIN TEXT gồm 3 phần:
#   Chuyên khoa: ...
#   Lời khuyên: ...
#   Tham khảo: [n]
# ====================================================

import re
import time
import threading
from html import unescape
from typing import List, Tuple

import numpy as np
import pandas as pd
import torch
from transformers import AutoTokenizer, AutoModel
from underthesea import word_tokenize
import hnswlib

# =========================
# 0. Cấu hình thiết bị
# =========================
device = "cuda" if torch.cuda.is_available() else "cpu"
print("Device:", device)

# =========================
# 1. Đọc CSV & tiền xử lý
# =========================
csv_path = "/kaggle/input/bacsituvan/bacsituvan.csv"  # <- chỉnh lại nếu cần
df = pd.read_csv(csv_path)
print("Số bản ghi:", len(df))

def preprocess_text(s: str) -> str:
    """Tiền xử lý: thay '_' -> space, trim, tokenize tiếng Việt (underthesea)."""
    if not isinstance(s, str):
        return ""
    s = s.strip().replace("_", " ")
    return word_tokenize(s, format="text")

for col in ["question", "answer", "department", "advice"]:
    if col in df.columns:
        df[col] = df[col].fillna("").astype(str).apply(preprocess_text)

# =========================
# 2. Load PhoBERT để tạo embedding
# =========================
MODEL_NAME = "vinai/phobert-base"
tokenizer_phobert = AutoTokenizer.from_pretrained(MODEL_NAME)
model_phobert = AutoModel.from_pretrained(MODEL_NAME).to(device)
model_phobert.eval()

def sentence_embedding(text: str) -> np.ndarray:
    """
    Lấy embedding cho một câu/đoạn:
    - Tokenize rồi mean-pooling trên last_hidden_state.
    - Trả về numpy float32.
    """
    if not text:
        return np.zeros(model_phobert.config.hidden_size, dtype=np.float32)
    inputs = tokenizer_phobert(text, return_tensors="pt", truncation=True, max_length=256)
    inputs = {k: v.to(device) for k, v in inputs.items()}
    with torch.no_grad():
        out = model_phobert(**inputs)
        last_hidden = out.last_hidden_state                     # (1, seq_len, hidden)
        attention_mask = inputs["attention_mask"].unsqueeze(-1) # (1, seq_len, 1)
        masked = last_hidden * attention_mask
        summed = masked.sum(dim=1)                             # (1, hidden)
        counts = attention_mask.sum(dim=1).clamp(min=1e-9)
        mean_pooled = (summed / counts).squeeze().cpu().numpy().astype("float32")
    return mean_pooled

# =========================
# 3. Tạo embeddings cho corpus + hnswlib index (document-level)
# =========================
texts = df["question"].fillna("") + " " + df["answer"].fillna("")
texts = texts.tolist()

def progress_bar_running(stop_event, est_seconds=10.0, prefix="Đang xử lý"):
    """Progress bar đơn giản (in trên terminal)."""
    bar_length = 30
    start = time.perf_counter()
    while not stop_event.is_set():
        elapsed = time.perf_counter() - start
        frac = min(elapsed / est_seconds, 0.99)
        filled = int(round(bar_length * frac))
        bar = "█" * filled + "-" * (bar_length - filled)
        eta = max(0.0, est_seconds - elapsed)
        print(f"\r{prefix}: |{bar}| {int(frac*100):3d}%  ETA: {eta:4.1f}s", end="", flush=True)
        time.sleep(0.12)
    bar = "█" * bar_length
    print(f"\r{prefix}: |{bar}| 100%  ETA:   0.0s")
    time.sleep(0.06)
    print("\r" + " " * 80 + "\r", end="", flush=True)

print("Preparing embeddings for", len(texts), "documents...")
embeddings = []
stop_event = threading.Event()
progress_thread = threading.Thread(target=progress_bar_running, args=(stop_event, max(5, len(texts)/20), "Embedding Top-K"), daemon=True)
progress_thread.start()
for t in texts:
    embeddings.append(sentence_embedding(t))
stop_event.set()
progress_thread.join()

embeddings = np.vstack(embeddings).astype("float32")
dim = embeddings.shape[1]
num_elements = embeddings.shape[0]

index = hnswlib.Index(space="cosine", dim=dim)
index.init_index(max_elements=num_elements, ef_construction=200, M=16)
index.add_items(embeddings, np.arange(num_elements))
index.set_ef(50)
print("hnswlib index built. Num elements:", index.get_current_count())

# =========================
# 4. Top-K retrieval
# =========================
def preprocess_query(s: str) -> str:
    s = s.strip().replace("_", " ")
    return word_tokenize(s, format="text")

def retrieve_topk(query_text: str, k: int = 5):
    """Trả về list các dict {score, index, text, row}"""
    q = preprocess_query(query_text)
    q_emb = sentence_embedding(q).astype("float32").reshape(1, -1)
    labels, distances = index.knn_query(q_emb, k=k)
    results = []
    for dist, idx in zip(distances[0], labels[0]):
        if idx < 0:
            continue
        score = float(1.0 - dist)
        results.append({"score": score, "index": int(idx), "text": texts[idx], "row": df.iloc[idx].to_dict()})
    return results

# =========================
# 5. Hàm trợ giúp trích xuất ở cấp câu (sentence-level)
# =========================
def _clean_text(t: str) -> str:
    return re.sub(r'\s+', ' ', unescape(t.strip())).strip()

def split_sentences(text: str) -> List[str]:
    """Chia text thành câu (đơn giản, phù hợp VN)"""
    if not text:
        return []
    sent = re.split(r'(?<=[.!?])\s+', text.strip())
    if len(sent) == 1:
        parts = [s.strip() for s in text.split('\n') if s.strip()]
        if parts:
            return parts
    return [s.strip().rstrip('.') for s in sent if s.strip()]

def cosine_sim(a: np.ndarray, b: np.ndarray) -> float:
    """Cosine similarity (vectors are 1D numpy)"""
    if a is None or b is None:
        return 0.0
    na = np.linalg.norm(a)
    nb = np.linalg.norm(b)
    if na == 0 or nb == 0:
        return 0.0
    return float(np.dot(a, b) / (na * nb))

def find_best_sentence_by_embedding(user_text: str, references: dict, ref_specialty: dict, topk_rows: List[dict], sent_sim_thresh=0.68) -> Tuple[str, int]:
    """
    1) Tách tất cả câu trong các tham khảo (chỉ top-k).
    2) Lấy embedding cho từng câu và so sánh cosine với embedding user.
    3) Nếu câu có similarity >= sent_sim_thresh -> chọn câu tốt nhất (cao nhất).
    Trả về (out_text, ref_idx) hoặc (None, None) nếu không đủ tương đồng.
    """
    user_emb = sentence_embedding(preprocess_query(user_text)).astype("float32")
    best_score = 0.0
    best_sentence = None
    best_ref_idx = None

    for i, r in enumerate(topk_rows, start=1):
        raw_answer = r["row"].get("answer", "") or ""
        sents = split_sentences(raw_answer)
        for s in sents:
            s_clean = _clean_text(s)
            if len(s_clean) < 6:
                continue
            s_emb = sentence_embedding(s_clean).astype("float32")
            sim = cosine_sim(user_emb, s_emb)
            if sim > best_score:
                best_score = sim
                best_sentence = s_clean
                best_ref_idx = i
    if best_score >= sent_sim_thresh and best_sentence:
        spec = ref_specialty.get(best_ref_idx, "Khám chuyên khoa")
        out_text = f"Chuyên khoa: {spec}\nLời khuyên: {best_sentence}\nTham khảo: [{best_ref_idx}]"
        return out_text, best_ref_idx
    return None, None

# =========================
# 6. Vòng lặp chính (KHÔNG GỌI MÔ HÌNH SINH)
# =========================
FALLBACK = "Không đủ thông tin từ các tài liệu tham khảo để tư vấn; nên khám bác sĩ chuyên khoa."

print("=== Chatbot (text-only, no model) đang chạy ===")
print("Nhập 'Kết thúc' để dừng.\n")

while True:
    try:
        user_input = input("Người dùng: ")
    except (EOFError, KeyboardInterrupt):
        print("\nChatbot: Tạm biệt!")
        break
    if not user_input or user_input.strip().lower() == "kết thúc":
        print("Chatbot: Tạm biệt!")
        break

    # 1) Lấy top-K (k=1)
    k = 1
    stop_event = threading.Event()
    progress_thread = threading.Thread(target=progress_bar_running, args=(stop_event, 2.5, "Retrieving Top-K"), daemon=True)
    progress_thread.start()
    topk_results = retrieve_topk(user_input, k=k)
    stop_event.set()
    progress_thread.join()

    # 2) Cập nhật REFERENCES / REFERENCE_SPECIALTY / keyword_map / action_keywords (debug info)
    REFERENCES = {}
    REFERENCE_SPECIALTY = {}
    keyword_map = {}
    action_keywords = set()
    for i, r in enumerate(topk_results, start=1):
        raw_answer = r["row"].get("answer", "") or ""
        m = re.search(r'@[^:]{0,40}:\s*(.*)', raw_answer, flags=re.DOTALL)
        answer_clean = m.group(1).strip() if m else raw_answer.strip()
        REFERENCES[i] = answer_clean
        REFERENCE_SPECIALTY[i] = r["row"].get("department", "Khám chuyên khoa")
        q_text = r["row"].get("question", "") or ""
        concat = (q_text + " " + raw_answer).lower()
        tokens = re.findall(r'\w+', concat)
        kw = [t for t in tokens if len(t) >= 4 and not t.isdigit()]
        seen = []
        for t in kw:
            if t not in seen:
                seen.append(t)
            if len(seen) >= 12:
                break
        keyword_map[i] = seen
        for act in ["uống", "rửa", "xịt", "nhỏ", "đi khám", "khám", "chườm", "bổ sung", "đeo", "tránh", "dùng"]:
            if act in concat:
                action_keywords.add(act)

    # In debug (có thể tắt khi production)
    print("\n--- Top-K ---")
    for i, r in enumerate(topk_results, start=1):
        print(f"[{i}] score={r['score']:.4f} | question: {r['row'].get('question','')[:120]}")
    print("\nREFERENCES:")
    for kidx, v in REFERENCES.items():
        print(f"[{kidx}] {v[:220]}{'...' if len(v)>220 else ''}")
    print("\nkeyword_map:", keyword_map)
    print("action_keywords:", sorted(list(action_keywords)))
    print("------------------\n")

    # 3) Cố gắng trích câu phù hợp bằng embedding (sentence-level)
    deterministic_text, matched_ref = find_best_sentence_by_embedding(user_input, REFERENCES, REFERENCE_SPECIALTY, topk_results, sent_sim_thresh=0.68)
    if deterministic_text is not None:
        print("Chatbot:\n" + deterministic_text + "\n")
        continue

    # 4) Nếu không tìm được câu phù hợp -> TRẢ FALLBACK (KHÔNG GỌI MÔ HÌNH)
    print("Chatbot:\n" + FALLBACK + "\n")

##  pho_retrieval_textonly_actionfiltered.py

In [None]:
# pho_retrieval_textonly_actionfiltered_final.py
# ====================================================
# Pipeline: PhoBERT embeddings + Top-5 retrieval
# + Sentence-level extraction (Gộp các câu hành động tốt nhất cùng reference)
# + Preprocessing nâng cao (lọc câu hỏi, lọc tên riêng)
# KHÔNG gọi mô hình sinh (Generative AI).
# ====================================================

import re
import time
import threading
from html import unescape
from typing import List, Tuple, Optional

import numpy as np
import pandas as pd
import torch
from transformers import AutoTokenizer, AutoModel
from underthesea import word_tokenize
import hnswlib

# =========================
# 0. Cấu hình thiết bị
# =========================
device = "cuda" if torch.cuda.is_available() else "cpu"
print("Device:", device)

# =========================
# 1. Đọc CSV & tiền xử lý (tokenize tiếng Việt)
# =========================
# Lưu ý: Thay đổi đường dẫn file nếu chạy trên môi trường khác
csv_path = "/kaggle/working/filtered-question-answers.csv" 
try:
    df = pd.read_csv(csv_path)
    print("Số bản ghi:", len(df))
except Exception as e:
    print(f"Lỗi đọc file CSV: {e}")
    # Tạo dummy data để code không crash nếu không có file thật
    df = pd.DataFrame(columns=["question", "answer", "topic", "advice"])

def preprocess_text(s: str) -> str:
    """Tiền xử lý: thay '_' -> space, trim, tokenize tiếng Việt (underthesea)."""
    if not isinstance(s, str):
        return ""
    # Xử lý sơ bộ khoảng trắng
    s = re.sub(r'\s+', ' ', s.strip())
    # underthesea.word_tokenize trả về chuỗi token có khoảng trắng (các từ ghép nối bằng _)
    return word_tokenize(s, format="text")

# Áp dụng preprocess cho các cột cần thiết
for col in ["question", "answer", "topic", "advice"]:
    if col in df.columns:
        df[col] = df[col].fillna("").astype(str).apply(preprocess_text)

# =========================
# 2. Load PhoBERT để tạo embedding
# =========================
MODEL_NAME = "vinai/phobert-base"
print(f"Loading model {MODEL_NAME}...")
tokenizer_phobert = AutoTokenizer.from_pretrained(MODEL_NAME)
model_phobert = AutoModel.from_pretrained(MODEL_NAME).to(device)
model_phobert.eval()

def sentence_embedding(text: str) -> np.ndarray:
    """
    Lấy embedding cho một câu/đoạn:
    - Tokenize rồi mean-pooling trên last_hidden_state.
    - Trả về numpy float32.
    """
    if not text:
        return np.zeros(model_phobert.config.hidden_size, dtype=np.float32)
    inputs = tokenizer_phobert(text, return_tensors="pt", truncation=True, max_length=256)
    inputs = {k: v.to(device) for k, v in inputs.items()}
    with torch.no_grad():
        out = model_phobert(**inputs)
        last_hidden = out.last_hidden_state                 # (1, seq_len, hidden)
        attention_mask = inputs["attention_mask"].unsqueeze(-1)  # (1, seq_len, 1)
        masked = last_hidden * attention_mask
        summed = masked.sum(dim=1)                          # (1, hidden)
        counts = attention_mask.sum(dim=1).clamp(min=1e-9)
        mean_pooled = (summed / counts).squeeze().cpu().numpy().astype("float32")
    return mean_pooled

# =========================
# 3. Tạo embeddings cho corpus + hnswlib index (document-level)
# =========================
texts = df["question"].fillna("") + " " + df["answer"].fillna("")
texts = texts.tolist()

def progress_bar_running(stop_event, est_seconds=10.0, prefix="Đang xử lý"):
    """Progress bar đơn giản (in trên terminal)."""
    bar_length = 30
    start = time.perf_counter()
    while not stop_event.is_set():
        elapsed = time.perf_counter() - start
        frac = min(elapsed / est_seconds, 0.99)
        filled = int(round(bar_length * frac))
        bar = "█" * filled + "-" * (bar_length - filled)
        eta = max(0.0, est_seconds - elapsed)
        print(f"\r{prefix}: |{bar}| {int(frac*100):3d}%  ETA: {eta:4.1f}s", end="", flush=True)
        time.sleep(0.12)
    bar = "█" * bar_length
    print(f"\r{prefix}: |{bar}| 100%  ETA:   0.0s")
    time.sleep(0.06)
    print("\r" + " " * 80 + "\r", end="", flush=True)

print("Preparing embeddings for", len(texts), "documents...")
embeddings = []
stop_event = threading.Event()
progress_thread = threading.Thread(target=progress_bar_running, args=(stop_event, max(5, len(texts)/20), "Embedding Top-K"), daemon=True)
progress_thread.start()

# Batch processing could be faster, but keeping per-item for simplicity as per original code
for t in texts:
    embeddings.append(sentence_embedding(t))

stop_event.set()
progress_thread.join()

if embeddings:
    embeddings = np.vstack(embeddings).astype("float32")
    dim = embeddings.shape[1]
    num_elements = embeddings.shape[0]

    index = hnswlib.Index(space="cosine", dim=dim)
    index.init_index(max_elements=num_elements, ef_construction=200, M=16)
    index.add_items(embeddings, np.arange(num_elements))
    index.set_ef(50)
    print("hnswlib index built. Num elements:", index.get_current_count())
else:
    print("Warning: No embeddings created (empty data).")

# =========================
# 4. Top-K retrieval (chỉ dùng top 5, với lọc question similarity)
# =========================
def preprocess_query(s: str) -> str:
    s = s.strip().replace("_", " ")
    return word_tokenize(s, format="text")

def cosine_sim(a: np.ndarray, b: np.ndarray) -> float:
    """Cosine similarity (vectors are 1D numpy)"""
    if a is None or b is None:
        return 0.0
    na = np.linalg.norm(a)
    nb = np.linalg.norm(b)
    if na == 0 or nb == 0:
        return 0.0
    return float(np.dot(a, b) / (na * nb))

def retrieve_topk_with_question_threshold(query_text: str, k: int = 5, question_sim_thresh: float = 0.5):
    """
    Lấy top-k document từ index dựa trên embedding (document-level),
    sau đó kiểm tra từng candidate: compute embedding cho 'question' của record
    và chỉ giữ những record mà cosine(user_emb, question_emb) >= question_sim_thresh.
    """
    q = preprocess_query(query_text)
    user_emb = sentence_embedding(q).astype("float32").reshape(1, -1)
    
    # Lấy nhiều hơn k candidate để lọc
    multiplier = 3
    raw_k = max(k, k * multiplier)
    
    if index.get_current_count() == 0:
        return []

    labels, distances = index.knn_query(user_emb, k=min(raw_k, index.get_current_count()))
    labels = labels[0]
    distances = distances[0]

    filtered_results = []
    for dist, idx in zip(distances, labels):
        if idx < 0:
            continue
        question_text = df.iloc[int(idx)].get("question", "") or ""
        if not question_text:
            continue
        
        # Check similarity với câu hỏi gốc
        q_emb = sentence_embedding(preprocess_query(question_text)).astype("float32")
        sim_q = cosine_sim(user_emb.reshape(-1), q_emb)
        
        if sim_q >= question_sim_thresh:
            score = float(1.0 - dist)
            filtered_results.append({
                "score": score,
                "index": int(idx),
                "text": texts[int(idx)],
                "row": df.iloc[int(idx)].to_dict(),
                "question_sim": sim_q
            })
        
        if len(filtered_results) >= k:
            break
            
    return filtered_results[:k]

# =========================
# 5. Hàm trợ giúp trích xuất ở cấp câu & preprocessing câu
# =========================
def _clean_text(t: str) -> str:
    """Làm sạch whitespace / HTML entitles."""
    return re.sub(r'\s+', ' ', unescape(t.strip())).strip()

# Loại bỏ phần bắt đầu dạng "@tên: ..."
_re_at_prefix = re.compile(r'^@[^:]{0,60}:\s*', flags=re.IGNORECASE)

# Các từ xưng hô cần chuẩn hóa
_PRONOUNS = [
    r'\bcháu\b', r'\bem\b', r'\btớ\b', r'\bmình\b', r'\bcon\b', r'\banh\b', r'\bchị\b'
]
_pronoun_pattern = re.compile("|".join(_PRONOUNS), flags=re.IGNORECASE)

# Các liên từ nối câu thường gặp
CONNECTIVES = [
    r'vì vậy', r'vì thế', r'vậy nên', r'do vậy', r'vì vậy nên', r'vì thế nên', r'cho nên',
    r'tóm lại', r'tóm tắt', r'nhưng', r'tuy nhiên'
]
_connective_pattern = re.compile("|".join([re.escape(x) for x in CONNECTIVES]), flags=re.IGNORECASE)

# Regex phát hiện tên riêng (Word tokenized thường nối bằng dấu gạch dưới hoặc Viết Hoa liên tiếp)
# Ví dụ: Vũ_Công_Thắng, Bác_sĩ A...
_name_pattern = re.compile(r'\b([A-ZÀ-Ỹ][a-zà-ỹ]+(?:_[A-ZÀ-Ỹ][a-zà-ỹ]+)+)\b') 
# Regex phát hiện danh xưng bác sĩ + tên (ví dụ: BS. Nguyễn Văn A)
_doctor_pattern = re.compile(r'\b(BS|Bác sĩ|Lương y|Dr)\.?\s+([A-ZÀ-Ỹ][a-zà-ỹ_]+(\s+[A-ZÀ-Ỹ][a-zà-ỹ_]+)*)', flags=re.IGNORECASE)

def preprocess_reference_sentence_for_embedding(s: str) -> str:
    """
    Tiền xử lý câu TRƯỚC khi tính embedding/score:
    - Loại bỏ câu hỏi (kết thúc bằng ?)
    - Loại bỏ cụm "Trả lời" ở đầu câu.
    - Loại bỏ tên riêng, danh xưng bác sĩ
    - Chuẩn hóa đại từ, loại bỏ từ nối
    """
    if not s:
        return ""
    s = s.strip()
    
    # 1. Loại bỏ câu hỏi
    if s.endswith('?'):
        return "" # Trả về rỗng để code phía sau loại bỏ câu này

    # 2. Xử lý rác đặc biệt (prefix @)
    s = _re_at_prefix.sub("", s)

    # [MỚI] 2.1. Xóa cụm "Trả lời" / "Trả_lời" ở đầu câu
    # Giải thích Regex:
    # ^         : Bắt đầu chuỗi
    # trả       : Chữ "trả"
    # [_\s]     : Dấu gạch dưới (_) hoặc khoảng trắng (do word_tokenize có thể tạo ra Trả_lời)
    # lời       : Chữ "lời"
    # \s* : Khoảng trắng tùy ý
    # [:.]?     : Dấu hai chấm hoặc dấu chấm (có thể có hoặc không)
    # \s* : Khoảng trắng sau dấu câu
    s = re.sub(r'^trả[_\s]lời\s*[:.]?\s*', '', s, flags=re.IGNORECASE)

    # 3. Loại bỏ tên riêng (Vũ_Công_Thắng) và danh xưng bác sĩ
    s = _name_pattern.sub("", s)  # Xóa tên dạng tokenized (Vũ_Công_Thắng)
    s = _doctor_pattern.sub("", s) # Xóa dạng "BS Nguyễn Văn A"

    # 4. Thay đại từ xưng hô -> 'bạn'
    s = _pronoun_pattern.sub("bạn", s)

    # 5. Xóa từ nối
    s = _connective_pattern.sub("", s)

    # 6. Chuẩn hóa khoảng trắng
    s = re.sub(r'\s+', ' ', s).strip()
    return s

def split_sentences(text: str) -> List[str]:
    """Chia text thành câu (dựa trên dấu chấm câu)."""
    if not text:
        return []
    # Tách câu dựa trên . ! ?
    sent = re.split(r'(?<=[.!?])\s+', text.strip())
    # Nếu tách không được (ít dấu chấm), thử tách theo dòng
    if len(sent) == 1:
        parts = [s.strip() for s in text.split('\n') if s.strip()]
        if parts:
            return parts
    return [s.strip().rstrip('.') for s in sent if s.strip()]

# =========================
# 6. Danh sách động từ hành động y tế (ĐÃ CẬP NHẬT MỞ RỘNG)
# =========================
ACTION_VERBS = set([
    # Nhóm dùng thuốc / điều trị
    "uống", "uống thuốc", "dùng", "dùng thuốc", "xịt", "bôi", "thoa", "nhỏ", "ngậm", 
    "tiêm", "chích", "truyền", "phẫu thuật", "mổ", "tiểu phẫu", "kê đơn", "điều trị",
    "chườm", "chườm nóng", "chườm lạnh", "băng bó", "sát trùng", "rửa vết thương",
    "hút rửa", "xông", "khí dung", "châm cứu", "bấm huyệt", "massage", "xoa bóp",
    
    # Nhóm khám / xét nghiệm
    "khám", "đi khám", "tái khám", "thăm khám", "kiểm tra", "xét nghiệm", "lấy mẫu",
    "siêu âm", "chụp", "chụp x-quang", "chụp ct", "chụp mri", "nội soi", "đo huyết áp",
    "đo đường huyết", "theo dõi", "đánh giá", "tầm soát",
    
    # Nhóm sinh hoạt / dinh dưỡng
    "ăn", "ăn kiêng", "kiêng", "tránh", "hạn chế", "bổ sung", "tăng cường", "giảm",
    "uống nước", "ngủ", "nghỉ ngơi", "kê gối", "nằm nghiêng", "tập", "tập luyện", 
    "vận động", "tập vật lý trị liệu", "thể dục", "vệ sinh", "súc miệng", "súc họng",
    "rửa tay", "rửa mũi", "đeo khẩu trang", "cách ly", "nhập viện", "cấp cứu"
])

def sentence_has_action(s: str) -> bool:
    """Kiểm tra xem s chứa động từ hành động y tế hay không."""
    if not s:
        return False
    sl = s.lower()
    for act in ACTION_VERBS: # Không cần sort mỗi lần gọi, set truy cập nhanh
        act_norm = act.replace("_", " ").lower()
        # Tìm từ nguyên vẹn (word boundary)
        if re.search(r'\b' + re.escape(act_norm) + r'\b', sl):
            return True
    return False

# =========================
# 7. Hàm chính: Tính điểm và Gộp câu (Combined Logic)
# =========================
def find_best_action_sentence_by_embedding_combined(
    user_text: str,
    topk_rows: List[dict],
    ref_specialty: dict,
    sent_sim_thresh: float = 0.6,
    combined_thresh: float = 0.68,
    alpha: float = 0.7,
    beta: float = 0.25,
    gamma: float = 0.05,
    max_debug_show: int = 15
) -> Tuple[Optional[str], Optional[int], Optional[str]]:
    """
    Tìm các câu 'hành động' tốt nhất.
    Logic:
    1. Tính combined score cho TẤT CẢ câu trong top-k documents.
    2. Sắp xếp giảm dần.
    3. Chọn câu tốt nhất (Top 1) thỏa mãn điều kiện để xác định 'Reference tốt nhất' (best_ref).
    4. Gom tất cả các câu khác CÙNG best_ref mà cũng thỏa mãn điều kiện ngưỡng.
    5. Nối các câu đó lại thành câu trả lời cuối cùng.
    """
    print("\n=== [DEBUG] RUN find_best_action_sentence_by_embedding_combined ===")
    
    if not topk_rows:
        print("[DEBUG] topk_rows rỗng -> trả (None, None, None)")
        return None, None, None

    # 1) Thu thập và tiền xử lý tất cả các câu
    all_sents = []  # list of (ref_pos, question_text, sentence_original, sentence_preprocessed)
    orig_qa_map = {} 
    
    for ref_pos, r in enumerate(topk_rows, start=1):
        question_text = r["row"].get("question", "") or ""
        raw_answer = r["row"].get("answer", "") or ""
        orig_qa_map[ref_pos] = f"Q: {question_text}\nA: {raw_answer}"
        
        sents = split_sentences(raw_answer)
        kept = 0
        for s in sents:
            s_orig = _clean_text(s)
            # Preprocess: xóa tên, xóa câu hỏi, chuẩn hóa
            s_proc = preprocess_reference_sentence_for_embedding(s_orig)
            
            # Chỉ lấy câu có độ dài nhất định và không rỗng
            if len(s_proc) >= 6: 
                all_sents.append((ref_pos, question_text, s_orig, s_proc))
                kept += 1
                
    if not all_sents:
        print("[DEBUG] Không tìm thấy câu hợp lệ sau khi preprocess.")
        return None, None, None

    # 2) Embedding user query
    user_q = preprocess_query(user_text)
    user_emb = sentence_embedding(user_q).astype("float32")
    user_tokens_set = set([t.lower() for t in re.findall(r'\w+', user_text) if len(t) >= 2])

    # 3) Tính điểm cho từng câu
    question_emb_cache = {}
    scored = [] # (combined, sim_sent, sim_q, lex, sent_orig, sent_proc, ref_pos)

    for ref_pos, question_text, sent_orig, sent_proc in all_sents:
        # Cache question embedding theo ref_pos
        if ref_pos not in question_emb_cache:
            q_text_proc = preprocess_query(question_text) if question_text else ""
            if q_text_proc:
                question_emb_cache[ref_pos] = sentence_embedding(q_text_proc).astype("float32")
            else:
                question_emb_cache[ref_pos] = np.zeros(user_emb.shape, dtype=np.float32)

        # Sentence Embedding
        s_emb = sentence_embedding(sent_proc).astype("float32")
        sim_sent = cosine_sim(user_emb, s_emb)
        sim_q = cosine_sim(user_emb, question_emb_cache[ref_pos])

        # Lexical Overlap
        sent_tokens_set = set([t.lower() for t in re.findall(r'\w+', sent_proc) if len(t) >= 2])
        lex_overlap = 0.0
        if user_tokens_set:
            common = len(user_tokens_set & sent_tokens_set)
            lex_overlap = float(common) / max(1, len(user_tokens_set))

        combined = alpha * sim_sent + beta * sim_q + gamma * lex_overlap
        scored.append((combined, sim_sent, sim_q, lex_overlap, sent_orig, sent_proc, ref_pos))

    # 4) Sắp xếp giảm dần theo combined score
    scored_sorted = sorted(scored, key=lambda x: x[0], reverse=True)

    # In Debug Top candidates
    print("\n=== [DEBUG] TOP candidates sorted by combined score ===")
    for idx, (comb, sim_s, sim_q, lex, s_orig, s_proc, rf) in enumerate(scored_sorted[:max_debug_show], start=1):
        print(f"[TOP{idx}] combined={comb:.4f} | sim_sent={sim_s:.4f} | sim_q={sim_q:.4f} | lex={lex:.3f} | ref={rf} | sent_proc='{s_proc[:50]}...'")

    # 5) Tìm Reference tốt nhất (Clustering Logic)
    best_ref_pos = None
    
    # Duyệt để tìm câu Top 1 thỏa mãn điều kiện -> xác định best_ref_pos
    for combined, sim_sent, sim_q, lex, sent_orig, sent_proc, ref_pos in scored_sorted:
        if sim_sent >= sent_sim_thresh and combined >= combined_thresh:
             if sentence_has_action(sent_proc) or sentence_has_action(sent_orig):
                 best_ref_pos = ref_pos
                 print(f"\n[DEBUG] Đã tìm thấy Best Reference ID: {best_ref_pos} từ câu có score cao nhất.")
                 break
    
    if best_ref_pos is None:
        print("[DEBUG] Không tìm thấy câu nào thỏa mãn ngưỡng và có từ hành động.")
        return None, None, None

    # 6) Gom tất cả các câu thuộc best_ref_pos thỏa mãn điều kiện
    final_sentences_list = []
    
    print(f"\n[DEBUG] Đang gom các câu thuộc Ref {best_ref_pos}...")
    for combined, sim_sent, sim_q, lex, sent_orig, sent_proc, ref_pos in scored_sorted:
        # Chỉ xét các câu thuộc cùng bài viết tốt nhất
        if ref_pos == best_ref_pos:
            # Kiểm tra lại điều kiện ngưỡng cho từng câu phụ
            if sim_sent >= sent_sim_thresh and combined >= combined_thresh:
                if sentence_has_action(sent_proc) or sentence_has_action(sent_orig):
                    # Chuẩn hóa đại từ lần cuối cho câu output
                    s_final = _pronoun_pattern.sub("bạn", sent_orig)
                    s_final = re.sub(r'\s+', ' ', s_final).strip()
                    final_sentences_list.append(s_final)
                    print(f"  -> Chọn: [{combined:.4f}] {s_final[:60]}...")

    # Gộp các câu lại thành đoạn văn
    if not final_sentences_list:
        return None, None, None

    # Nối các câu theo thứ tự rank (điểm cao đứng trước) như yêu cầu output list
    # Lưu ý: Nếu muốn nối theo thứ tự xuất hiện trong văn bản gốc thì cần logic khác, 
    # nhưng ở đây tuân thủ logic "danh sách các câu tìm được".
    final_paragraph = " ".join(final_sentences_list)
    
    # Lấy thông tin meta
    spec = ref_specialty.get(best_ref_pos, "Khám chuyên khoa")
    orig_qa = orig_qa_map.get(best_ref_pos, "")

    out_text = (
        f"Chuyên khoa: {spec}\n"
        f"Lời khuyên: {final_paragraph}\n"
        f"Tham khảo:\n{orig_qa}\n\n"
        f"Câu trả lời chỉ mang tính chất tham khảo."
    )
    
    return out_text, best_ref_pos, orig_qa


# =========================
# 8. Vòng lặp chính
# =========================
FALLBACK = "Không đủ thông tin từ các tài liệu tham khảo để tư vấn; nên khám bác sĩ chuyên khoa."

print("\n=== Chatbot (text-only, action-filtered, CLUSTERED FINAL) ===")
print("Nhập 'Kết thúc' để dừng.\n")

while True:
    try:
        user_input = input("Người dùng: ")
    except (EOFError, KeyboardInterrupt):
        print("\nChatbot: Tạm biệt!")
        break
    if not user_input or user_input.strip().lower() == "kết thúc":
        print("Chatbot: Tạm biệt!")
        break

    # 1) Lấy top-5 (lọc theo question similarity)
    stop_event = threading.Event()
    progress_thread = threading.Thread(target=progress_bar_running, args=(stop_event, 2.5, "Retrieving Top-5"), daemon=True)
    progress_thread.start()
    
    topk_results = retrieve_topk_with_question_threshold(user_input, k=5, question_sim_thresh=0.60)
    
    stop_event.set()
    progress_thread.join()

    # 2) Chuẩn bị dữ liệu Reference & Debug
    REFERENCE_SPECIALTY = {}
    action_keywords_found = set()
    
    print("\n--- Top-5 Candidates ---")
    for i, r in enumerate(topk_results, start=1):
        q_text = r['row'].get('question', '')
        ans_text = r['row'].get('answer', '')
        topic = r['row'].get('topic', 'Chung')
        REFERENCE_SPECIALTY[i] = topic
        
        print(f"[{i}] score={r['score']:.4f} | q_sim={r.get('question_sim',0):.4f} | Q: {q_text[:80]}...")
        
        # Check action verbs for debug
        full_text = (q_text + " " + ans_text).lower()
        for act in ACTION_VERBS:
            act_norm = act.replace("_", " ").lower()
            if act_norm in full_text:
                action_keywords_found.add(act_norm)

    print(f"\nAction keywords found in Top-K: {sorted(list(action_keywords_found))}")
    print("------------------\n")

    # 3) Tìm và gộp câu trả lời
    deterministic_text, matched_ref, orig_qa_text = find_best_action_sentence_by_embedding_combined(
        user_input, topk_results, REFERENCE_SPECIALTY,
        sent_sim_thresh=0.60, combined_thresh=0.68, alpha=0.7, beta=0.25, gamma=0.05
    )

    if deterministic_text is not None:
        print("\nChatbot:\n" + deterministic_text + "\n")
    else:
        print("\nChatbot:\n" + FALLBACK + "\n")

## pho_retrieval_textonly_actionfiltered_final_llm.py

In [None]:
# pho_retrieval_textonly_actionfiltered_final_llm.py
# ====================================================
# Pipeline RAG (Retrieval-Augmented Generation) Hoàn Chỉnh:
# 1. Retrieval: PhoBERT embeddings + Top-5 retrieval + Filter Question Similarity
# 2. Extraction: Chọn lọc các câu hành động (Action Sentences) tốt nhất.
# 3. Generation: Tích hợp LLM để viết lại câu trả lời tự nhiên.
# ====================================================

import re
import time
import threading
from html import unescape
from typing import List, Tuple, Optional
import os

import numpy as np
import pandas as pd
import torch
from transformers import AutoTokenizer, AutoModel, pipeline
from underthesea import word_tokenize
import hnswlib

# =========================
# 0. Cấu hình thiết bị & Môi trường
# =========================
device = "cuda" if torch.cuda.is_available() else "cpu"
print("Device:", device)

# =========================
# 1. Đọc CSV & tiền xử lý
# =========================
'''csv_path = "filtered-question-answers.csv" # Đổi đường dẫn phù hợp
try:
    # Nếu chưa có file csv, bạn có thể convert từ json như các bước trước
    # Ở đây giả định đã có file csv hoặc dataframe
    # df = pd.read_csv(csv_path) 
    
    # [DEMO] Tạo dummy data để code chạy được ngay nếu không có file
    import json
    if os.path.exists("/kaggle/input/filtered-question-answers/filtered-question-answers.json"):
         with open("/kaggle/input/filtered-question-answers/filtered-question-answers.json", "r", encoding="utf-8") as f:
            data_json = json.load(f)
         df = pd.DataFrame.from_dict(data_json, orient='index')
    else:
         print("Không tìm thấy file dữ liệu, tạo dữ liệu giả lập để test code...")
         df = pd.DataFrame({
             "question": ["đau đầu uống gì", "bị gãy tay làm sao"],
             "answer": ["Bạn nên uống paracetamol 500mg và nghỉ ngơi.", "Cần đi chụp X-quang và bó bột ngay."],
             "topic": ["Thần kinh", "Chấn thương chỉnh hình"]
         })
         
    print("Số bản ghi:", len(df))
except Exception as e:
    print(f"Lỗi khởi tạo dữ liệu: {e}")
    df = pd.DataFrame(columns=["question", "answer", "topic", "advice"])
    '''
# Lưu ý: Thay đổi đường dẫn file nếu chạy trên môi trường khác
csv_path = "/kaggle/working/filtered-question-answers.csv" 
try:
    df = pd.read_csv(csv_path)
    print("Số bản ghi:", len(df))
except Exception as e:
    print(f"Lỗi đọc file CSV: {e}")
    # Tạo dummy data để code không crash nếu không có file thật
    df = pd.DataFrame(columns=["question", "answer", "topic", "advice"])


def preprocess_text(s: str) -> str:
    if not isinstance(s, str): return ""
    s = re.sub(r'\s+', ' ', s.strip())
    return word_tokenize(s, format="text")

for col in ["question", "answer", "topic", "advice"]:
    if col in df.columns:
        df[col] = df[col].fillna("").astype(str).apply(preprocess_text)

# =========================
# 2. Load PhoBERT (Retrieval Model)
# =========================
RETRIEVAL_MODEL_NAME = "vinai/phobert-base"
print(f"Loading Retrieval model {RETRIEVAL_MODEL_NAME}...")
tokenizer_phobert = AutoTokenizer.from_pretrained(RETRIEVAL_MODEL_NAME)
model_phobert = AutoModel.from_pretrained(RETRIEVAL_MODEL_NAME).to(device)
model_phobert.eval()

def sentence_embedding(text: str) -> np.ndarray:
    if not text: return np.zeros(model_phobert.config.hidden_size, dtype=np.float32)
    inputs = tokenizer_phobert(text, return_tensors="pt", truncation=True, max_length=256)
    inputs = {k: v.to(device) for k, v in inputs.items()}
    with torch.no_grad():
        out = model_phobert(**inputs)
        mean_pooled = out.last_hidden_state.mean(dim=1).squeeze().cpu().numpy().astype("float32")
    return mean_pooled

# =========================
# 3. Tạo Embeddings & Index
# =========================
texts = df["question"].fillna("") + " " + df["answer"].fillna("")
texts = texts.tolist()

# (Giữ nguyên logic tạo embedding cũ của bạn)
print("Generating embeddings...")
embeddings = []
# Batch processing để nhanh hơn chút
batch_size = 32
for i in range(0, len(texts), batch_size):
    batch_texts = texts[i:i+batch_size]
    # Lưu ý: Code gốc của bạn chạy từng cái, ở đây demo nên mình giữ đơn giản
    for t in batch_texts:
        embeddings.append(sentence_embedding(t))
    if i % 100 == 0: print(f"\rEmbedded {i}/{len(texts)}", end="")
print("\nDone embedding.")

embeddings = np.vstack(embeddings).astype("float32")
index = hnswlib.Index(space="cosine", dim=embeddings.shape[1])
index.init_index(max_elements=embeddings.shape[0], ef_construction=200, M=16)
index.add_items(embeddings, np.arange(embeddings.shape[0]))
index.set_ef(50)

# =========================
# 4 - 6. Các hàm Tiền xử lý & Trợ giúp (Giữ nguyên logic cũ)
# =========================
def preprocess_query(s: str) -> str:
    return word_tokenize(s.strip().replace("_", " "), format="text")

def cosine_sim(a, b):
    if a is None or b is None: return 0.0
    return float(np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b)))

def retrieve_topk(query_text, k=5, thresh=0.5):
    q = preprocess_query(query_text)
    user_emb = sentence_embedding(q).reshape(1, -1)
    if index.get_current_count() == 0: return []
    labels, distances = index.knn_query(user_emb, k=min(k*3, index.get_current_count()))
    
    results = []
    for dist, idx in zip(distances[0], labels[0]):
        if idx < 0: continue
        q_text = df.iloc[int(idx)].get("question", "")
        sim_q = cosine_sim(user_emb.reshape(-1), sentence_embedding(preprocess_query(q_text)))
        if sim_q >= thresh:
            results.append({
                "score": 1.0 - dist, 
                "index": int(idx), 
                "row": df.iloc[int(idx)].to_dict(), 
                "question_sim": sim_q
            })
        if len(results) >= k: break
    return results[:k]

def _clean_text(t: str) -> str:
    """Làm sạch whitespace / HTML entitles."""
    return re.sub(r'\s+', ' ', unescape(t.strip())).strip()

# Loại bỏ phần bắt đầu dạng "@tên: ..."
_re_at_prefix = re.compile(r'^@[^:]{0,60}:\s*', flags=re.IGNORECASE)

# Các từ xưng hô cần chuẩn hóa
_PRONOUNS = [
    r'\bcháu\b', r'\bem\b', r'\btớ\b', r'\bmình\b', r'\bcon\b', r'\banh\b', r'\bchị\b'
]
_pronoun_pattern = re.compile("|".join(_PRONOUNS), flags=re.IGNORECASE)

# Các liên từ nối câu thường gặp
CONNECTIVES = [
    r'vì vậy', r'vì thế', r'vậy nên', r'do vậy', r'vì vậy nên', r'vì thế nên', r'cho nên',
    r'tóm lại', r'tóm tắt', r'nhưng', r'tuy nhiên'
]
_connective_pattern = re.compile("|".join([re.escape(x) for x in CONNECTIVES]), flags=re.IGNORECASE)

# Regex phát hiện tên riêng (Word tokenized thường nối bằng dấu gạch dưới hoặc Viết Hoa liên tiếp)
# Ví dụ: Vũ_Công_Thắng, Bác_sĩ A...
_name_pattern = re.compile(r'\b([A-ZÀ-Ỹ][a-zà-ỹ]+(?:_[A-ZÀ-Ỹ][a-zà-ỹ]+)+)\b') 
# Regex phát hiện danh xưng bác sĩ + tên (ví dụ: BS. Nguyễn Văn A)
_doctor_pattern = re.compile(r'\b(BS|Bác sĩ|Lương y|Dr)\.?\s+([A-ZÀ-Ỹ][a-zà-ỹ_]+(\s+[A-ZÀ-Ỹ][a-zà-ỹ_]+)*)', flags=re.IGNORECASE)

def preprocess_reference_sentence_for_embedding(s: str) -> str:
    """
    Tiền xử lý câu TRƯỚC khi tính embedding/score:
    - Loại bỏ câu hỏi (kết thúc bằng ?)
    - Loại bỏ tên riêng, danh xưng bác sĩ
    - Chuẩn hóa đại từ, loại bỏ từ nối
    """
    if not s:
        return ""
    s = s.strip()
    
    # 1. Loại bỏ câu hỏi
    if s.endswith('?'):
        return "" # Trả về rỗng để code phía sau loại bỏ câu này

    # 2. Xử lý rác đặc biệt (prefix @)
    s = _re_at_prefix.sub("", s)

    # 3. Loại bỏ tên riêng (Vũ_Công_Thắng) và danh xưng bác sĩ
    s = _name_pattern.sub("", s)  # Xóa tên dạng tokenized (Vũ_Công_Thắng)
    s = _doctor_pattern.sub("", s) # Xóa dạng "BS Nguyễn Văn A"

    # 4. Thay đại từ xưng hô -> 'bạn'
    s = _pronoun_pattern.sub("bạn", s)

    # 5. Xóa từ nối
    s = _connective_pattern.sub("", s)

    # 6. Chuẩn hóa khoảng trắng
    s = re.sub(r'\s+', ' ', s).strip()
    return s

def split_sentences(text: str) -> List[str]:
    """Chia text thành câu (dựa trên dấu chấm câu)."""
    if not text:
        return []
    # Tách câu dựa trên . ! ?
    sent = re.split(r'(?<=[.!?])\s+', text.strip())
    # Nếu tách không được (ít dấu chấm), thử tách theo dòng
    if len(sent) == 1:
        parts = [s.strip() for s in text.split('\n') if s.strip()]
        if parts:
            return parts
    return [s.strip().rstrip('.') for s in sent if s.strip()]
# Để code ngắn gọn, mình tóm tắt lại các regex quan trọng
_re_at_prefix = re.compile(r'^@[^:]{0,60}:\s*', flags=re.IGNORECASE)
_name_pattern = re.compile(r'\b([A-ZÀ-Ỹ][a-zà-ỹ]+(?:_[A-ZÀ-Ỹ][a-zà-ỹ]+)+)\b') 
_doctor_pattern = re.compile(r'\b(BS|Bác sĩ|Lương y|Dr)\.?\s+([A-ZÀ-Ỹ][a-zà-ỹ_]+(\s+[A-ZÀ-Ỹ][a-zà-ỹ_]+)*)', flags=re.IGNORECASE)
_pronoun_pattern = re.compile(r'\b(cháu|em|tớ|mình|con|anh|chị)\b', flags=re.IGNORECASE)
ACTION_VERBS = set(["uống", "khám", "ăn", "kiêng", "tập", "theo dõi", "điều trị", "phẫu thuật", "xét nghiệm", "chụp", "bôi", "rửa", "ngủ", "nghỉ"]) 
# =========================
# 6. Danh sách động từ hành động y tế (ĐÃ CẬP NHẬT MỞ RỘNG)
# =========================
ACTION_VERBS = set([
    # Nhóm dùng thuốc / điều trị
    "uống", "uống thuốc", "dùng", "dùng thuốc", "xịt", "bôi", "thoa", "nhỏ", "ngậm", 
    "tiêm", "chích", "truyền", "phẫu thuật", "mổ", "tiểu phẫu", "kê đơn", "điều trị",
    "chườm", "chườm nóng", "chườm lạnh", "băng bó", "sát trùng", "rửa vết thương",
    "hút rửa", "xông", "khí dung", "châm cứu", "bấm huyệt", "massage", "xoa bóp",
    
    # Nhóm khám / xét nghiệm
    "khám", "đi khám", "tái khám", "thăm khám", "kiểm tra", "xét nghiệm", "lấy mẫu",
    "siêu âm", "chụp", "chụp x-quang", "chụp ct", "chụp mri", "nội soi", "đo huyết áp",
    "đo đường huyết", "theo dõi", "đánh giá", "tầm soát",
    
    # Nhóm sinh hoạt / dinh dưỡng
    "ăn", "ăn kiêng", "kiêng", "tránh", "hạn chế", "bổ sung", "tăng cường", "giảm",
    "uống nước", "ngủ", "nghỉ ngơi", "kê gối", "nằm nghiêng", "tập", "tập luyện", 
    "vận động", "tập vật lý trị liệu", "thể dục", "vệ sinh", "súc miệng", "súc họng",
    "rửa tay", "rửa mũi", "đeo khẩu trang", "cách ly", "nhập viện", "cấp cứu",

    # Bổ sung
    'khám', 'đi', 'uống', 'ăn', 'đi khám', 'tiêm', 'siêu', 'dùng', 'siêu âm', 'nội', 'tránh', 'đặt', 'uống thuốc', 'nhỏ', 'bổ', 'khám và', 'tránh thai', 'bổ sung', 'dùng thuốc', 'khám bệnh', 'chụp', 'ăn uống', 'khám bác sĩ', 'khám sức', 'khám sức khỏe', 'khám bác', 'truyền', 'đi ngoài', 'kê', 'nội soi', 'khám tại', 'đi siêu âm', 'khám thai', 'đặt lịch', 'đi siêu', 'khám lại', 'nội tiết', 'khám để', 'hút', 'tiêm chủng', 'khám ở', 'đi khám bác', 'khám phụ khoa', 'nội mạc', 'đi khám để', 'khám chuyên khoa', 'khám phụ', 'đi khám và', 'khám chuyên', 'nội mạc tử', 'đặt lịch khám', 'tiêm ngừa', 'khám và tư', 'kiêng', 'đi lại', 'rửa', 'khám thì', 'đi tiểu', 'đi khám ở', 'nội khoa', 'đi khám lại', 'quá lo lắng', 'uống sữa', 'ăn dặm', 'uống nước', 'tránh thai khẩn', 'bôi', 'thai khẩn cấp', 'kê đơn', 'khám tại bệnh', 'khám online', 'khám bệnh viện', 'tiêm mũi', 'khám trực', 'chụp x quang', 'tiêm vacxin', 'khám và điều', 'đi xét nghiệm', 'đi khám thai', 'đi khám thì', 'đi khám chuyên', 'tiêm phòng', 'truyền nhiễm', 'uống nhiều', 'chụp x', 'cho bé đi', 'đi tái', 'đưa bé đi', 'đi xét', 'siêu âm và', 'ăn nhiều', 'khám bệnh bv', 'bổ sung vitamin', 'đi phân', 'khám tư', 'bổ sung thêm', 'uống thuốc tránh', 'uống thêm', 'đi khám phụ', 'nội soi dạ', 'khám ngay', 'đi cầu', 'uống thuốc gì', 'khám bệnh bệnh', 'đeo', 'dùng thuốc gì', 'đi ngoài phân', 'đi tái khám', 'đến bệnh viện', 'khám thai định', 'làm sao', 'khám với', 'tiêm vaccine', 'uống được', 'uống nhiều nước', 'khám ở bệnh', 'siêu âm thì', 'đi kiểm tra', 'đi tiêm', 'đi tiêu', 'đưa bé đến', 'khám trực tiếp', 'khám được', 'đặt khám', 'đi khám ngay', 'tiêm vắc xin', 'đặt tư vấn', 'khám em', 'siêu vi', 'đặt thuốc', 'khám với bác', 'tiêm vắc', 'khám để được', 'thiết', 'đi làm', 'hút thai', 'siêu âm tim', 'đi khám tại', 'uống 1', 'tiêm được', 'tránh thai hàng', 'khám không', 'ăn và', 'uống đủ', 'hút thuốc', 'dùng thuốc tránh', 'làm gì', 'đi khám bệnh', 'đi kiểm', 'siêu âm lại', 'khám định', 'thai hàng ngày', 'đến khám tại', 'đi vệ', 'đi vệ sinh', 'tiêm thuốc', 'dùng biện pháp', 'tiêm chủng chuyên', 'siêu âm thai', 'khám định kỳ', 'khám thì bác', 'kê đơn thuốc', 'ăn được', 'ăn không', 'liên hệ với', 'khám để bác', 'kê thuốc', 'uống đủ nước', 'khám tại khoa', 'đặt vòng', 'khám bệnh chuyên', 'khám hiếm muộn', 'đi khám không', 'thai', 'dùng biện', 'đặt câu', 'đặt câu hỏi', 'uống và', 'chụp mri', 'khám sớm', 'khám cho', 'uống có', 'làm gì để', 'nội tiết tố', 'uống bổ sung', 'nội tổng', 'khám và làm', 'kê toa', 'siêu âm ở', 'nội soi bóc', 'siêu âm thấy', 'khám tư vấn', 'khám hiếm', 'dùng cho', 'đi kèm', 'ăn đủ', 'ăn của', 'khám tổng', 'khám tổng quát', 'khám và siêu'
])

def sentence_has_action(s):
    for act in ACTION_VERBS:
        if re.search(r'\b' + re.escape(act.replace("_", " ")) + r'\b', s.lower()): return True
    return False

def preprocess_reference_sentence_for_embedding(s: str) -> str:
    """
    Tiền xử lý câu TRƯỚC khi tính embedding/score:
    - Loại bỏ câu hỏi (kết thúc bằng ?)
    - Loại bỏ cụm 'Trả lời' ở đầu câu (MỚI BỔ SUNG)
    - Loại bỏ tên riêng, danh xưng bác sĩ
    - Chuẩn hóa đại từ, loại bỏ từ nối
    """
    if not s:
        return ""
    s = s.strip()
    
    # 1. Loại bỏ câu hỏi
    if s.endswith('?'):
        return "" # Trả về rỗng để code phía sau loại bỏ câu này

    # 2. Xử lý rác đặc biệt (prefix @)
    s = _re_at_prefix.sub("", s)

    # [QUAN TRỌNG] 2.1. Xóa cụm "Trả lời" / "Trả_lời" ở đầu câu
    # Đoạn này bị thiếu trong bản code bạn vừa gửi
    s = re.sub(r'^trả[_\s]lời\s*[:.]?\s*', '', s, flags=re.IGNORECASE)

    # 3. Loại bỏ tên riêng (Vũ_Công_Thắng) và danh xưng bác sĩ
    s = _name_pattern.sub("", s)  # Xóa tên dạng tokenized (Vũ_Công_Thắng)
    s = _doctor_pattern.sub("", s) # Xóa dạng "BS Nguyễn Văn A"

    # 4. Thay đại từ xưng hô -> 'bạn'
    s = _pronoun_pattern.sub("bạn", s)

    # 5. Xóa từ nối
    s = _connective_pattern.sub("", s)

    # 6. Chuẩn hóa khoảng trắng
    s = re.sub(r'\s+', ' ', s).strip()
    return s

def split_sentences(text):
    if not text: return []
    return [s.strip() for s in re.split(r'(?<=[.!?])\s+', text) if s.strip()]

# =========================
# 7. Logic Gộp câu (Retrieval Logic)
# =========================
def find_best_action_sentence_by_embedding_combined(
    user_text: str,
    topk_rows: List[dict],
    ref_specialty: dict,
    sent_sim_thresh: float = 0.6,
    combined_thresh: float = 0.68,
    alpha: float = 0.7,
    beta: float = 0.25,
    gamma: float = 0.05,
    max_debug_show: int = 15
) -> Tuple[Optional[str], Optional[int], Optional[str]]:
    """
    Tìm và trích xuất thông tin hành động tốt nhất.
    Logic:
    1. Tính combined score (Câu + Question similarity + Lexical overlap).
    2. Xác định 'Bài viết tốt nhất' (Best Reference) dựa trên câu có điểm cao nhất thỏa mãn điều kiện.
    3. Gom (Cluster) tất cả các câu hành động khác thuộc cùng bài viết đó.
    4. Trả về đoạn văn tổng hợp.
    """
    print("\n=== [DEBUG] RUN find_best_action_sentence_by_embedding_combined ===")
    
    if not topk_rows:
        print("[DEBUG] topk_rows rỗng -> trả (None, None, None)")
        return None, None, None

    # -------------------------------------------------------
    # 1. Thu thập và tiền xử lý tất cả các câu từ Top-K Documents
    # -------------------------------------------------------
    all_sents = []  # list of (ref_pos, question_text, sentence_original, sentence_preprocessed)
    orig_qa_map = {} 
    
    for ref_pos, r in enumerate(topk_rows, start=1):
        question_text = r["row"].get("question", "") or ""
        raw_answer = r["row"].get("answer", "") or ""
        # Lưu lại bản gốc để hiển thị phần "Tham khảo"
        orig_qa_map[ref_pos] = f"Q: {question_text}\nA: {raw_answer}"
        
        # Tách câu
        sents = split_sentences(raw_answer)
        kept = 0
        for s in sents:
            s_orig = _clean_text(s)
            # Preprocess: xóa tên, xóa câu hỏi, chuẩn hóa để tính embedding
            s_proc = preprocess_reference_sentence_for_embedding(s_orig)
            
            # Chỉ lấy câu có độ dài >= 6 ký tự và không rỗng
            if len(s_proc) >= 6: 
                all_sents.append((ref_pos, question_text, s_orig, s_proc))
                kept += 1
                
    if not all_sents:
        print("[DEBUG] Không tìm thấy câu hợp lệ sau khi preprocess.")
        return None, None, None

    # -------------------------------------------------------
    # 2. Embedding User Query & Chuẩn bị dữ liệu so sánh
    # -------------------------------------------------------
    user_q = preprocess_query(user_text)
    user_emb = sentence_embedding(user_q).astype("float32")
    # Tập token của user để tính Lexical Overlap
    user_tokens_set = set([t.lower() for t in re.findall(r'\w+', user_text) if len(t) >= 2])

    # -------------------------------------------------------
    # 3. Tính điểm Combined Score cho từng câu
    # -------------------------------------------------------
    question_emb_cache = {}
    scored = [] # List chứa kết quả: (combined, sim_sent, sim_q, lex, sent_orig, sent_proc, ref_pos)

    for ref_pos, question_text, sent_orig, sent_proc in all_sents:
        # Cache embedding của câu hỏi gốc (Question Embedding) để tránh tính lại nhiều lần
        if ref_pos not in question_emb_cache:
            q_text_proc = preprocess_query(question_text) if question_text else ""
            if q_text_proc:
                question_emb_cache[ref_pos] = sentence_embedding(q_text_proc).astype("float32")
            else:
                question_emb_cache[ref_pos] = np.zeros(user_emb.shape, dtype=np.float32)

        # A. Sentence Similarity
        s_emb = sentence_embedding(sent_proc).astype("float32")
        sim_sent = cosine_sim(user_emb, s_emb)
        
        # B. Question Similarity (User Query vs Reference Question)
        sim_q = cosine_sim(user_emb, question_emb_cache[ref_pos])

        # C. Lexical Overlap (Độ trùng lặp từ khóa)
        sent_tokens_set = set([t.lower() for t in re.findall(r'\w+', sent_proc) if len(t) >= 2])
        lex_overlap = 0.0
        if user_tokens_set:
            common = len(user_tokens_set & sent_tokens_set)
            lex_overlap = float(common) / max(1, len(user_tokens_set))

        # D. Công thức tổng hợp
        combined = alpha * sim_sent + beta * sim_q + gamma * lex_overlap
        
        scored.append((combined, sim_sent, sim_q, lex_overlap, sent_orig, sent_proc, ref_pos))

    # -------------------------------------------------------
    # 4. Sắp xếp giảm dần theo Combined Score
    # -------------------------------------------------------
    scored_sorted = sorted(scored, key=lambda x: x[0], reverse=True)

    # In Debug Top candidates (để kiểm tra)
    print("\n=== [DEBUG] TOP candidates sorted by combined score ===")
    for idx, (comb, sim_s, sim_q, lex, s_orig, s_proc, rf) in enumerate(scored_sorted[:max_debug_show], start=1):
        print(f"[TOP{idx}] combined={comb:.4f} | sim_sent={sim_s:.4f} | sim_q={sim_q:.4f} | ref={rf} | '{s_proc[:50]}...'")

    # -------------------------------------------------------
    # 5. Xác định Reference (Bài viết) tốt nhất
    # -------------------------------------------------------
    best_ref_pos = None
    
    # Duyệt từ trên xuống, tìm câu đầu tiên thỏa mãn ngưỡng VÀ có chứa Action Verb
    for combined, sim_sent, sim_q, lex, sent_orig, sent_proc, ref_pos in scored_sorted:
        if sim_sent >= sent_sim_thresh and combined >= combined_thresh:
             if sentence_has_action(sent_proc) or sentence_has_action(sent_orig):
                 best_ref_pos = ref_pos
                 print(f"\n[DEBUG] Đã tìm thấy Best Reference ID: {best_ref_pos} từ câu có score cao nhất.")
                 break
    
    if best_ref_pos is None:
        print("[DEBUG] Không tìm thấy câu nào thỏa mãn ngưỡng và có từ hành động.")
        return None, None, None

    # -------------------------------------------------------
    # 6. Gom (Cluster) các câu thuộc Best Reference
    # -------------------------------------------------------
    final_sentences_list = []
    print(f"\n[DEBUG] Đang gom các câu thuộc Ref {best_ref_pos}...")
    
    # Duyệt lại danh sách đã sắp xếp
    for combined, sim_sent, sim_q, lex, sent_orig, sent_proc, ref_pos in scored_sorted:
        # Chỉ xét các câu thuộc cùng bài viết tốt nhất (best_ref_pos)
        if ref_pos == best_ref_pos:
            # Kiểm tra lại điều kiện ngưỡng
            if sim_sent >= sent_sim_thresh and combined >= combined_thresh:
                if sentence_has_action(sent_proc) or sentence_has_action(sent_orig):
                    # Xử lý hậu kỳ: Thay 'cháu/em' thành 'bạn'
                    s_final = _pronoun_pattern.sub("bạn", sent_orig)
                    s_final = re.sub(r'\s+', ' ', s_final).strip()
                    
                    # Tránh trùng lặp nội dung
                    if s_final not in final_sentences_list:
                        final_sentences_list.append(s_final)
                        print(f"  -> Chọn: [{combined:.4f}] {s_final[:60]}...")

    if not final_sentences_list:
        return None, None, None

    # Nối các câu lại thành đoạn văn bản
    final_paragraph = " ".join(final_sentences_list)
    
    # Lấy thông tin meta để trả về
    orig_qa = orig_qa_map.get(best_ref_pos, "")

    # Trả về 3 giá trị để dùng cho phần LLM Generator
    return final_paragraph, best_ref_pos, orig_qa

# ==============================================================================
# 8. [NEW] MODULE LLM GENERATION - TÍCH HỢP MÔ HÌNH NGÔN NGỮ
# ==============================================================================

def generate_natural_response(user_query: str, retrieved_content: str, specialty: str) -> str:
    # --- PROMPT (Giữ nguyên) ---
    prompt = f"""
Bạn là một bác sĩ tư vấn trực tuyến tận tâm, chuyên nghiệp thuộc chuyên khoa {specialty}.
Dưới đây là thông tin y khoa đã được tra cứu từ cơ sở dữ liệu tin cậy:
---
{retrieved_content}
---
Yêu cầu:
1. Trả lời câu hỏi: "{user_query}" dựa trên thông tin trên.
2. Diễn đạt tự nhiên, ân cần. Xưng hô "Bác sĩ" - "bạn".
3. Cuối câu nhắc: "Thông tin chỉ mang tính chất tham khảo, bạn nên đi khám trực tiếp tại chuyên khoa {specialty}"
"""
    print("\n" + "="*20 + " [DEBUG] LLM INPUT PROMPT " + "="*20)
    print(prompt)
    print("="*60 + "\n")

    # --- SỬ DỤNG API ---
    try:
        import google.generativeai as genai
        
        API_KEY = "AIzaSyB4kQmT9uYLt-b0mKNL4ReUs8uVAx_bCpI" 
        
        if API_KEY.startswith("DIEN_API"):
             # Nếu chưa điền key, nhảy xuống mock
             raise ValueError("Chưa điền API Key")

        genai.configure(api_key=API_KEY) 
        
        # --- CẬP NHẬT MODEL THEO DANH SÁCH KHẢ DỤNG ---
        # Ưu tiên 1: Gemini 2.0 Flash (Nhanh, thông minh, đời mới nhất)
        target_model = 'gemini-2.0-flash'
        
        try:
            model = genai.GenerativeModel(target_model)
            response = model.generate_content(prompt)
            if response and response.text:
                return response.text
                
        except Exception as e_primary:
            print(f"[LLM Info] '{target_model}' gặp lỗi: {e_primary}")
            print("Đang thử model dự phòng 'gemini-2.0-flash-lite'...")
            
            # Ưu tiên 2: Gemini 2.0 Flash Lite (Nhẹ hơn, dự phòng)
            try:
                model = genai.GenerativeModel('gemini-2.0-flash-lite')
                response = model.generate_content(prompt)
                if response and response.text:
                    return response.text
            except Exception as e_secondary:
                 print(f"[LLM Error] Cả 2 model đều lỗi. Chi tiết: {e_secondary}")
            
    except ImportError:
        print("[LLM Warning] Chưa cài thư viện 'google-generativeai'.")
    except Exception as e:
        print(f"[LLM Error] Gọi API thất bại: {e}")
        # Đoạn code dưới đây giúp bạn xem mình được quyền dùng model nào
        # Chỉ chạy khi debug để biết tên model đúng
        try:
            print("Danh sách model khả dụng với Key của bạn:")
            for m in genai.list_models():
                if 'generateContent' in m.supported_generation_methods:
                    print(f"- {m.name}")
        except:
            pass
        print("-> Chuyển sang chế độ MOCK response.")

    # --- MOCK RESPONSE (Fallback) ---
    print("[DEBUG] Đang chạy chế độ MOCK (Fallback)...")
    time.sleep(1.0)
    
    mock_response = (
        f"Chào bạn, bác sĩ chuyên khoa {specialty} xin giải đáp:\n\n"
        f"{retrieved_content}\n\n"
        f"(Câu trả lời được tổng hợp tự động, bạn nên đi khám trực tiếp)."
    )
    
    return mock_response

# =========================
# 9. Vòng lặp chính (Đã cập nhật)
# =========================
FALLBACK = "Xin lỗi, hiện tại hệ thống không tìm thấy thông tin phù hợp trong dữ liệu tham khảo. Bạn vui lòng đi khám trực tiếp tại cơ sở y tế."

print("\n=== Chatbot RAG (PhoBERT Retrieval + LLM Generation) ===")
print("Nhập 'Kết thúc' để dừng.\n")

while True:
    try:
        user_input = input("Người dùng: ")
    except (EOFError, KeyboardInterrupt):
        break
    if not user_input or user_input.strip().lower() == "kết thúc":
        break

    # BƯỚC 1: Retrieval (Tìm kiếm)
    print("--- [1] Đang tìm kiếm thông tin... ---")
    topk_results = retrieve_topk(user_input, k=5, thresh=0.55)
    
    # Tạo metadata mapping
    ref_specialty = {}
    for i, r in enumerate(topk_results, 1):
        ref_specialty[i] = r['row'].get('topic')

    # BƯỚC 2: Extraction (Trích xuất thông tin thô)
    print("--- [2] Đang trích xuất & lọc thông tin... ---")
    raw_advice_text, matched_ref_id, orig_qa = find_best_action_sentence_by_embedding_combined(
        user_input, topk_results, ref_specialty
    )

    # BƯỚC 3: Generation (Sinh câu trả lời với LLM)
    if raw_advice_text:
        # Lấy chuyên khoa của bài viết tốt nhất
        current_spec = ref_specialty.get(matched_ref_id)
        
        print(f"[DEBUG] Raw extracted text found from Ref {matched_ref_id}: {raw_advice_text[:50]}...")
        print("--- [3] Đang gọi mô hình LLM để tổng hợp... ---")
        
        # GỌI HÀM LLM
        final_response = generate_natural_response(user_input, raw_advice_text, current_spec)
        
        print("\n" + "*"*10 + " CHATBOT TRẢ LỜI " + "*"*10)
        print(final_response)
        print("-" * 40)
        # Tùy chọn: In ra nguồn tham khảo gốc để debug
        # print(f"\n[Nguồn tham khảo - ID {matched_ref_id}]:\n{orig_qa}\n")
    else:
        print("\nChatbot: " + FALLBACK + "\n")

## [DEBUG] pho_retrieval_textonly_actionfiltered_final_with_articles.py

In [10]:
# pho_retrieval_textonly_actionfiltered_final_with_articles.py
# ===========================================================
# Pipeline RAG:
# - Retrieval: PhoBERT embeddings cho corpus Q/A + index bài viết (link,title,txt)
# - Extraction: tìm câu "hành động" tốt nhất từ top-k Q/A (combined score + lex overlap)
# - Article retrieval: tìm bài viết liên quan nhất và trả nguyên văn trong mục "Tham khảo"
# - Generation: tích hợp LLM (mock nếu không có API) để viết lại câu trả lời tự nhiên
# Output: PLAIN TEXT (lời khuyên, chuyên khoa, tham khảo nguyên văn)
# ===========================================================

import re
import time
import threading
from html import unescape
from typing import List, Tuple, Optional
import os
import numpy as np
import pandas as pd
import torch
from transformers import AutoTokenizer, AutoModel
from underthesea import word_tokenize
import hnswlib

# =========================
# 0. Cấu hình thiết bị & môi trường
# =========================
device = "cuda" if torch.cuda.is_available() else "cpu"
print("Device:", device)

# =========================
# 1. Đọc CSV Q/A (corpus) và tiền xử lý
#    - file Q/A theo cấu trúc: question, answer, topic (có thể đặt khác => chỉnh csv_path)
# =========================
csv_path = "/kaggle/working/filtered-question-answers.csv"  # chỉnh lại nếu cần
if not os.path.exists(csv_path):
    csv_path = "/mnt/data/filtered-question-answers.csv"
if os.path.exists(csv_path):
    df = pd.read_csv(csv_path)
    print(f"[DATA] Đã đọc Q/A từ: {csv_path} (bản ghi: {len(df)})")
else:
    print(f"[DATA] Không tìm thấy Q/A file tại {csv_path}. Tạo dataframe rỗng.")
    df = pd.DataFrame(columns=["question", "answer", "topic", "advice"])

def preprocess_text(s: str) -> str:
    if not isinstance(s, str):
        return ""
    s = re.sub(r'\s+', ' ', s.strip())
    return word_tokenize(s, format="text")

for col in ["question", "answer", "topic", "advice"]:
    if col in df.columns:
        df[col] = df[col].fillna("").astype(str).apply(preprocess_text)

# =========================
# 2. Đọc file bài viết (articles) gồm các cột: link, title, txt
#    - Mặc định tìm ở /mnt/data/articles.csv hoặc /kaggle/working/articles.csv
# =========================
articles_paths = ["/kaggle/input/articles/bloomax.csv"]
articles_df = None
for p in articles_paths:
    if os.path.exists(p):
        try:
            articles_df = pd.read_csv(p)
            print(f"[ARTICLES] Đã đọc articles từ: {p} (bản ghi: {len(articles_df)})")
            break
        except Exception as e:
            print(f"[ARTICLES] Lỗi đọc {p}: {e}")
if articles_df is None:
    # tạo dataframe rỗng để pipeline không lỗi
    print("[ARTICLES] Không tìm thấy file bài viết. Article index sẽ rỗng.")
    articles_df = pd.DataFrame(columns=["link", "title", "txt"])

for col in ["link", "title", "txt"]:
    if col in articles_df.columns:
        articles_df[col] = articles_df[col].fillna("").astype(str).apply(lambda s: re.sub(r'\s+', ' ', s.strip()))

# =========================
# 3. Load PhoBERT (retrieval encoder)
# =========================
RETRIEVAL_MODEL_NAME = "vinai/phobert-base"
print(f"[MODEL] Loading retrieval model {RETRIEVAL_MODEL_NAME} ...")
tokenizer_phobert = AutoTokenizer.from_pretrained(RETRIEVAL_MODEL_NAME)
model_phobert = AutoModel.from_pretrained(RETRIEVAL_MODEL_NAME).to(device)
model_phobert.eval()

def sentence_embedding(text: str) -> np.ndarray:
    """
    Embedding bằng PhoBERT: mean-pooling trên last_hidden_state.
    Trả về numpy float32 vector.
    """
    if not text:
        return np.zeros(model_phobert.config.hidden_size, dtype=np.float32)
    inputs = tokenizer_phobert(text, return_tensors="pt", truncation=True, max_length=256)
    inputs = {k: v.to(device) for k, v in inputs.items()}
    with torch.no_grad():
        out = model_phobert(**inputs)
        last_hidden = out.last_hidden_state  # (1, seq_len, hidden)
        att = inputs.get("attention_mask", None)
        if att is None:
            mean_pooled = last_hidden.mean(dim=1).squeeze().cpu().numpy().astype("float32")
        else:
            attention_mask = att.unsqueeze(-1)
            masked = last_hidden * attention_mask
            summed = masked.sum(dim=1)
            counts = attention_mask.sum(dim=1).clamp(min=1e-9)
            mean_pooled = (summed / counts).squeeze().cpu().numpy().astype("float32")
    return mean_pooled

# =========================
# 4. Tạo embeddings cho Q/A corpus (document-level) và bài viết (article-level)
#    - Q/A: dùng texts = question + " " + answer
#    - Articles: dùng title + "\n\n" + txt
# =========================
print("[INDEX] Chuẩn bị văn bản cho index...")

qa_texts = (df["question"].fillna("") + " " + df["answer"].fillna("")).tolist() if not df.empty else []
article_texts = []
if not articles_df.empty:
    # combine title + content
    for _, row in articles_df.iterrows():
        title = row.get("title", "") or ""
        txt = row.get("txt", "") or ""
        article_texts.append((row.get("link", ""), title, title + "\n\n" + txt))
else:
    article_texts = []

# Build embeddings with batching and build two indices
def build_hnsw_index(vectors: np.ndarray, space: str = "cosine") -> hnswlib.Index:
    dim = vectors.shape[1]
    idx = hnswlib.Index(space=space, dim=dim)
    idx.init_index(max_elements=vectors.shape[0], ef_construction=200, M=16)
    ids = np.arange(vectors.shape[0])
    idx.add_items(vectors, ids)
    idx.set_ef(50)
    return idx

# Build QA embeddings
print("[INDEX] Tạo embeddings cho Q/A ...")
qa_embeddings = []
batch_size = 32
for i in range(0, len(qa_texts), batch_size):
    for t in qa_texts[i:i+batch_size]:
        qa_embeddings.append(sentence_embedding(t))
    if i % 200 == 0:
        print(f"[INDEX] Embedded QA {i}/{len(qa_texts)}")
if qa_embeddings:
    qa_embeddings = np.vstack(qa_embeddings).astype("float32")
    qa_index = build_hnsw_index(qa_embeddings)
    print(f"[INDEX] QA index built. Num elements: {qa_index.get_current_count()}")
else:
    qa_embeddings = np.zeros((0, model_phobert.config.hidden_size), dtype="float32")
    qa_index = None
    print("[INDEX] QA index is empty.")

# Build Article embeddings
print("[INDEX] Tạo embeddings cho Articles ...")
article_embeddings = []
for i, (_, title, content) in enumerate(article_texts):
    article_embeddings.append(sentence_embedding(content))
    if i % 100 == 0:
        print(f"[INDEX] Embedded Articles {i}/{len(article_texts)}")
if article_embeddings:
    article_embeddings = np.vstack(article_embeddings).astype("float32")
    article_index = build_hnsw_index(article_embeddings)
    print(f"[INDEX] Article index built. Num elements: {article_index.get_current_count()}")
else:
    article_embeddings = np.zeros((0, model_phobert.config.hidden_size), dtype="float32")
    article_index = None
    print("[INDEX] Article index is empty.")

# =========================
# 5. Các hàm tiền xử lý & trợ giúp (cũ + nâng cấp)
# =========================
def preprocess_query(s: str) -> str:
    return word_tokenize(s.strip().replace("_", " "), format="text")

def cosine_sim(a: np.ndarray, b: np.ndarray) -> float:
    if a is None or b is None:
        return 0.0
    na = np.linalg.norm(a)
    nb = np.linalg.norm(b)
    if na == 0 or nb == 0:
        return 0.0
    return float(np.dot(a, b) / (na * nb))

def retrieve_topk_qa(query_text: str, k: int = 5, question_sim_thresh: float = 0.55):
    """
    Truy vấn QA index (document-level). Sau khi lấy raw candidates (k*3),
    kiểm tra similarity giữa user và field 'question' của record rồi lọc.
    Trả về list tối đa k item giống định dạng trước đó.
    """
    print(f"[RETRIEVE_QA] Query: '{query_text[:80]}' | k={k} | question_sim_thresh={question_sim_thresh}")
    if qa_index is None or qa_index.get_current_count() == 0:
        print("[RETRIEVE_QA] QA index rỗng -> trả []")
        return []
    q_proc = preprocess_query(query_text)
    user_emb = sentence_embedding(q_proc).reshape(1, -1)
    raw_k = min(k * 3, qa_index.get_current_count())
    labels, distances = qa_index.knn_query(user_emb, k=raw_k)
    labels = labels[0]
    distances = distances[0]

    results = []
    for dist, idx in zip(distances, labels):
        if idx < 0:
            continue
        # lấy question từ df (đã tiền xử lý)
        q_text = df.iloc[int(idx)].get("question", "") if not df.empty else ""
        if not q_text:
            continue
        q_emb = sentence_embedding(preprocess_query(q_text)).astype("float32")
        sim_q = cosine_sim(user_emb.reshape(-1), q_emb)
        if sim_q >= question_sim_thresh:
            results.append({
                "score": float(1.0 - dist),
                "index": int(idx),
                "row": df.iloc[int(idx)].to_dict(),
                "question_sim": sim_q
            })
        if len(results) >= k:
            break
    print(f"[RETRIEVE_QA] Found {len(results)} candidates.")
    return results

# --------- BẮT ĐẦU: hàm / utils mới cho article retrieval & re-rank ----------
import math

def _token_set(s: str):
    """Đơn giản: lấy token chữ/ số, lowercase. Dùng cho lexical overlap."""
    return set([t.lower() for t in re.findall(r'\w+', s) if len(t) >= 2])

def chunk_text_into_passages(text: str, max_chars: int = 500, overlap_chars: int = 80):
    """
    Chia bài thành các đoạn (passages) kích thước ~max_chars với overlap.
    Trả list các đoạn (nguyên văn).
    """
    if not text:
        return []
    text = text.strip()
    passages = []
    start = 0
    L = len(text)
    while start < L:
        end = start + max_chars
        if end >= L:
            passages.append(text[start:L].strip())
            break
        # cố gắng cắt ở dấu câu gần end để dễ đọc
        cut = text.rfind('.', start, end)
        if cut <= start:
            cut = text.rfind('\n', start, end)
        if cut <= start:
            cut = end
        passages.append(text[start:cut].strip())
        start = max(cut - overlap_chars, cut)  # overlap một chút
    return [p for p in passages if p]

def re_rank_article_candidates(user_emb: np.ndarray, q_tokens_set: set, raw_candidates: List[dict],
                               article_texts_local: List[tuple],
                               topn_return: int = 3,
                               w_sim: float = 0.75, w_lex: float = 0.20, w_title_boost: float = 0.05):
    """
    Re-rank raw candidate list (từ hnswlib) bằng combined score:
      combined = w_sim * sim_article + w_lex * lex_overlap + w_title_boost * title_boost_flag
    Trả về danh sách các candidate đã bổ sung trường 'combined_score' và 'best_passage'.
    - raw_candidates: list các item giống format trước: {'score':..., 'index': idx, ...}
    - article_texts_local: list of tuples (link, title, content)
    """
    reranked = []
    for c in raw_candidates:
        idx = int(c['index'])
        link, title, content = article_texts_local[idx]
        # 1) sim_article: nếu bạn muốn chính xác, hãy tính cosine giữa user_emb và article embedding
        #    nhưng ở đây raw_candidates cung cấp 'score' = 1-dist; vẫn tốt để dùng lại như baseline_sim
        baseline_sim = float(c.get('score', 0.0))
        # 2) lexical overlap: tokens in (title + first 1000 chars of content)
        article_snippet_for_tokens = title + " " + (content[:1000] if content else "")
        art_tokens = _token_set(article_snippet_for_tokens)
        if not q_tokens_set:
            lex_overlap = 0.0
        else:
            common = len(q_tokens_set & art_tokens)
            lex_overlap = common / max(1, len(q_tokens_set))
        # 3) title_boost: nếu tiêu đề chứa >=1 token của query -> 1 else 0
        title_tokens = _token_set(title)
        title_boost_flag = 1.0 if (q_tokens_set & title_tokens) else 0.0

        combined = w_sim * baseline_sim + w_lex * lex_overlap + w_title_boost * title_boost_flag

        # 4) best_passage: tìm passage có sim cao nhất (chi tiết hơn)
        passages = chunk_text_into_passages(content, max_chars=600, overlap_chars=120)
        best_passage = ""
        best_passage_sim = -1.0
        # compute embedding for a few top passages (limiting để không quá chậm)
        for p in passages[:6]:  # chỉ check tối đa 6 đoạn đầu để tiết kiệm time
            p_proc = preprocess_query(p)
            p_emb = sentence_embedding(p_proc).astype("float32")
            sim_p = cosine_sim(user_emb, p_emb)
            if sim_p > best_passage_sim:
                best_passage_sim = sim_p
                best_passage = p
        # fallback: nếu không có passage, lấy đoạn đầu content
        if not best_passage and content:
            best_passage = content[:600]

        reranked.append({
            "index": idx,
            "link": link,
            "title": title,
            "txt": content,
            "baseline_sim": baseline_sim,
            "lex_overlap": lex_overlap,
            "title_boost": title_boost_flag,
            "combined_score": combined,
            "best_passage": best_passage,
            "best_passage_sim": best_passage_sim
        })

    # Sắp xếp giảm dần theo combined_score, trả top-N
    reranked_sorted = sorted(reranked, key=lambda x: x["combined_score"], reverse=True)
    return reranked_sorted[:topn_return]


def retrieve_top_article(query_text: str, k: int = 1, raw_k_multiplier: int = 3,
                         article_texts_local: List[tuple] = None,
                         article_index_local = None,
                         min_combined_score: float = 0.25):
    """
    HÀM CHÍNH (thay thế):
    1) Lấy raw candidates từ article_index_local (hnswlib)
    2) Re-rank bằng re_rank_article_candidates
    3) Trả về top-k articles với trường 'combined_score' + 'best_passage'
    """
    print(f"[RETRIEVE_ART_OPT] Query article for: '{query_text[:120]}' | k={k}")
    if article_index_local is None or article_index_local.get_current_count() == 0:
        print("[RETRIEVE_ART_OPT] Article index rỗng -> trả []")
        return []

    q_proc = preprocess_query(query_text)
    user_emb = sentence_embedding(q_proc).reshape(1, -1).astype("float32")
    q_tokens = _token_set(query_text)

    raw_k = min(k * raw_k_multiplier, article_index_local.get_current_count())
    # 1) knn query lấy raw_k candidate
    labels, distances = article_index_local.knn_query(user_emb, k=raw_k)
    labels = labels[0]
    distances = distances[0]

    raw_candidates = []
    for dist, idx in zip(distances, labels):
        if idx < 0:
            continue
        raw_candidates.append({
            "index": int(idx),
            "score": float(1.0 - dist)  # baseline sim heuristic
        })
    print(f"[RETRIEVE_ART_OPT] raw candidates from HNSW: {len(raw_candidates)}")

    # 2) Re-rank candidates bằng combined score
    reranked = re_rank_article_candidates(user_emb.reshape(-1), q_tokens, raw_candidates,
                                          article_texts_local, topn_return=max(k, 3))
    print(f"[RETRIEVE_ART_OPT] reranked top candidates count: {len(reranked)}")
    # Debug print top few
    for i, r in enumerate(reranked[:min(5, len(reranked))], start=1):
        print(f"[RE-RANK TOP{i}] idx={r['index']} | title='{r['title'][:80]}' | combined={r['combined_score']:.4f} | baseline={r['baseline_sim']:.4f} | lex={r['lex_overlap']:.3f} | title_boost={r['title_boost']} | best_passage_sim={r['best_passage_sim']:.4f}")

    # 3) Filter theo min_combined_score nếu cần
    final = [r for r in reranked if r["combined_score"] >= min_combined_score]
    if not final:
        # Nếu không có ai vượt ngưỡng, trả top 1 reranked (một fallback)
        # if reranked:
        #    print("[RETRIEVE_ART_OPT] Không có article đạt ngưỡng -> trả top1 reranked như fallback")
        #    return [ {**reranked[0], "note": "fallback_no_threshold"} ]
        return []

    # Trả tối đa k items, convert field names giống format cũ (score, index, link, title, txt)
    out = []
    for r in final[:k]:
        out.append({
            "score": r["combined_score"],
            "index": r["index"],
            "link": r["link"],
            "title": r["title"],
            "txt": r["txt"],
            "best_passage": r["best_passage"],
            "best_passage_sim": r["best_passage_sim"]
        })
    return out

# --------- KẾT THÚC: hàm / utils mới cho article retrieval & re-rank ----------

# -------------------------
# text cleaning utils & action verbs (giữ nguyên / mở rộng)
# -------------------------
def _clean_text(t: str) -> str:
    return re.sub(r'\s+', ' ', unescape(t.strip())).strip()

_re_at_prefix = re.compile(r'^@[^:]{0,60}:\s*', flags=re.IGNORECASE)
_name_pattern = re.compile(r'\b([A-ZÀ-Ỹ][a-zà-ỹ]+(?:_[A-ZÀ-Ỹ][a-zà-ỹ]+)+)\b')
_doctor_pattern = re.compile(r'\b(BS|Bác sĩ|Lương y|Dr)\.?\s+([A-ZÀ-Ỹ][a-zà-ỹ_]+(\s+[A-ZÀ-Ỹ][a-zà-ỹ_]+)*)', flags=re.IGNORECASE)
_pronoun_pattern = re.compile(r'\b(cháu|em|tớ|mình|con|anh|chị)\b', flags=re.IGNORECASE)
CONNECTIVES = [
    r'vì vậy', r'vì thế', r'vậy nên', r'do vậy', r'vì vậy nên', r'vì thế nên', r'cho nên',
    r'tóm lại', r'tóm tắt', r'nhưng', r'tuy nhiên'
]
_connective_pattern = re.compile("|".join([re.escape(x) for x in CONNECTIVES]), flags=re.IGNORECASE)

def preprocess_reference_sentence_for_embedding(s: str) -> str:
    """
    Tiền xử lý câu TRƯỚC khi tính embedding/score:
    - Loại bỏ câu hỏi (ending ?)
    - Loại bỏ prefix @..., 'Trả lời'
    - Loại bỏ tên riêng, danh xưng
    - Chuẩn hóa đại từ -> 'bạn'
    - Loại bỏ connectives
    """
    if not s:
        return ""
    s = s.strip()
    if s.endswith('?'):
        return ""
    s = _re_at_prefix.sub("", s)
    s = re.sub(r'^trả[_\s]lời\s*[:.]?\s*', '', s, flags=re.IGNORECASE)
    s = _name_pattern.sub("", s)
    s = _doctor_pattern.sub("", s)
    s = _pronoun_pattern.sub("bạn", s)
    s = _connective_pattern.sub("", s)
    s = re.sub(r'\s+', ' ', s).strip()
    return s

# ACTION_VERBS: giữ phiên bản mở rộng như trước (cắt ngắn ở đây, dùng list dài trong code thật)
ACTION_VERBS = set([
    # Nhóm dùng thuốc / điều trị
    "uống", "uống thuốc", "dùng", "dùng thuốc", "xịt", "bôi", "thoa", "nhỏ", "ngậm", 
    "tiêm", "chích", "truyền", "phẫu thuật", "mổ", "tiểu phẫu", "kê đơn", "điều trị",
    "chườm", "chườm nóng", "chườm lạnh", "băng bó", "sát trùng", "rửa vết thương",
    "hút rửa", "xông", "khí dung", "châm cứu", "bấm huyệt", "massage", "xoa bóp",
    
    # Nhóm khám / xét nghiệm
    "khám", "đi khám", "tái khám", "thăm khám", "kiểm tra", "xét nghiệm", "lấy mẫu",
    "siêu âm", "chụp", "chụp x-quang", "chụp ct", "chụp mri", "nội soi", "đo huyết áp",
    "đo đường huyết", "theo dõi", "đánh giá", "tầm soát",
    
    # Nhóm sinh hoạt / dinh dưỡng
    "ăn", "ăn kiêng", "kiêng", "tránh", "hạn chế", "bổ sung", "tăng cường", "giảm",
    "uống nước", "ngủ", "nghỉ ngơi", "kê gối", "nằm nghiêng", "tập", "tập luyện", 
    "vận động", "tập vật lý trị liệu", "thể dục", "vệ sinh", "súc miệng", "súc họng",
    "rửa tay", "rửa mũi", "đeo khẩu trang", "cách ly", "nhập viện", "cấp cứu",

    # Bổ sung
    'khám', 'đi', 'uống', 'ăn', 'đi khám', 'tiêm', 'siêu', 'dùng', 'siêu âm', 'nội', 'tránh', 'đặt', 'uống thuốc', 'nhỏ', 'bổ', 'khám và', 'tránh thai', 'bổ sung', 'dùng thuốc', 'khám bệnh', 'chụp', 'ăn uống', 'khám bác sĩ', 'khám sức', 'khám sức khỏe', 'khám bác', 'truyền', 'đi ngoài', 'kê', 'nội soi', 'khám tại', 'đi siêu âm', 'khám thai', 'đặt lịch', 'đi siêu', 'khám lại', 'nội tiết', 'khám để', 'hút', 'tiêm chủng', 'khám ở', 'đi khám bác', 'khám phụ khoa', 'nội mạc', 'đi khám để', 'khám chuyên khoa', 'khám phụ', 'đi khám và', 'khám chuyên', 'nội mạc tử', 'đặt lịch khám', 'tiêm ngừa', 'khám và tư', 'kiêng', 'đi lại', 'rửa', 'khám thì', 'đi tiểu', 'đi khám ở', 'nội khoa', 'đi khám lại', 'quá lo lắng', 'uống sữa', 'ăn dặm', 'uống nước', 'tránh thai khẩn', 'bôi', 'thai khẩn cấp', 'kê đơn', 'khám tại bệnh', 'khám online', 'khám bệnh viện', 'tiêm mũi', 'khám trực', 'chụp x quang', 'tiêm vacxin', 'khám và điều', 'đi xét nghiệm', 'đi khám thai', 'đi khám thì', 'đi khám chuyên', 'tiêm phòng', 'truyền nhiễm', 'uống nhiều', 'chụp x', 'cho bé đi', 'đi tái', 'đưa bé đi', 'đi xét', 'siêu âm và', 'ăn nhiều', 'khám bệnh bv', 'bổ sung vitamin', 'đi phân', 'khám tư', 'bổ sung thêm', 'uống thuốc tránh', 'uống thêm', 'đi khám phụ', 'nội soi dạ', 'khám ngay', 'đi cầu', 'uống thuốc gì', 'khám bệnh bệnh', 'đeo', 'dùng thuốc gì', 'đi ngoài phân', 'đi tái khám', 'đến bệnh viện', 'khám thai định', 'làm sao', 'khám với', 'tiêm vaccine', 'uống được', 'uống nhiều nước', 'khám ở bệnh', 'siêu âm thì', 'đi kiểm tra', 'đi tiêm', 'đi tiêu', 'đưa bé đến', 'khám trực tiếp', 'khám được', 'đặt khám', 'đi khám ngay', 'tiêm vắc xin', 'đặt tư vấn', 'khám em', 'siêu vi', 'đặt thuốc', 'khám với bác', 'tiêm vắc', 'khám để được', 'thiết', 'đi làm', 'hút thai', 'siêu âm tim', 'đi khám tại', 'uống 1', 'tiêm được', 'tránh thai hàng', 'khám không', 'ăn và', 'uống đủ', 'hút thuốc', 'dùng thuốc tránh', 'làm gì', 'đi khám bệnh', 'đi kiểm', 'siêu âm lại', 'khám định', 'thai hàng ngày', 'đến khám tại', 'đi vệ', 'đi vệ sinh', 'tiêm thuốc', 'dùng biện pháp', 'tiêm chủng chuyên', 'siêu âm thai', 'khám định kỳ', 'khám thì bác', 'kê đơn thuốc', 'ăn được', 'ăn không', 'liên hệ với', 'khám để bác', 'kê thuốc', 'uống đủ nước', 'khám tại khoa', 'đặt vòng', 'khám bệnh chuyên', 'khám hiếm muộn', 'đi khám không', 'thai', 'dùng biện', 'đặt câu', 'đặt câu hỏi', 'uống và', 'chụp mri', 'khám sớm', 'khám cho', 'uống có', 'làm gì để', 'nội tiết tố', 'uống bổ sung', 'nội tổng', 'khám và làm', 'kê toa', 'siêu âm ở', 'nội soi bóc', 'siêu âm thấy', 'khám tư vấn', 'khám hiếm', 'dùng cho', 'đi kèm', 'ăn đủ', 'ăn của', 'khám tổng', 'khám tổng quát', 'khám và siêu'
])

def sentence_has_action(s: str) -> bool:
    sl = s.lower()
    for act in ACTION_VERBS:
        act_norm = act.replace("_", " ").lower()
        if re.search(r'\b' + re.escape(act_norm) + r'\b', sl):
            return True
    return False

# =========================
# 6. Hàm chính: tìm best action sentence (combined scoring) - GIỮ NGUYÊN, TRẢ KÈM ORIG QA
# =========================
def find_best_action_sentence_by_embedding_combined(
    user_text: str,
    topk_rows: List[dict],
    ref_specialty: dict,
    sent_sim_thresh: float = 0.6,
    combined_thresh: float = 0.68,
    alpha: float = 0.7,
    beta: float = 0.25,
    gamma: float = 0.05,
    max_debug_show: int = 15
) -> Tuple[Optional[str], Optional[int], Optional[str]]:
    """
    Như mô tả trước: trả về (final_paragraph, best_ref_pos, orig_qa)
    final_paragraph: đoạn ghép các câu hành động từ best reference, đã chuẩn hóa đại từ (bạn)
    orig_qa: nguyên văn Q/A (để hiển thị trong "Tham khảo")
    """
    print("\n=== [DEBUG] RUN find_best_action_sentence_by_embedding_combined ===")
    if not topk_rows:
        print("[DEBUG] topk_rows rỗng -> trả (None, None, None)")
        return None, None, None

    # 1) thu thập câu và lưu orig QA
    all_sents = []
    orig_qa_map = {}
    for ref_pos, r in enumerate(topk_rows, start=1):
        question_text = r["row"].get("question", "") or ""
        raw_answer = r["row"].get("answer", "") or ""
        orig_qa_map[ref_pos] = f"Q: {question_text}\nA: {raw_answer}"
        sents = re.split(r'(?<=[.!?])\s+', raw_answer.strip()) if raw_answer else []
        kept = 0
        for s in sents:
            s_orig = _clean_text(s)
            s_proc = preprocess_reference_sentence_for_embedding(s_orig)
            if len(s_proc) >= 6:
                all_sents.append((ref_pos, question_text, s_orig, s_proc))
                kept += 1
        print(f"[DEBUG] ref_pos={ref_pos} | kept_sentences={kept}")

    if not all_sents:
        print("[DEBUG] Không có câu hợp lệ sau preprocess.")
        return None, None, None

    # 2) embeddings user
    user_q = preprocess_query(user_text)
    user_emb = sentence_embedding(user_q).astype("float32")
    user_tokens_set = set([t.lower() for t in re.findall(r'\w+', user_text) if len(t) >= 2])

    # 3) compute combined scores
    question_emb_cache = {}
    scored = []
    for ref_pos, question_text, sent_orig, sent_proc in all_sents:
        if ref_pos not in question_emb_cache:
            q_text_proc = preprocess_query(question_text) if question_text else ""
            question_emb_cache[ref_pos] = sentence_embedding(q_text_proc).astype("float32") if q_text_proc else np.zeros(user_emb.shape, dtype=np.float32)
        s_emb = sentence_embedding(sent_proc).astype("float32")
        sim_sent = cosine_sim(user_emb, s_emb)
        sim_q = cosine_sim(user_emb, question_emb_cache[ref_pos])
        sent_tokens_set = set([t.lower() for t in re.findall(r'\w+', sent_proc) if len(t) >= 2])
        lex_overlap = float(len(user_tokens_set & sent_tokens_set)) / max(1, len(user_tokens_set)) if user_tokens_set else 0.0
        combined = alpha * sim_sent + beta * sim_q + gamma * lex_overlap
        scored.append((combined, sim_sent, sim_q, lex_overlap, sent_orig, sent_proc, ref_pos))

    scored_sorted = sorted(scored, key=lambda x: x[0], reverse=True)
    print("\n=== [DEBUG] TOP candidates sorted by combined score ===")
    for idx, (comb, sim_s, sim_q, lex, s_orig, s_proc, rf) in enumerate(scored_sorted[:max_debug_show], start=1):
        print(f"[TOP{idx}] combined={comb:.4f} | sim_sent={sim_s:.4f} | sim_q={sim_q:.4f} | ref={rf} | '{s_proc[:80]}...'")

    # 4) tìm best ref: câu đầu thỏa sim_sent & combined & có action verb
    best_ref_pos = None
    for combined, sim_sent, sim_q, lex, sent_orig, sent_proc, ref_pos in scored_sorted:
        if sim_sent >= sent_sim_thresh and combined >= combined_thresh:
            if sentence_has_action(sent_proc) or sentence_has_action(sent_orig):
                best_ref_pos = ref_pos
                print(f"[DEBUG] Best reference found: ref_pos={best_ref_pos} (combined={combined:.4f}, sim_sent={sim_sent:.4f})")
                break

    if best_ref_pos is None:
        print("[DEBUG] Không tìm thấy reference thỏa ngưỡng & có từ hành động.")
        return None, None, None

    # 5) gom các câu từ best_ref_pos
    final_sentences_list = []
    for combined, sim_sent, sim_q, lex, sent_orig, sent_proc, ref_pos in scored_sorted:
        if ref_pos == best_ref_pos:
            if sim_sent >= sent_sim_thresh and combined >= combined_thresh:
                if sentence_has_action(sent_proc) or sentence_has_action(sent_orig):
                    s_final = _pronoun_pattern.sub("bạn", sent_orig)  # đổi đại từ
                    s_final = re.sub(r'\s+', ' ', s_final).strip()
                    if s_final not in final_sentences_list:
                        final_sentences_list.append(s_final)
                        print(f"[DEBUG] Selected (ref {ref_pos}): [{combined:.4f}] {s_final[:80]}")

    if not final_sentences_list:
        print("[DEBUG] Sau khi gom không còn câu hành động -> trả None")
        return None, None, None

    final_paragraph = " ".join(final_sentences_list)
    orig_qa = orig_qa_map.get(best_ref_pos, "")
    return final_paragraph, best_ref_pos, orig_qa

# =========================
# 7. Module LLM generation (giữ nguyên mock / debug)
# =========================
def generate_natural_response(user_query: str, retrieved_content: str, specialty: str, article_snippet: str = "") -> str:
    """
    Gọi LLM (nếu có). Nếu không có, trả mock response.
    - retrieved_content: đoạn text tổng hợp từ Q/A
    - article_snippet: nội dung bài viết liên quan sẽ được đưa vào prompt và in ra tham khảo
    """
    prompt = f"""
Bạn là một bác sĩ tư vấn trực tuyến chuyên khoa {specialty}.
Thông tin tham khảo Q/A trích xuất:
{retrieved_content}

Bài viết tham khảo liên quan:
{article_snippet}

Yêu cầu:
1) Trả lời câu: "{user_query}" dựa trên thông tin trên.
2) Diễn đạt tự nhiên, xưng hô Bác sĩ - bạn.
3) Nếu nội dung Q/A tham khảo được trích xuất hoàn toàn KHÔNG liên quan với câu "{user_query}" thì trả lời: Xin lỗi, hệ thống chưa tìm được thông tin phù hợp trong dữ liệu tham khảo. Vui lòng đi khám trực tiếp. 
3) Kết thúc nhắc: "Câu trả lời chỉ mang tính chất tham khảo, bạn nên đi khám trực tiếp tại chuyên khoa {specialty}."
"""

    # --- SỬ DỤNG API ---
    try:
        import google.generativeai as genai
        
        API_KEY = "AIzaSyB4kQmT9uYLt-b0mKNL4ReUs8uVAx_bCpI" 
        
        if API_KEY.startswith("DIEN_API"):
             # Nếu chưa điền key, nhảy xuống mock
             raise ValueError("Chưa điền API Key")

        genai.configure(api_key=API_KEY) 
        
        # --- CẬP NHẬT MODEL THEO DANH SÁCH KHẢ DỤNG ---
        # Ưu tiên 1: Gemini 2.0 Flash (Nhanh, thông minh, đời mới nhất)
        target_model = 'gemini-2.0-flash'
        
        try:
            model = genai.GenerativeModel(target_model)
            response = model.generate_content(prompt)
            if response and response.text:
                return response.text
                
        except Exception as e_primary:
            print(f"[LLM Info] '{target_model}' gặp lỗi: {e_primary}")
            print("Đang thử model dự phòng 'gemini-2.0-flash-lite'...")
            
            # Ưu tiên 2: Gemini 2.0 Flash Lite (Nhẹ hơn, dự phòng)
            try:
                model = genai.GenerativeModel('gemini-2.0-flash-lite')
                response = model.generate_content(prompt)
                if response and response.text:
                    return response.text
            except Exception as e_secondary:
                 print(f"[LLM Error] Cả 2 model đều lỗi. Chi tiết: {e_secondary}")
            
    except ImportError:
        print("[LLM Warning] Chưa cài thư viện 'google-generativeai'.")
    except Exception as e:
        print(f"[LLM Error] Gọi API thất bại: {e}")
        # Đoạn code dưới đây giúp bạn xem mình được quyền dùng model nào
        # Chỉ chạy khi debug để biết tên model đúng
        try:
            print("Danh sách model khả dụng với Key của bạn:")
            for m in genai.list_models():
                if 'generateContent' in m.supported_generation_methods:
                    print(f"- {m.name}")
        except:
            pass
        print("-> Chuyển sang chế độ MOCK response.")

    # --- MOCK RESPONSE (Fallback) ---
    print("[DEBUG] Đang chạy chế độ MOCK (Fallback)...")
    time.sleep(1.0)

    # MOCK response (sử dụng retrieved_content trực tiếp + article_snippet)
    time.sleep(0.6)
    mock = (
        f"Chào bạn, bác sĩ chuyên khoa {specialty} trả lời:\n\n"
        f"{retrieved_content}\n\n"
    )
    if article_snippet:
        mock += f"--- Bài viết tham khảo ---\n{article_snippet}\n\n"
    mock += f"Câu trả lời chỉ mang tính chất tham khảo, bạn nên đi khám trực tiếp tại chuyên khoa {specialty}."
    return mock

# =========================
# 8. Vòng lặp chính (kết hợp article retrieval)
# =========================
FALLBACK = "Xin lỗi, hệ thống chưa tìm được thông tin phù hợp trong dữ liệu tham khảo. Vui lòng đi khám trực tiếp."

print("\n=== Chatbot RAG (PhoBERT Retrieval + Article retrieval + LLM) ===")
print("Nhập 'Kết thúc' để dừng.\n")

while True:
    try:
        user_input = input("Người dùng: ")
    except (EOFError, KeyboardInterrupt):
        print("\n[CHATBOT] Kết thúc phiên.")
        break
    if not user_input or user_input.strip().lower() == "kết thúc":
        print("\n[CHATBOT] Kết thúc phiên.")
        break

    print("\n[STEP 1] Retrieval Q/A (top-5)")
    topk_results = retrieve_topk_qa(user_input, k=5, question_sim_thresh=0.55)

    # ref_specialty mapping (1..k)
    ref_specialty = {}
    for i, r in enumerate(topk_results, start=1):
        ref_specialty[i] = r['row'].get('topic', 'Y tế chung')

    print("\n[STEP 2] Extraction (trích xuất câu hành động từ top-k Q/A)")
    raw_advice_text, matched_ref_id, orig_qa = find_best_action_sentence_by_embedding_combined(
        user_input, topk_results, ref_specialty
    )

    print("\n[STEP 3] Article retrieval (tìm bài viết liên quan nhất)")
    article_meta = None
    top_articles = retrieve_top_article(query_text=user_input,
                                        k=1,
                                        raw_k_multiplier=3,
                                        article_texts_local=article_texts,
                                        article_index_local=article_index,
                                        min_combined_score=0.68)
    
    article_snippet = ""
    if top_articles:
        best_art = top_articles[0]
        # lưu metadata để dùng lại sau này (in nguyên văn)
        article_meta = best_art

        # lấy score một cách an toàn với fallback
        art_score = best_art.get("score",
                                 best_art.get("combined_score",
                                              best_art.get("baseline_sim", None)))

        # Nếu không có score, in debug toàn bộ object để kiểm tra schema
        if art_score is None:
            print("[MAIN][WARN] Article matched but no 'score'/'combined_score'/'baseline_sim' field found. Full object:")
            print(best_art)
            art_score = "N/A"

        print("[MAIN] Article matched:", best_art.get("title", "(no title)"), "| score:", art_score)

        # best_passage là đoạn ngắn nhất phù hợp (đã chọn bằng sim passage) — dùng .get để tránh KeyError
        article_snippet = f"Title: {best_art.get('title','')}\nLink: {best_art.get('link','')}\n\n{best_art.get('best_passage','')}"
    else:
        article_snippet = ""
        article_meta = None
        print("[MAIN] Không tìm thấy article phù hợp.")

    # Nếu tìm được raw_advice_text -> gọi LLM để tổng hợp, kèm article_snippet
    if raw_advice_text:
        spec = ref_specialty.get(matched_ref_id, "Y tế chung")
        print(f"\n[STEP 4] GỌI LLM để tổng hợp (chuyên khoa đề xuất: {spec})")
        final_response = generate_natural_response(user_input, raw_advice_text, spec, article_snippet)

        # In kết quả: theo yêu cầu, đảm bảo chứa 3 phần: Chuyên khoa / Lời khuyên / Tham khảo (nguyên văn)
        print("\n" + "*"*10 + " CHATBOT TRẢ LỜI " + "*"*10)
        # Cố gắng chuẩn hóa đầu ra: nếu LLM trả văn bản đầy đủ, in nguyên; thêm phần "Tham khảo" rõ ràng
        print(final_response)
        print("\n" + "-"*40)
        # In tham khảo nguyên văn Q/A và article
        print("[THAM KHẢO NGUYÊN VĂN - Q/A]" )
        print(orig_qa or "(không có)")
        if article_meta is not None:
            print("\n[THAM KHẢO NGUYÊN VĂN - ARTICLE]")
            print(f"Title: {article_meta.get('title','')}")
            print(f"Link: {article_meta.get('link','')}")
            print(article_meta.get('txt','')[:4000])  # in tối đa 4000 ký tự để tránh quá dài
        else: 
            print("\n[THAM KHẢO NGUYÊN VĂN - ARTICLE]\nKhông có bài viết liên quan!")
        print("-"*40 + "\n")
        continue

    # Nếu không có raw_advice_text -> vẫn thử dùng article để gợi ý cho LLM (tổng hợp từ bài viết)
    if article_snippet:
        print("[FALLBACK] Không tìm thấy câu hành động trong Q/A, thử tổng hợp từ bài viết liên quan...")
        spec_article = "Y tế chung"
        if article_meta:
            # cố gắng dự đoán chuyên khoa từ title hoặc leave default
            spec_article = article_meta.get("title","Y tế chung").split()[0]
        final_response = generate_natural_response(user_input, article_snippet, spec_article, article_snippet)
        print("\n" + "*"*10 + " CHATBOT TRẢ LỜI (dựa trên bài viết) " + "*"*10)
        print(final_response)
        print("\n[THAM KHẢO NGUYÊN VĂN - ARTICLE]")
        print(article_snippet[:8000])
        print("-"*40 + "\n")
        continue

    # Nếu không tìm gì -> fallback
    print("\nChatbot: " + FALLBACK + "\n")

Device: cuda
[DATA] Đã đọc Q/A từ: /kaggle/input/bacsituvan/bacsituvan.csv (bản ghi: 73)
[ARTICLES] Đã đọc articles từ: /kaggle/input/articles/bloomax.csv (bản ghi: 378)
[MODEL] Loading retrieval model vinai/phobert-base ...




[INDEX] Chuẩn bị văn bản cho index...
[INDEX] Tạo embeddings cho Q/A ...
[INDEX] Embedded QA 0/73
[INDEX] QA index built. Num elements: 73
[INDEX] Tạo embeddings cho Articles ...
[INDEX] Embedded Articles 0/378
[INDEX] Embedded Articles 100/378
[INDEX] Embedded Articles 200/378
[INDEX] Embedded Articles 300/378
[INDEX] Article index built. Num elements: 378

=== Chatbot RAG (PhoBERT Retrieval + Article retrieval + LLM) ===
Nhập 'Kết thúc' để dừng.



Người dùng:  e năm nay 26 tuổi bị lõm lồng ngực bẩm sinh, thường hay bị hai bên cạnh sườn, cảm giác mỏi ở vùng ức và có cảm giác khó chịu khó tả. 



[STEP 1] Retrieval Q/A (top-5)
[RETRIEVE_QA] Query: 'e năm nay 26 tuổi bị lõm lồng ngực bẩm sinh, thường hay bị hai bên cạnh sườn, cả' | k=5 | question_sim_thresh=0.55
[RETRIEVE_QA] Found 5 candidates.

[STEP 2] Extraction (trích xuất câu hành động từ top-k Q/A)

=== [DEBUG] RUN find_best_action_sentence_by_embedding_combined ===
[DEBUG] ref_pos=1 | kept_sentences=11
[DEBUG] ref_pos=2 | kept_sentences=25
[DEBUG] ref_pos=3 | kept_sentences=17
[DEBUG] ref_pos=4 | kept_sentences=10
[DEBUG] ref_pos=5 | kept_sentences=17

=== [DEBUG] TOP candidates sorted by combined score ===
[TOP1] combined=0.7868 | sim_sent=0.8367 | sim_q=0.7813 | ref=5 | 'Chào bạn , Theo mô_tả , bạn đã bị cùng một lúc mấy vấn_đề là loãng xương , thoái...'
[TOP2] combined=0.7601 | sim_sent=0.8013 | sim_q=0.7813 | ref=5 | 'Người bị gai đôi cột_sống có_thể bị đau mạn_tính , thỉnh_thoảng có những đợt đau...'
[TOP3] combined=0.7570 | sim_sent=0.7992 | sim_q=0.7750 | ref=2 | 'Thoái_hóa cột sống cổ gây chèn_ép dây thần_kinh v

Người dùng:  Kết thúc



[CHATBOT] Kết thúc phiên.


## [NO DEBUG] pho_retrieval_textonly_actionfiltered_final_with_articles.py

In [18]:
# pho_retrieval_textonly_actionfiltered_final_with_articles.py
# ===========================================================
# Pipeline RAG:
# - Retrieval: PhoBERT embeddings cho corpus Q/A + index bài viết (link,title,txt)
# - Extraction: tìm câu "hành động" tốt nhất từ top-k Q/A (combined score + lex overlap)
# - Article retrieval: tìm bài viết liên quan nhất và trả nguyên văn trong mục "Tham khảo"
# - Generation: tích hợp LLM (mock nếu không có API) để viết lại câu trả lời tự nhiên
# Output: PLAIN TEXT (lời khuyên, chuyên khoa, tham khảo nguyên văn)
# ===========================================================

import re
import time
import threading
from html import unescape
from typing import List, Tuple, Optional
import os
import numpy as np
import pandas as pd
import torch
from transformers import AutoTokenizer, AutoModel
from underthesea import word_tokenize
import hnswlib

# =========================
# 0. Cấu hình thiết bị & môi trường
# =========================
device = "cuda" if torch.cuda.is_available() else "cpu"
print("Device:", device)

# =========================
# 1. Đọc CSV Q/A (corpus) và tiền xử lý
#    - file Q/A theo cấu trúc: question, answer, topic (có thể đặt khác => chỉnh csv_path)
# =========================
csv_path = "/kaggle/input/filtered-question-answers/filtered-question-answers.json"  # chỉnh lại nếu cần
if not os.path.exists(csv_path):
    csv_path = "/mnt/data/filtered-question-answers.csv"
if os.path.exists(csv_path):
    df = pd.read_csv(csv_path)
    print(f"[DATA] Đã đọc Q/A từ: {csv_path} (bản ghi: {len(df)})")
else:
    print(f"[DATA] Không tìm thấy Q/A file tại {csv_path}. Tạo dataframe rỗng.")
    df = pd.DataFrame(columns=["question", "answer", "topic", "advice"])

def preprocess_text(s: str) -> str:
    if not isinstance(s, str):
        return ""
    s = re.sub(r'\s+', ' ', s.strip())
    return word_tokenize(s, format="text")

for col in ["question", "answer", "topic", "advice"]:
    if col in df.columns:
        df[col] = df[col].fillna("").astype(str).apply(preprocess_text)

# =========================
# 2. Đọc file bài viết (articles) gồm các cột: link, title, txt
#    - Mặc định tìm ở /mnt/data/articles.csv hoặc /kaggle/working/articles.csv
# =========================
articles_paths = ["/kaggle/input/articles/bloomax.csv"]
articles_df = None
for p in articles_paths:
    if os.path.exists(p):
        try:
            articles_df = pd.read_csv(p)
            print(f"[ARTICLES] Đã đọc articles từ: {p} (bản ghi: {len(articles_df)})")
            break
        except Exception as e:
            print(f"[ARTICLES] Lỗi đọc {p}: {e}")
if articles_df is None:
    # tạo dataframe rỗng để pipeline không lỗi
    print("[ARTICLES] Không tìm thấy file bài viết. Article index sẽ rỗng.")
    articles_df = pd.DataFrame(columns=["link", "title", "txt"])

for col in ["link", "title", "txt"]:
    if col in articles_df.columns:
        articles_df[col] = articles_df[col].fillna("").astype(str).apply(lambda s: re.sub(r'\s+', ' ', s.strip()))

# =========================
# 3. Load PhoBERT (retrieval encoder)
# =========================
RETRIEVAL_MODEL_NAME = "vinai/phobert-base"
print(f"[MODEL] Loading retrieval model {RETRIEVAL_MODEL_NAME} ...")
tokenizer_phobert = AutoTokenizer.from_pretrained(RETRIEVAL_MODEL_NAME)
model_phobert = AutoModel.from_pretrained(RETRIEVAL_MODEL_NAME).to(device)
model_phobert.eval()

def sentence_embedding(text: str) -> np.ndarray:
    """
    Embedding bằng PhoBERT: mean-pooling trên last_hidden_state.
    Trả về numpy float32 vector.
    """
    if not text:
        return np.zeros(model_phobert.config.hidden_size, dtype=np.float32)
    inputs = tokenizer_phobert(text, return_tensors="pt", truncation=True, max_length=256)
    inputs = {k: v.to(device) for k, v in inputs.items()}
    with torch.no_grad():
        out = model_phobert(**inputs)
        last_hidden = out.last_hidden_state  # (1, seq_len, hidden)
        att = inputs.get("attention_mask", None)
        if att is None:
            mean_pooled = last_hidden.mean(dim=1).squeeze().cpu().numpy().astype("float32")
        else:
            attention_mask = att.unsqueeze(-1)
            masked = last_hidden * attention_mask
            summed = masked.sum(dim=1)
            counts = attention_mask.sum(dim=1).clamp(min=1e-9)
            mean_pooled = (summed / counts).squeeze().cpu().numpy().astype("float32")
    return mean_pooled

# =========================
# 4. Tạo embeddings cho Q/A corpus (document-level) và bài viết (article-level)
#    - Q/A: dùng texts = question + " " + answer
#    - Articles: dùng title + "\n\n" + txt
# =========================
print("[INDEX] Chuẩn bị văn bản cho index...")

qa_texts = (df["question"].fillna("") + " " + df["answer"].fillna("")).tolist() if not df.empty else []
article_texts = []
if not articles_df.empty:
    # combine title + content
    for _, row in articles_df.iterrows():
        title = row.get("title", "") or ""
        txt = row.get("txt", "") or ""
        article_texts.append((row.get("link", ""), title, title + "\n\n" + txt))
else:
    article_texts = []

# Build embeddings with batching and build two indices
def build_hnsw_index(vectors: np.ndarray, space: str = "cosine") -> hnswlib.Index:
    dim = vectors.shape[1]
    idx = hnswlib.Index(space=space, dim=dim)
    idx.init_index(max_elements=vectors.shape[0], ef_construction=200, M=16)
    ids = np.arange(vectors.shape[0])
    idx.add_items(vectors, ids)
    idx.set_ef(50)
    return idx

# Build QA embeddings
qa_embeddings = []
batch_size = 32
for i in range(0, len(qa_texts), batch_size):
    for t in qa_texts[i:i+batch_size]:
        qa_embeddings.append(sentence_embedding(t))
    if i % 200 == 0:
        print(f"[INDEX] Embedded QA {i}/{len(qa_texts)}")
if qa_embeddings:
    qa_embeddings = np.vstack(qa_embeddings).astype("float32")
    qa_index = build_hnsw_index(qa_embeddings)
    print(f"[INDEX] QA index built. Num elements: {qa_index.get_current_count()}")
else:
    qa_embeddings = np.zeros((0, model_phobert.config.hidden_size), dtype="float32")
    qa_index = None

# Build Article embeddings
article_embeddings = []
for i, (_, title, content) in enumerate(article_texts):
    article_embeddings.append(sentence_embedding(content))
if article_embeddings:
    article_embeddings = np.vstack(article_embeddings).astype("float32")
    article_index = build_hnsw_index(article_embeddings)
    print(f"[INDEX] Article index built. Num elements: {article_index.get_current_count()}")
else:
    article_embeddings = np.zeros((0, model_phobert.config.hidden_size), dtype="float32")
    article_index = None
    print("[INDEX] Article index is empty.")

# =========================
# 5. Các hàm tiền xử lý & trợ giúp (cũ + nâng cấp)
# =========================
def preprocess_query(s: str) -> str:
    return word_tokenize(s.strip().replace("_", " "), format="text")

def cosine_sim(a: np.ndarray, b: np.ndarray) -> float:
    if a is None or b is None:
        return 0.0
    na = np.linalg.norm(a)
    nb = np.linalg.norm(b)
    if na == 0 or nb == 0:
        return 0.0
    return float(np.dot(a, b) / (na * nb))

def retrieve_topk_qa(query_text: str, k: int = 5, question_sim_thresh: float = 0.55):
    """
    Truy vấn QA index (document-level). Sau khi lấy raw candidates (k*3),
    kiểm tra similarity giữa user và field 'question' của record rồi lọc.
    Trả về list tối đa k item giống định dạng trước đó.
    """
    if qa_index is None or qa_index.get_current_count() == 0:
        return []
    q_proc = preprocess_query(query_text)
    user_emb = sentence_embedding(q_proc).reshape(1, -1)
    raw_k = min(k * 3, qa_index.get_current_count())
    labels, distances = qa_index.knn_query(user_emb, k=raw_k)
    labels = labels[0]
    distances = distances[0]

    results = []
    for dist, idx in zip(distances, labels):
        if idx < 0:
            continue
        # lấy question từ df (đã tiền xử lý)
        q_text = df.iloc[int(idx)].get("question", "") if not df.empty else ""
        if not q_text:
            continue
        q_emb = sentence_embedding(preprocess_query(q_text)).astype("float32")
        sim_q = cosine_sim(user_emb.reshape(-1), q_emb)
        if sim_q >= question_sim_thresh:
            results.append({
                "score": float(1.0 - dist),
                "index": int(idx),
                "row": df.iloc[int(idx)].to_dict(),
                "question_sim": sim_q
            })
        if len(results) >= k:
            break
    return results

# --------- BẮT ĐẦU: hàm / utils mới cho article retrieval & re-rank ----------
import math

def _token_set(s: str):
    """Đơn giản: lấy token chữ/ số, lowercase. Dùng cho lexical overlap."""
    return set([t.lower() for t in re.findall(r'\w+', s) if len(t) >= 2])

def chunk_text_into_passages(text: str, max_chars: int = 500, overlap_chars: int = 80):
    """
    Chia bài thành các đoạn (passages) kích thước ~max_chars với overlap.
    Trả list các đoạn (nguyên văn).
    """
    if not text:
        return []
    text = text.strip()
    passages = []
    start = 0
    L = len(text)
    while start < L:
        end = start + max_chars
        if end >= L:
            passages.append(text[start:L].strip())
            break
        # cố gắng cắt ở dấu câu gần end để dễ đọc
        cut = text.rfind('.', start, end)
        if cut <= start:
            cut = text.rfind('\n', start, end)
        if cut <= start:
            cut = end
        passages.append(text[start:cut].strip())
        start = max(cut - overlap_chars, cut)  # overlap một chút
    return [p for p in passages if p]

def re_rank_article_candidates(user_emb: np.ndarray, q_tokens_set: set, raw_candidates: List[dict],
                               article_texts_local: List[tuple],
                               topn_return: int = 3,
                               w_sim: float = 0.75, w_lex: float = 0.20, w_title_boost: float = 0.05):
    """
    Re-rank raw candidate list (từ hnswlib) bằng combined score:
      combined = w_sim * sim_article + w_lex * lex_overlap + w_title_boost * title_boost_flag
    Trả về danh sách các candidate đã bổ sung trường 'combined_score' và 'best_passage'.
    - raw_candidates: list các item giống format trước: {'score':..., 'index': idx, ...}
    - article_texts_local: list of tuples (link, title, content)
    """
    reranked = []
    for c in raw_candidates:
        idx = int(c['index'])
        link, title, content = article_texts_local[idx]
        # 1) sim_article: nếu bạn muốn chính xác, hãy tính cosine giữa user_emb và article embedding
        #    nhưng ở đây raw_candidates cung cấp 'score' = 1-dist; vẫn tốt để dùng lại như baseline_sim
        baseline_sim = float(c.get('score', 0.0))
        # 2) lexical overlap: tokens in (title + first 1000 chars of content)
        article_snippet_for_tokens = title + " " + (content[:1000] if content else "")
        art_tokens = _token_set(article_snippet_for_tokens)
        if not q_tokens_set:
            lex_overlap = 0.0
        else:
            common = len(q_tokens_set & art_tokens)
            lex_overlap = common / max(1, len(q_tokens_set))
        # 3) title_boost: nếu tiêu đề chứa >=1 token của query -> 1 else 0
        title_tokens = _token_set(title)
        title_boost_flag = 1.0 if (q_tokens_set & title_tokens) else 0.0

        combined = w_sim * baseline_sim + w_lex * lex_overlap + w_title_boost * title_boost_flag

        # 4) best_passage: tìm passage có sim cao nhất (chi tiết hơn)
        passages = chunk_text_into_passages(content, max_chars=600, overlap_chars=120)
        best_passage = ""
        best_passage_sim = -1.0
        # compute embedding for a few top passages (limiting để không quá chậm)
        for p in passages[:6]:  # chỉ check tối đa 6 đoạn đầu để tiết kiệm time
            p_proc = preprocess_query(p)
            p_emb = sentence_embedding(p_proc).astype("float32")
            sim_p = cosine_sim(user_emb, p_emb)
            if sim_p > best_passage_sim:
                best_passage_sim = sim_p
                best_passage = p
        # fallback: nếu không có passage, lấy đoạn đầu content
        if not best_passage and content:
            best_passage = content[:600]

        reranked.append({
            "index": idx,
            "link": link,
            "title": title,
            "txt": content,
            "baseline_sim": baseline_sim,
            "lex_overlap": lex_overlap,
            "title_boost": title_boost_flag,
            "combined_score": combined,
            "best_passage": best_passage,
            "best_passage_sim": best_passage_sim
        })

    # Sắp xếp giảm dần theo combined_score, trả top-N
    reranked_sorted = sorted(reranked, key=lambda x: x["combined_score"], reverse=True)
    return reranked_sorted[:topn_return]


def retrieve_top_article(query_text: str, k: int = 1, raw_k_multiplier: int = 3,
                         article_texts_local: List[tuple] = None,
                         article_index_local = None,
                         min_combined_score: float = 0.25):
    """
    HÀM CHÍNH (thay thế):
    1) Lấy raw candidates từ article_index_local (hnswlib)
    2) Re-rank bằng re_rank_article_candidates
    3) Trả về top-k articles với trường 'combined_score' + 'best_passage'
    """
    if article_index_local is None or article_index_local.get_current_count() == 0:
        return []

    q_proc = preprocess_query(query_text)
    user_emb = sentence_embedding(q_proc).reshape(1, -1).astype("float32")
    q_tokens = _token_set(query_text)

    raw_k = min(k * raw_k_multiplier, article_index_local.get_current_count())
    # 1) knn query lấy raw_k candidate
    labels, distances = article_index_local.knn_query(user_emb, k=raw_k)
    labels = labels[0]
    distances = distances[0]

    raw_candidates = []
    for dist, idx in zip(distances, labels):
        if idx < 0:
            continue
        raw_candidates.append({
            "index": int(idx),
            "score": float(1.0 - dist)  # baseline sim heuristic
        })
    # 2) Re-rank candidates bằng combined score
    reranked = re_rank_article_candidates(user_emb.reshape(-1), q_tokens, raw_candidates,
                                          article_texts_local, topn_return=max(k, 3))
    # 3) Filter theo min_combined_score nếu cần
    final = [r for r in reranked if r["combined_score"] >= min_combined_score]
    if not final:
        # Nếu không có ai vượt ngưỡng, trả top 1 reranked (một fallback)
        # if reranked:
        #    print("[RETRIEVE_ART_OPT] Không có article đạt ngưỡng -> trả top1 reranked như fallback")
        #    return [ {**reranked[0], "note": "fallback_no_threshold"} ]
        return []

    # Trả tối đa k items, convert field names giống format cũ (score, index, link, title, txt)
    out = []
    for r in final[:k]:
        out.append({
            "score": r["combined_score"],
            "index": r["index"],
            "link": r["link"],
            "title": r["title"],
            "txt": r["txt"],
            "best_passage": r["best_passage"],
            "best_passage_sim": r["best_passage_sim"]
        })
    return out

# --------- KẾT THÚC: hàm / utils mới cho article retrieval & re-rank ----------

# -------------------------
# text cleaning utils & action verbs (giữ nguyên / mở rộng)
# -------------------------
def _clean_text(t: str) -> str:
    return re.sub(r'\s+', ' ', unescape(t.strip())).strip()

_re_at_prefix = re.compile(r'^@[^:]{0,60}:\s*', flags=re.IGNORECASE)
_name_pattern = re.compile(r'\b([A-ZÀ-Ỹ][a-zà-ỹ]+(?:_[A-ZÀ-Ỹ][a-zà-ỹ]+)+)\b')
_doctor_pattern = re.compile(r'\b(BS|Bác sĩ|Lương y|Dr)\.?\s+([A-ZÀ-Ỹ][a-zà-ỹ_]+(\s+[A-ZÀ-Ỹ][a-zà-ỹ_]+)*)', flags=re.IGNORECASE)
_pronoun_pattern = re.compile(r'\b(cháu|em|tớ|mình|con|anh|chị)\b', flags=re.IGNORECASE)
CONNECTIVES = [
    r'vì vậy', r'vì thế', r'vậy nên', r'do vậy', r'vì vậy nên', r'vì thế nên', r'cho nên',
    r'tóm lại', r'tóm tắt', r'nhưng', r'tuy nhiên'
]
_connective_pattern = re.compile("|".join([re.escape(x) for x in CONNECTIVES]), flags=re.IGNORECASE)

def preprocess_reference_sentence_for_embedding(s: str) -> str:
    """
    Tiền xử lý câu TRƯỚC khi tính embedding/score:
    - Loại bỏ câu hỏi (ending ?)
    - Loại bỏ prefix @..., 'Trả lời'
    - Loại bỏ tên riêng, danh xưng
    - Chuẩn hóa đại từ -> 'bạn'
    - Loại bỏ connectives
    """
    if not s:
        return ""
    s = s.strip()
    if s.endswith('?'):
        return ""
    s = _re_at_prefix.sub("", s)
    s = re.sub(r'^trả[_\s]lời\s*[:.]?\s*', '', s, flags=re.IGNORECASE)
    s = _name_pattern.sub("", s)
    s = _doctor_pattern.sub("", s)
    s = _pronoun_pattern.sub("bạn", s)
    s = _connective_pattern.sub("", s)
    s = re.sub(r'\s+', ' ', s).strip()
    return s

# ACTION_VERBS: giữ phiên bản mở rộng như trước (cắt ngắn ở đây, dùng list dài trong code thật)
ACTION_VERBS = set([
    # Nhóm dùng thuốc / điều trị
    "uống", "uống thuốc", "dùng", "dùng thuốc", "xịt", "bôi", "thoa", "nhỏ", "ngậm", 
    "tiêm", "chích", "truyền", "phẫu thuật", "mổ", "tiểu phẫu", "kê đơn", "điều trị",
    "chườm", "chườm nóng", "chườm lạnh", "băng bó", "sát trùng", "rửa vết thương",
    "hút rửa", "xông", "khí dung", "châm cứu", "bấm huyệt", "massage", "xoa bóp",
    
    # Nhóm khám / xét nghiệm
    "khám", "đi khám", "tái khám", "thăm khám", "kiểm tra", "xét nghiệm", "lấy mẫu",
    "siêu âm", "chụp", "chụp x-quang", "chụp ct", "chụp mri", "nội soi", "đo huyết áp",
    "đo đường huyết", "theo dõi", "đánh giá", "tầm soát",
    
    # Nhóm sinh hoạt / dinh dưỡng
    "ăn", "ăn kiêng", "kiêng", "tránh", "hạn chế", "bổ sung", "tăng cường", "giảm",
    "uống nước", "ngủ", "nghỉ ngơi", "kê gối", "nằm nghiêng", "tập", "tập luyện", 
    "vận động", "tập vật lý trị liệu", "thể dục", "vệ sinh", "súc miệng", "súc họng",
    "rửa tay", "rửa mũi", "đeo khẩu trang", "cách ly", "nhập viện", "cấp cứu",

    # Bổ sung
    'khám', 'đi', 'uống', 'ăn', 'đi khám', 'tiêm', 'siêu', 'dùng', 'siêu âm', 'nội', 'tránh', 'đặt', 'uống thuốc', 'nhỏ', 'bổ', 'khám và', 'tránh thai', 'bổ sung', 'dùng thuốc', 'khám bệnh', 'chụp', 'ăn uống', 'khám bác sĩ', 'khám sức', 'khám sức khỏe', 'khám bác', 'truyền', 'đi ngoài', 'kê', 'nội soi', 'khám tại', 'đi siêu âm', 'khám thai', 'đặt lịch', 'đi siêu', 'khám lại', 'nội tiết', 'khám để', 'hút', 'tiêm chủng', 'khám ở', 'đi khám bác', 'khám phụ khoa', 'nội mạc', 'đi khám để', 'khám chuyên khoa', 'khám phụ', 'đi khám và', 'khám chuyên', 'nội mạc tử', 'đặt lịch khám', 'tiêm ngừa', 'khám và tư', 'kiêng', 'đi lại', 'rửa', 'khám thì', 'đi tiểu', 'đi khám ở', 'nội khoa', 'đi khám lại', 'quá lo lắng', 'uống sữa', 'ăn dặm', 'uống nước', 'tránh thai khẩn', 'bôi', 'thai khẩn cấp', 'kê đơn', 'khám tại bệnh', 'khám online', 'khám bệnh viện', 'tiêm mũi', 'khám trực', 'chụp x quang', 'tiêm vacxin', 'khám và điều', 'đi xét nghiệm', 'đi khám thai', 'đi khám thì', 'đi khám chuyên', 'tiêm phòng', 'truyền nhiễm', 'uống nhiều', 'chụp x', 'cho bé đi', 'đi tái', 'đưa bé đi', 'đi xét', 'siêu âm và', 'ăn nhiều', 'khám bệnh bv', 'bổ sung vitamin', 'đi phân', 'khám tư', 'bổ sung thêm', 'uống thuốc tránh', 'uống thêm', 'đi khám phụ', 'nội soi dạ', 'khám ngay', 'đi cầu', 'uống thuốc gì', 'khám bệnh bệnh', 'đeo', 'dùng thuốc gì', 'đi ngoài phân', 'đi tái khám', 'đến bệnh viện', 'khám thai định', 'làm sao', 'khám với', 'tiêm vaccine', 'uống được', 'uống nhiều nước', 'khám ở bệnh', 'siêu âm thì', 'đi kiểm tra', 'đi tiêm', 'đi tiêu', 'đưa bé đến', 'khám trực tiếp', 'khám được', 'đặt khám', 'đi khám ngay', 'tiêm vắc xin', 'đặt tư vấn', 'khám em', 'siêu vi', 'đặt thuốc', 'khám với bác', 'tiêm vắc', 'khám để được', 'thiết', 'đi làm', 'hút thai', 'siêu âm tim', 'đi khám tại', 'uống 1', 'tiêm được', 'tránh thai hàng', 'khám không', 'ăn và', 'uống đủ', 'hút thuốc', 'dùng thuốc tránh', 'làm gì', 'đi khám bệnh', 'đi kiểm', 'siêu âm lại', 'khám định', 'thai hàng ngày', 'đến khám tại', 'đi vệ', 'đi vệ sinh', 'tiêm thuốc', 'dùng biện pháp', 'tiêm chủng chuyên', 'siêu âm thai', 'khám định kỳ', 'khám thì bác', 'kê đơn thuốc', 'ăn được', 'ăn không', 'liên hệ với', 'khám để bác', 'kê thuốc', 'uống đủ nước', 'khám tại khoa', 'đặt vòng', 'khám bệnh chuyên', 'khám hiếm muộn', 'đi khám không', 'thai', 'dùng biện', 'đặt câu', 'đặt câu hỏi', 'uống và', 'chụp mri', 'khám sớm', 'khám cho', 'uống có', 'làm gì để', 'nội tiết tố', 'uống bổ sung', 'nội tổng', 'khám và làm', 'kê toa', 'siêu âm ở', 'nội soi bóc', 'siêu âm thấy', 'khám tư vấn', 'khám hiếm', 'dùng cho', 'đi kèm', 'ăn đủ', 'ăn của', 'khám tổng', 'khám tổng quát', 'khám và siêu'
])

def sentence_has_action(s: str) -> bool:
    sl = s.lower()
    for act in ACTION_VERBS:
        act_norm = act.replace("_", " ").lower()
        if re.search(r'\b' + re.escape(act_norm) + r'\b', sl):
            return True
    return False

# =========================
# 6. Hàm chính: tìm best action sentence (combined scoring) - GIỮ NGUYÊN, TRẢ KÈM ORIG QA
# =========================
def find_best_action_sentence_by_embedding_combined(
    user_text: str,
    topk_rows: List[dict],
    ref_specialty: dict,
    sent_sim_thresh: float = 0.6,
    combined_thresh: float = 0.68,
    alpha: float = 0.7,
    beta: float = 0.25,
    gamma: float = 0.05,
    max_debug_show: int = 15
) -> Tuple[Optional[str], Optional[int], Optional[str]]:
    """
    Như mô tả trước: trả về (final_paragraph, best_ref_pos, orig_qa)
    final_paragraph: đoạn ghép các câu hành động từ best reference, đã chuẩn hóa đại từ (bạn)
    orig_qa: nguyên văn Q/A (để hiển thị trong "Tham khảo")
    """
    if not topk_rows:
        return None, None, None

    # 1) thu thập câu và lưu orig QA
    all_sents = []
    orig_qa_map = {}
    for ref_pos, r in enumerate(topk_rows, start=1):
        question_text = r["row"].get("question", "") or ""
        raw_answer = r["row"].get("answer", "") or ""
        orig_qa_map[ref_pos] = f"Q: {question_text}\nA: {raw_answer}"
        sents = re.split(r'(?<=[.!?])\s+', raw_answer.strip()) if raw_answer else []
        kept = 0
        for s in sents:
            s_orig = _clean_text(s)
            s_proc = preprocess_reference_sentence_for_embedding(s_orig)
            if len(s_proc) >= 6:
                all_sents.append((ref_pos, question_text, s_orig, s_proc))
                kept += 1

    if not all_sents:
        return None, None, None

    # 2) embeddings user
    user_q = preprocess_query(user_text)
    user_emb = sentence_embedding(user_q).astype("float32")
    user_tokens_set = set([t.lower() for t in re.findall(r'\w+', user_text) if len(t) >= 2])

    # 3) compute combined scores
    question_emb_cache = {}
    scored = []
    for ref_pos, question_text, sent_orig, sent_proc in all_sents:
        if ref_pos not in question_emb_cache:
            q_text_proc = preprocess_query(question_text) if question_text else ""
            question_emb_cache[ref_pos] = sentence_embedding(q_text_proc).astype("float32") if q_text_proc else np.zeros(user_emb.shape, dtype=np.float32)
        s_emb = sentence_embedding(sent_proc).astype("float32")
        sim_sent = cosine_sim(user_emb, s_emb)
        sim_q = cosine_sim(user_emb, question_emb_cache[ref_pos])
        sent_tokens_set = set([t.lower() for t in re.findall(r'\w+', sent_proc) if len(t) >= 2])
        lex_overlap = float(len(user_tokens_set & sent_tokens_set)) / max(1, len(user_tokens_set)) if user_tokens_set else 0.0
        combined = alpha * sim_sent + beta * sim_q + gamma * lex_overlap
        scored.append((combined, sim_sent, sim_q, lex_overlap, sent_orig, sent_proc, ref_pos))

    scored_sorted = sorted(scored, key=lambda x: x[0], reverse=True)

    # 4) tìm best ref: câu đầu thỏa sim_sent & combined & có action verb
    best_ref_pos = None
    for combined, sim_sent, sim_q, lex, sent_orig, sent_proc, ref_pos in scored_sorted:
        if sim_sent >= sent_sim_thresh and combined >= combined_thresh:
            if sentence_has_action(sent_proc) or sentence_has_action(sent_orig):
                best_ref_pos = ref_pos
                break

    if best_ref_pos is None:
        return None, None, None

    # 5) gom các câu từ best_ref_pos
    final_sentences_list = []
    for combined, sim_sent, sim_q, lex, sent_orig, sent_proc, ref_pos in scored_sorted:
        if ref_pos == best_ref_pos:
            if sim_sent >= sent_sim_thresh and combined >= combined_thresh:
                if sentence_has_action(sent_proc) or sentence_has_action(sent_orig):
                    s_final = _pronoun_pattern.sub("bạn", sent_orig)
                    s_final = re.sub(r'\s+', ' ', s_final).strip()
                    if s_final not in final_sentences_list:
                        final_sentences_list.append(s_final)

    if not final_sentences_list:
        return None, None, None

    final_paragraph = " ".join(final_sentences_list)
    orig_qa = orig_qa_map.get(best_ref_pos, "")
    return final_paragraph, best_ref_pos, orig_qa

# =========================
# 7. Module LLM generation (giữ nguyên mock / debug)
# =========================
def generate_natural_response(user_query: str, retrieved_content: str, specialty: str, article_snippet: str = "") -> str:
    """
    Gọi LLM (nếu có). Nếu không có, trả mock response.
    - retrieved_content: đoạn text tổng hợp từ Q/A
    - article_snippet: nội dung bài viết liên quan sẽ được đưa vào prompt và in ra tham khảo
    """
    prompt = f"""
Bạn là một bác sĩ tư vấn trực tuyến chuyên khoa {specialty}.
Thông tin tham khảo Q/A trích xuất:
{retrieved_content}

Bài viết tham khảo liên quan:
{article_snippet}

Yêu cầu:
1) Trả lời câu: "{user_query}" dựa trên thông tin trên.
2) Diễn đạt tự nhiên, xưng hô Bác sĩ - bạn.
3) Nếu nội dung Q/A tham khảo được trích xuất hoàn toàn KHÔNG liên quan với câu "{user_query}" thì trả lời: Xin lỗi, hệ thống chưa tìm được thông tin phù hợp trong dữ liệu tham khảo. Vui lòng đi khám trực tiếp. 
3) Kết thúc nhắc: "Câu trả lời chỉ mang tính chất tham khảo, bạn nên đi khám trực tiếp tại chuyên khoa {specialty}."
"""

    # --- SỬ DỤNG API ---
    try:
        import google.generativeai as genai
        
        API_KEY = "AIzaSyB4kQmT9uYLt-b0mKNL4ReUs8uVAx_bCpI" 
        
        if API_KEY.startswith("DIEN_API"):
             # Nếu chưa điền key, nhảy xuống mock
             raise ValueError("Chưa điền API Key")

        genai.configure(api_key=API_KEY) 
        
        # --- CẬP NHẬT MODEL THEO DANH SÁCH KHẢ DỤNG ---
        # Ưu tiên 1: Gemini 2.0 Flash (Nhanh, thông minh, đời mới nhất)
        target_model = 'gemini-2.0-flash'
        
        try:
            model = genai.GenerativeModel(target_model)
            response = model.generate_content(prompt)
            if response and response.text:
                return response.text
                
        except Exception as e_primary:
            print(f"[LLM Info] '{target_model}' gặp lỗi: {e_primary}")
            print("Đang thử model dự phòng 'gemini-2.0-flash-lite'...")
            
            # Ưu tiên 2: Gemini 2.0 Flash Lite (Nhẹ hơn, dự phòng)
            try:
                model = genai.GenerativeModel('gemini-2.0-flash-lite')
                response = model.generate_content(prompt)
                if response and response.text:
                    return response.text
            except Exception as e_secondary:
                 print(f"[LLM Error] Cả 2 model đều lỗi. Chi tiết: {e_secondary}")
            
    except ImportError:
        print(f"[LLM Error]")
    except Exception as e:
        print(f"[LLM Error] Gọi API thất bại: {e}")
        # Đoạn code dưới đây giúp bạn xem mình được quyền dùng model nào
        # Chỉ chạy khi debug để biết tên model đúng
        try:
            print("Danh sách model khả dụng với Key của bạn:")
            for m in genai.list_models():
                if 'generateContent' in m.supported_generation_methods:
                    print(f"- {m.name}")
        except:
            pass
        print("-> Chuyển sang chế độ MOCK response.")

    # --- MOCK RESPONSE (Fallback) ---
    time.sleep(1.0)

    # MOCK response (sử dụng retrieved_content trực tiếp + article_snippet)
    time.sleep(0.6)
    mock = (
        f"Chào bạn, bác sĩ chuyên khoa {specialty} trả lời:\n\n"
        f"{retrieved_content}\n\n"
    )
    if article_snippet:
        mock += f"--- Bài viết tham khảo ---\n{article_snippet}\n\n"
    mock += f"Câu trả lời chỉ mang tính chất tham khảo, bạn nên đi khám trực tiếp tại chuyên khoa {specialty}."
    return mock

# =========================
# 8. Vòng lặp chính (kết hợp article retrieval)
# =========================
FALLBACK = "Xin lỗi, hệ thống chưa tìm được thông tin phù hợp trong dữ liệu tham khảo. Vui lòng đi khám trực tiếp."

print("\n=== Chatbot RAG (PhoBERT Retrieval + Article retrieval + LLM) ===")
print("Nhập 'Kết thúc' để dừng.\n")

while True:
    try:
        user_input = input("Người dùng: ")
    except (EOFError, KeyboardInterrupt):
        print("\n[CHATBOT] Kết thúc phiên.")
        break
    if not user_input or user_input.strip().lower() == "kết thúc":
        print("\n[CHATBOT] Kết thúc phiên.")
        break

    topk_results = retrieve_topk_qa(user_input, k=5, question_sim_thresh=0.55)

    # ref_specialty mapping (1..k)
    ref_specialty = {}
    for i, r in enumerate(topk_results, start=1):
        ref_specialty[i] = r['row'].get('topic', 'Y tế chung')

    
    raw_advice_text, matched_ref_id, orig_qa = find_best_action_sentence_by_embedding_combined(
        user_input, topk_results, ref_specialty
    )

    
    article_meta = None
    top_articles = retrieve_top_article(query_text=user_input,
                                        k=1,
                                        raw_k_multiplier=3,
                                        article_texts_local=article_texts,
                                        article_index_local=article_index,
                                        min_combined_score=0.68)
    
    article_snippet = ""
    if top_articles:
        best_art = top_articles[0]
        # lưu metadata để dùng lại sau này (in nguyên văn)
        article_meta = best_art

        # lấy score một cách an toàn với fallback
        art_score = best_art.get("score",
                                 best_art.get("combined_score",
                                              best_art.get("baseline_sim", None)))

        # Nếu không có score, in debug toàn bộ object để kiểm tra schema
        if art_score is None:
            print(best_art)
            art_score = "N/A"

        # best_passage là đoạn ngắn nhất phù hợp (đã chọn bằng sim passage) — dùng .get để tránh KeyError
        article_snippet = f"Title: {best_art.get('title','')}\nLink: {best_art.get('link','')}\n\n{best_art.get('best_passage','')}"
    else:
        article_snippet = ""
        article_meta = None

    # Nếu tìm được raw_advice_text -> gọi LLM để tổng hợp, kèm article_snippet
    if raw_advice_text:
        spec = ref_specialty.get(matched_ref_id, "Y tế chung")
        final_response = generate_natural_response(user_input, raw_advice_text, spec, article_snippet)

        # In kết quả: theo yêu cầu, đảm bảo chứa 3 phần: Chuyên khoa / Lời khuyên / Tham khảo (nguyên văn)
        print("\n" + "*"*10 + " CHATBOT TRẢ LỜI " + "*"*10)
        # Cố gắng chuẩn hóa đầu ra: nếu LLM trả văn bản đầy đủ, in nguyên; thêm phần "Tham khảo" rõ ràng
        print(final_response)
        print("\n" + "-"*40)
        # In tham khảo nguyên văn Q/A và article
        print("[THAM KHẢO NGUYÊN VĂN - Q/A]" )
        print(orig_qa or "(không có)")
        if article_meta is not None:
            print("\n[THAM KHẢO NGUYÊN VĂN - ARTICLE]")
            print(f"Title: {article_meta.get('title','')}")
            print(f"Link: {article_meta.get('link','')}")
            print(article_meta.get('txt','')[:4000])  # in tối đa 4000 ký tự để tránh quá dài
        else: 
            print("\n[THAM KHẢO NGUYÊN VĂN - ARTICLE]\nKhông có bài viết liên quan!")
        print("-"*40 + "\n")
        continue

    # Nếu không có raw_advice_text -> vẫn thử dùng article để gợi ý cho LLM (tổng hợp từ bài viết)
    if article_snippet:
        print("[FALLBACK] Không tìm thấy câu hành động trong Q/A, thử tổng hợp từ bài viết liên quan...")
        spec_article = "Y tế chung"
        if article_meta:
            # cố gắng dự đoán chuyên khoa từ title hoặc leave default
            spec_article = article_meta.get("title","Y tế chung").split()[0]
        final_response = generate_natural_response(user_input, article_snippet, spec_article, article_snippet)
        print("\n" + "*"*10 + " CHATBOT TRẢ LỜI (dựa trên bài viết) " + "*"*10)
        print(final_response)
        print("\n[THAM KHẢO NGUYÊN VĂN - ARTICLE]")
        print(article_snippet[:8000])
        print("-"*40 + "\n")
        continue

    # Nếu không tìm gì -> fallback
    print("\nChatbot: " + FALLBACK + "\n")

Device: cuda
[DATA] Đã đọc Q/A từ: /kaggle/input/bacsituvan/bacsituvan.csv (bản ghi: 73)
[ARTICLES] Đã đọc articles từ: /kaggle/input/articles/bloomax.csv (bản ghi: 378)
[MODEL] Loading retrieval model vinai/phobert-base ...




[INDEX] Chuẩn bị văn bản cho index...
[INDEX] Embedded QA 0/73
[INDEX] QA index built. Num elements: 73
[INDEX] Article index built. Num elements: 378

=== Chatbot RAG (PhoBERT Retrieval + Article retrieval + LLM) ===
Nhập 'Kết thúc' để dừng.



Người dùng:  e năm nay 26 tuổi bị lõm lồng ngực bẩm sinh, thường hay bị hai bên cạnh sườn, cảm giác mỏi ở vùng ức và có cảm giác khó chịu khó tả. 



********** CHATBOT TRẢ LỜI **********
Xin chào bạn,

Xin lỗi, hệ thống chưa tìm được thông tin phù hợp trong dữ liệu tham khảo để trả lời câu hỏi của bạn về lõm lồng ngực bẩm sinh và cảm giác khó chịu ở vùng ức. Với tình trạng của bạn, Bác sĩ khuyên bạn nên đi khám trực tiếp để được chẩn đoán và tư vấn điều trị cụ thể.

Câu trả lời chỉ mang tính chất tham khảo, bạn nên đi khám trực tiếp tại chuyên khoa Y tế chung.


----------------------------------------
[THAM KHẢO NGUYÊN VĂN - Q/A]
Q: Cháu là nam ( 18 t ) , hay chạy bộ nhưng dạo gần đây cứ đau chân , nhưng không phải đau kiểu chạy nhiều mà đau . Khi cháu chạy , bàn_chân trái bị hơi tê ở gót_chân và bàn_chân ( cháu nghĩ cái này là bình_thường khi chạy bộ ) , nhưng chân phải cháu bị đau không chỉ vậy mà còn bị đau nguyên khớp dọc từ mắt_cá chân đi lên một khúc và dưới đó một_chút ._Bs cho cháu hỏi như thế là sao ạ , vì khi cháu chạy liên_tục một khoảng thời_gian thì chân phải trở_nên đau_nhói và không_thể dậm chân phải xuống đất được

Người dùng:  Kết thúc



[CHATBOT] Kết thúc phiên.
