In [None]:
import os
from pathlib import Path
from langchain_community.embeddings import HuggingFaceEmbeddings

cache_dir = Path(
    input("Thư mục cache (Enter=./hugging_face): ").strip() or "./hugging_face"
).expanduser().resolve()
cache_dir.mkdir(parents=True, exist_ok=True)

for var in [
    "TRANSFORMERS_CACHE",
    "HF_HOME",
    "HUGGINGFACE_HUB_CACHE",
    "SENTENCE_TRANSFORMERS_HOME",
]:
    os.environ[var] = str(cache_dir)

print("Cache tại:", cache_dir)
embedding_model = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2"
)
print("Embedding model ready!")


In [30]:
import re, numpy as np
from pymongo import MongoClient
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

client = MongoClient("mongodb+srv://thanhlamdev:lamvthe180779@cluster0.jvlxnix.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0")
collection = client["kinhdich_kb"]["chunks"]

vectorizer = TfidfVectorizer(stop_words="english", max_features=5000)

# --- Regex entity extractor ---
def parse_query(q: str):
    q_low = q.lower()
    hex_match  = re.search(r"quẻ\s+([a-zà-ỹ_]+)", q_low, re.I)
    hao_match  = re.search(r"hào\s+(sáu|chín)\s+(đầu|hai|ba|bốn|năm|trên)", q_low, re.I)
    note_match = re.search(r"\[(\d+)\]", q)

    return {
        "hexagram": hex_match.group(1).upper() if hex_match else None,
        "hao": " ".join(hao_match.groups()) if hao_match else None,
        "note_id": note_match.group(1) if note_match else None,
    }

# --- Candidate retrieval ---
def get_candidates(entities, N=200):
    filt = []
    if entities["hexagram"]:
        filt.append({"hexagram": entities["hexagram"]})
    if entities["note_id"]:
        filt.append({f"note_links.{entities['note_id']}": {"$exists": True}})
    mongo_q = {"$and": filt} if filt else {}
    proj = {"_id":1, "text":1, "embedding":1, "hexagram":1, "source_page_range":1}
    return list(collection.find(mongo_q, proj).limit(N))

# --- Hybrid rank ---
def hybrid_rank(query, docs, entities, top_k=5, a=0.4, b=0.5, g=0.1):
    corpus = [d["text"] for d in docs]
    tfidf  = vectorizer.fit_transform(corpus + [query])
    kw_sim = (tfidf[-1] @ tfidf[:-1].T).toarray()[0]

    q_vec  = embedding_model.embed_query(query)
    emb_mat= np.array([d["embedding"] for d in docs])
    emb_sim= cosine_similarity([q_vec], emb_mat)[0]

    ent_bonus = np.array([
        1.0 if entities["hexagram"] and d.get("hexagram")==entities["hexagram"] else 0.0
        for d in docs
    ])

    final = a*kw_sim + b*emb_sim + g*ent_bonus
    top = np.argsort(final)[::-1][:top_k]
    return [docs[i] for i in top]

# --- Smart search (public API) ---
def smart_search(query:str, top_k=5):
    entities = parse_query(query)
    if entities["note_id"]:
        d = collection.find_one({f"note_links.{entities['note_id']}": {"$exists":True}})
        return [d] if d else []
    docs = get_candidates(entities)
    if not docs:
        docs = list(collection.find({}, {"_id":1,"text":1,"embedding":1,"hexagram":1,"source_page_range":1}))
    return hybrid_rank(query, docs, entities, top_k=top_k)


In [31]:
def show(docs, q):
    print(f"\nKết quả cho: “{q}”\n")
    for d in docs:
        print(f"{d['_id']} | Quẻ: {d.get('hexagram','?')} | Trang: {d.get('source_page_range')}")
        print("  "+d["text"][:400].replace("\n"," ")+"…\n")

while True:
    q = input("\nHỏi Kinh Dịch (Enter thoát): ").strip()
    if not q: break
    docs = smart_search(q, top_k=3)
    show(docs, q)



Kết quả cho: “quẻ khôn là gì”

QUE_KIEN_026 | Quẻ: QUE_KIEN | Trang: [80, 128]
  Thuyết của Tiên nho cho là biến cả thì bỏ quẻ gốc xem quẻ biến nhưng Kiền, Khôn là nghĩa lớn của trời đất, quẻ Kiền biến sang quẻ Khôn, chưa thể dùng toàn lời của quẻ Khôn quẻ Khôn tuy biến sang quẻ Kiền, chưa thể dùng toàn lời của quẻ Kiền, cho nên dựng riêng ra hào Dùng Chín, Dùng Sáu để làm phép chiêm khi hay quẻ ấy biến cả Thuyết đó cũng phải Lấy lý mà xét, thì phàm các quẻ, tuy là biến cả cũn…

QUE_KHON_008 | Quẻ: QUE_KHON | Trang: [129, 154]
  “Đi đất không bờ” chỉ về đức mạnh - Kiền mạnh, Khôn thuận, Khôn cũng mạnh ư? Đáp rằng: Không mạnh thì sao sánh được với Kiền? Chưa có bao giờ Kiền đi mà Khôn đỗ Nó động thì cứng, nhưng với đức mềm vẫn không hại gì Mềm thuận mà lợi về nết trinh là đức của Khôn, điều mà quân tử vẫn làm Đó là đạo của quân tử với đức Khôn Bản nghĩa của Chu Hy - Đây nói về lợi trinh Ngựa là tượng của Kiền mà lại cho là…

QUE_KIEN_025 | Quẻ: QUE_KIEN | Trang: [80, 128]
  Phàm việc x

In [2]:
from pymongo import MongoClient

mongo = "mongodb+srv://vuthanhlam848:bfwYK9jyLG5fqHoX@cluster0.s9cdtme.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
# check connection
try:
    client = MongoClient(mongo)
    client.admin.command('ping')
    print("Kết nối MongoDB thành công!")
except Exception as e:
    print("Kết nối MongoDB thất bại:", e)
# check database

Kết nối MongoDB thành công!


In [7]:
import os, re, difflib, unicodedata, json, sys
from pathlib import Path
from typing import List, Dict, Any

from tqdm import tqdm
import numpy as np
from pymongo import MongoClient
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from langchain_community.embeddings import HuggingFaceEmbeddings
from underthesea import word_tokenize

In [8]:
# ───────────────── 0. Config ───────────────────────────────────────────
MONGO_URI = (
    "mongodb+srv://thanhlamdev:lamvthe180779@cluster0.jvlxnix.mongodb.net/"
    "?retryWrites=true&w=majority"
)
MODEL_NAME  = "VoVanPhuc/sup-SimCSE-VietNamese-phobert-base"
CACHE_DIR   = Path("./hf_cache").resolve()
BATCH_SIZE  = 128       # batch tái nhúng
TOP_K       = 5        # số đoạn trả về

# ───────────────── 1. Cache & embedding ────────────────────────────────
CACHE_DIR.mkdir(parents=True, exist_ok=True)
for env in (
    "TRANSFORMERS_CACHE",
    "HF_HOME",
    "HUGGINGFACE_HUB_CACHE",
    "SENTENCE_TRANSFORMERS_HOME",
):
    os.environ[env] = str(CACHE_DIR)

embedder = HuggingFaceEmbeddings(model_name=MODEL_NAME)
MODEL_DIM = len(embedder.embed_query("test"))
print(f"Loaded embedding {MODEL_NAME}  ({MODEL_DIM}-d)")

No sentence-transformers model found with name VoVanPhuc/sup-SimCSE-VietNamese-phobert-base. Creating a new one with mean pooling.


Loaded embedding VoVanPhuc/sup-SimCSE-VietNamese-phobert-base  (768-d)


In [9]:
# ───────────────── 2. Connect MongoDB ──────────────────────────────────
client     = MongoClient(MONGO_URI)
collection = client["kinhdich_kb"]["chunks"]
print("Connected MongoDB.")

# ───────────────── 3. Re-embed if needed ───────────────────────────────
sample = collection.find_one({}, {"embedding": 1})
if not sample:
    print("Collection rỗng, thoát."); sys.exit(0)

DB_DIM = len(sample["embedding"])
if DB_DIM != MODEL_DIM:
    print(f"Re-embedding: DB dim={DB_DIM} ≠ model dim={MODEL_DIM}")
    cursor = list(collection.find({}, {"_id": 1, "text": 1}))
    for i in tqdm(range(0, len(cursor), BATCH_SIZE), desc="Re-embed"):
        batch = cursor[i:i+BATCH_SIZE]
        vecs  = embedder.embed_documents([d["text"] for d in batch])
        for doc, v in zip(batch, vecs):
            collection.update_one({"_id": doc["_id"]}, {"$set": {"embedding": v}})
    print("Re-embed done.")
else:
    print("Embedding trong DB đã cùng chiều, bỏ qua tái nhúng.")

# ───────────────── 4. Vietnamese stop-words & TF-IDF ───────────────────
STOP = {
    "và", "là", "của", "cho", "trong", "một", "các", "đã", "với",
    "không", "có", "này", "để", "cũng", "thì", "như", "lại", "nếu",
    "sẽ", "được", "bạn", "tôi", "họ", "chúng", "ta"
}

def tokenize_vi(text: str) -> str:
    toks = word_tokenize(text, format="text").split()
    return " ".join(t for t in toks if t.lower() not in STOP)

vectorizer = TfidfVectorizer(
    tokenizer=tokenize_vi,
    lowercase=False,
    max_features=12_000
)

Connected MongoDB.
Re-embedding: DB dim=384 ≠ model dim=768


Re-embed: 100%|██████████| 12/12 [04:16<00:00, 21.39s/it]

Re-embed done.





In [None]:
# ───────────────── 5. Hexagram mapping (64 quẻ) ────────────────────────
#  Bảng tiếng Việt → mã hexagram (QUE_*)
VI_HEX = [
 # 1–8
 ("càn", "QUE_KIEN"), ("khôn", "QUE_KHON"),
 ("truân", "QUE_TRUAN"), ("mông", "QUE_MONG"),
 ("nhu", "QUE_NHU"), ("tụng", "QUE_TUNG"),
 ("sư", "QUE_SU"), ("tỉ", "QUE_TY"),        # 8   sửa “tỷ” thành “tỉ”
 # 9–16
 ("tiểu súc", "QUE_TIEU_SUC"), ("lý",  "QUE_LY"),
 ("thái", "QUE_THAI"), ("bĩ",  "QUE_BI"),   # 12  (thiếu trước)
 ("đồng nhân", "QUE_DONG_NHAN"), ("đại hữu", "QUE_DAI_HUU"),
 ("khiêm", "QUE_KHIEM"), ("dự", "QUE_DU"),
 # 17–24
 ("tùy", "QUE_TUY"), ("cổ", "QUE_CO"),
 ("lâm", "QUE_LAM"), ("quán", "QUE_QUAN"),
 ("phệ hạp", "QUE_PHE_HAP"), ("bĩ (2)", "QUE_BI_2"),  # nếu bạn lưu Bĩ lần 2
 ("bóc", "QUE_BAC"), ("phục", "QUE_PHUC"),
 # 25–32
 ("vô vong", "QUE_VO_VONG"), ("đại súc", "QUE_DAI_SUC"),
 ("di", "QUE_DI"), ("đại quá", "QUE_DAI_QUA"),
 ("khảm", "QUE_KHAM"), ("ly (thuần)", "QUE_LY"),
 ("hàm", "QUE_HAM"), ("hằng", "QUE_HANG"),
 # 33–40
 ("độn", "QUE_DON"), ("đại tráng", "QUE_DAI_TRANG"),
 ("tấn", "QUE_TAN"), ("minh di", "QUE_MINH_DI"),
 ("gia nhân", "QUE_GIA_NHAN"), ("khuê", "QUE_KHUE"),
 ("kiển", "QUE_KIEN"), ("giải", "QUE_GIAI"),
 # 41–48
 ("ích", "QUE_ICH"), ("quải", "QUE_QUAI"),   # 43 Quải
 ("cấu", "QUE_CAU"), ("tụy", "QUE_TUY_2"),
 ("thăng", "QUE_THANG"), ("khốn", "QUE_KHON_2"),
 ("tỉnh", "QUE_TINH"), ("cách", "QUE_CACH"),
 # 49–56
 ("đỉnh", "QUE_DINH"), ("chấn", "QUE_CHAN"),
 ("cấn", "QUE_CAN"),   ("tiệm", "QUE_TIEM"),
 ("quy muội", "QUE_QUI_MUOI"), ("phong", "QUE_PHONG"),
 ("lữ", "QUE_LU"), ("tốn (thuần)", "QUE_TON_2"),
 # 57–64
 ("hoán", "QUE_HOAN"), ("tiết", "QUE_TIET"),
 ("trung phu", "QUE_TRUNG_PHU"), ("tiểu quá", "QUE_TIEU_QUA"),
 ("kỵ tế", "QUE_KY_TE"), ("vị tế", "QUE_VI_TE"),
 ("độn (2)", "QUE_DON_2"),      ("kiền (thuần)", "QUE_KIEN_2")  # alias tùy DB
]

def strip_accents(s: str) -> str:
    import unicodedata
    return "".join(c for c in unicodedata.normalize("NFD", s)
                   if unicodedata.category(c) != "Mn")

HEX_MAP = {
    strip_accents(name).replace(" ", ""): code
    for name, code in VI_HEX
}

# Tự thêm alias từ chính DB (phòng khi mã lạ)
def _norm(code: str) -> str:
    return strip_accents(code.split('_', 1)[-1]).lower().replace('_', '')
for code in collection.distinct("hexagram"):
    HEX_MAP.setdefault(_norm(code), code)

# ───────────────── 6. Helper detect hexagram ───────────────────────────
def detect_hexagram(query: str) -> str | None:
    plain = strip_accents(query.lower())
    # lấy từ sau "quẻ" hoặc từ cuối
    m = re.search(r"(?:que\s+)?([a-z0-9 ]+)$", plain)
    if not m:
        return None
    key = m.group(1).replace(" ", "")
    if key in HEX_MAP:
        return HEX_MAP[key]
    near = difflib.get_close_matches(key, HEX_MAP.keys(), n=1, cutoff=0.8)
    return HEX_MAP[near[0]] if near else None

# ───────────────── 7. Smart search functions ───────────────────────────
def parse_entities(q: str) -> Dict[str, str | None]:
    note = re.search(r"\[(\d+)\]", q)
    return {"hexagram": detect_hexagram(q),
            "note_id": note.group(1) if note else None}

def get_candidates(ent, N=300):
    flt = []
    if ent["hexagram"]:
        flt.append({"hexagram": ent["hexagram"]})
    if ent["note_id"]:
        flt.append({f"note_links.{ent['note_id']}": {"$exists": True}})
    q = {"$and": flt} if flt else {}
    proj = {"_id":1,"text":1,"embedding":1,
            "hexagram":1,"source_page_range":1}
    return list(collection.find(q, proj).limit(N))

def hybrid_rank(query, docs, hex_code, top_k=TOP_K,
                a=0.25, b=0.5, g=0.25):
    if not docs:
        return []
    tfidf = vectorizer.fit_transform([d["text"] for d in docs] + [query])
    kw_sim = (tfidf[-1] @ tfidf[:-1].T).toarray()[0]
    q_vec  = embedder.embed_query(query)
    emb_mat= np.array([d["embedding"] for d in docs])
    emb_sim= cosine_similarity([q_vec], emb_mat)[0]
    bonus  = np.array([1. if hex_code and d["hexagram"]==hex_code else 0.
                       for d in docs])
    score  = a*kw_sim + b*emb_sim + g*bonus
    idx    = np.argsort(score)[::-1][:top_k]
    return [docs[i] for i in idx]

def smart_search(query: str):
    ent = parse_entities(query)

    # hỏi ghi chú
    if ent["note_id"]:
        d = collection.find_one({f"note_links.{ent['note_id']}": {"$exists": True}})
        return [d] if d else []

    # một từ -> lấy theo quẻ
    if len(query.split()) == 1 and ent["hexagram"]:
        return list(collection.find(
            {"hexagram": ent["hexagram"]},
            {"_id":1,"text":1,"hexagram":1,"source_page_range":1}
        ).limit(TOP_K))

    cand = get_candidates(ent) or get_candidates({}, N=1000)
    return hybrid_rank(query, cand, ent["hexagram"])

In [14]:
# ───────────────── 8. CLI demo ─────────────────────────────────────────
def show(docs, q):
    print(f"\nKết quả: “{q}”\n")
    if not docs:
        print("Không tìm thấy."); return
    for d in docs:
        snippet = d["text"][:350].replace("\n"," ")
        print(f"{d['_id']} | {d['hexagram']} | Trang {d.get('source_page_range')}")
        print("  "+snippet+"…\n")

if __name__ == "__main__":
    while True:
        q = input("\nHỏi Kinh Dịch » ").strip()
        if not q:
            break
        show(smart_search(q), q)




Kết quả: “quẻ bĩ là gì”

QUE_HANG_004 | QUE_HANG | Trang [521, 533]
  GIẢI NGHĨA Truyện của Trình Di - Tài quẻ có bốn điều đó, tức là cái nghĩa làm nên quẻ Hằng Cứng lên mà xuống, nghĩa là hào Đầu quẻ Kiền lên ngôi Tư, hào Đầu quẻ Khôn, xuống ở ngôi đầu, hào cứng lên mà hào mềm xuống, hai hào đổi chỗ thì thành Chấn Tốn, Chấn trên Tốn dưới, cũng là cứng lên mềm xuống Cứng ở trên mà mềm ở dưới, tức là đạo hằng Sấm gió …

QUE_CAU_003 | QUE_CAU | Trang [684, 697]
  Bản nghĩa của Chu Hy - Cấu nghĩa là gặp, quyết hết thì là quẻ thuần Kiền, tức là quẻ về tháng Tư, đến quẻ Cấu, rồi một khí Âm có thể hiện được, mới quẻ tháng Năm Vì nó vốn không phải cái là mong đợi, thình lình gặp nó, như kẻ chẳng hẹn mà gặp, cho nên là gặp, sự gặp, như thế đã bất chính rổi Lại một hào Âm mà gặp đến năm hào Dương, thì là đức của c…

QUE_DINH_010 | QUE_DINH | Trang [766, 777]
  Nhưng đương đầu quẻ, vạc chưa đựng gì, mà vật hư xấu, từ trước vẫn chứa ở đó, nhân nó đổ mà dốc hết ra, thì là lợi rồi “Được nàng hầu, 




Kết quả: “quẻ Bĩ”

QUE_BI_001 | QUE_BI | Trang [273, 283]
  QUẺ BĨ ☰Kiền trên ☷Khôn dưới GIẢI NGHĨA Truyện của Trình Di - Quẻ Bĩ, Tự quái nói rằng: Thái tức là thông, các vật không thể thông mãi, cho nên tiếp đến quẻ Bĩ Ôi vật lý đi lại, hanh thái đã cực thì ắt phải bĩ, vì vậy quẻ Bĩ nối quẻ Thái Nó là quẻ trời trên đất dưới, trời đất giao nhau Âm dương hòa hợp là thái trời ở trên, đất ở dưới, thì là trời đ…

QUE_BI_007 | QUE_BI | Trang [273, 283]
  GIẢI NGHĨA Truyện của Trình Di - Quẻ Thái và quẻ Bĩ đều lấy cỏ tranh làm Tượng, là vì các hào Dương, các hào Âm cùng ở dưới, có Tượng gìằng kéo Thời Thái thì lấy sự cùng đi làm tốt, thời Bĩ thì lấy sự cùng chính bền làm hanh thông đầu tiên lấy trong tiểu nhân ngoài quân tử làm nghĩa bĩ, lại lấy hào Sáu Đầu bĩ mà ở dưới là đạo đấng quân tử, Kinh Dịc…

QUE_BI_019 | QUE_BI | Trang [273, 283]
  GIẢI NGHĨA Truyện của Trình Di - Cuộc bĩ đến chót thì phải nghiêng đổ, đâu lại có lẽ bĩ mãi? Cùng cực thì phải quay lại, ấy là lẽ thường Nhưng mà cái v




Kết quả: “những điều nên biết trong kich dịch”

QUE_DAI_TRANG_007 | QUE_DAI_TRANG | Trang [546, 556]
  Còn ở hào Tư thì có lời răn về sự bất chính Người ta hễ biết thì nghĩa khinh trọng, thì có thể học được Kinh Dịch Bản nghĩa của Chu Hy - Là hào Dương ở ngôi Âm, đã là không được chính rồi Nhưng vì nó được chỗ giữa, cũng còn có thể nhân đó mà không bị mất sự chính, cho nên mới răn kẻ xem phải nhân đạo “giữa” mà tìm sự chính, rồi sau sẽ được tốt lành…

QUE_DAI_TRANG_006 | QUE_DAI_TRANG | Trang [546, 556]
  - Tượng viết: Tráng vu chỉ, kỳ phu cùng dã Dịch nghĩa - Lời tượng nói rằng: Mạnh ở ngón chân, thửa tin cùng vậy GIẢI NGHĨA Truyện của Trình Di - Ở chỗ dưới nhất mà dùng sự mạnh để đi, có thể tin hẳn là sẽ cùng khốn mà hung Bản nghĩa của Chu Hy - Ý nói ắt phải cùng khốn LỜI KINH 九⼆:貞吉 Dịch âm - Cửu Nhị: Trình cát Dịch nghĩa - Hào Chín Hai: Chính tốt…

QUE_ICH_020 | QUE_ICH | Trang [652, 667]
  Lại răn rằng phải có tin, theo đường giữa tâu lên tước công thì dùng ngọc khuê Dùng ngọc khu