In [None]:
import os
from pathlib import Path
from langchain_community.embeddings import HuggingFaceEmbeddings

cache_dir = Path(
    input("Thư mục cache (Enter=./hugging_face): ").strip() or "./hugging_face"
).expanduser().resolve()
cache_dir.mkdir(parents=True, exist_ok=True)

for var in [
    "TRANSFORMERS_CACHE",
    "HF_HOME",
    "HUGGINGFACE_HUB_CACHE",
    "SENTENCE_TRANSFORMERS_HOME",
]:
    os.environ[var] = str(cache_dir)

print("Cache tại:", cache_dir)
embedding_model = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2"
)
print("Embedding model ready!")


In [30]:
import re, numpy as np
from pymongo import MongoClient
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

client = MongoClient("mongodb+srv://thanhlamdev:lamvthe180779@cluster0.jvlxnix.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0")
collection = client["kinhdich_kb"]["chunks"]

vectorizer = TfidfVectorizer(stop_words="english", max_features=5000)

# --- Regex entity extractor ---
def parse_query(q: str):
    q_low = q.lower()
    hex_match  = re.search(r"quẻ\s+([a-zà-ỹ_]+)", q_low, re.I)
    hao_match  = re.search(r"hào\s+(sáu|chín)\s+(đầu|hai|ba|bốn|năm|trên)", q_low, re.I)
    note_match = re.search(r"\[(\d+)\]", q)

    return {
        "hexagram": hex_match.group(1).upper() if hex_match else None,
        "hao": " ".join(hao_match.groups()) if hao_match else None,
        "note_id": note_match.group(1) if note_match else None,
    }

# --- Candidate retrieval ---
def get_candidates(entities, N=200):
    filt = []
    if entities["hexagram"]:
        filt.append({"hexagram": entities["hexagram"]})
    if entities["note_id"]:
        filt.append({f"note_links.{entities['note_id']}": {"$exists": True}})
    mongo_q = {"$and": filt} if filt else {}
    proj = {"_id":1, "text":1, "embedding":1, "hexagram":1, "source_page_range":1}
    return list(collection.find(mongo_q, proj).limit(N))

# --- Hybrid rank ---
def hybrid_rank(query, docs, entities, top_k=5, a=0.4, b=0.5, g=0.1):
    corpus = [d["text"] for d in docs]
    tfidf  = vectorizer.fit_transform(corpus + [query])
    kw_sim = (tfidf[-1] @ tfidf[:-1].T).toarray()[0]

    q_vec  = embedding_model.embed_query(query)
    emb_mat= np.array([d["embedding"] for d in docs])
    emb_sim= cosine_similarity([q_vec], emb_mat)[0]

    ent_bonus = np.array([
        1.0 if entities["hexagram"] and d.get("hexagram")==entities["hexagram"] else 0.0
        for d in docs
    ])

    final = a*kw_sim + b*emb_sim + g*ent_bonus
    top = np.argsort(final)[::-1][:top_k]
    return [docs[i] for i in top]

# --- Smart search (public API) ---
def smart_search(query:str, top_k=5):
    entities = parse_query(query)
    if entities["note_id"]:
        d = collection.find_one({f"note_links.{entities['note_id']}": {"$exists":True}})
        return [d] if d else []
    docs = get_candidates(entities)
    if not docs:
        docs = list(collection.find({}, {"_id":1,"text":1,"embedding":1,"hexagram":1,"source_page_range":1}))
    return hybrid_rank(query, docs, entities, top_k=top_k)


In [31]:
def show(docs, q):
    print(f"\nKết quả cho: “{q}”\n")
    for d in docs:
        print(f"{d['_id']} | Quẻ: {d.get('hexagram','?')} | Trang: {d.get('source_page_range')}")
        print("  "+d["text"][:400].replace("\n"," ")+"…\n")

while True:
    q = input("\nHỏi Kinh Dịch (Enter thoát): ").strip()
    if not q: break
    docs = smart_search(q, top_k=3)
    show(docs, q)



Kết quả cho: “quẻ khôn là gì”

QUE_KIEN_026 | Quẻ: QUE_KIEN | Trang: [80, 128]
  Thuyết của Tiên nho cho là biến cả thì bỏ quẻ gốc xem quẻ biến nhưng Kiền, Khôn là nghĩa lớn của trời đất, quẻ Kiền biến sang quẻ Khôn, chưa thể dùng toàn lời của quẻ Khôn quẻ Khôn tuy biến sang quẻ Kiền, chưa thể dùng toàn lời của quẻ Kiền, cho nên dựng riêng ra hào Dùng Chín, Dùng Sáu để làm phép chiêm khi hay quẻ ấy biến cả Thuyết đó cũng phải Lấy lý mà xét, thì phàm các quẻ, tuy là biến cả cũn…

QUE_KHON_008 | Quẻ: QUE_KHON | Trang: [129, 154]
  “Đi đất không bờ” chỉ về đức mạnh - Kiền mạnh, Khôn thuận, Khôn cũng mạnh ư? Đáp rằng: Không mạnh thì sao sánh được với Kiền? Chưa có bao giờ Kiền đi mà Khôn đỗ Nó động thì cứng, nhưng với đức mềm vẫn không hại gì Mềm thuận mà lợi về nết trinh là đức của Khôn, điều mà quân tử vẫn làm Đó là đạo của quân tử với đức Khôn Bản nghĩa của Chu Hy - Đây nói về lợi trinh Ngựa là tượng của Kiền mà lại cho là…

QUE_KIEN_025 | Quẻ: QUE_KIEN | Trang: [80, 128]
  Phàm việc x

In [38]:
import os, re, json, unicodedata, difflib
from pathlib import Path
from typing import List, Dict, Any

import numpy as np
from pymongo import MongoClient
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from langchain_community.embeddings import HuggingFaceEmbeddings
from underthesea import word_tokenize

# ───────────────────── 1. Khởi tạo cache & embedding ────────────────────────────
CACHE_DIR = Path("./hf_cache").resolve()
CACHE_DIR.mkdir(parents=True, exist_ok=True)
for v in ["TRANSFORMERS_CACHE", "HF_HOME",
          "HUGGINGFACE_HUB_CACHE", "SENTENCE_TRANSFORMERS_HOME"]:
    os.environ[v] = str(CACHE_DIR)

embedding_model = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2"
)
print("Loaded embedding model.")

# stop-word VN (file nhỏ, có sẵn)
STOP = {"và", "là", "của", "cho", "trong", "một", "các", "đã", "với", "không"}
def tokenize_vi(text: str) -> str:
    toks = word_tokenize(text, format="text").split()
    return " ".join(t for t in toks if t.lower() not in STOP)

vectorizer = TfidfVectorizer(tokenizer=tokenize_vi,
                             lowercase=False,
                             max_features=10_000)

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


Loaded embedding model.


In [39]:
# ───────────────────── 2. Kết nối MongoDB ───────────────────────────────────────
MONGO_URI = "mongodb+srv://thanhlamdev:lamvthe180779@cluster0.jvlxnix.mongodb.net/?retryWrites=true&w=majority"
client     = MongoClient(MONGO_URI)
collection = client["kinhdich_kb"]["chunks"]
print("Connected to MongoDB.")

# ───────────────────── 3. Sinh bảng ánh xạ quẻ tự động ─────────────────────────
def strip_accents(txt: str) -> str:
    return "".join(c for c in unicodedata.normalize("NFD", txt)
                   if unicodedata.category(c) != "Mn")

def _norm(code: str) -> str:
    """QUE_DONG_NHAN → 'dongnhan'  |  QUE_TON_2 → 'ton2' """
    return strip_accents(code.split('_', 1)[-1]).lower().replace('_', '')

HEX_NORMALIZE: Dict[str, str] = {
    _norm(code): code for code in collection.distinct("hexagram")
}
print(f"Mapped {len(HEX_NORMALIZE)} hexagrams.")

# ───────────────────── 4. Hàm nhận diện quẻ ────────────────────────────────────
def detect_hexagram(query: str) -> str | None:
    plain = strip_accents(query.lower())
    # lấy từ cuối câu hoặc sau “quẻ ”
    m = re.search(r"(?:que\s+)?([a-z0-9_ ]{2,})$", plain)
    if not m:
        return None
    key = m.group(1).replace(' ', '')
    if key in HEX_NORMALIZE:
        return HEX_NORMALIZE[key]
    close = difflib.get_close_matches(key, HEX_NORMALIZE.keys(), n=1, cutoff=0.82)
    return HEX_NORMALIZE[close[0]] if close else None

# ───────────────────── 5. Smart-search pipeline ────────────────────────────────
def parse_entities(q: str) -> Dict[str, str | None]:
    note = re.search(r"\[(\d+)\]", q)
    return {"hexagram": detect_hexagram(q),
            "note_id":  note.group(1) if note else None}

def get_candidates(entities, N=300) -> List[Dict[str,Any]]:
    flt = []
    if entities["hexagram"]:
        flt.append({"hexagram": entities["hexagram"]})
    if entities["note_id"]:
        flt.append({f"note_links.{entities['note_id']}": {"$exists": True}})
    q = {"$and": flt} if flt else {}
    proj = {"_id":1,"text":1,"embedding":1,"hexagram":1,"source_page_range":1}
    return list(collection.find(q, proj).limit(N))

def hybrid_rank(query: str, docs: List[Dict[str,Any]],
                hex_code: str | None,
                top_k=5, α=0.25, β=0.25, γ=0.5):
    if not docs:
        return []
    tfidf = vectorizer.fit_transform([d["text"] for d in docs] + [query])
    kw_sim = (tfidf[-1] @ tfidf[:-1].T).toarray()[0]

    q_vec   = embedding_model.embed_query(query)
    emb_mat = np.array([d["embedding"] for d in docs])
    emb_sim = cosine_similarity([q_vec], emb_mat)[0]

    bonus = np.array([1.0 if hex_code and d["hexagram"] == hex_code else 0.0
                      for d in docs])

    score = α*kw_sim + β*emb_sim + γ*bonus
    rank  = np.argsort(score)[::-1][:top_k]
    return [docs[i] for i in rank]

def smart_search(query: str, top_k=5) -> List[Dict[str,Any]]:
    ent = parse_entities(query)

    # ghi chú [n]
    if ent["note_id"]:
        d = collection.find_one({f"note_links.{ent['note_id']}": {"$exists": True}})
        return [d] if d else []

    # Query 1 từ → ưu tiên hexagram regex
    if len(query.split()) == 1:
        code = ent["hexagram"]
        if code:
            return list(collection.find(
                {"hexagram": code},
                {"_id":1,"text":1,"hexagram":1,"source_page_range":1}
            ).limit(top_k))

    cand = get_candidates(ent)
    if not cand:
        cand = get_candidates({}, N=1000)
    return hybrid_rank(query, cand, ent["hexagram"], top_k=top_k)

Connected to MongoDB.
Mapped 61 hexagrams.


In [40]:
# ───────────────────── 6. CLI demo ──────────────────────────────────────────────
def show(docs, q):
    print(f"\nKết quả cho: “{q}”\n")
    if not docs:
        print("Không tìm thấy.")
        return
    for d in docs:
        snip = d["text"][:400].replace("\n"," ")
        print(f"{d['_id']} | {d['hexagram']} | Trang {d.get('source_page_range')}")
        print("  "+snip+"…\n")

if __name__ == "__main__":
    while True:
        q = input("\nHỏi Kinh Dịch (Enter để thoát): ").strip()
        if not q:
            break
        show(smart_search(q, top_k=3), q)





Kết quả cho: “quẻ càn”

QUE_CAN_001 | QUE_CAN | Trang [790, 801]
  QUẺ CẤN ☶ Cấn trên ☶ Cấn dưới GIẢI NGHĨA Truyện của Trình Di - Quẻ Cấn, Tự quái nói rằng: Chấn là động, các vật  ngăn, động với tĩnh phải nhân nhau, động thì có tĩnh, tĩnh thì có động, các vật không lẽ động luôn, vì vậy quẻ Cấn mới nối quẻ Chấn Cấn là đậu, không nói đậu mà nói cấn, là vì Cấn là Tượng núi, có ý yên nặng rắn đặc, nghĩa chữ “đậu” không thể hết được Kiền Khôn giao nhau, ba lần mà thàn…

QUE_CAN_002 | QUE_CAN | Trang [790, 801]
  Dịch âm - Cấn kỳ bối, bất hoạch kỳ thân, thành kỳ đình, bất kiến kỳ nhân, vô cữu Dịch nghĩa - Đậu thửa lưng, chẳng được thửa mình, đi thửa sân, chẳng thấy thửa người, không lỗi GIẢI NGHĨA  về sự ham muốn Sự ham muốn có kéo ở đằng trước, mà cần nó đậu thì không thể được, cho nên đạo đậu, nên đậu cái lưng Những cái trông thấy đều ở đằng trước, mà lưng thì trái ngược lại, ấy là nó không trông thấy Đậ…

QUE_CAN_007 | QUE_CAN | Trang [790, 801]
  Âm Dương chọi ứng với nhau mà không cùng




Kết quả cho: “quẻ khôn”

QUE_KHON_001 | QUE_KHON | Trang [129, 154]
  QUẺ KHÔN Khôn trên Khôn dưới LỜI KINH 坤元亨,利牝⾺之貞,君⼦有攸往,先迷,後得,主利,西南得朋,東北喪朋 安 貞,吉 Dịch âm - Khôn nguyên hanh, lợi tẫn mã chi trinh Quân tử hữu du vãng Tiên mê, hậu đắc, chủ lợi Tây Nam đắc bằng, Đông Bắc táng bằng, an trinh, cát Dịch nghĩa - Quẻ khôn: Đầu cả, hanh thông, Lợi về nết trinh của ngựa cái Quân tử có sự đi Trước mê, sau được Chủ về lợi Phía Tây Nam được bạn, phía Đông Bắc mất bạn Yên phận …

QUE_KHON_013 | QUE_KHON | Trang [129, 154]
  - Lời Tượng nói rằng: Thế đất là quẻ Khôn, đấng quân tử coi đó mà dùng đức dày chở các vật GIẢI NGHĨA Truyệu của Trình Di - Đạo Khôn cũng lớn như Kiền, phi thánh nhân ai thể được nó? Đất dày mà thế của nó xuôi nghiêng, cho nên lấy cái hình tượng xuôi thuận và dày đó mà nói “thế đất là quẻ Khôn” Đấng quân tử coi cái hình tượng Khôn dày mà đem cái đức thâm hậu chứa chở các vật Bản nghĩa của Chu Hy -…

QUE_KHON_007 | QUE_KHON | Trang [129, 154]
  LỜI KINH 牦⾺地類,⾏地無疆,柔順利負,君⼦攸⾏ Dịch




Kết quả cho: “quẻ cách”

QUE_CACH_015 | QUE_CACH | Trang [753, 765]
  Nhưng đạo làm tôi, không nên làm kẻ đi trước trong cuộc thay đổi, ắt đợi trên dưới tin mình, cho nên hết ngày mới đổi Như tài đức của hào Hai này, và cái chỗ nó ở, cái thì nó gặp, đủ để đổi thay điều tệ của thiên hạ, làm mới cuộc trị cho thiên hạ, nên tiến lên mà giúp vua, để thực hành cái đạo của mình, thì tốt mà không có lỗi Nếu không tiến lên thì mất cơ hội có thể làm việc, tức là có lỗi Bản ng…

QUE_CACH_001 | QUE_CACH | Trang [753, 765]
  QUẺ CÁCH ☱ Đoái trên ☲ Ly dưới GIẢI NGHĨA Truyện của Trình Di - Quẻ Cách Tự quái nói rằng: Đào giếng không thể  hỏng, đổi đi thì trong sạch, không thể không đổi, cho nên ở sau quẻ Tỉnh, tiếp đến quẻ Cách Nó là quẻ Đoái trên Ly dưới, tức là trong chằm có lửa Cách là biến đổi, nước lửa là giống làm tắt lẫn nhau, nước diệt lửa, lửa làm cạn nước, ấy là biến đổi cho nhau Tính lửa bốc lên, tính nước chả…

QUE_CACH_004 | QUE_CACH | Trang [753, 765]
  Giải vậy cũng hay Hào Đầu là đáy 