# ABC

- Bài toán sẽ sử dụng Hybrid Search để tìm kiếm các thông tin từ Vector Databasa, ta sẽ lấy thông tin từ Dense Database và Sparse Database
- Ta sẽ thực hiện 2 phương pháp tìm kiếm trên 2 database:
    - Semantic Search với Dense Database.
    - Lexical Search với Sparse Database.

In [1]:
# Load các thư viện cần thiết
import json
from pinecone.grpc import PineconeGRPC as Pinecone
from dotenv import load_dotenv
import os
from rank_bm25 import BM25Okapi
import numpy as np
from sentence_transformers import SentenceTransformer
from google import genai


  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# Khởi tạo các biến cần thiết
load_dotenv("../.env")

GEMINI_API_KEY = os.getenv("GEMINI_API")
PINECONE_API_KEY = os.getenv("PINECONE_API_KEY")
HOST_DENSE = os.getenv("HOST_DENSE")
HOST_SPARSE = os.getenv("HOST_SPARSE")

print(GEMINI_API_KEY)
print(PINECONE_API_KEY)
print(HOST_DENSE)
print(HOST_SPARSE)

AIzaSyCcUbdR3nJ6_4a0sr68Ch5qhNJc9e8-jTo
pcsk_6Gv7LH_HK8eSqMfipJ6xn6GX33ghLrPJDPvLHkFbgnpyy5tnLWkeMLjt7n7ZPnbbyjisAX
https://rag-subjects-dense-y0c06t1.svc.aped-4627-b74a.pinecone.io
https://rag-subjects-sparse-y0c06t1.svc.aped-4627-b74a.pinecone.io


In [3]:
pc = Pinecone(api_key = PINECONE_API_KEY)

# Gọi Dense Database và Sparse Database
dense_index = pc.Index(host = HOST_DENSE)
sparse_index = pc.Index(host = HOST_SPARSE)

## ***Sử dụng LLMs để phân loại câu hỏi theo môn học -> namespace***

In [4]:
# Gọi LLM (Gemini) để thực hiện chức năng phân loại

def subject_classification(input_querry):
    prompt = f"""
    Bạn là trợ lý phân loại câu hỏi học thuật. Hãy xác định câu hỏi sau thuộc môn nào.

    **Hướng dẫn phân loại:**
    * **Lịch Sử Đảng**: Nếu câu hỏi liên quan đến lịch sử hình thành, các sự kiện quan trọng, các giai đoạn phát triển, các lãnh đạo, chủ trương, đường lối của Đảng Cộng sản Việt Nam.
        * **Ví dụ**: "Chiến dịch Điện Biên Phủ diễn ra vào thời gian nào?", "Nghị quyết Trung ương 4 khóa XII nói về vấn đề gì?"
    * **Triết Học Mác-Lênin**: Nếu câu hỏi liên quan đến các khái niệm, nguyên lý, quy luật của chủ nghĩa duy vật biện chứng, chủ nghĩa duy vật lịch sử, học thuyết giá trị thặng dư, và tư tưởng của Karl Marx, Friedrich Engels, Vladimir Lenin.
        * **Ví dụ**: "Mâu thuẫn là gì trong triết học biện chứng?", "Học thuyết hình thái kinh tế xã hội được hiểu như thế nào?"

    **Câu hỏi cần phân loại:** "{input_querry}"

    **Chỉ trả lời bằng một trong ba từ sau:**
    * `triet-hoc`
    * `lich-su-dang`
    * `unknown` (Nếu không xác định được câu hỏi thuộc môn nào trong hai môn trên)
    """

    client = genai.Client(api_key=GEMINI_API_KEY)
    response = client.models.generate_content(
        model="gemini-2.5-flash",
        contents=prompt,
    )

    return response.text

## ***Semantic Search trên Dense Database***

In [5]:
#Gọi mô hình Embedding
embedding_model = SentenceTransformer("AITeamVN/Vietnamese_Embedding")

In [6]:
def semantic_dense(input_querry, namespace, embedding_model = None):
    dense_results = dense_index.query(
        namespace= namespace, 
        vector=embedding_model.encode(input_querry, convert_to_tensor=False).tolist(),
        top_k=10,
        include_metadata=True,
        # fields=["category", "chunk_text"]
    )

    return dense_results

## ***Lexical Search trên Sparse Database***

In [7]:
def bm25_tokenize(text):
    return text.lower().split()

def text_to_sparse_vector_bm25(text, bm25, vocabulary):
    tokens = bm25_tokenize(text)
    vector = np.zeros(len(vocabulary))
    for i, word in enumerate(vocabulary):
        idf = bm25.idf.get(word, 0)
        tf = tokens.count(word)
        vector[i] = idf * tf
    indices = vector.nonzero()[0].tolist()
    values = vector[indices].tolist()
    return {"indices": indices, "values": values}

In [8]:
# Đọc các file JSON
#Tạo hàm đọc
def load_chunks_from_json(file_path):
    with open(file_path, "r", encoding="utf-8") as f:
        chunks = json.load(f)
    return chunks

# Lấy raw chunk của các môn đại cương tạo vocabulary
raw_chunk = load_chunks_from_json(r"../data/LichSuDang/Lich_Su_Dang_raw.json") + load_chunks_from_json(r"../data/TrietHoc/TrietHoc_raw.json")

In [9]:
# Tạo corpus
corpus_texts = [chunk["content"] for chunk in raw_chunk]
tokenized_corpus = [bm25_tokenize(text) for text in corpus_texts]

bm25 = BM25Okapi(tokenized_corpus)
vocabulary = list(bm25.idf.keys())

In [10]:
def lexical_sparse(input_querry, namespace, bm25, vocabulary):

    sparse_vector = text_to_sparse_vector_bm25(input_querry, bm25, vocabulary)

    sparse_results = sparse_index.query(
        namespace=namespace,
        sparse_vector=sparse_vector,
        top_k=10,
        include_metadata=True,
    )

    return sparse_results

In [11]:
def merge_chunks(h1, h2):
    """Get the unique hits from two search results and return them as single array of {'_id', 'chunk_text'} dicts, printing each dict on a new line."""
    # Deduplicate by _id
    deduped_hits = {hit['id']: hit for hit in h1['matches'] + h2['matches']}.values()
    print
    # Sort by _score descending
    sorted_hits = sorted(deduped_hits, key=lambda x: x['score'], reverse=True)
    # Transform to format for reranking
    result = [{'id': hit['id'], 'content': hit['metadata']['content']} for hit in sorted_hits]
    return result

# Main

In [12]:
def hybrid_retriever(input_querry, embedding_model, bm25, vocabulary):
    namespace = subject_classification(input_querry)

    dense_results = semantic_dense(input_querry, namespace, embedding_model)
    sparse_results = lexical_sparse(input_querry, namespace, bm25, vocabulary)

    results = merge_chunks(dense_results, sparse_results)

    return results

In [14]:
input_querry = "Khái niệm Triết học là gì"
results = hybrid_retriever(input_querry, embedding_model, bm25, vocabulary)

print('[\n   ' + ',\n   '.join(str(obj) for obj in results) + '\n]')
print(len (results))

[
   {'id': 'TrietHoc_phani_chuongiii_II_2_0_4', 'content': '. Do đó, một số quan  điểm về chủ nghĩa xã hội khoa học được nêu lên nhưng chưa có được sự diễn đạt rõ  ràng; song, điều quan trọng là Mác và Ăngghen đã đưa ra phương pháp tiếp cận khoa học  để nhận thức chủ nghĩa cộng sản. Chủ nghĩa cộng sản là một lý tưởng cao đẹp của nhân  loại, nhưng lý tưởng đó được thực hiện từng bước với những mục tiêu cụ thể nào, bằng  con đường nào; điều đó tùy thuộc vào điểm xuất phát và chỉ có qua phong trào thực tiễn  mới tìm ra được những hình thức và bước đi thích hợp. "Đối với chúng ta - C.Mác  và Ph.Ăngghen viết - chủ nghĩa cộng sản không phải là một trạng thái cần phải sáng tạo  ra, không phải là một lý tưởng mà hiện thực phải khuôn theo. Chúng ta gọi chủ nghĩa  cộng sản là một phong trào hiện thực, nó xoá bỏ trạng thái hiện nay".  Trong tác phẩm Sự khốn cùng của triết học (1847) và Tuyên ngôn của Đảng Cộng  sản (tháng 2-1848), chủ nghĩa Mác được trình bày như một chỉnh thể các quan điểm lý  