# ABC

- Bài toán sẽ sử dụng Hybrid Search để tìm kiếm các thông tin từ Vector Databasa, ta sẽ lấy thông tin từ Dense Database và Sparse Database
- Ta sẽ thực hiện 2 phương pháp tìm kiếm trên 2 database:
    - Semantic Search với Dense Database.
    - Lexical Search với Sparse Database.

In [45]:
# Load các thư viện cần thiết
import json
from pinecone.grpc import PineconeGRPC as Pinecone
from dotenv import load_dotenv
import os
from rank_bm25 import BM25Okapi
import numpy as np
from sentence_transformers import SentenceTransformer
from google import genai

# Đọc các file JSON
#Tạo hàm đọc
from utils.load_chunks_json import load_chunks_from_json
from utils.save_chunks_json import save_chunks_to_json
from utils.bm25 import bm25_tokenize, text_to_sparse_vector_bm25

In [33]:
#Tạo đương dẫn chung để đọc utils
import sys
import os
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))

In [34]:
# Khởi tạo các biến cần thiết
load_dotenv("../.env")

GEMINI_API_KEY = os.getenv("GEMINI_API")
PINECONE_API_KEY = os.getenv("PINECONE_API_KEY")
HOST_DENSE = os.getenv("HOST_DENSE")
HOST_SPARSE = os.getenv("HOST_SPARSE")

print(GEMINI_API_KEY)
print(PINECONE_API_KEY)
print(HOST_DENSE)
print(HOST_SPARSE)

AIzaSyCcUbdR3nJ6_4a0sr68Ch5qhNJc9e8-jTo
pcsk_6Gv7LH_HK8eSqMfipJ6xn6GX33ghLrPJDPvLHkFbgnpyy5tnLWkeMLjt7n7ZPnbbyjisAX
https://rag-subjects-dense-y0c06t1.svc.aped-4627-b74a.pinecone.io
https://rag-subjects-sparse-y0c06t1.svc.aped-4627-b74a.pinecone.io


In [35]:
pc = Pinecone(api_key = PINECONE_API_KEY)

# Gọi Dense Database và Sparse Database
dense_index = pc.Index(host = HOST_DENSE)
sparse_index = pc.Index(host = HOST_SPARSE)

## ***Sử dụng LLMs để phân loại câu hỏi theo môn học -> namespace***

In [36]:
# Gọi LLM (Gemini) để thực hiện chức năng phân loại

def subject_classification(input_querry):
    prompt = f"""
    Bạn là trợ lý phân loại câu hỏi học thuật. Hãy xác định câu hỏi sau thuộc môn nào.

    **Hướng dẫn phân loại:**
    * **Lịch Sử Đảng**: Nếu câu hỏi liên quan đến lịch sử hình thành, các sự kiện quan trọng, các giai đoạn phát triển, các lãnh đạo, chủ trương, đường lối của Đảng Cộng sản Việt Nam.
        * **Ví dụ**: "Chiến dịch Điện Biên Phủ diễn ra vào thời gian nào?", "Nghị quyết Trung ương 4 khóa XII nói về vấn đề gì?"
    * **Triết Học Mác-Lênin**: Nếu câu hỏi liên quan đến các khái niệm, nguyên lý, quy luật của chủ nghĩa duy vật biện chứng, chủ nghĩa duy vật lịch sử, học thuyết giá trị thặng dư, và tư tưởng của Karl Marx, Friedrich Engels, Vladimir Lenin.
        * **Ví dụ**: "Mâu thuẫn là gì trong triết học biện chứng?", "Học thuyết hình thái kinh tế xã hội được hiểu như thế nào?"

    **Câu hỏi cần phân loại:** "{input_querry}"

    **Chỉ trả lời bằng một trong ba từ sau:**
    * `triet-hoc`
    * `lich-su-dang`
    * `unknown` (Nếu không xác định được câu hỏi thuộc môn nào trong hai môn trên)
    """

    client = genai.Client(api_key=GEMINI_API_KEY)
    response = client.models.generate_content(
        model="gemini-2.5-flash",
        contents=prompt,
    )

    return response.text

## ***Semantic Search trên Dense Database***

In [37]:
#Gọi mô hình Embedding
embedding_model = SentenceTransformer("AITeamVN/Vietnamese_Embedding")

In [38]:
def semantic_dense(input_querry, namespace, embedding_model = None):
    dense_results = dense_index.query(
        namespace= namespace, 
        vector=embedding_model.encode(input_querry, convert_to_tensor=False).tolist(),
        top_k=10,
        include_metadata=True,
        # fields=["category", "chunk_text"]
    )

    return dense_results

## ***Lexical Search trên Sparse Database***

In [39]:
# Lấy raw chunk của các môn đại cương tạo vocabulary
raw_chunk = load_chunks_from_json(r"../data/LichSuDang/Lich_Su_Dang_raw.json") + load_chunks_from_json(r"../data/TrietHoc/TrietHoc_raw.json")

In [40]:
# Tạo corpus
corpus_texts = [chunk["content"] for chunk in raw_chunk]
tokenized_corpus = [bm25_tokenize(text) for text in corpus_texts]

bm25 = BM25Okapi(tokenized_corpus)
vocabulary = list(bm25.idf.keys())

In [41]:
def lexical_sparse(input_querry, namespace, bm25, vocabulary):

    sparse_vector = text_to_sparse_vector_bm25(input_querry, bm25, vocabulary)

    sparse_results = sparse_index.query(
        namespace=namespace,
        sparse_vector=sparse_vector,
        top_k=10,
        include_metadata=True,
    )

    return sparse_results

In [42]:
def merge_chunks(h1, h2):
    """Get the unique hits from two search results and return them as single array of {'_id', 'chunk_text'} dicts, printing each dict on a new line."""
    # Deduplicate by _id
    deduped_hits = {hit['id']: hit for hit in h1['matches'] + h2['matches']}.values()
    print
    # Sort by _score descending
    sorted_hits = sorted(deduped_hits, key=lambda x: x['score'], reverse=True)
    # Transform to format for reranking
    result = [{'id': hit['id'], 'content': hit['metadata']['content']} for hit in sorted_hits]
    return result

# Main

In [None]:
def hybrid_retriever(input_querry, embedding_model, bm25, vocabulary):
    #Lấy namespace để truyền vào tìm kiếm vector
    namespace = subject_classification(input_querry)

    # Thực hiện tìm kiếm Semantic và Lexical
    dense_results = semantic_dense(input_querry, namespace, embedding_model)
    sparse_results = lexical_sparse(input_querry, namespace, bm25, vocabulary)

    # Kết hợp kết quả từ hai phương pháp
    results = merge_chunks(dense_results, sparse_results)

    # Lưu kết quả vào file JSON
    save_chunks_to_json(results, "../context/hybrid_search_results.json")

    return results

In [48]:
input_querry = "Quân Tưởng"
results = hybrid_retriever(input_querry, embedding_model, bm25, vocabulary)

print('[\n   ' + ',\n   '.join(str(obj) for obj in results) + '\n]')
print(len (results))

[
   {'id': 'LSD_chuong2_II_2_7', 'content': '. Năm 1965, quân dân ta tập trung tìm hiểu đối phương, tìm cách đánh Mỹ. Quân và dân miền Nam đã đánh thắng quân chiến đấu Mỹ ở Núi Thành (5-1965), Vạn Tường (8-1965), Plâyme (11-1965)..., bẻ gẫy cuộc phản công chiến lược mùa khô 1965- 1966, làm thất bại kế hoạch tìm và diệt, bình định nhằm giành quyền chủ động trên chiến trường của quân Mỹ và quân đội Sài Gòn. Miền Bắc bước đầu đánh thắng chiến tranh phá hoại, đảm bảo giao thông thông suốt, chi viện cho chiến trường ngày càng nhiều và hiệu quả. Sau chiến thắng Vạn Tường, một cao trào đánh Mỹ, diệt ngụy được dấy lên mạnh mẽ khắp chiến trường miền Nam. Với thế trận chiến tranh nhân dân được xây dựng và phát triển trên ba vùng chiến lược, quân và dân miền Nam đã giữ vững quyền chủ động trên khắp chiến trường, vừa phản công tiêu diệt địch trong các cuộc hành quân của Mỹ, vừa chủ động tiến công, thọc sâu vào các vùng quân địch kiểm soát, các căn cứ đóng quân, các kho hậu cần và ngay ở cả sào hu