In [22]:
from app.db.qdrant import hybrid_search, search_dense, search_sparse
from app.utils.vectorizer import convert_to_sparse_vector, convert_to_dense_vector

In [23]:
def get_ids_hybrid(question, top_k=3):
    """
    Lấy danh sách id của các câu hỏi liên quan đến câu hỏi đầu vào.
    """
    # Chuyển đổi câu hỏi thành vector
    dense = convert_to_dense_vector(question)
    sparse = convert_to_sparse_vector(question)
    
    # Tìm kiếm trong cơ sở dữ liệu
    results = hybrid_search(dense, sparse, top_k=top_k, collection_name="stockcode_hybrid_search")
    
    # Trả về danh sách id
    return [result.id for result in results]

In [24]:
def get_ids_sparse(question, top_k=3):
    """
    Lấy danh sách id của các câu hỏi liên quan đến câu hỏi đầu vào.
    """
    # Chuyển đổi câu hỏi thành vector
    sparse = convert_to_sparse_vector(question)
    
    # Tìm kiếm trong cơ sở dữ liệu
    results = search_sparse(sparse, top_k=top_k, collection_name="stockcode_hybrid_search")
    
    # Trả về danh sách id
    return [result.id for result in results]

In [25]:
def get_ids_dense(question, top_k=3):
    """
    Lấy danh sách id của các câu hỏi liên quan đến câu hỏi đầu vào.
    """
    # Chuyển đổi câu hỏi thành vector
    dense = convert_to_dense_vector(question)
    
    # Tìm kiếm trong cơ sở dữ liệu
    results = search_dense(dense, top_k=top_k, collection_name="stockcode_hybrid_search")
    
    # Trả về danh sách id
    return [result.id for result in results]

In [26]:
# dọc file csv questions_with_id.csv

import pandas as pd

df = pd.read_csv("data/questions_with_id.csv")

In [27]:
df.head()

Unnamed: 0,id,question
0,9e1614c5-1c11-42f7-ba18-43d032712fbb,Microsoft có kế hoạch đầu tư bao nhiêu tiền và...
1,ef142b12-7529-4f92-a3ea-de5098cd8a21,ACV đã ghi nhận lợi nhuận gộp đạt bao nhiêu tr...
2,099153c0-af98-499e-8254-f86b2c688205,Chi phí SG&A của công ty PNJ trong nửa đầu năm...
3,aeae69bd-704b-46f8-b419-1fcd73142916,FPT có triển vọng tăng trưởng như thế nào tron...
4,b6f7afd5-3f4c-4199-8eec-373ef62bc0f6,Bạn có thể cho biết nội dung khuyến nghị của D...


In [28]:
def hybrid_evaluation(top_k=3):
    sum = 0
    for index, row in df.iterrows():
        ids = get_ids_hybrid(row.question, top_k=top_k)
        if ids:
            if (row.id in ids):
                sum += 1

    return sum / len(df)

In [29]:
z = hybrid_evaluation()
print(z)

0.8333333333333334


In [32]:
def dense_evaluation(top_k=3):
    sum = 0
    for index, row in df.iterrows():
        ids = get_ids_dense(row.question, top_k=top_k)
        if ids:
            if (row.id in ids):
                sum += 1

    return sum / len(df)

In [33]:
z = dense_evaluation()
print(z)

0.7543859649122807


In [34]:
def sparse_evaluation(top_k=3):
    sum = 0
    for index, row in df.iterrows():
        ids = get_ids_sparse(row.question, top_k=top_k)
        if ids:
            if (row.id in ids):
                sum += 1

    return sum / len(df)

In [36]:
z = sparse_evaluation(3)
print(z)

0.45614035087719296


In [37]:
z = hybrid_evaluation(5)
print(z)

0.8508771929824561


In [38]:
z = dense_evaluation(5)
print(z)

0.8245614035087719


In [39]:
z = sparse_evaluation(5)
print(z)

0.49122807017543857
