In [1]:
from dotenv import load_dotenv
import os

from langchain_core.prompts import ChatPromptTemplate
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.output_parsers import StrOutputParser

In [2]:
load_dotenv()

MODEL_GEMINI = os.getenv("MODEL_GEMINI")
if not MODEL_GEMINI.startswith("models/"):
    MODEL_GEMINI = f"models/{MODEL_GEMINI}"


URL_QDRANT = os.getenv("URL_QDRANT")
API_QDRANT = os.getenv("API_QDRANT")
COLLECTION_NAME_COMMON_DB_TINH_HUONG = os.getenv("COLLECTION_NAME_COMMON_DB_TINH_HUONG")
CONTENT_PAYLOAD_KEY = os.getenv("CONTENT_PAYLOAD_KEY")
METADATA_PAYLOAD_KEY = os.getenv("METADATA_PAYLOAD_KEY")

TOP_K = 5
MAX_DOCS_FOR_CONTEXT = 8

# Hàm sinh câu hỏi tương tự (3 câu)

In [4]:
def query_generator(original_query: str) -> list[str]:
    """Generate queries from original query"""
    # Câu truy vấn gốc
    query = original_query
    
    # Cập nhật prompt để yêu cầu rõ ràng chỉ trả về 3 câu truy vấn và câu gốc
    prompt = ChatPromptTemplate.from_messages(
        [
            ("system", "You are a helpful assistant that generates multiple search queries based on a single query."),
            ("human", "Generate 3 search queries related to: {original_query}. Provide each query on a new line, and ensure that only the queries are returned, with no additional explanations or text."),
        ]
    )
    
    model = ChatGoogleGenerativeAI(
        google_api_key='AIzaSyB-2u84ae92PQvhBwqeWGfWfJKuoLsNp4E',
        model=MODEL_GEMINI,
        temperature=0
    )
    
    query_generator_chain = (
        prompt | model | StrOutputParser()
    )
    
    # Kết quả sẽ là một chuỗi các câu truy vấn cách nhau bằng dấu xuống dòng
    result = query_generator_chain.invoke({"original_query": query})
    
    # Tách kết quả thành danh sách các câu truy vấn
    generated_queries = result.strip().split('\n')
    
    # Đảm bảo chỉ lấy 3 câu nếu có nhiều hơn 3 câu truy vấn sinh ra
    if len(generated_queries) > 3:
        generated_queries = generated_queries[:3]
    
    # Kết hợp câu gốc với các câu truy vấn sinh ra
    queries = [query] + generated_queries
    
    return queries


# Test

In [5]:
# Dictionary để test hàm query_generator
test_input = "Tôi tốt nghiệp cao đẳng dược, đã có chứng chỉ hành nghề y và làm việc tại 1 bệnh viện thuộc TP. Hải Phòng. Xin hỏi, tôi muốn làm thêm chứng chỉ hành nghề dược có được không? Có phải bỏ chứng chỉ y để làm chứng chỉ dược không? Có thể sử dụng song song 2 chứng chỉ này được không?"

# Gọi hàm query_generator với test_input
generated_queries = query_generator(test_input)

# In ra các truy vấn được sinh ra
for i, query in enumerate(generated_queries, 1):
    print(f"{i}: {query}")


1: Tôi tốt nghiệp cao đẳng dược, đã có chứng chỉ hành nghề y và làm việc tại 1 bệnh viện thuộc TP. Hải Phòng. Xin hỏi, tôi muốn làm thêm chứng chỉ hành nghề dược có được không? Có phải bỏ chứng chỉ y để làm chứng chỉ dược không? Có thể sử dụng song song 2 chứng chỉ này được không?
2: Chuyển đổi chứng chỉ hành nghề y sang dược
3: Sử dụng song song chứng chỉ hành nghề y và dược
4: Quy định hành nghề y dược với 2 chứng chỉ khác ngành


In [6]:
generated_queries[1]

'Chuyển đổi chứng chỉ hành nghề y sang dược'

In [7]:
type(generated_queries[1])

str