In [41]:
import json
import torch
from langchain.vectorstores import FAISS
from langchain.docstore.document import Document
from langchain.embeddings import SentenceTransformerEmbeddings
from sentence_transformers import SentenceTransformer, util
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.pydantic_v1 import BaseModel, Field
from langchain.llms.base import LLM
from typing import List, Optional
from openai import OpenAI
import warnings
import os
warnings.filterwarnings("ignore")

In [42]:
# https://app.tavily.com/home
os.environ['TAVILY_API_KEY'] = "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"

# https://aistudio.google.com/apikey
os.environ['GOOGLE_API_KEY'] = "AIzaSyDeDO2tyV8RCnBVDn1oSVS1OUEdLgGHItA"

openai_api_key = "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"

In [43]:
# client dùng gamma3 
client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key=openai_api_key,
)

# gemini để sinh văn bảnbản
llm = ChatGoogleGenerativeAI(model='gemini-1.5-pro')

# Khởi tạo sentences embedding
st_embeddings = SentenceTransformerEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2")
# st_embeddings = SentenceTransformerEmbeddings(model_name="./mnrloss_embedding_model")

In [44]:
# load các document để lưu vào FAISS
with open("metadata.json", "r", encoding="utf-8") as f:
    segment_data = json.load(f)

documents = []
for seg in segment_data:
    doc = Document(
        page_content=seg["content"],  # Nội dung văn bản
        metadata={                    # Metadata đi kèm
            "document_id": seg["document_id"],
            "title": seg["title"],
            "issuing_agency": seg["issuing_agency"],
            "date": seg["date"],
            "segment_id": seg["segment_id"]
        }
    )
    documents.append(doc)


# #Lưu documents vào FAISS, nếu đã tạo foulder faiss_index thì ko cần chạy 2 dòng code ở dưới
# vector_store = FAISS.from_documents(documents, st_embeddings)
# vector_store.save_local("faiss_index")

vector_store = FAISS.load_local("faiss_index", st_embeddings, allow_dangerous_deserialization=True)

In [45]:
from openai import OpenAI

def process_query(query):
    prompt = f"""Viết lại query sau đây của người dùng thành một yêu cầu rõ ràng, cụ thể và trang trọng bằng tiếng Việt, phù hợp để truy xuất thông tin từ một cơ sở dữ liệu vector.
Nếu như query có liên quan đến nhiều thông tin hãy tách ra làm nhiều query mới để có thể truy xuất nhiều lần. Với mỗi query hãy cho bắt đầu và kết thúc nằm ở trong '*'.
Chỉ trả về query mới, không cần giải thích gì thêm
Lưu ý rằng query mới sẽ được gửi đến cơ sở dữ liệu vector, nơi thực hiện tìm kiếm tương đồng để truy xuất tài liệu. Ví dụ:  
Query: Chúng tôi có một bài luận phải nộp vào ngày mai. Chúng tôi phải viết về một số loài động vật. Tôi yêu chim cánh cụt. Tôi có thể viết về chúng. Nhưng tôi cũng có thể viết về cá heo. Chúng có phải là động vật không? Có lẽ vậy. Hãy viết về cá heo. Ví dụ, chúng sống ở đâu?  
Answer: * Cá heo sống ở đâu *
Ví dụ:  
Query: So sánh doanh thu của FPT và Viettel
Answer : * Doanh thu của FPT *,* Doanh thu Viettel*
Bây giờ, hãy viết lại query sau: Query: {query} Answer:"""
    completion = client.chat.completions.create(
        model="google/gemma-3-27b-it:free",
        messages=[
            {
                "role": "user",
                "content": prompt
            }
        ]
    )
    results = completion.choices[0].message.content
    queries = [line.strip('* ').strip() for line in results.splitlines() if line.strip()] 
    queries.append(query)
    return queries

response = process_query("tốc độ tối đa của xe cơ giới")
print(response)

['Tốc độ tối đa của xe ô tô', 'Tốc độ tối đa của xe máy', 'Tốc độ tối đa của xe đạp', 'Tốc độ tối đa của tàu hỏa', 'Tốc độ tối đa của máy bay', 'tốc độ tối đa của xe cơ giới']


In [46]:
# các retrieval
from langchain.retrievers import BM25Retriever, EnsembleRetriever

vectorstore_retreiver = vector_store.as_retriever(k=4)
keyword_retreiver = BM25Retriever.from_documents(documents, k=4)

ensemble_retriever = EnsembleRetriever(
    retrievers=[vectorstore_retreiver,keyword_retreiver],
    weights=[0.5, 0.5]
)

In [47]:
# Xóa các document bị trùng
def remove_duplicates(raw_contexts):
    unique_docs = {}
    for doc in raw_contexts:
        doc_id = doc.metadata.get("document_id")
        if doc_id and doc_id not in unique_docs:
            unique_docs[doc_id] = doc
        elif not doc_id:
            if doc.page_content not in unique_docs:
                unique_docs[doc.page_content] = doc
    return list(unique_docs.values())

# Lọc các document có độ liên quan nhỏ hơn ngưỡng
def filter_results(query, raw_contexts, threshold=0):
    query_embedding = st_embeddings.embed_query(query)
    filter_contexts = []

    for raw_context in raw_contexts:
        context_emb = st_embeddings.embed_query(raw_context.page_content)
        similarity = util.pytorch_cos_sim(query_embedding, context_emb).item()
        if similarity >= threshold:
            filter_contexts.append(raw_context)
    return filter_contexts

# Gộp 2 function trên để lấy documents làm context cho sinh văn bản
def retriever_result(query, raw_contexts):
    raw_contexts = remove_duplicates(raw_contexts)
    raw_contexts = filter_results(query, raw_contexts, 0.55)
    return raw_contexts    

In [48]:
### Viết lại câu prompt phù hợp cho việc tra web

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# Prompt
system = """Bạn là một chuyên gia tối ưu hóa truy vấn tìm kiếm. Nhiệm vụ của bạn là phân tích một câu hỏi đầu vào và chuyển đổi nó thành một câu hỏi tối ưu hơn để tìm kiếm trên web. 

Hãy đảm bảo rằng câu hỏi cải tiến:
- Rõ ràng, cụ thể và dễ hiểu hơn.
- Sử dụng từ khóa quan trọng.
- Loại bỏ các từ dư thừa hoặc mơ hồ.
- Nếu cần, bổ sung ngữ cảnh để làm rõ ý nghĩa.
"""  

web_search_prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system),
        (
            "human",
            "Đây là câu hỏi ban đầu: {question}. Hãy viết lại câu hỏi theo cách tối ưu nhất cho tìm kiếm trên web. Chỉ đưa ra 1 câu hỏi tốt nhất mà không thêm bất cứ nội dung không liên quan",
        ),
    ]
)
web_search_rewriter = web_search_prompt | llm | StrOutputParser()

question = "yêu cầu về việc đội mũa bảo hiểm cho trẻ em"
print(question)
web_search_rewriter.invoke({"question": question})

yêu cầu về việc đội mũa bảo hiểm cho trẻ em


'Quy định đội mũ bảo hiểm cho trẻ em khi nào?'

In [49]:
### tool agent để web search

from langchain_community.tools.tavily_search import TavilySearchResults

web_search_tool = TavilySearchResults(k=3)

In [50]:
# chuyển list các documents thành 1 đoạn văn bảnbản
def convert_to_rag_context(documents):
    if isinstance(documents, list):
        return "\n".join([doc.page_content for doc in documents])
    return str(documents)

In [57]:
from langchain.prompts import PromptTemplate
prompt = PromptTemplate.from_template("""Dựa trên thông tin sau đây:\n\n{context}\n\n"
        Hãy trả lời câu hỏi: '{question}' một cách rõ ràng nêu xem điều bạn vừa nói trích xuất ở luật nào, điều và khoản nào (nếu có)).
        Nếu như người dùng có phạm tội thì hãy phân tích những tội đó ở đâu, nếu không có thì không đề cập đến. Trả lời một cách ngắn gọn, trang trọng
        Ví dụ:  
        Query: Tốc độ tối đa của xe máy là bao nhiêu 
        Answer: Dựa theo điều 8, etc, tốc độ tối đa của xe máy là...
        Dựa vào mẫu trên cùng với content hãy trả lời câu hỏi của người dùng
        """)

rag_chain = prompt | llm | StrOutputParser()

# GRAPH

In [58]:
from langchain.schema import Document


def retrieve(state):
    question = state["question"]
    multi_questions = process_query(question)
    documents = []
    for ques in multi_questions:
        documents += ensemble_retriever.get_relevant_documents(question)

    print("---RETRIEVAL---")
    if documents:
        print([a.metadata for a in documents])
    return {"documents": documents, "question": question}


def generate(state):
    print("---GENERATE---")
    question = state["question"]
    documents = state["documents"]

    # RAG generation
    print(f"Truy vấn cho: {question}")

    generation = rag_chain.invoke({"context": convert_to_rag_context(documents), "question": question})
    return {"documents": documents, "question": question, "generation": generation}


def grade_documents(state):
    question = state["question"]
    documents = state["documents"]

    # Score each doc
    filtered_docs = retriever_result(question, documents)
    print("---RELEVANT DOCUMENTS---")
    print(filtered_docs)

    if len(filtered_docs)<=1:
        web_search = "Yes"
    else:
        web_search = "No"    

    return {"documents": filtered_docs, "question": question, "web_search": web_search}


def transform_query(state):
    question = state["question"]
    documents = state["documents"]

    # Re-write question
    better_question = web_search_rewriter.invoke({"question": question})
    print(f"Web search question: {better_question}")
    return {"documents": documents, "question": better_question}


def web_search(state):
    print("---WEB SEARCH---")
    question = state["question"]
    documents = state["documents"]
    
    # Web search
    docs = web_search_tool.invoke({"query": question})
    web_results = "\n".join([d["content"] for d in docs])
    web_results = Document(page_content=web_results)
    documents.append(web_results)

    print(f"Document web search {documents}")

    return {"documents": documents, "question": question}


def decide_to_generate(state):
    web_search = state["web_search"]

    if web_search == "Yes":
        # We will re-generate a new query
        print("---DECISION: ALL DOCUMENTS ARE NOT ENOUGH TO ANSWER, TRANSFORM QUERY---")
        return "transform_query"
    else:
        # We have relevant documents, so generate answer
        print("---DECISION: GENERATE---")
        return "generate"

In [59]:
from typing import List
from typing_extensions import TypedDict

class GraphState(TypedDict):
    """
    Represents the state of our graph.

    Attributes:
        question: question
        generation: LLM generation
        web_search: whether to add search
        documents: list of documents
    """

    question: str
    generation: str
    web_search: str
    documents: List[str]

In [60]:
from langgraph.graph import END, StateGraph, START

workflow = StateGraph(GraphState)

# Define the nodes
workflow.add_node("retrieve", retrieve)  # retrieve
workflow.add_node("grade_documents", grade_documents)  # grade documents
workflow.add_node("generate", generate)  # generatae
workflow.add_node("transform_query", transform_query)  # transform_query
workflow.add_node("web_search_node", web_search)  # web search

# Build graph
workflow.add_edge(START, "retrieve")
workflow.add_edge("retrieve", "grade_documents")
workflow.add_conditional_edges(
    "grade_documents",
    decide_to_generate,
    {
        "transform_query": "transform_query",
        "generate": "generate",
    },
)
workflow.add_edge("transform_query", "web_search_node")
workflow.add_edge("web_search_node", "generate")
workflow.add_edge("generate", END)

# Compile
app = workflow.compile()

In [61]:
input = {"question": "Độ tuổi và sức khỏe của người lái xe được quy định như thế nào?"}
for output in app.stream(input):
    for key, value in output.items():
        print('\n')

# Final generation
print(value["generation"])

---RETRIEVAL---
[{'document_id': '14/2013/TT-BYT', 'title': 'Quy định về tiêu chuẩn sức khỏe của người lái xe,', 'issuing_agency': 'BỘ Y TẾ -', 'date': 'ngày 21 tháng 08 năm 2015', 'segment_id': '14/2013/TT-BYT_0'}, {'document_id': '14/2013/TT-BYT', 'title': 'Quy định về tiêu chuẩn sức khỏe của người lái xe,', 'issuing_agency': 'BỘ Y TẾ -', 'date': 'ngày 21 tháng 08 năm 2015', 'segment_id': '14/2013/TT-BYT_9'}, {'document_id': '14/2013/TT-BYT', 'title': 'Quy định về tiêu chuẩn sức khỏe của người lái xe,', 'issuing_agency': 'BỘ Y TẾ -', 'date': 'ngày 21 tháng 08 năm 2015', 'segment_id': '14/2013/TT-BYT_3'}, {'document_id': '14/2013/TT-BYT', 'title': 'Quy định về tiêu chuẩn sức khỏe của người lái xe,', 'issuing_agency': 'BỘ Y TẾ -', 'date': 'ngày 21 tháng 08 năm 2015', 'segment_id': '14/2013/TT-BYT_4'}, {'document_id': '14/2013/TT-BYT', 'title': 'Quy định về tiêu chuẩn sức khỏe của người lái xe,', 'issuing_agency': 'BỘ Y TẾ -', 'date': 'ngày 21 tháng 08 năm 2015', 'segment_id': '14/2013/

# In ra chunking

In [56]:
# # Lấy tất cả các tài liệu từ vector_store
# all_documents = vector_store.similarity_search("", k=len(vector_store.index_to_docstore_id))


# # Ghi nội dung vào file txt
# with open("documents_output.txt", "w", encoding="utf-8") as file:
#     for doc in all_documents:
#         file.write(f"Segment ID: {doc.metadata.get('segment_id')}\n")
#         file.write(f"Page Content: {doc.page_content}\n\n")