In [1]:
import json
import torch
from langchain.vectorstores import FAISS
from langchain.docstore.document import Document
from langchain.embeddings import SentenceTransformerEmbeddings
from sentence_transformers import SentenceTransformer, util
from langchain_core.pydantic_v1 import BaseModel, Field
import warnings
import os
warnings.filterwarnings("ignore")

  from .autonotebook import tqdm as notebook_tqdm

For example, replace imports like: `from langchain_core.pydantic_v1 import BaseModel`
with: `from pydantic import BaseModel`
or the v1 compatibility namespace if you are working in a code base that has not been fully upgraded to pydantic 2 yet. 	from pydantic.v1 import BaseModel

  exec(code_obj, self.user_global_ns, self.user_ns)


In [2]:
# https://app.tavily.com/home
os.environ['TAVILY_API_KEY'] = "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"

# https://aistudio.google.com/apikey
os.environ['GOOGLE_API_KEY'] = "AIzaSyDeDO2tyV8RCnBVDn1oSVS1OUEdLgGHItA"

In [3]:
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(model="gemini-1.5-flash")  
st_embeddings = SentenceTransformerEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2")

In [4]:
# load các document để lưu vào FAISS
with open("metadata.json", "r", encoding="utf-8") as f:
    segment_data = json.load(f)

documents = []
for seg in segment_data:
    doc = Document(
        page_content=seg["content"],  # Nội dung văn bản
        metadata={                    # Metadata đi kèm
            "document_id": seg["document_id"],
            "title": seg["title"],
            "issuing_agency": seg["issuing_agency"],
            "date": seg["date"],
            "segment_id": seg["segment_id"]
        }
    )
    documents.append(doc)

In [5]:
# #Lưu documents vào FAISS, nếu đã tạo foulder faiss_index thì ko cần chạy 2 dòng code ở dưới
# vector_store = FAISS.from_documents(documents, st_embeddings)
# vector_store.save_local("faiss_index")

vector_store = FAISS.load_local("faiss_index", st_embeddings, allow_dangerous_deserialization=True)

In [6]:
# viết lại query của người dùng (thời gian chạy hơi lâu) (xem xét lại cách prompt)
def process_query(query):
    multi_prompt = f"""
    Viết lại query của người dùng thành một hoặc nhiều truy vấn rõ ràng, cụ thể và trang trọng bằng tiếng Việt, phù hợp để truy xuất thông tin từ cơ sở dữ liệu vector.
    Nếu query chứa nhiều ý, hãy tách thành các truy vấn riêng biệt.
    Mỗi truy vấn phải được bao quanh bởi dấu '*' ở đầu và cuối.
    Chỉ trả về truy vấn mới, không cần giải thích thêm.

    Ví dụ:
    Query: Chúng tôi có một bài luận phải nộp vào ngày mai. Chúng tôi phải viết về một số loài động vật. Tôi yêu chim cánh cụt. Tôi có thể viết về chúng. Nhưng tôi cũng có thể viết về cá heo. Hãy viết về cá heo. Ví dụ, chúng sống ở đâu?
    Answer: *Cá heo sống ở đâu*

    Query: So sánh doanh thu của FPT và Viettel
    Answer: *Doanh thu của FPT*, *Doanh thu Viettel*

    Bây giờ, hãy viết lại query sau:
    Query: {query}
    Answer:
    """

    # Gửi prompt đến mô hình AI
    response = llm.invoke(multi_prompt)
    return response.content

query = "độ tuổi đi xe máy"
response = process_query(query)
print(response)

*Độ tuổi được phép điều khiển xe máy*


In [7]:
# các retrieval
from langchain.retrievers import BM25Retriever, EnsembleRetriever

vectorstore_retreiver = vector_store.as_retriever(k=5)
keyword_retreiver = BM25Retriever.from_documents(documents, k=5)

ensemble_retriever = EnsembleRetriever(
    retrievers=[vectorstore_retreiver,keyword_retreiver],
    weights=[0.5, 0.5]
)

In [8]:
# Xóa các document bị trùng
def remove_duplicates(raw_contexts):
    unique_docs = {}
    for doc in raw_contexts:
        doc_id = doc.metadata.get("document_id")
        if doc_id and doc_id not in unique_docs:
            unique_docs[doc_id] = doc
        elif not doc_id:
            if doc.page_content not in unique_docs:
                unique_docs[doc.page_content] = doc
    return list(unique_docs.values())

# Lọc các document có độ liên quan nhỏ hơn ngưỡng
def filter_results(query, raw_contexts, threshold=0):
    query_embedding = st_embeddings.embed_query(query)
    filter_contexts = []

    for raw_context in raw_contexts:
        context_emb = st_embeddings.embed_query(raw_context.page_content)
        similarity = util.pytorch_cos_sim(query_embedding, context_emb).item()
        if similarity >= threshold:
            filter_contexts.append(raw_context)
    return filter_contexts

# Gộp 2 function trên để lấy documents làm context cho sinh văn bản
def retriever_result(query, raw_contexts):
    raw_contexts = remove_duplicates(raw_contexts)
    raw_contexts = filter_results(query, raw_contexts, 0.55)
    return raw_contexts    

In [9]:
### Viết lại câu prompt phù hợp cho việc tra web

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# Prompt
system = """Bạn là một chuyên gia tối ưu hóa truy vấn tìm kiếm. Nhiệm vụ của bạn là phân tích một câu hỏi đầu vào và chuyển đổi nó thành một câu hỏi tối ưu hơn để tìm kiếm trên web. 

Hãy đảm bảo rằng câu hỏi cải tiến:
- Rõ ràng, cụ thể và dễ hiểu hơn.
- Sử dụng từ khóa quan trọng.
- Loại bỏ các từ dư thừa hoặc mơ hồ.
- Nếu cần, bổ sung ngữ cảnh để làm rõ ý nghĩa.
"""  

web_search_prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system),
        (
            "human",
            "Đây là câu hỏi ban đầu: {question}. Hãy viết lại câu hỏi theo cách tối ưu nhất cho tìm kiếm trên web. Chỉ đưa ra 1 câu hỏi tốt nhất mà không thêm bất cứ nội dung không liên quan",
        ),
    ]
)
web_search_rewriter = web_search_prompt | llm | StrOutputParser()

question = "yêu cầu về việc đội mũa bảo hiểm cho trẻ em"
print(question)
web_search_rewriter.invoke({"question": question})

yêu cầu về việc đội mũa bảo hiểm cho trẻ em


'Quy định về đội mũ bảo hiểm cho trẻ em ở Việt Nam là gì?'

In [10]:
### tool agent để web search

from langchain_community.tools.tavily_search import TavilySearchResults

web_search_tool = TavilySearchResults(k=3)

In [11]:
# chuyển list các documents thành 1 đoạn văn bảnbản
def convert_to_rag_context(documents):
    if isinstance(documents, list):
        return "\n".join([doc.page_content for doc in documents])
    return str(documents)

In [12]:
from langchain.prompts import PromptTemplate
prompt = PromptTemplate.from_template("""Dựa trên thông tin sau đây:\n\n{context}\n\n"
        Hãy trả lời câu hỏi: '{question}' một cách rõ ràng nêu xem điều bạn vừa nói trích xuất ở luật nào,
        Nếu như người dùng có phạm tội thì hãy phân tích những tội đó ở đâu. Trả lời một cách ngắn gọn, trang trọng
        Ví dụ:  
        Query: Tốc độ tối đa của xe máy là bao nhiêu 
        Answer: Dựa theo điều 8, etc, tốc độ tối đa của xe máy là...
        Dựa vào mẫu trên cùng với content hãy trả lời câu hỏi của người dùng
        """)

rag_chain = prompt | llm | StrOutputParser()

# GRAPH

In [13]:
from langchain.schema import Document


def retrieve(state):
    """
    Retrieve documents

    Args:
        state (dict): The current graph state

    Returns:
        state (dict): New key added to state, documents, that contains retrieved documents
    """
    question = state["question"]
    documents = ensemble_retriever.get_relevant_documents(question)

    print("---RETRIEVAL---")
    if documents:
        print([a.metadata for a in documents])
    return {"documents": documents, "question": question}


def generate(state):
    """
    Generate answer

    Args:
        state (dict): The current graph state

    Returns:
        state (dict): New key added to state, generation, that contains LLM generation
    """
    print("---GENERATE---")
    question = state["question"]
    documents = state["documents"]

    processed_question = process_query(question)
    # RAG generation
    print(f"Truy vấn cho: {question}")
    print(f"Viết lại truy vấn: {processed_question}")

    generation = rag_chain.invoke({"context": convert_to_rag_context(documents), "question": processed_question})
    return {"documents": documents, "question": question, "generation": generation}


def grade_documents(state):
    """
    Determines whether the retrieved documents are relevant to the question.

    Args:
        state (dict): The current graph state

    Returns:
        state (dict): Updates documents key with only filtered relevant documents
    """

    question = state["question"]
    documents = state["documents"]

    # Score each doc
    filtered_docs = retriever_result(question, documents)
    print("---RELEVANT DOCUMENTS---")
    print(filtered_docs)

    if len(filtered_docs)<=1:
        web_search = "Yes"
    else:
        web_search = "No"    

    return {"documents": filtered_docs, "question": question, "web_search": web_search}


def transform_query(state):
    """
    Transform the query to produce a better question.

    Args:
        state (dict): The current graph state

    Returns:
        state (dict): Updates question key with a re-phrased question
    """
    question = state["question"]
    documents = state["documents"]

    # Re-write question
    better_question = web_search_rewriter.invoke({"question": question})
    print(f"Web search question: {better_question}")
    return {"documents": documents, "question": better_question}


def web_search(state):
    """
    Web search based on the re-phrased question.

    Args:
        state (dict): The current graph state

    Returns:
        state (dict): Updates documents key with appended web results
    """

    print("---WEB SEARCH---")
    question = state["question"]
    documents = state["documents"]
    
    # Web search
    docs = web_search_tool.invoke({"query": question})
    web_results = "\n".join([d["content"] for d in docs])
    web_results = Document(page_content=web_results)
    documents.append(web_results)

    print(f"Document web search {documents}")

    return {"documents": documents, "question": question}


### Edges


def decide_to_generate(state):
    """
    Determines whether to generate an answer, or re-generate a question.

    Args:
        state (dict): The current graph state

    Returns:
        str: Binary decision for next node to call
    """

    web_search = state["web_search"]

    if web_search == "Yes":
        # We will re-generate a new query
        print("---DECISION: ALL DOCUMENTS ARE NOT ENOUGH TO ANSWER, TRANSFORM QUERY---")
        return "transform_query"
    else:
        # We have relevant documents, so generate answer
        print("---DECISION: GENERATE---")
        return "generate"

In [14]:
from typing import List
from typing_extensions import TypedDict

class GraphState(TypedDict):
    """
    Represents the state of our graph.

    Attributes:
        question: question
        generation: LLM generation
        web_search: whether to add search
        documents: list of documents
    """

    question: str
    generation: str
    web_search: str
    documents: List[str]

In [15]:
from langgraph.graph import END, StateGraph, START

workflow = StateGraph(GraphState)

# Define the nodes
workflow.add_node("retrieve", retrieve)  # retrieve
workflow.add_node("grade_documents", grade_documents)  # grade documents
workflow.add_node("generate", generate)  # generatae
workflow.add_node("transform_query", transform_query)  # transform_query
workflow.add_node("web_search_node", web_search)  # web search

# Build graph
workflow.add_edge(START, "retrieve")
workflow.add_edge("retrieve", "grade_documents")
workflow.add_conditional_edges(
    "grade_documents",
    decide_to_generate,
    {
        "transform_query": "transform_query",
        "generate": "generate",
    },
)
workflow.add_edge("transform_query", "web_search_node")
workflow.add_edge("web_search_node", "generate")
workflow.add_edge("generate", END)

# Compile
app = workflow.compile()

In [16]:
processed_query = process_query("đi xe gì phải đội mũ bảo hiểm")
b = vectorstore_retreiver.get_relevant_documents(processed_query)

for a in b:
    print(a.metadata)
retriever_result(processed_query, b)

{'document_id': '08/2009/TT-BGTVT', 'title': 'Hướng dẫn việc sử dụng xe thô sơ, xe gắn máy, xe mô tô hai bánh, xe mô tô ba bánh và các loại xe tương tự để vận chuyển hành khách, hàng hóa', 'issuing_agency': 'BỘ GIAO THÔNG VẬN TẢI', 'date': 'ngày 23 tháng 06 năm 2009', 'segment_id': '08/2009/TT-BGTVT_2'}
{'document_id': '50/2015/TT-BGTVT', 'title': 'Hướng dẫn thực hiện một số điều của Nghị định số 11/2010/NĐ-CP', 'issuing_agency': 'BỘ ĐANG KHAI THÁC', 'date': 'ngày 23 tháng 09 năm 2015', 'segment_id': '50/2015/TT-BGTVT_77'}
{'document_id': '50/2015/TT-BGTVT', 'title': 'Hướng dẫn thực hiện một số điều của Nghị định số 11/2010/NĐ-CP', 'issuing_agency': 'BỘ GIAO THÔNG VẬN TẢI', 'date': 'ngày 23 tháng 9 năm 2015', 'segment_id': '50/2015/TT-BGTVT_75'}
{'document_id': '90/2014/TT-BGTVT', 'title': 'Hướng dẫn một số nội dung quản lý khai thác và', 'issuing_agency': 'BỘ GIAO THÔNG VẬN TẢI', 'date': 'ngày 31 tháng 12 năm 2014', 'segment_id': '90/2014/TT-BGTVT_44'}


[Document(id='1fc2839c-f942-4edc-b9e3-600970472fa6', metadata={'document_id': '08/2009/TT-BGTVT', 'title': 'Hướng dẫn việc sử dụng xe thô sơ, xe gắn máy, xe mô tô hai bánh, xe mô tô ba bánh và các loại xe tương tự để vận chuyển hành khách, hàng hóa', 'issuing_agency': 'BỘ GIAO THÔNG VẬN TẢI', 'date': 'ngày 23 tháng 06 năm 2009', 'segment_id': '08/2009/TT-BGTVT_2'}, page_content='Điều 3. Người điều khiển phương tiện\n1. Phải bảo đảm quy định tại Điều 58 và Điều 63 Luật Giao thông đường bộ.\n2. Trang bị mũ bảo hiểm cho hành khách đi xe đối với các loại xe bắt buộc phải đội mũ bảo hiểm.\n3. Đối với hoạt động kinh doanh vận chuyển hành khách, hàng hóa bằng xe thô sơ, xe gắn máy, xe mô tô hai bánh, xe mô tô ba bánh và các loại xe tương tự, người điều khiển phương tiện phải có biển hiệu hoặc trang phục do Ủy ban nhân dân tỉnh, thành phố trực thuộc Trung ương (sau đây gọi là Ủy ban nhân dân cấp tỉnh) quy định để nhận biết với các đối tượng tham gia giao thông khác.'),
 Document(id='da7c4c7f-7

In [17]:
input1 = {"question": "Tuổi đi xe máy"}
input2 = {"question": "đi xe gì phải đội mũ bảo hiểm"}
for output in app.stream(input2):
    for key, value in output.items():
        print('\n')

# Final generation
print(value["generation"])

---RETRIEVAL---
[{'document_id': '28/2012/TT-BKHCN', 'title': 'QUY CHUẨN KỸ THUẬT QUỐC GIA VỀ MÔ PHỎNG ĐỂ ĐÀO TẠO LÁI XE– CABIN HỌC LÁI XE Ô TÔ', 'issuing_agency': 'CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM', 'date': '12 tháng 12 năm 2012', 'segment_id': '28/2012/TT-BKHCN_11'}, {'document_id': '08/2009/TT-BGTVT', 'title': 'Hướng dẫn việc sử dụng xe thô sơ, xe gắn máy, xe mô tô hai bánh, xe mô tô ba bánh và các loại xe tương tự để vận chuyển hành khách, hàng hóa', 'issuing_agency': 'BỘ GIAO THÔNG VẬN TẢI', 'date': 'ngày 23 tháng 06 năm 2009', 'segment_id': '08/2009/TT-BGTVT_2'}, {'document_id': 'VanBanGoc_TT.08.2023.BGTVT.PL2', 'title': 'của Bộ trưởng Bộ Giao thông vận tải)', 'issuing_agency': 'Unknown', 'date': 'Unknown', 'segment_id': 'VanBanGoc_TT.08.2023.BGTVT.PL2_31'}, {'document_id': '90/2014/TT-BGTVT', 'title': 'Hướng dẫn một số nội dung quản lý khai thác và', 'issuing_agency': 'BỘ GIAO THÔNG VẬN TẢI', 'date': 'ngày 31 tháng 12 năm 2014', 'segment_id': '90/2014/TT-BGTVT_43'}, {'document