In [1]:
from langchain_huggingface import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(model_name="AITeamVN/Vietnamese_Embedding")

In [2]:
from qdrant_client.models import Distance, VectorParams
from langchain_qdrant import QdrantVectorStore
from qdrant_client import QdrantClient

client = QdrantClient(":memory:")

vector_size = len(embeddings.embed_query("sample text"))

if not client.collection_exists("test"):
    client.create_collection(
        collection_name="test",
        vectors_config=VectorParams(size=vector_size, distance=Distance.COSINE)
    )
vector_store = QdrantVectorStore(
    client=client,
    collection_name="test",
    embedding=embeddings,
)

In [7]:
vector_size

1024

In [3]:
import os
from langchain.chat_models import init_chat_model

os.environ["GOOGLE_API_KEY"] = "AIzaSyCGQJJBNvHxM6KMEPR4Qw-p0k0NwgjXG1Y"

model = init_chat_model("google_genai:gemini-2.5-flash-lite")

In [3]:
from bs4 import BeautifulSoup
html_path = "/home/nt-loi/law-chatbot/backend/data/vbqppl_html/11819_main.html"
with open(html_path, "r") as file:
    html = BeautifulSoup(file, "html.parser")
    text = " ".join(html.text.split())
texts = [text]

In [4]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_core.documents import Document

docs = [Document(page_content=t) for t in texts]
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,  # chunk size (characters)
    chunk_overlap=200,  # chunk overlap (characters)
    add_start_index=True,  # track index in original document
)
all_splits = text_splitter.split_documents(docs)

print(f"Split blog post into {len(all_splits)} sub-documents.")

Split blog post into 5 sub-documents.


In [5]:
all_splits

[Document(metadata={'start_index': 0}, page_content='Trung ương Liên hệ Sơ đồ cổng thông tin Hướng dẫn khai thác Đăng nhập Trung ương CSDL Quốc Gia Trang chủ Tìm kiếm English Trung ương Lên đầu trang Văn bản quy phạm pháp luật Văn bản hợp nhất Hệ thống hóa VBQPPL Mục lục văn bản Cơ quan ban hành Tòa án nhân dân tối cao Quốc hội Ủy ban thường vụ Quốc hội Chính phủ Thủ tướng Chính phủ Các Bộ, cơ quan ngang Bộ Các cơ quan khác Loại văn bản Hiến pháp Bộ luật Luật Pháp lệnh Lệnh Nghị quyết Nghị quyết liên tịch Nghị định Quyết định Thông tư Thông tư liên tịch Năm ban hành 1945 đến 1950 1951 đến 1960 1961 đến 1970 1971 đến 1980 1981 đến 1990 1991 đến 2000 2001 đến 2010 2011 đến 2020 CSDL quốc gia về VBPL » CSDL Trung ương » Văn bản pháp luật » Thông tư 03/2009/TT-BNG Toàn văn Thuộc tính Lịch sử VB liên quan Lược đồ Tải về Bản in Hiệu lực: Còn hiệu lực Ngày có hiệu lực: 07/09/2009 BỘ NGOẠI GIAO Số: 03/2009/TT-BNG CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc Hà Nội, ngày 9 thá

In [6]:
document_ids = vector_store.add_documents(documents=all_splits)

print(document_ids[:3])

['0705ad0392b048608e87d0fa17108685', '6cf24ba4bcde4306a28580dba2016c43', '946c6326167547099e228afaea2ff205']


In [34]:
from langchain.tools import tool

@tool(response_format="content_and_artifact")
def retrieve_context(query: str):
    """Retrieve information to help answer a query."""
    retrieved_docs = vector_store.similarity_search(query, k=2)
    serialized = "\n\n".join(
        (f"Source: {doc.metadata}\nContent: {doc.page_content}")
        for doc in retrieved_docs
    )
    return serialized, retrieved_docs

In [35]:
from langchain.agents import create_agent


tools = [retrieve_context]
# If desired, specify custom instructions
prompt = (
    "You have access to a tool that retrieves context from a blog post. "
    "Use the tool to help answer user queries."
)
agent = create_agent(model, tools, system_prompt=prompt)

In [36]:
query = (
    "What is the content of this document?\n\n"
    "Once you get the answer, look up common extensions of that method."
)

for event in agent.stream(
    {"messages": [{"role": "user", "content": query}]},
    stream_mode="values",
):
    event["messages"][-1].pretty_print()


What is the content of this document?

Once you get the answer, look up common extensions of that method.
Tool Calls:
  retrieve_context (d7ee5ec6-59d6-4652-ae13-0a63943bff08)
 Call ID: d7ee5ec6-59d6-4652-ae13-0a63943bff08
  Args:
    query: What is the content of this document?
Name: retrieve_context

Source: {'start_index': 3200, '_id': '9981c468e5a24b81933592e3e5d10e34', '_collection_name': 'test'}
Content: Phu luc 03-2009-tt-bng.zip Phu luc.zip CƠ SỞ DỮ LIỆU VĂN BẢN PHÁP LUẬT TRUNG ƯƠNG This div, which you should delete, represents the content area that your Page Layouts and pages will fill. Design your Master Page around this content placeholder.

Source: {'start_index': 0, '_id': '27d9a2215cf442a5aa05785acc6a77b3', '_collection_name': 'test'}
Content: Trung ương Liên hệ Sơ đồ cổng thông tin Hướng dẫn khai thác Đăng nhập Trung ương CSDL Quốc Gia Trang chủ Tìm kiếm English Trung ương Lên đầu trang Văn bản quy phạm pháp luật Văn bản hợp nhất Hệ thống hóa VBQPPL Mục lục văn bản Cơ q