In [1]:
# Load env in local
from dotenv import load_dotenv
import os
import getpass

load_dotenv()

if not os.getenv("OPENAI_API_KEY"):
    os.environ["OPENAI_API_KEY"] = getpass.getpass("Enter your OpenAI API key: ")

os.environ["LANGSMITH_TRACING_V2"] = "true"
if not os.getenv("LANGSMITH_API_KEY"):
    os.environ["LANGSMITH_API_KEY"] = getpass.getpass("Enter your LangSmith API key: ")
    
print("Loaded OPENAI & LANGSMITH variables")

Loaded OPENAI & LANGSMITH variables


In [2]:
# Load vectordb
import faiss
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(
    model="text-embedding-3-large",
)

index = faiss.read_index("../docs/faiss/faiss_index.index")
print("Loaded existing vector store.")

Loaded existing vector store.


In [3]:
# Load LLM
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name="gpt-4o-mini", temperature=0)

In [4]:
# Init graph_builder
from langgraph.graph import MessagesState, StateGraph
graph_builder = StateGraph(MessagesState)

In [5]:
from langgraph.graph import MessagesState, StateGraph
from langchain_core.messages import SystemMessage
from langgraph.prebuilt import ToolNode
from langchain_core.tools import tool
import numpy as np
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_text_splitters import RecursiveCharacterTextSplitter

# Tool retrieve define
# @tool(response_format="content_and_artifact")
def retrieve(query: str):
    """Retrieve information related to a query."""
    loader = PyPDFLoader("../knowledge_pdf/masterigrandview.pdf")
    pages = loader.load()

    # 2. Splitter
    text_splitter = CharacterTextSplitter(
        separator="\n",
        chunk_size=500,
        chunk_overlap=70,
        length_function=len
    )
    
    docs = text_splitter.split_documents(pages)
    print(query)
    # Chuyển câu truy vấn thành vector embedding
    query_vector = embeddings.embed_query(query)
 
    # Tìm kiếm trong chỉ mục FAISS
    D, I = index.search(np.array([query_vector], dtype=np.float32), k=2)
    retrieved_docs = []
    
    for idx in I[0]:
        retrieved_docs.append(docs[idx])
    
    serialized = "\n\n".join(
        (f"Source: {doc.metadata}\n" f"Content: {doc.page_content}")
        for doc in retrieved_docs
    )
    print(retrieved_docs)
    return serialized, retrieved_docs

# tools = ToolNode([retrieve])

# Step 2: Generate a response using the retrieved content.
def generate(state: MessagesState):
    """Generate answer."""
    loader = PyPDFLoader("../knowledge_pdf/masterigrandview.pdf")
    pages = loader.load()

    # 2. Splitter
    text_splitter = CharacterTextSplitter(
        separator="\n",
        chunk_size=500,
        chunk_overlap=70,
        length_function=len
    )
    
    docs = text_splitter.split_documents(pages)
    # Chuyển câu truy vấn thành vector embedding
    query = state["messages"][-1].content
    query_vector = embeddings.embed_query(query)
 
    # Tìm kiếm trong chỉ mục FAISS
    D, I = index.search(np.array([query_vector], dtype=np.float32), k=5)
    retrieved_docs = []
    
    for idx in I[0]:
        retrieved_docs.append(docs[idx])
    
    docs_content = "\n\n".join(doc.page_content for doc in retrieved_docs)

    system_message_content = (
        "Bạn là nhân viên chăm sóc khách hàng của dự án Masteri Grand View và bạn sẽ trả lời các câu hỏi của khách hàng về dự án Masteri Grand View."
        "Hãy dùng đại từ xưng hô gọi khách hàng là Anh/Chị, còn bạn dùng đại từ xưng hô là Em."
        "Hãy trả lời câu hỏi của khách hàng một cách lịch sự và tôn trọng."
        "Chỉ dựa trên thông tin trong tài liệu dự án Masteri Grand View bên dưới, trả lời câu hỏi:"
        "\n\n"
        f"{docs_content}"
        "\n\n"
        "Trong trường hợp khách hàng hỏi những câu hỏi không liên quan đến Công ty và dự án, hãy từ chối trả lời một cách lịch sự."
        "Nếu thông tin không có trong tài liệu, hãy trả lời với khách hàng rằng thông tin này bạn không rõ và nói khách hàng gọi cho bộ phận kinh doanh"
        "Không bao giờ sáng tạo nội dung"
    )
    conversation_messages = [
        message
        for message in state["messages"]
        if message.type in ("human", "system", "ai")
    ]
    prompt = [SystemMessage(system_message_content)] + conversation_messages

    # Run
    response = llm.invoke(prompt)
    return {"messages": [response]}

In [6]:
from langgraph.graph import END, START
from langgraph.prebuilt import tools_condition
from langgraph.checkpoint.memory import MemorySaver

# Graph builder
# graph_builder.add_node(query_or_respond)
# graph_builder.add_node(retrieve)
graph_builder.add_node(generate)

# graph_builder.set_entry_point("tools")
# graph_builder.add_conditional_edges(
#     "query_or_respond",
#     tools_condition,
#     {END: END, "tools": "tools"},
# )
graph_builder.add_edge(START, "generate")
graph_builder.add_edge("generate", END)
# memory = MemorySaver()
# graph = graph_builder.compile(checkpointer=memory)
graph = graph_builder.compile()

In [14]:
query = "Dự án bên em có gì đặc biệt"
# Execute
config = {"configurable": {"thread_id": "abc123"}}
messages = [
    {"role": "user", "content": query}
]
response = await graph.ainvoke({"messages": messages}, config)
print(response["messages"][-1].content)

Dạ, dự án Masteri Grand View có nhiều điểm đặc biệt, Anh/Chị ạ. Một trong những điểm nổi bật là sảnh thang máy đẳng cấp, được thiết kế với cảm hứng từ vẻ đẹp thanh nguyên của chất liệu và đường nét, tạo nên một dấu ấn rõ nét và đặc trưng cho dự án. Ngoài ra, dự án còn thuộc Masteri Collection, mang đến cho cư dân những trải nghiệm sống đẳng cấp ngay tại trung tâm mới. Nếu Anh/Chị cần thêm thông tin chi tiết, em rất sẵn lòng hỗ trợ!


In [16]:
query = "Dự án bên em có gì đặc biệt ?"
# Execute
config = {"configurable": {"thread_id": "abc123"}}
messages = [
    {"role": "user", "content": query}
]
response = await graph.ainvoke({"messages": messages}, config)
print(response["messages"][-1].content)

Dạ, dự án Masteri Grand View có nhiều điểm đặc biệt, Anh/Chị có thể tham khảo một số thông tin sau:

- Dự án thuộc Masteri Collection, nằm ngay tại trung tâm mới, mang đến vị trí thuận lợi cho cư dân.
- Ban công rộng rãi với lan can kính cao 1,4m, tạo không gian thoáng đãng và tầm nhìn đẹp.
- Mặt bằng thiết kế cho phép gia chủ tối ưu thi công thêm phần đảo bếp (kitchen island) nếu muốn.
- Logia được bố trí khéo léo, tạo không gian cho sân phơi và hệ lam kín đáo, tăng tính thẩm mỹ cho dự án.
- Tất cả các phòng ngủ đều được thiết kế với hệ cửa kính full trần đến sàn, tối ưu hóa tầm view và ánh sáng tự nhiên, đồng thời lưu thông không khí tốt.

Nếu Anh/Chị cần thêm thông tin chi tiết, em rất sẵn lòng hỗ trợ!


In [11]:
import numpy as np
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_text_splitters import RecursiveCharacterTextSplitter

loader = PyPDFLoader("../knowledge_pdf/masterigrandview.pdf")
pages = loader.load()

# 2. Splitter
text_splitter = CharacterTextSplitter(
    separator="\n",
    chunk_size=500,
    chunk_overlap=70,
    length_function=len
)

docs = text_splitter.split_documents(pages)

# Chuyển câu truy vấn thành vector embedding
query_vector = embeddings.embed_query(query)

# Tìm kiếm trong chỉ mục FAISS
D, I = index.search(np.array([query_vector], dtype=np.float32), k=2)
retrieved_docs = []

for idx in I[0]:
    retrieved_docs.append(docs[idx])

serialized = "\n\n".join(
    (f"Source: {doc.metadata}\n" f"Content: {doc.page_content}")
    for doc in retrieved_docs
)
print(retrieved_docs)

[Document(metadata={'source': '../knowledge_pdf/masterigrandview.pdf', 'page': 22}, page_content='50 năm đối với người nước ngoài\nTiêu chuẩn bàn giao Bàn giao hoàn thiện\nBàn giao thô (Penthouse Duplex)\nThời gian bàn giao dự kiến 2026\nTHÔNG TIN TỔNG QUAN DỰ ÁN'), Document(metadata={'source': '../knowledge_pdf/masterigrandview.pdf', 'page': 4}, page_content='HẠ TẦNG ĐỒNG BỘ - HOÀN CHỈNH')]


In [9]:
# Khi tìm kiếm "Tiện ích"