In [11]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain_text_splitters import RecursiveCharacterTextSplitter
from dotenv import load_dotenv
import os
import getpass

load_dotenv()
if not os.getenv("OPENAI_API_KEY"):
    os.environ["OPENAI_API_KEY"] = getpass.getpass("Enter your OpenAI API key: ")

os.environ["LANGSMITH_TRACING_V2"] = "true"
if not os.getenv("LANGSMITH_API_KEY"):
    os.environ["LANGSMITH_API_KEY"] = getpass.getpass("Enter your LangSmith API key: ")
    
loader = PyPDFLoader("../knowledge_pdf/masterigrandview.pdf")
pages = loader.load()
len(pages)

# 2. Splitter
text_splitter = CharacterTextSplitter(
    separator="\n",
    chunk_size=500,
    chunk_overlap=70,
    length_function=len
)

docs = text_splitter.split_documents(pages)
embeddings = OpenAIEmbeddings(
model="text-embedding-3-large",
)

persist_directory = '../docs/chroma/'

vectordb = Chroma.from_documents(
    documents=docs,
    embedding=embeddings,
    persist_directory=persist_directory
)
len(pages)
len(docs)

65

In [12]:
import faiss
import numpy as np
from langchain_community.docstore.in_memory import InMemoryDocstore
from langchain_community.vectorstores import FAISS

# Tạo embeddings cho từng đoạn văn bản
embeddings_list = [embeddings.embed_query(doc.page_content) for doc in docs]

# Chuyển các embedding thành numpy array
embeddings_array = np.array(embeddings_list, dtype=np.float32)

# Kiểm tra số chiều của vector embedding
embedding_dim = embeddings_array.shape[1]

# Tạo chỉ mục FAISS với khoảng cách L2
index = faiss.IndexFlatL2(embedding_dim)

# # Thêm các embedding vào chỉ mục FAISS
index.add(embeddings_array)

# # Lưu chỉ mục FAISS vào file
faiss.write_index(index, "../docs/faiss/faiss_index.index")

In [14]:
# # Giả sử bạn có một câu truy vấn
query = "dự án khi nào bàn giao"

# # Chuyển câu truy vấn thành vector embedding
query_vector = embeddings.embed_query(query)

# # Tìm kiếm trong chỉ mục FAISS
D, I = index.search(np.array([query_vector], dtype=np.float32), k=5)

# # D: Khoảng cách giữa câu truy vấn và các đoạn trong tài liệu
# # I: Chỉ mục của các đoạn gần nhất
# print("Khoảng cách (distance):", D)
# print("Chỉ mục (index):", I)
for idx in I[0]:
    print(f"Document: {docs[idx]}")

Document: page_content='50 năm đối với người nước ngoài
Tiêu chuẩn bàn giao Bàn giao hoàn thiện
Bàn giao thô (Penthouse Duplex)
Thời gian bàn giao dự kiến 2026
THÔNG TIN TỔNG QUAN DỰ ÁN' metadata={'source': '../knowledge_pdf/masterigrandview.pdf', 'page': 22}
Document: page_content='HẠ TẦNG ĐỒNG BỘ - HOÀN CHỈNH' metadata={'source': '../knowledge_pdf/masterigrandview.pdf', 'page': 4}
Document: page_content='~450.000
M2
TOÀN BỘ CÂY XANH VÀ MẶT NƯỚC TOÀN DỰ ÁN LÊN ĐẾN' metadata={'source': '../knowledge_pdf/masterigrandview.pdf', 'page': 59}
Document: page_content='Chào đón
SIÊU PHẨM CAO TẦNG ĐẦU TIÊN
tại The Global City' metadata={'source': '../knowledge_pdf/masterigrandview.pdf', 'page': 0}
Document: page_content='QUY HOẠCH 
ĐỒNG BỘ 
117,4ha' metadata={'source': '../knowledge_pdf/masterigrandview.pdf', 'page': 2}


In [15]:
query = "Tiện ích dự án" # Thời gian bàn giao dự kiến thì tìm đúng thông tin, Hỏi thời gian bàn giao thì không chính xác
retrieved_docs = vectordb.similarity_search(query, k=2)
serialized = "\n\n".join(
    (f"Source: {doc.metadata}\n" f"Content: {doc.page_content}")
    for doc in retrieved_docs
)

In [16]:
print(retrieved_docs)

[Document(metadata={'page': 40, 'source': './mh_docs/masterigrandview.pdf'}, page_content='gian cho sân phơi, hệ lam kín đáo che chắn\ntăng tính thẩm mỹ cho cả dự án'), Document(metadata={'page': 50, 'source': './mh_docs/masterigrandview.pdf'}, page_content='HỆ TIỆN ÍCH ẤN TƯỢNG\n1\n2\n3\n4\n5\n6\n7\n8\n9\n10\n11\n12\n13\n14\n15\n16\n17\n18\n19\n20\nGHẾ NẰM THƯ \nGIÃN DƯỚI NƯỚC\nHỒ BƠI VÔ CỰC\nGHẾ THƯ GIÃN \nTẮM NẮNG\nHỒ BƠI TRẺ EM\nSEN TẮM ĐỨNG\nNGOÀI TRỜI\nVƯỜN ĐỌC SÁCH\nVƯỜN YOGA/THIỀN\nKHU TẬP THỂ THAO \nNGOÀI TRỜI\nKHUÔN VIÊN BBQ\nSÂN CHƠI TRẺ \nEM\nKHU VUI CHƠI TRẺ \nEM TRONG NHÀ\nPHÒNG CHƠI GAME\nVƯỜN THƯ \nGIÃN\nPHÒNG ĐA \nCHỨC NĂNG\nKHU VỰC \nBUSINESS CENTER\nTHƯ VIỆN\nLOUNGE \nPHÒNG THAY ĐỒ\nPHÒNG GYM \nTRONG NHÀ\nPHÒNG YOGA')]


In [17]:
print(serialized)

Source: {'page': 40, 'source': './mh_docs/masterigrandview.pdf'}
Content: gian cho sân phơi, hệ lam kín đáo che chắn
tăng tính thẩm mỹ cho cả dự án

Source: {'page': 50, 'source': './mh_docs/masterigrandview.pdf'}
Content: HỆ TIỆN ÍCH ẤN TƯỢNG
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
GHẾ NẰM THƯ 
GIÃN DƯỚI NƯỚC
HỒ BƠI VÔ CỰC
GHẾ THƯ GIÃN 
TẮM NẮNG
HỒ BƠI TRẺ EM
SEN TẮM ĐỨNG
NGOÀI TRỜI
VƯỜN ĐỌC SÁCH
VƯỜN YOGA/THIỀN
KHU TẬP THỂ THAO 
NGOÀI TRỜI
KHUÔN VIÊN BBQ
SÂN CHƠI TRẺ 
EM
KHU VUI CHƠI TRẺ 
EM TRONG NHÀ
PHÒNG CHƠI GAME
VƯỜN THƯ 
GIÃN
PHÒNG ĐA 
CHỨC NĂNG
KHU VỰC 
BUSINESS CENTER
THƯ VIỆN
LOUNGE 
PHÒNG THAY ĐỒ
PHÒNG GYM 
TRONG NHÀ
PHÒNG YOGA
