In [71]:
from langchain_google_genai import GoogleGenerativeAI, GoogleGenerativeAIEmbeddings
# from google import generativeai as genai
import os
from dotenv import load_dotenv

load_dotenv()

GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")

llm = GoogleGenerativeAI(
    model='gemini-1.5-pro',
    api_key=GEMINI_API_KEY,
    temperature=0.8
)

embeddings = GoogleGenerativeAIEmbeddings(
    model="models/text-embedding-004",
    google_api_key=GEMINI_API_KEY
)

In [72]:
from langchain_community.document_loaders import PyPDFLoader, PDFMinerLoader, PyPDFDirectoryLoader
import os

folder_path = "../documents/"
docs = []

for file_name in os.listdir(folder_path):
    if file_name.endswith('.pdf'):
        file_path = os.path.join(folder_path, file_name)
        
        # tạo loader cho file pdf
        loader = PDFMinerLoader(file_path=file_path)
        
        # load pdf và thêm vào danh sách
        doc = loader.load()
        docs.extend(doc)
        
print(f"Loaded {len(docs)} documents from {folder_path}")

Loaded 5 documents from ../documents/


In [73]:
for d in docs:
    print(f"- {d.page_content=}")

- d.page_content='CHÍNH PHỦ \n------- \n\nCỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM \nĐộc lập - Tự do - Hạnh phúc  \n--------------- \n\nSố: 123/2024/NĐ-CP \n\nHà Nội, ngày 04 tháng 10 năm 2024 \n\nNGHỊ ĐỊNH \n\nQUY ĐỊNH VỀ XỬ PHẠT VI PHẠM HÀNH CHÍNH TRONG LĨNH VỰC ĐẤT ĐAI \n\nCăn cứ Luật Tổ chức Chính phủ ngày 19 tháng 6 năm 2015; Luật sửa đổi, bổ sung một số điều \ncủa Luật Tổ chức Chính phủ và Luật Tổ chức chính quyền địa phương ngày 22 tháng 11 năm \n2019; \n\nCăn cứ Luật Xử lý vi phạm hành chính ngày 20 tháng 6 năm 2012; Luật sửa đổi, bổ sung một số \nđiều của Luật Xử lý vi phạm hành chính ngày 13 tháng 11 năm 2020; \n\nCăn cứ Luật Đất đai ngày 18 tháng 01 năm 2024; Luật sửa đổi, bổ sung một số điều của Luật \nĐất đai số 31/2024/QH15, Luật Nhà ở số 27/2023/QH15, Luật Kinh doanh bất động sản số \n29/2023/QH15 và Luật Các tổ chức tín dụng số 32/2024/QH15 ngày 29 tháng 6 năm 2024; \n\nTheo đề nghị của Bộ trưởng Bộ Tài nguyên và Môi trường; \n\nChính phủ ban hành Nghị định quy định về xử phạ

In [74]:
from langchain_experimental.text_splitter import SemanticChunker

text_splitter = SemanticChunker(
    embeddings=embeddings,
)

In [75]:
documents = text_splitter.split_documents(docs)
documents

[Document(metadata={'source': '../documents/123_2024_ND-CP_626370.pdf'}, page_content='CHÍNH PHỦ \n------- \n\nCỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM \nĐộc lập - Tự do - Hạnh phúc  \n--------------- \n\nSố: 123/2024/NĐ-CP \n\nHà Nội, ngày 04 tháng 10 năm 2024 \n\nNGHỊ ĐỊNH \n\nQUY ĐỊNH VỀ XỬ PHẠT VI PHẠM HÀNH CHÍNH TRONG LĨNH VỰC ĐẤT ĐAI \n\nCăn cứ Luật Tổ chức Chính phủ ngày 19 tháng 6 năm 2015; Luật sửa đổi, bổ sung một số điều \ncủa Luật Tổ chức Chính phủ và Luật Tổ chức chính quyền địa phương ngày 22 tháng 11 năm \n2019; \n\nCăn cứ Luật Xử lý vi phạm hành chính ngày 20 tháng 6 năm 2012; Luật sửa đổi, bổ sung một số \nđiều của Luật Xử lý vi phạm hành chính ngày 13 tháng 11 năm 2020; \n\nCăn cứ Luật Đất đai ngày 18 tháng 01 năm 2024; Luật sửa đổi, bổ sung một số điều của Luật \nĐất đai số 31/2024/QH15, Luật Nhà ở số 27/2023/QH15, Luật Kinh doanh bất động sản số \n29/2023/QH15 và Luật Các tổ chức tín dụng số 32/2024/QH15 ngày 29 tháng 6 năm 2024; \n\nTheo đề nghị của Bộ trưởng Bộ Tài nguy

In [76]:
texts = [doc.page_content for doc in documents]

In [77]:
text_embeddings = embeddings.embed_documents(texts=texts)
text_embeddings

[[0.013880860060453415,
  0.053611870855093,
  -0.022188890725374222,
  -0.06766533851623535,
  0.0306480061262846,
  0.0042058429680764675,
  -0.027480866760015488,
  0.0036366546992212534,
  0.014003581367433071,
  -0.0012334424536675215,
  -0.020328206941485405,
  0.059290338307619095,
  0.060296617448329926,
  0.03494396060705185,
  0.011442403309047222,
  -0.015227224677801132,
  -0.020143864676356316,
  -0.012376038357615471,
  -0.12892073392868042,
  0.012953993864357471,
  0.035767812281847,
  0.003094314131885767,
  0.035071901977062225,
  0.03289661183953285,
  -0.004169194959104061,
  -0.050676263868808746,
  -0.016353728249669075,
  0.016498902812600136,
  0.030664673075079918,
  -0.07421630620956421,
  2.9502654797397554e-05,
  0.06521157920360565,
  -0.051334016025066376,
  0.006022993475198746,
  0.02581997588276863,
  0.03758648782968521,
  0.026292212307453156,
  0.01683037169277668,
  0.048857301473617554,
  -0.0607331246137619,
  -0.046229276806116104,
  0.0097790677

In [78]:
# url = "http://localhost:6333"

from langchain_qdrant import QdrantVectorStore
# from qdrant_client import QdrantClient
# from qdrant_client.http.models import Distance, VectorParams
url = "https://218e5ea7-2ee3-4dd3-bf72-fb2511c22934.europe-west3-0.gcp.cloud.qdrant.io"
api_key = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJhY2Nlc3MiOiJtIiwiZXhwIjoxNzQ2NDExODUyfQ.5ZXZEKm8aSPqfODa1fAOSGtTlz9rfK-X5RqM18WrKsw"

qdrant = QdrantVectorStore.from_documents(
    documents=documents,
    embedding=embeddings,
    url=url,
    prefer_grpc=False,
    api_key=api_key,
    collection_name="vector_db"
)

print("Tạo xong vector db")

Tạo xong vector db


In [79]:
from langchain.chains import RetrievalQA

retrieval_qa = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever = qdrant.as_retriever()
)

def ask_question(question):
    result = retrieval_qa({"query": question})
    return result['result']

In [87]:
question = "Điều 3 của NGHỊ ĐỊNH \
QUY ĐỊNH VỀ ĐỊNH DANH VÀ XÁC THỰC ĐIỆN TỬ gồm những nội dung gì?"
answer = ask_question(question)
print("Question:", question)
print("Answer:", answer)

Question: Điều 3 của NGHỊ ĐỊNH QUY ĐỊNH VỀ ĐỊNH DANH VÀ XÁC THỰC ĐIỆN TỬ gồm những nội dung gì?
Answer: Điều 3 của Nghị định quy định về định danh và xác thực điện tử giải thích các thuật ngữ sau:

1. **Danh tính điện tử:** Thông tin của một cơ quan, tổ chức hoặc cá nhân trong hệ thống định danh và xác thực điện tử cho phép xác định duy nhất cơ quan, tổ chức, cá nhân đó trên môi trường điện tử.

2. **Chủ thể danh tính điện tử:** Cơ quan, tổ chức, cá nhân được xác định gắn với danh tính điện tử.

3. **Định danh điện tử:** Hoạt động đăng ký, đối soát, tạo lập và gắn danh tính điện tử với chủ thể danh tính điện tử.

4. **Cơ quan quản lý định danh và xác thực điện tử:** Cục Cảnh sát quản lý hành chính về trật tự xã hội - Bộ Công an.

5. **Tài khoản định danh điện tử:** Tập hợp gồm tên đăng nhập, mật khẩu hoặc phương tiện xác thực khác được tạo lập bởi cơ quan quản lý định danh và xác thực điện tử, được dùng để truy cập, sử dụng các tính năng, tiện ích, ứng dụng của hệ thống định danh và xá

In [81]:
retrieved_docs = qdrant.similarity_search_with_score(query=question, k=20)
retrieved_docs

[(Document(metadata={'source': '../documents/69_2024_ND-CP_597437.pdf', '_id': '1057232e-2d50-4c65-943f-42622080e538', '_collection_name': 'vector_db'}, page_content='................... (1) cam kết chịu trách nhiệm về tính chính xác của các thông tin cung cấp nêu trên \ncùng các tài liệu kèm theo và cam kết tuân thủ các quy định của pháp luật. NGƯỜI ĐẠI DIỆN THEO PHÁP LUẬT CỦA TỔ CHỨC \n(Chữ ký/chữ ký số của người đại diện theo pháp luật, dấu/chữ ký số của tổ chức) \n\n(1) Tên tổ chức đề nghị. Mẫu XT03  \n\n  \n  \n  \n  \n\x0cBỘ CÔNG AN \n------- \n\nSố: ……. CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM \nĐộc lập - Tự do - Hạnh phúc  \n--------------- \nHà Nội, ngày…. tháng ….'),
  0.63967156),
 (Document(metadata={'source': '../documents/168_2024_ND-CP_619502.pdf', '_id': '5ce79c0c-c378-45d8-9616-e764750854df', '_collection_name': 'vector_db'}, page_content='Hộ kinh doanh, hộ gia đình thực hiện hành vi vi phạm hành chính quy định tại Nghị định này \nbị xử phạt như đối với cá nhân vi phạm. 4. N

In [82]:
for i in retrieved_docs:
    doc, score = i
    print({"score": score, "content": doc.page_content, "metadata": doc.metadata})

{'score': 0.63967156, 'content': '................... (1) cam kết chịu trách nhiệm về tính chính xác của các thông tin cung cấp nêu trên \ncùng các tài liệu kèm theo và cam kết tuân thủ các quy định của pháp luật. NGƯỜI ĐẠI DIỆN THEO PHÁP LUẬT CỦA TỔ CHỨC \n(Chữ ký/chữ ký số của người đại diện theo pháp luật, dấu/chữ ký số của tổ chức) \n\n(1) Tên tổ chức đề nghị. Mẫu XT03  \n\n  \n  \n  \n  \n\x0cBỘ CÔNG AN \n------- \n\nSố: ……. CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM \nĐộc lập - Tự do - Hạnh phúc  \n--------------- \nHà Nội, ngày…. tháng ….', 'metadata': {'source': '../documents/69_2024_ND-CP_597437.pdf', '_id': '1057232e-2d50-4c65-943f-42622080e538', '_collection_name': 'vector_db'}}
{'score': 0.6297715, 'content': 'Hộ kinh doanh, hộ gia đình thực hiện hành vi vi phạm hành chính quy định tại Nghị định này \nbị xử phạt như đối với cá nhân vi phạm. 4. Người có thẩm quyền lập biên bản vi phạm hành chính, thẩm quyền xử phạt vi phạm hành \nchính và tổ chức, cá nhân có liên quan đến việc xử ph

In [83]:
len(retrieved_docs)

20

In [84]:
for i in retrieved_docs:
    doc, score = i
    print({"score": score, "content": doc.page_content, "metadata": doc.metadata})

{'score': 0.63967156, 'content': '................... (1) cam kết chịu trách nhiệm về tính chính xác của các thông tin cung cấp nêu trên \ncùng các tài liệu kèm theo và cam kết tuân thủ các quy định của pháp luật. NGƯỜI ĐẠI DIỆN THEO PHÁP LUẬT CỦA TỔ CHỨC \n(Chữ ký/chữ ký số của người đại diện theo pháp luật, dấu/chữ ký số của tổ chức) \n\n(1) Tên tổ chức đề nghị. Mẫu XT03  \n\n  \n  \n  \n  \n\x0cBỘ CÔNG AN \n------- \n\nSố: ……. CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM \nĐộc lập - Tự do - Hạnh phúc  \n--------------- \nHà Nội, ngày…. tháng ….', 'metadata': {'source': '../documents/69_2024_ND-CP_597437.pdf', '_id': '1057232e-2d50-4c65-943f-42622080e538', '_collection_name': 'vector_db'}}
{'score': 0.6297715, 'content': 'Hộ kinh doanh, hộ gia đình thực hiện hành vi vi phạm hành chính quy định tại Nghị định này \nbị xử phạt như đối với cá nhân vi phạm. 4. Người có thẩm quyền lập biên bản vi phạm hành chính, thẩm quyền xử phạt vi phạm hành \nchính và tổ chức, cá nhân có liên quan đến việc xử ph

In [85]:
combined_text = " ".join([doc.page_content for doc, score in retrieved_docs])
combined_text

'................... (1) cam kết chịu trách nhiệm về tính chính xác của các thông tin cung cấp nêu trên \ncùng các tài liệu kèm theo và cam kết tuân thủ các quy định của pháp luật. NGƯỜI ĐẠI DIỆN THEO PHÁP LUẬT CỦA TỔ CHỨC \n(Chữ ký/chữ ký số của người đại diện theo pháp luật, dấu/chữ ký số của tổ chức) \n\n(1) Tên tổ chức đề nghị. Mẫu XT03  \n\n  \n  \n  \n  \n\x0cBỘ CÔNG AN \n------- \n\nSố: ……. CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM \nĐộc lập - Tự do - Hạnh phúc  \n--------------- \nHà Nội, ngày…. tháng …. Hộ kinh doanh, hộ gia đình thực hiện hành vi vi phạm hành chính quy định tại Nghị định này \nbị xử phạt như đối với cá nhân vi phạm. 4. Người có thẩm quyền lập biên bản vi phạm hành chính, thẩm quyền xử phạt vi phạm hành \nchính và tổ chức, cá nhân có liên quan đến việc xử phạt vi phạm hành chính theo quy định tại \nNghị định này. 5. Người có thẩm quyền trừ điểm, phục hồi điểm giấy phép lái xe. Điều 3. Hình thức xử phạt vi phạm hành chính, biện pháp khắc phục hậu quả; thu hồi giấy \np

In [86]:
print(combined_text)

................... (1) cam kết chịu trách nhiệm về tính chính xác của các thông tin cung cấp nêu trên 
cùng các tài liệu kèm theo và cam kết tuân thủ các quy định của pháp luật. NGƯỜI ĐẠI DIỆN THEO PHÁP LUẬT CỦA TỔ CHỨC 
(Chữ ký/chữ ký số của người đại diện theo pháp luật, dấu/chữ ký số của tổ chức) 

(1) Tên tổ chức đề nghị. Mẫu XT03  

  
  
  
  
BỘ CÔNG AN 
------- 

Số: ……. CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM 
Độc lập - Tự do - Hạnh phúc  
--------------- 
Hà Nội, ngày…. tháng …. Hộ kinh doanh, hộ gia đình thực hiện hành vi vi phạm hành chính quy định tại Nghị định này 
bị xử phạt như đối với cá nhân vi phạm. 4. Người có thẩm quyền lập biên bản vi phạm hành chính, thẩm quyền xử phạt vi phạm hành 
chính và tổ chức, cá nhân có liên quan đến việc xử phạt vi phạm hành chính theo quy định tại 
Nghị định này. 5. Người có thẩm quyền trừ điểm, phục hồi điểm giấy phép lái xe. Điều 3. Hình thức xử phạt vi phạm hành chính, biện pháp khắc phục hậu quả; thu hồi giấy 
phép, chứng chỉ hành nghề