In [24]:
from langchain_google_genai import GoogleGenerativeAI, GoogleGenerativeAIEmbeddings
from langchain_experimental.text_splitter import SemanticChunker 
# from google import generativeai as genai
import os
from dotenv import load_dotenv

load_dotenv()

GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")

llm = GoogleGenerativeAI(
    model='gemini-2.0-flash-exp',
    api_key=GEMINI_API_KEY,
    temperature=0.8
)

embeddings = GoogleGenerativeAIEmbeddings(
    model="models/text-embedding-004",
    google_api_key=GEMINI_API_KEY
)

In [25]:
from langchain_community.document_loaders import PyMuPDFLoader, PyPDFLoader, PyMuPDFLoader, PDFMinerPDFasHTMLLoader, PDFMinerLoader

file_path = '../documents/69_2024_ND-CP_597437.pdf'

loader = PDFMinerLoader(
    file_path=file_path,
)

doc = loader.load()
doc

[Document(metadata={'source': '../documents/69_2024_ND-CP_597437.pdf'}, page_content="CHÍNH PHỦ \n------- \n\nSố: 69/2024/NĐ-CP \n\nCỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM \nĐộc lập - Tự do - Hạnh phúc  \n--------------- \nHà Nội, ngày 25 tháng 6 năm 2024 \n\nNGHỊ ĐỊNH \n\nQUY ĐỊNH VỀ ĐỊNH DANH VÀ XÁC THỰC ĐIỆN TỬ \n\nCăn cứ Luật Tổ chức Chính phủ ngày 19 tháng 6 năm 2015; Luật sửa đổi, bổ sung một số điều \ncủa Luật Tổ chức Chính phủ và Luật Tổ chức chính quyền địa phương ngày 22 tháng 11 năm \n2019; \n\nCăn cứ Luật An toàn thông tin mạng ngày 19 tháng 11 năm 2015; \n\nCăn cứ Luật An ninh mạng ngày 12 tháng 6 năm 2018; \n\nCăn cứ Luật Giao dịch điện tử ngày 22 tháng 6 năm 2023; \n\nCăn cứ Luật Căn cước ngày 27 tháng 11 năm 2023; \n\nCăn cứ Luật Đầu tư ngày 17 tháng 6 năm 2020 đã được sửa đổi, bổ sung một số điều theo Luật \nsố 72/2020/QH14, Luật số 03/2022/QH15, Luật số 05/2022/QH15, Luật số 08/2022/QH15, Luật \nsố 09/2022/QH15, Luật số 20/2023/QH15; Luật số 26/2023/QH15; \n\nTheo đề nghị 

In [26]:
print(doc[0].page_content)

CHÍNH PHỦ 
------- 

Số: 69/2024/NĐ-CP 

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM 
Độc lập - Tự do - Hạnh phúc  
--------------- 
Hà Nội, ngày 25 tháng 6 năm 2024 

NGHỊ ĐỊNH 

QUY ĐỊNH VỀ ĐỊNH DANH VÀ XÁC THỰC ĐIỆN TỬ 

Căn cứ Luật Tổ chức Chính phủ ngày 19 tháng 6 năm 2015; Luật sửa đổi, bổ sung một số điều 
của Luật Tổ chức Chính phủ và Luật Tổ chức chính quyền địa phương ngày 22 tháng 11 năm 
2019; 

Căn cứ Luật An toàn thông tin mạng ngày 19 tháng 11 năm 2015; 

Căn cứ Luật An ninh mạng ngày 12 tháng 6 năm 2018; 

Căn cứ Luật Giao dịch điện tử ngày 22 tháng 6 năm 2023; 

Căn cứ Luật Căn cước ngày 27 tháng 11 năm 2023; 

Căn cứ Luật Đầu tư ngày 17 tháng 6 năm 2020 đã được sửa đổi, bổ sung một số điều theo Luật 
số 72/2020/QH14, Luật số 03/2022/QH15, Luật số 05/2022/QH15, Luật số 08/2022/QH15, Luật 
số 09/2022/QH15, Luật số 20/2023/QH15; Luật số 26/2023/QH15; 

Theo đề nghị của Bộ trưởng Bộ Công an; 

Chính phủ ban hành Nghị định quy định về định danh và xác thực điện tử. 

Chương I 

Điề

In [46]:
text_splitter = SemanticChunker(
    embeddings=embeddings,
    breakpoint_threshold_type='gradient',
)

In [47]:
documents = text_splitter.split_documents(doc)
documents

[Document(metadata={'source': '../documents/69_2024_ND-CP_597437.pdf'}, page_content='CHÍNH PHỦ \n------- \n\nSố: 69/2024/NĐ-CP \n\nCỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM \nĐộc lập - Tự do - Hạnh phúc  \n--------------- \nHà Nội, ngày 25 tháng 6 năm 2024 \n\nNGHỊ ĐỊNH \n\nQUY ĐỊNH VỀ ĐỊNH DANH VÀ XÁC THỰC ĐIỆN TỬ \n\nCăn cứ Luật Tổ chức Chính phủ ngày 19 tháng 6 năm 2015; Luật sửa đổi, bổ sung một số điều \ncủa Luật Tổ chức Chính phủ và Luật Tổ chức chính quyền địa phương ngày 22 tháng 11 năm \n2019; \n\nCăn cứ Luật An toàn thông tin mạng ngày 19 tháng 11 năm 2015; \n\nCăn cứ Luật An ninh mạng ngày 12 tháng 6 năm 2018; \n\nCăn cứ Luật Giao dịch điện tử ngày 22 tháng 6 năm 2023; \n\nCăn cứ Luật Căn cước ngày 27 tháng 11 năm 2023; \n\nCăn cứ Luật Đầu tư ngày 17 tháng 6 năm 2020 đã được sửa đổi, bổ sung một số điều theo Luật \nsố 72/2020/QH14, Luật số 03/2022/QH15, Luật số 05/2022/QH15, Luật số 08/2022/QH15, Luật \nsố 09/2022/QH15, Luật số 20/2023/QH15; Luật số 26/2023/QH15; \n\nTheo đề nghị 

In [52]:
print(documents[1].page_content)

Chương I 

Điều 1. Phạm vi điều chỉnh 

QUY ĐỊNH CHUNG 

Nghị định này quy định chi tiết về danh tính điện tử; cấp, quản lý, sử dụng tài khoản định danh 
điện tử; cập nhật, lưu trữ thông tin trong hệ thống định danh và xác thực điện tử; điều kiện, trình 
tự kết nối với hệ thống định danh và xác thực điện tử; dịch vụ xác thực điện tử; trình tự, thủ tục 
cấp, khóa và mở khóa căn cước điện tử và trách nhiệm của cơ quan, tổ chức, cá nhân có liên 
quan về định danh, xác thực điện tử, căn cước điện tử. Điều 2. Đối tượng áp dụng 

Nghị định này áp dụng đối với cơ quan, tổ chức, công dân Việt Nam; tổ chức, cá nhân nước 
ngoài cư trú, hoạt động trên lãnh thổ Việt Nam trực tiếp tham gia hoặc có liên quan đến hoạt 
động định danh, xác thực điện tử, căn cước điện tử. Điều 3. Giải thích từ ngữ 

Trong Nghị định này, các từ ngữ dưới đây được hiểu như sau: 

1. Danh tính điện tử là thông tin của một cơ quan hoặc một tổ chức hoặc một cá nhân trong hệ 
thống định danh và xác thực điện tử cho phép xác đ

In [51]:
print(len(documents))

33
