In [5]:
!pip install -q langchain
!pip install -q langchain-community
!pip install -q langchain-experimental
!pip install -q sentence-transformers
!pip install -q langchain-chroma
!pip install -q --upgrade chromadb
!pip install -q -U google-genai

In [1]:
from langchain.document_loaders import PyPDFLoader
import re
from langchain.schema import Document
from sentence_transformers import SentenceTransformer
from langchain.embeddings.base import Embeddings
from langchain_chroma import Chroma
from chromadb import Settings
from google import genai
import requests

  from .autonotebook import tqdm as notebook_tqdm


In [6]:
file_path = r"/kaggle/input/chatbot-rag/data/nghidinh-168.pdf"
loader = PyPDFLoader(file_path)
documents = loader.load() # Trả về danh sách các Document (mỗi Document là một trang)

In [7]:
print(documents[0].page_content)

CHÍNH PHỦ
--------
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
---------------
Số: 168/2024/NĐ-CP Hà Nội, ngày 26 tháng 12 năm 2024
NGHỊ ĐỊNH
QUY ĐỊNH XỬ PHẠT VI PHẠM HÀNH CHÍNH VỀ TRẬT TỰ, AN TOÀN GIAO THÔNG TRONG
LĨNH VỰC GIAO THÔNG ĐƯỜNG BỘ; TRỪ ĐIỂM, PHỤC HỒI ĐIỂM GIẤY PHÉP LÁI XE
Căn cứ Luật Tổ chức Chính phủ ngày 19 tháng 6 năm 2015; Luật sửa đổi, bổ sung một số điều của Luật
Tổ chức Chính phủ và Luật Tổ chức chính quyền địa phương ngày 22 tháng 11 năm 2019;
Căn cứ Luật Xử lý vi phạm hành chính ngày 20 tháng 6 năm 2012; Luật sửa đổi, bổ sung một số điều
của Luật Xử lý vi phạm hành chính ngày 15 tháng 11 năm 2020;
Căn cứ Luật Trật tự, an toàn giao thông đường bộ ngày 27 tháng 6 năm 2024;
Theo đề nghị của Bộ trưởng Bộ Công an;
Chính phủ ban hành Nghị định quy định xử phạt vi phạm hành chính về trật tự, an toàn giao thông trong
lĩnh vực giao thông đường bộ; trừ điểm, phục hồi điểm giấy phép lái xe.
Chương I
NHỮNG QUY ĐỊNH CHUNG
Điều 1. Phạm vi điều chỉnh
1. Nghị đ

In [8]:
def clean_text(doc):
    """
    Nhận một đối tượng Document có thuộc tính page_content.
    Làm sạch nội dung văn bản bằng cách:
    - Xoá "about:blank"
    - Xoá chuỗi ngày giờ định sẵn "5/15/25, 8:43 PM"
    - Loại bỏ khoảng trắng thừa
    """
    text = doc.page_content
    text = re.sub(r'about:blank', '', text)
    text = re.sub(r'5/15/25, 8:43 PM', '', text)
    doc.page_content = text.strip()
    return doc


In [9]:
# Làm sạch từng Document
documents = [clean_text(doc) for doc in documents]

In [10]:
print(documents[0].page_content)

CHÍNH PHỦ
--------
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
---------------
Số: 168/2024/NĐ-CP Hà Nội, ngày 26 tháng 12 năm 2024
NGHỊ ĐỊNH
QUY ĐỊNH XỬ PHẠT VI PHẠM HÀNH CHÍNH VỀ TRẬT TỰ, AN TOÀN GIAO THÔNG TRONG
LĨNH VỰC GIAO THÔNG ĐƯỜNG BỘ; TRỪ ĐIỂM, PHỤC HỒI ĐIỂM GIẤY PHÉP LÁI XE
Căn cứ Luật Tổ chức Chính phủ ngày 19 tháng 6 năm 2015; Luật sửa đổi, bổ sung một số điều của Luật
Tổ chức Chính phủ và Luật Tổ chức chính quyền địa phương ngày 22 tháng 11 năm 2019;
Căn cứ Luật Xử lý vi phạm hành chính ngày 20 tháng 6 năm 2012; Luật sửa đổi, bổ sung một số điều
của Luật Xử lý vi phạm hành chính ngày 15 tháng 11 năm 2020;
Căn cứ Luật Trật tự, an toàn giao thông đường bộ ngày 27 tháng 6 năm 2024;
Theo đề nghị của Bộ trưởng Bộ Công an;
Chính phủ ban hành Nghị định quy định xử phạt vi phạm hành chính về trật tự, an toàn giao thông trong
lĩnh vực giao thông đường bộ; trừ điểm, phục hồi điểm giấy phép lái xe.
Chương I
NHỮNG QUY ĐỊNH CHUNG
Điều 1. Phạm vi điều chỉnh
1. Nghị đ

In [11]:
# ==== Embedding Model ====
class CustomSentenceTransformerEmbeddings(Embeddings):
    def __init__(self, model_id='AITeamVN/Vietnamese_Embedding'):
        self.model = SentenceTransformer(model_id, trust_remote_code=True)

    def embed_documents(self, texts):
        return self.model.encode(texts, convert_to_tensor=False).tolist()

    def embed_query(self, text):
        return self.model.encode([text], convert_to_tensor=False)[0].tolist()

embedding_model = CustomSentenceTransformerEmbeddings()

2025-05-21 12:25:36.291883: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1747830336.552085      35 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1747830336.626010      35 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/171 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/3.51k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/54.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/708 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.20k [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/297 [00:00<?, ?B/s]

In [12]:
def split_by_chuong_from_documents(documents):
    """
    Tách văn bản từ danh sách documents theo CHƯƠNG.
    Trả về danh sách dict gồm 'chuong' và 'content'.
    """
    
    # Gộp toàn bộ văn bản sau khi làm sạch
    full_text = "\n".join([doc.page_content for doc in documents])
    
    # Tách theo CHƯƠNG
    pattern = r"(Chương\s+[IVXLC]+\s*\n[^\n]*)"
    parts = re.split(pattern, full_text)
    
    chuong_chunks = []
    for i in range(1, len(parts), 2):
        chuong_title = parts[i].strip()
        chuong_content = parts[i+1].strip() if i+1 < len(parts) else ""
        chuong_chunks.append({
            "chuong": chuong_title,
            "content": chuong_content
        })
    
    return chuong_chunks

In [13]:
chuong_chunks = split_by_chuong_from_documents(documents)

In [14]:
for chuong in chuong_chunks:
    print(chuong["chuong"])
    # print(chuong["content"][:200])  # In 200 ký tự đầu của nội dung chương

Chương I
NHỮNG QUY ĐỊNH CHUNG
Chương II
HÀNH VI VI PHẠM, HÌNH THỨC, MỨC XỬ PHẠT, MỨC TRỪ ĐIỂM GIẤY PHÉP LÁI XE
Chương III
THẨM QUYỀN, THỦ TỤC XỬ PHẠT, TRỪ ĐIỂM, PHỤC HỒI ĐIỂM GIẤY PHÉP LÁI XE
Chương IV
ĐIỀU KHOẢN THI HÀNH


In [15]:
def split_by_muc(chuong_chunks):
    """
    Tách mỗi chương thành các mục theo định dạng 'Mục 1. TIÊU ĐỀ'.
    Nếu chương không có mục, toàn bộ nội dung sẽ nằm trong mục None.
    """
    all_muc_chunks = []
    pattern = r"(Mục\s+\d+\.\s*[^\n]*)"  # Mục 1. ..., Mục 2. ...

    for chuong in chuong_chunks:
        content = chuong["content"]
        parts = re.split(pattern, content)

        if len(parts) == 1:
            # Không có Mục trong chương
            all_muc_chunks.append({
                "chuong": chuong["chuong"],
                "muc": None,
                "content": parts[0].strip()
            })
        else:
            for i in range(1, len(parts), 2):
                muc_title = parts[i].strip()
                muc_content = parts[i+1].strip() if i+1 < len(parts) else ""
                all_muc_chunks.append({
                    "chuong": chuong["chuong"],
                    "muc": muc_title,
                    "content": muc_content
                })

    return all_muc_chunks

In [16]:
muc_chunks = split_by_muc(chuong_chunks)

In [17]:
for muc in muc_chunks:
    print(muc['muc'])

None
Mục 1. VI PHẠM QUY TẮC GIAO THÔNG ĐƯỜNG BỘ
Mục 2. VI PHẠM QUY ĐỊNH VỀ PHƯƠNG TIỆN THAM GIA GIAO THÔNG ĐƯỜNG BỘ
Mục 3. VI PHẠM QUY ĐỊNH VỀ NGƯỜI ĐIỀU KHIỂN PHƯƠNG TIỆN THAM GIA GIAO
Mục 4. VI PHẠM QUY ĐỊNH VỀ BẢO ĐẢM TRẬT TỰ, AN TOÀN GIAO THÔNG ĐƯỜNG BỘ
Mục 5. CÁC VI PHẠM KHÁC LIÊN QUAN ĐẾN TRẬT TỰ, AN TOÀN GIAO THÔNG TRONG
Mục 1. THẨM QUYỀN XỬ PHẠT
Mục 2. THỦ TỤC XỬ PHẠT
Mục 3. TRÌNH TỰ, THỦ TỤC, THẨM QUYỀN TRỪ ĐIỂM, PHỤC HỒI ĐIỂM GIẤY PHÉP
None


In [18]:
def split_by_dieu(muc_chunks):
    """
    Tách từng mục/chương thành các Điều.
    Lấy đúng tiêu đề của điều, kể cả khi tiêu đề xuống dòng, không kết thúc bằng dấu chấm.
    """
    all_dieu_chunks = []
    pattern = r"(?m)^Điều\s+\d+\..*"

    for muc in muc_chunks:
        content = muc["content"]
        matches = list(re.finditer(pattern, content))

        if not matches:
            continue  # Không có điều nào

        for i in range(len(matches)):
            start = matches[i].start()
            end = matches[i + 1].start() if i + 1 < len(matches) else len(content)
            full_text = content[start:end].strip()

            # Ghép dòng đầu tiên (hoặc nhiều dòng đầu tiên) thành tiêu đề cho đến khi gặp dòng trắng hoặc dòng bắt đầu bằng số/khoản
            lines = full_text.split('\n')
            title_lines = []
            body_lines = []
            found_body = False

            for line in lines:
                if not found_body and (
                    re.match(r"^\s*\d+\.", line) or  # bắt đầu khoản
                    re.match(r"^\s*[a-zA-Z]\)", line) or  # bắt đầu điểm
                    line.strip() == ""
                ):
                    found_body = True
                if not found_body:
                    title_lines.append(line.strip())
                else:
                    body_lines.append(line.strip())

            dieu_title = " ".join(title_lines).strip()
            dieu_body = "\n".join(body_lines).strip()

            all_dieu_chunks.append({
                "chuong": muc["chuong"],
                "muc": muc["muc"],
                "dieu": dieu_title,
                "content": dieu_body
            })

    return all_dieu_chunks


In [19]:
dieu_chunks = split_by_dieu(muc_chunks)

In [20]:
print(f"----- Tổng cộng có: {len(dieu_chunks)} điều -----")
for dieu in dieu_chunks:
    print(dieu['dieu'])

Điều 1. Phạm vi điều chỉnh
Điều 2. Đối tượng áp dụng
Điều 3. Hình thức xử phạt vi phạm hành chính, biện pháp khắc phục hậu quả; thu hồi giấy phép, chứng chỉ hành nghề
Điều 4. Thời hiệu xử phạt vi phạm hành chính; hành vi vi phạm hành chính đã kết thúc, hành vi vi phạm hành chính đang thực hiện
Điều 5. Tước quyền sử dụng giấy phép, chứng chỉ hành nghề có thời hạn
Điều 6. Xử phạt, trừ điểm giấy phép lái xe của người điều khiển xe ô tô, xe chở người bốn bánh có gắn động cơ, xe chở hàng bốn bánh có gắn động cơ và các loại xe tương tự xe ô tô vi phạm quy tắc giao thông đường bộ
Điều 7. Xử phạt, trừ điểm giấy phép lái của người điều khiển xe mô tô, xe gắn máy, các loại xe tương tự xe mô tô và các loại xe tương tự xe gắn máy vi phạm quy tắc giao thông đường bộ
Điều 8. Xử phạt người điều khiển xe máy chuyên dùng vi phạm quy tắc giao thông đường bộ
Điều 9. Xử phạt người điều khiển xe đạp, xe đạp máy, người điều khiển xe thô sơ khác vi phạm quy tắc giao thông đường bộ
Điều 10. Xử phạt người đi b

In [21]:
def split_by_khoan(dieu_chunks):
    """
    Tách từng điều thành các Khoản.
    Giữ đúng tiêu đề của Khoản kể cả khi tiêu đề xuống dòng và không có dấu chấm.
    """
    all_khoan_chunks = []
    pattern = r"(?m)^\s*\d+\..*"

    for dieu in dieu_chunks:
        content = dieu["content"]
        matches = list(re.finditer(pattern, content))

        if not matches:
            # Không có Khoản, coi toàn bộ nội dung là 1 Khoản không định danh
            all_khoan_chunks.append({
                "chuong": dieu["chuong"],
                "muc": dieu["muc"],
                "dieu": dieu["dieu"],
                "khoan": None,
                "content": content.strip()
            })
            continue

        for i in range(len(matches)):
            start = matches[i].start()
            end = matches[i + 1].start() if i + 1 < len(matches) else len(content)
            full_text = content[start:end].strip()

            # Ghép các dòng đầu để tạo title khoản
            lines = full_text.split('\n')
            title_lines = []
            body_lines = []
            found_body = False

            for line in lines:
                if not found_body and (
                    re.match(r"^\s*[a-zA-Z]\)", line) or  # điểm
                    line.strip() == ""  # dòng trắng
                ):
                    found_body = True
                if not found_body:
                    title_lines.append(line.strip())
                else:
                    body_lines.append(line.strip())

            khoan_title = " ".join(title_lines).strip()
            khoan_body = "\n".join(body_lines).strip()

            all_khoan_chunks.append({
                "chuong": dieu["chuong"],
                "muc": dieu["muc"],
                "dieu": dieu["dieu"],
                "khoan": khoan_title,
                "content": khoan_body
            })

    return all_khoan_chunks

In [22]:
khoan_chunks = split_by_khoan(dieu_chunks)

In [None]:
print(f"----- Tổng cộng có: {len(khoan_chunks)} khoản -----")
for khoan in khoan_chunks[:20]:
    print(khoan['khoan'])

In [24]:
def split_by_diem_dynamic_length(khoan_chunks, max_length=1000):
    """
    Gộp các điểm trong mỗi Khoản thành nhiều chunk sao cho mỗi chunk không vượt quá max_length ký tự.
    """
    all_diem_chunks = []
    pattern = r"(?m)^[a-z]\)"  # điểm bắt đầu bằng a), b), ...

    for khoan in khoan_chunks:
        content = khoan["content"]
        matches = list(re.finditer(pattern, content))

        # Nếu không có điểm nào, giữ nguyên nội dung
        if not matches:
            all_diem_chunks.append({
                "chuong": khoan["chuong"],
                "muc": khoan["muc"],
                "dieu": khoan["dieu"],
                "khoan": khoan["khoan"],
                "content": content.strip()
            })
            continue

        # Cắt từng điểm riêng biệt
        diem_texts = []
        for i in range(len(matches)):
            start = matches[i].start()
            end = matches[i + 1].start() if i + 1 < len(matches) else len(content)
            diem_text = content[start:end].strip()
            diem_texts.append(diem_text)

        # Gom nhóm điểm sao cho mỗi nhóm không vượt quá max_length
        current_chunk = ""
        for diem in diem_texts:
            if len(current_chunk) + len(diem) + 1 > max_length:
                if current_chunk:
                    all_diem_chunks.append({
                        "chuong": khoan["chuong"],
                        "muc": khoan["muc"],
                        "dieu": khoan["dieu"],
                        "khoan": khoan["khoan"],
                        "content": current_chunk.strip()
                    })
                current_chunk = diem
            else:
                current_chunk += "\n" + diem if current_chunk else diem

        # Thêm chunk cuối nếu còn dư
        if current_chunk:
            all_diem_chunks.append({
                "chuong": khoan["chuong"],
                "muc": khoan["muc"],
                "dieu": khoan["dieu"],
                "khoan": khoan["khoan"],
                "content": current_chunk.strip()
            })

    return all_diem_chunks


In [25]:
diem_chunks = split_by_diem_dynamic_length(khoan_chunks)

In [None]:
print(f"----- Tổng cộng có: {len(diem_chunks)} chunk -----")
for diem in diem_chunks[:20]:
    print("----Chunk----")
    print(diem['content'])

In [27]:
documents_with_context = []
for chunk in diem_chunks:
    full_text = ""
    if chunk.get("dieu"):
        full_text += f"{chunk['dieu']}\n"
    if chunk.get("khoan"):
        full_text += f"{chunk['khoan']}\n"
    full_text += chunk["content"]

    documents_with_context.append(
        Document(page_content=full_text, metadata={
            "chuong": chunk.get("chuong", ""),
            "muc": chunk.get("muc", ""),
            "dieu": chunk.get("dieu", ""),
            "khoan": chunk.get("khoan", ""),
        })
    )

In [28]:
print(documents_with_context[0])

page_content='Điều 1. Phạm vi điều chỉnh
1. Nghị định này quy định về:
a) Xử phạt vi phạm hành chính về trật tự, an toàn giao thông trong lĩnh vực giao thông đường bộ bao
gồm: hành vi vi phạm hành chính; hình thức, mức xử phạt, biện pháp khắc phục hậu quả đối với từng
hành vi vi phạm hành chính; thẩm quyền lập biên bản, thẩm quyền xử phạt, mức phạt tiền cụ thể theo
từng chức danh đối với hành vi vi phạm hành chính về trật tự, an toàn giao thông trong lĩnh vực giao
thông đường bộ;
b) Mức trừ điểm giấy phép lái xe đối với từng hành vi vi phạm hành chính; trình tự, thủ tục, thẩm quyền
trừ điểm, phục hồi điểm giấy phép lái xe để quản lý việc chấp hành pháp luật về trật tự, an toàn giao
thông đường bộ của người lái xe.' metadata={'chuong': 'Chương I\nNHỮNG QUY ĐỊNH CHUNG', 'muc': None, 'dieu': 'Điều 1. Phạm vi điều chỉnh', 'khoan': '1. Nghị định này quy định về:'}


# Weaviate

In [None]:
import json

# Giả sử documents_with_context là list các đối tượng Document
documents_as_dict = [
    {
        "page_content": doc.page_content,
        "metadata": doc.metadata
    }
    for doc in documents_with_context
]

## Vector Embedding

In [None]:
import torch

In [None]:
embedding_model_name = "AITeamVN/Vietnamese_Embedding"
device = 'cuda' if torch.cuda.is_available() else 'cpu'
embedding_model = SentenceTransformer(embedding_model_name, device=device)


In [None]:
from tqdm import tqdm

for doc in tqdm(documents_as_dict, desc="Encoding embeddings"):
    txt = f"{doc['metadata']['chuong']} {doc['metadata']['muc']} {doc['metadata']['dieu']} {doc['metadata']['khoan']}".strip()
    doc['embedding'] = embedding_model.encode(txt, convert_to_tensor=True).tolist()


## Connect Weaviate

In [2]:
import json
with open('data/documents.json', 'r', encoding='utf-8') as f:
    documents = json.load(f)

In [3]:
documents[0]

{'page_content': 'Điều 1. Phạm vi điều chỉnh\n1. Nghị định này quy định về:\na) Xử phạt vi phạm hành chính về trật tự, an toàn giao thông trong lĩnh vực giao thông đường bộ bao\ngồm: hành vi vi phạm hành chính; hình thức, mức xử phạt, biện pháp khắc phục hậu quả đối với từng\nhành vi vi phạm hành chính; thẩm quyền lập biên bản, thẩm quyền xử phạt, mức phạt tiền cụ thể theo\ntừng chức danh đối với hành vi vi phạm hành chính về trật tự, an toàn giao thông trong lĩnh vực giao\nthông đường bộ;\nb) Mức trừ điểm giấy phép lái xe đối với từng hành vi vi phạm hành chính; trình tự, thủ tục, thẩm quyền\ntrừ điểm, phục hồi điểm giấy phép lái xe để quản lý việc chấp hành pháp luật về trật tự, an toàn giao\nthông đường bộ của người lái xe.',
 'metadata': {'chuong': 'Chương I\nNHỮNG QUY ĐỊNH CHUNG',
  'muc': None,
  'dieu': 'Điều 1. Phạm vi điều chỉnh',
  'khoan': '1. Nghị định này quy định về:'},
 'embedding': [0.004244220908731222,
  0.04391330108046532,
  0.017757348716259003,
  0.019669121131300

In [4]:
import weaviate
import weaviate.classes as wvc
from weaviate.classes.config import (
    Configure,
    Property,
    DataType,
    VectorDistances, 
)

In [5]:
client = weaviate.connect_to_local()

In [6]:
names = "NghiDinh168"

## Create Schema

In [7]:
client.collections.delete(names) 
# # # Tạo schema mới có hỗ trợ hybrid (BM25 + vector)

client.collections.create(
    name=names,
    description="Nghi Dinh 168/2023",
    inverted_index_config=Configure.inverted_index(bm25_b=0.75, bm25_k1=1.2),
    vectorizer_config=Configure.Vectorizer.none(),
    vector_index_config=Configure.VectorIndex.flat(distance_metric=VectorDistances.COSINE),
    properties=[
        Property(name="page_content", data_type=DataType.TEXT),
        Property(name="chuong", data_type=DataType.TEXT),
        Property(name="muc", data_type=DataType.TEXT),
        Property(name="dieu", data_type=DataType.TEXT),
        Property(name="khoan", data_type=DataType.TEXT),
    ]
)

print(f"✅ Created schema {names} successfully.")
client.close()

✅ Created schema NghiDinh168 successfully.


c:\Python310\lib\site-packages\weaviate\collections\classes\config.py:1950: PydanticDeprecatedSince211: Accessing the 'model_fields' attribute on the instance is deprecated. Instead, you should access this attribute from the model class. Deprecated in Pydantic V2.11 to be removed in V3.0.
  for cls_field in self.model_fields:


## Push Index

In [8]:
client = weaviate.connect_to_local()
collection = client.collections.get(names)

In [9]:
total = len(documents)
success_count = 0
fail_count = 0
with collection.batch.dynamic() as batch:
            for obj in documents:
                try:
                    metadata = {
                        "page_content": obj["page_content"],
                        "chuong": obj["metadata"]["chuong"],
                        "muc": obj["metadata"]["muc"],
                        "dieu": obj["metadata"]["dieu"],
                        "khoan": obj["metadata"]["khoan"],
                    }


                    batch.add_object(
                        properties=metadata,
                        vector=obj["embedding"]
                    )
                    success_count += 1

                except Exception as e:
                    print(f"Lỗi khi thêm object {obj['page_content']}: {e}")
                    fail_count += 1
print(f"Tổng vector trong file: {total}")
print(f"Thành công: {success_count}")
print(f"Thất bại: {fail_count}")
print(f"Tổng đã xử lý: {success_count + fail_count}")
client.close()

Tổng vector trong file: 453
Thành công: 453
Thất bại: 0
Tổng đã xử lý: 453


In [10]:
client = weaviate.connect_to_local()
collection = client.collections.get("NghiDinh168")
count = client.collections.get("NghiDinh168").aggregate.over_all()
print(f"Số vector: {count}")
client.close()

Số vector: AggregateReturn(properties={}, total_count=453)


## RAG

In [11]:
import weaviate
from typing import List

client = weaviate.connect_to_local()
collection = client.collections.get("NghiDinh168")

In [12]:
from langchain.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_messages([
    (
        "system",
        "Bạn là một trợ lý pháp lý chuyên về luật giao thông Việt Nam, đặc biệt là Nghị định 168/2024/NĐ-CP. "
        "Bạn có nhiệm vụ trả lời các câu hỏi pháp lý một cách chính xác, tự nhiên và rõ ràng, dựa trên nội dung được cung cấp từ Nghị định."
    ),
    (
        "user",
        '''
Dưới đây là câu hỏi pháp lý:

"{question}"

Và các đoạn trích từ Nghị định 168 liên quan:

{context}

Dựa trên các đoạn trích, hãy trả lời chính xác và đầy đủ nhất có thể, với văn phong rõ ràng, tự nhiên và mang tính pháp lý. Câu trả lời nên dẫn chiếu cụ thể đến phần nội dung trong tài liệu nếu có thể.

Trả lời theo định dạng JSON như sau:

{{
  "answer": "Câu trả lời rõ ràng, dễ hiểu, sử dụng văn phong pháp lý tự nhiên, dựa trên nội dung được cung cấp.",
  "reference": "Tóm tắt hoặc trích dẫn phần tài liệu đã sử dụng để trả lời, ví dụ: 'Theo Điều 6 khoản 9 điểm d của Nghị định 168...'"
}}

Chỉ trả về **đúng định dạng JSON hợp lệ**. Không bao gồm bất kỳ nội dung nào khác ngoài JSON.
        '''
    )
])


In [13]:
import os
import getpass

if not os.environ.get("GOOGLE_API_KEY"):
  os.environ["GOOGLE_API_KEY"] = getpass.getpass("Enter API key for Google Gemini: ")

from langchain.chat_models import init_chat_model

llm = init_chat_model("gemini-2.0-flash", model_provider="google_genai")

In [14]:
def clean_output(text):
    if isinstance(text, dict): 
        return json.dumps(text)
    match = re.search(r'{.*}', text, re.DOTALL)
    if match:
        return match.group(0)
    raise ValueError("Không tìm thấy JSON hợp lệ.")

In [15]:
query = "Ô tô đi ngược chiều sẽ bị phạt bao nhiêu tiền?"

In [16]:
res = collection.query.bm25(
    query=query,
    limit=5,
    return_metadata=["score"],
)

In [17]:
documents: List[Document] = []
for o in res.objects:
    documents.append(Document(
        page_content=o.properties["page_content"],
        metadata={
            "chuong": o.properties.get("chuong", ""),
            "muc": o.properties.get("muc", ""),
            "dieu": o.properties.get("dieu", ""),
            "khoan": o.properties.get("khoan", ""),
            "score": o.metadata.score
        }
    ))

In [18]:
context = "\n\n".join([doc.page_content for doc in documents])

In [21]:
formatted_prompt = prompt.format_messages(question=query, context=context)
response = llm.invoke(formatted_prompt)
output = clean_output(response.content)
output = json.loads(output)

In [22]:
print("Câu hỏi: ", query)
print(f"Câu trả lời: {output['answer']}")
print("Tài liệu tham khảo: ", output['reference'])
print("------Tài liệu tham khảo chi tiết từ Nghị định 168------")
for obj in res.objects:
    print("Score:", obj.metadata.score)
    print("Chương:", obj.properties.get("chuong"))
    print("Mục:", obj.properties.get("muc"))
    print("Điều:", obj.properties.get("dieu"))
    print("Khoản:", obj.properties.get("khoan"))
    print("Nội dung:", obj.properties["page_content"])
    print("---")

Câu hỏi:  Ô tô đi ngược chiều sẽ bị phạt bao nhiêu tiền?
Câu trả lời: Theo Nghị định 168/2024/NĐ-CP, mức phạt tiền đối với hành vi điều khiển ô tô đi ngược chiều của đường một chiều, đi ngược chiều trên đường có biển "Cấm đi ngược chiều" là từ 18.000.000 đồng đến 20.000.000 đồng. Tuy nhiên, quy định này không áp dụng cho các trường hợp xe ưu tiên đang đi làm nhiệm vụ khẩn cấp và các hành vi vi phạm được quy định tại điểm đ khoản 11 Điều 6 (nếu có).
Tài liệu tham khảo:  Điều 6 khoản 9 điểm d của Nghị định 168/2024/NĐ-CP
------Tài liệu tham khảo chi tiết từ Nghị định 168------
Score: 5.596797943115234
Chương: Chương II
HÀNH VI VI PHẠM, HÌNH THỨC, MỨC XỬ PHẠT, MỨC TRỪ ĐIỂM GIẤY PHÉP LÁI XE
Mục: Mục 1. VI PHẠM QUY TẮC GIAO THÔNG ĐƯỜNG BỘ
Điều: Điều 6. Xử phạt, trừ điểm giấy phép lái xe của người điều khiển xe ô tô, xe chở người bốn bánh có gắn động cơ, xe chở hàng bốn bánh có gắn động cơ và các loại xe tương tự xe ô tô vi phạm quy tắc giao thông đường bộ
Khoản: 5. Phạt tiền từ 4.000.000 đồ

# ChromaDB


In [29]:
client_settings = Settings(
    persist_directory="chroma_db_new",
    is_persistent=True,
)

chroma_db = Chroma.from_documents(
    documents=documents_with_context,
    embedding=embedding_model,
    client_settings=client_settings,
)

Batches:   0%|          | 0/15 [00:00<?, ?it/s]

In [None]:
def rewrite_query(user_query):
    # API key của bạn trên GeminiGemini
    client = genai.Client(api_key="")
    
    prompt = f"""
    Bạn là một chuyên gia pháp lý, am hiểu sâu sắc về văn bản quy phạm pháp luật.
    
    Nhiệm vụ của bạn là chuyển đổi câu hỏi của người dân thành một truy vấn phù hợp với phong cách hành chính – pháp lý, bảo đảm:
    - Văn phong trang trọng, chính xác, không sử dụng đại từ nhân xưng (tôi, bạn...).
    - Câu văn ngắn gọn, mạch lạc, theo cấu trúc ngôn ngữ pháp lý chuẩn.
    - Làm rõ chủ thể, hành vi và mối quan hệ với quy định trong nghị định.
    - Không thêm thông tin không có trong câu hỏi gốc.
    
    Ví dụ:
    Câu hỏi gốc: "Vượt đèn đỏ bị phạt bao nhiêu tiền?"
    Câu hỏi pháp lý: Mức phạt tiền đối với hành vi vi phạm vượt đèn tín hiệu giao thông khi đèn đang ở trạng thái đỏ được quy định như thế nào?
    
    Câu hỏi gốc: "Hành vi đi ngược chiều sẽ bị xử phạt như thế nào?"
    Câu hỏi pháp lý: "Mức xử phạt vi phạm hành chính đối với hành vi điều khiển phương tiện giao thông đi ngược chiều được quy định như thế nào theo pháp luật hiện hành?"
    
    Câu hỏi gốc: "{user_query}"
    Hãy viết lại câu hỏi này theo văn phong của văn bản pháp luật.
    """
    
    response = client.models.generate_content(
        model="gemini-2.0-flash", contents=prompt
    )
    
    return response.text

In [48]:
query = "Ô tô đi ngược chiều sẽ bị phạt bao nhiêu tiền?"
rewritten_query = rewrite_query(query)
print(rewritten_query)

Mức xử phạt vi phạm hành chính đối với hành vi điều khiển xe ô tô đi ngược chiều được quy định như thế nào?



In [49]:
retriever = chroma_db.as_retriever(search_kwargs={"k": 4})

In [50]:
docs = retriever.get_relevant_documents(rewritten_query) # Hoặc chroma_db.similarity_search(query)

for doc in docs:
    print(doc.page_content)
    print("-------------")


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Điều 8. Xử phạt người điều khiển xe máy chuyên dùng vi phạm quy tắc giao thông đường bộ
7. Phạt liền từ 6.000.000 đồng đến 8.000.000 đồng đối với người điều khiển xe thực hiện một trong các hành vi vi phạm sau đây:
a) Điều khiển xe trên đường mà trong máu hoặc hơi thở có nồng độ cồn vượt quá 50 miligam đến 80
miligam/100 mililít máu hoặc vượt quá 0,25 miligam đến 0,4 miligam/1 lít khí thở;
b) Không chấp hành hiệu lệnh, hướng dẫn của người điều khiển giao thông hoặc người kiểm soát giao
thông;
c) Không chấp hành hiệu lệnh của đèn tín hiệu giao thông;
d) Đi ngược chiều của đường một chiều, đi ngược chiều trên đường có biển “Cấm đi ngược chiều”, trừ
các hành vi vi phạm quy định tại điểm đ khoản 9 Điều này và các trường hợp xe ưu tiên đang đi làm
nhiệm vụ khẩn cấp theo quy định.
-------------
Điều 7. Xử phạt, trừ điểm giấy phép lái của người điều khiển xe mô tô, xe gắn máy, các loại xe tương tự xe mô tô và các loại xe tương tự xe gắn máy vi phạm quy tắc giao thông đường bộ
7. Phạt tiền từ 

In [None]:
# Thay thế bằng API Key của bạn trên Groq
API_KEY = ""

# Chọn mô hình phù hợp
MODEL = "deepseek-r1-distill-llama-70b" 

# Các đoạn văn bản liên quan
context_1, context_2, context_3, context_4 = [doc.page_content for doc in docs]

# Tạo prompt cho mô hình
prompt = f"""Bạn là trợ lý pháp lý thông minh. Dựa trên ngữ cảnh sau, hãy trả lời câu hỏi một cách ngắn gọn và chính xác. Nếu không đủ thông tin, hãy nói rõ.

Ngữ cảnh: Được lấy từ nghị định 168
{context_1}
{context_2}
{context_3}
{context_4}

Câu hỏi: {rewritten_query}

Trả lời:"""

# Cấu hình yêu cầu đến Groq API
url = "https://api.groq.com/openai/v1/chat/completions"
headers = {
    "Authorization": f"Bearer {API_KEY}",
    "Content-Type": "application/json"
}
payload = {
    "model": MODEL,
    "messages": [
        {"role": "system", "content": "Bạn là trợ lý pháp lý thông minh."},
        {"role": "user", "content": prompt}
    ],
    "temperature": 0.2,
    "top_p": 1.0,
    "stream": False
}

# Gửi yêu cầu và xử lý phản hồi
response = requests.post(url, headers=headers, json=payload)
if response.status_code == 200:
    result = response.json()
    answer = result['choices'][0]['message']['content'].strip()
    print("Câu trả lời:", answer)
else:
    print("Lỗi:", response.status_code, response.text)


Câu trả lời: <think>
Được, tôi cần trả lời câu hỏi về mức xử phạt vi phạm hành chính đối với hành vi điều khiển xe ô tô đi ngược chiều. Đầu tiên, tôi xem xét các điều khoản trong Nghị định 168 mà người dùng đã cung cấp.

Trong Điều 6, khoản 9 điểm d có đề cập đến việc xử phạt từ 18.000.000 đến 20.000.000 đồng đối với hành vi đi ngược chiều trên đường một chiều hoặc đường có biển cấm đi ngược chiều, trừ các trường hợp xe ưu tiên khẩn cấp. Điều này áp dụng cho xe ô tô.

Tôi cũng kiểm tra Điều 8 và Điều 7 để đảm bảo không có quy định nào khác liên quan đến xe ô tô đi ngược chiều. Điều 8 khoản 7 và 9 đề cập đến xe máy chuyên dùng, trong khi Điều 7 khoản 7 liên quan đến xe mô tô, xe gắn máy. Do đó, không ảnh hưởng đến câu trả lời về xe ô tô.

Vì vậy, mức phạt chính xác cho xe ô tô đi ngược chiều là từ 18 đến 20 triệu đồng theo Điều 6 khoản 9 điểm d.
</think>

Mức xử phạt vi phạm hành chính đối với hành vi điều khiển xe ô tô đi ngược chiều được quy định tại Điều 6 khoản 9 điểm d của Nghị địn