### 1. Test LLM Prompt (Only init QA Generating Prompt):

In [2]:
QA_PAIRS_GENERATING_PROMPT = """\
Thông tin ngữ cảnh nằm bên dưới.

---------------------
{context_str}
---------------------

Chỉ dựa vào thông tin ngữ cảnh ở trên (không sử dụng kiến thức bên ngoài),
hãy tạo một tập gồm {num_questions_per_chunk} câu truy vấn đa dạng của người dùng liên quan đến luật giao thông.
Các truy vấn này sẽ được sử dụng để đánh giá một hệ thống truy vấn thông tin pháp luật.

Bạn đang đóng vai trò là một chuyên gia pháp lý và người thiết kế bài giảng. Nhiệm vụ của bạn là tạo ra các câu hỏi đáp ứng các tiêu chí sau:

1. Bao gồm nhiều **mục đích truy vấn** khác nhau của người dùng, như:
   - **Tra cứu quy định**: Người dùng muốn biết quy định hoặc mức phạt cụ thể. (Ví dụ: “Mức phạt khi chạy quá tốc độ là bao nhiêu?”)
   - **Tình huống thực tế**: Người dùng mô tả một tình huống cá nhân và hỏi liệu điều đó có hợp pháp hoặc bị xử phạt không.
   - **Thủ tục hành chính**: Người dùng hỏi về giấy tờ, bước thực hiện, điều kiện để được cấp phép, nộp phạt, v.v.
   - **So sánh / ra quyết định**: Người dùng so sánh các lựa chọn hoặc quy định để đưa ra quyết định. (Ví dụ: “Hành vi nào bị phạt nặng hơn…”)
   - **Học tập pháp luật**: Người dùng đang nghiên cứu hoặc học luật, muốn hiểu cấu trúc, phạm vi hoặc định nghĩa.

2. Chỉ tạo câu hỏi ở **mức độ phức tạp 1 và 2**:
   - **Cấp độ 1 (Đơn giản)**: Câu hỏi tra cứu trực tiếp, chỉ liên quan đến một quy định cụ thể.
   - **Cấp độ 2 (Trung bình)**: Câu hỏi tình huống hoặc so sánh, yêu cầu kết hợp hoặc suy luận từ nhiều thông tin trong một đoạn luật.

Hướng dẫn:
- Chỉ sử dụng nội dung pháp lý được cung cấp. Không dùng kiến thức từ bên ngoài.
- Mỗi câu hỏi cần có thể trả lời từ ngữ cảnh, nhưng không được trích dẫn nguyên văn.
- Kết quả trả về dưới dạng **danh sách JSON** gồm các đối tượng. Mỗi đối tượng phải bao gồm:
  - "query": câu hỏi của người dùng viết bằng ngôn ngữ tự nhiên
  - "intent": một trong các giá trị ["lookup", "situation", "procedure", "comparison", "learning"]
  - "complexity": số nguyên từ 1 đến 2

Ví dụ định dạng đầu ra:
[
  {{
    "query": "Mức phạt khi điều khiển xe máy không đội mũ bảo hiểm là bao nhiêu?",
    "intent": "lookup",
    "complexity": 1
  }},
  {{
    "query": "Tôi điều khiển xe tay ga mà quên mang theo bằng lái, như vậy có bị phạt không?",
    "intent": "situation",
    "complexity": 2
  }}
]
"""


In [3]:
import os
import sys
from pathlib import Path
import uuid
from tqdm import tqdm
from typing import List
import pandas as pd
import re
import json
from dotenv import load_dotenv
sys.path.append(str(Path.cwd().parent.parent))

from llama_index.core import Document 
from llama_index.core import Settings
from llama_index.llms.openai import OpenAI
from llama_index.core.schema import MetadataMode, TextNode
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core.evaluation import (
    generate_question_context_pairs,
    EmbeddingQAFinetuneDataset,
)
from llama_index.core.llama_dataset.legacy.embedding import generate_qa_embedding_pairs


from qdrant_client import QdrantClient

load_dotenv(override=True)

True

In [4]:
# Init Êmbedding Model:
embed_model = OpenAIEmbedding(model='text-embedding-3-large', api_key=os.getenv('OPENAI_API_KEY'))
Settings.embed_model = embed_model
llm = OpenAI(model='gpt-4o-mini', api_key=os.getenv('OPENAI_API_KEY'))
Settings.llm = llm

In [5]:
# get all node from qdrant database:
def get_nodes_from_collection(collection_name: str):
    '''
    Get all nodes from a qdrant collection
    Args:
        collection_name: a qdrant collection name
    '''
    client = QdrantClient(url="http://localhost:6333")

    qdrant_nodes, _ = client.scroll(
        collection_name="contextual_rag_nckh",
        limit=1489
    )
    nodes = []
    for node in qdrant_nodes:
        nodes.append(TextNode(text=node.payload['text'], id_=node.id))
    return nodes

nodes = get_nodes_from_collection('contextual_rag_nckh')

  client = QdrantClient(url="http://localhost:6333")


In [5]:
print(nodes[11].text)

Vị trí trong tài liệu: Điểm: a,b,c,d, Khoản: 5, Điều: Điều 48. 

Bối cảnh: Nội dung này thuộc Điều 48 của Nghị định 100/2019/NĐ-CP, nhằm quy định các mức phạt tiền đối với các hành vi vi phạm trong công tác phòng, chống thiên tai và xử lý tai nạn giao thông đường sắt, là một phần quan trọng trong Chương III về xử phạt vi phạm hành chính trong lĩnh vực giao thông đường sắt.
Phạt tiền từ 6.000.000 đồng đến 8.000.000 đồng đối với cá nhân thực hiện một trong các hành vi vi phạm sau đây: a) Thay đổi, xóa dấu vết hiện trường vụ tai nạn giao thông đường sắt; b) Lợi dụng tai nạn giao thông đường sắt để xâm phạm tài sản, phương tiện bị nạn; làm mất trật tự, cản trở việc xử lý tai nạn giao thông đường sắt; c) Gây tai nạn giao thông đường sắt mà không đến trình báo với cơ quan có thẩm quyền; d) Không phối hợp, không chấp hành mệnh lệnh của người, cơ quan có thẩm quyền trong việc khắc phục hậu quả, khôi phục giao thông đường sắt.


In [6]:
print(nodes[1].text)

Bối cảnh: Điều 60 trong Nghị định 165/2024/NĐ-CP tập trung vào việc thu thập, cập nhật và điều chỉnh thông tin trong cơ sở dữ liệu đường bộ, nhằm đảm bảo rằng thông tin từ nhiều nguồn khác nhau, bao gồm các bộ ngành và các địa phương, được đồng bộ hóa và cập nhật liên tục. Nội dung tại khoản 4 của Điều này cụ thể hóa quy trình trích xuất, lựa chọn và đồng bộ các thông tin liên quan đến cơ sở dữ liệu đường bộ, phục vụ cho việc quản lý và bảo trì kết cấu hạ tầng đường bộ.
Thông tin quy định tại khoản 4 Điều 57 của Nghị định này được trích, chọn và đồng bộ hóa từ cơ sở dữ liệu, cơ sở dữ liệu chuyên ngành của Bộ Giao thông vận tải, Bộ Công an, Bộ Quốc phòng, nhà cung cấp dịch vụ thanh toán điện tử giao thông đường bộ và các địa phương.


In [None]:
query = prompt.format(
            context_str=nodes[10].text, num_questions_per_chunk=5
        )
response = llm.complete(query)

In [28]:
result = str(response).strip().split("\n")

In [31]:
result

['```json',
 '[',
 '  {',
 '    "query": "Mức phạt khi sử dụng đất không đúng quy định cho đường bộ là gì?",',
 '    "intent": "lookup",',
 '    "complexity": 1',
 '  },',
 '  {',
 '    "query": "Nếu tôi để vật liệu xây dựng trên đường bộ, tôi có phải thu dọn không?",',
 '    "intent": "situation",',
 '    "complexity": 2',
 '  },',
 '  {',
 '    "query": "Thủ tục để xin cấp phép sử dụng đất cho đường bộ là gì?",',
 '    "intent": "procedure",',
 '    "complexity": 1',
 '  },',
 '  {',
 '    "query": "Hành vi nào bị phạt nặng hơn: để rác thải trên đường hay xây dựng công trình trái phép?",',
 '    "intent": "comparison",',
 '    "complexity": 2',
 '  },',
 '  {',
 '    "query": "Các biện pháp khắc phục hậu quả khi vi phạm quy định về sử dụng đất cho đường bộ là gì?",',
 '    "intent": "learning",',
 '    "complexity": 1',
 '  }',
 ']',
 '```']

In [30]:
# Nối lại thành một chuỗi hợp lệ
json_string = ''.join(result[1:-1])  # Loại bỏ phần đầu và cuối không cần thiết

# Chuyển chuỗi JSON thành dict
data_dict = json.loads(json_string)
# In kết quả
print(data_dict)

[{'query': 'Mức phạt khi sử dụng đất không đúng quy định cho đường bộ là gì?', 'intent': 'lookup', 'complexity': 1}, {'query': 'Nếu tôi để vật liệu xây dựng trên đường bộ, tôi có phải thu dọn không?', 'intent': 'situation', 'complexity': 2}, {'query': 'Thủ tục để xin cấp phép sử dụng đất cho đường bộ là gì?', 'intent': 'procedure', 'complexity': 1}, {'query': 'Hành vi nào bị phạt nặng hơn: để rác thải trên đường hay xây dựng công trình trái phép?', 'intent': 'comparison', 'complexity': 2}, {'query': 'Các biện pháp khắc phục hậu quả khi vi phạm quy định về sử dụng đất cho đường bộ là gì?', 'intent': 'learning', 'complexity': 1}]


### 2. Custom Retrieval QA Dataset (Running Init LegalQueryEvalDataset):

In [6]:
from typing import Dict, List, Tuple
from llama_index.core.bridge.pydantic import BaseModel
import json
from llama_index.core.llama_dataset.legacy.embedding import EmbeddingQAFinetuneDataset


class LegalQuery(BaseModel):
    query: str
    intent: str  # e.g., "lookup", "situation", "procedure", "comparison", "learning"
    complexity: int  # 1 to 3


class LegalQueryEvalDataset(EmbeddingQAFinetuneDataset):
    """
    Extension of EmbeddingQAFinetuneDataset to support intent, complexity, and law_id.
    """
    queries: Dict[str, LegalQuery]  # enriched queries

    @property
    def query_docid_pairs(self) -> List[Tuple[str, List[str]]]:
        return [
            (q.query, self.relevant_docs[qid])
            for qid, q in self.queries.items()
        ]

    def to_flat_queries(self) -> Dict[str, str]:
        return {qid: q.query for qid, q in self.queries.items()}

    def to_base_format(self) -> EmbeddingQAFinetuneDataset:
        return EmbeddingQAFinetuneDataset(
            queries=self.to_flat_queries(),
            corpus=self.corpus,
            relevant_docs=self.relevant_docs,
            mode=self.mode
        )

    def save_json(self, path: str) -> None:
        # serialize using pydantic dict format
        with open(path, "w", encoding="utf-8") as f:
            json.dump({
                "queries": {k: v.dict() for k, v in self.queries.items()},
                "corpus": self.corpus,
                "relevant_docs": self.relevant_docs,
                "mode": self.mode
            }, f, indent=4, ensure_ascii=False)

    @classmethod
    def from_json(cls, path: str):
        with open(path, encoding="utf-8") as f:
            data = json.load(f)

        queries = {
            qid: LegalQuery(**qdata)
            for qid, qdata in data.get("queries", {}).items()
        }

        return cls(
            queries=queries,
            corpus=data["corpus"],
            relevant_docs=data["relevant_docs"],
            mode=data.get("mode", "text")
        )
    
    @classmethod
    def base_from_json(cls, path: str) -> EmbeddingQAFinetuneDataset:
        with open(path, encoding="utf-8") as f:
            data = json.load(f)

        queries = {
            qid: qdata["query"]
            for qid, qdata in data.get("queries", {}).items()
        }

        return EmbeddingQAFinetuneDataset(
            queries=queries,
            corpus=data["corpus"],
            relevant_docs=data["relevant_docs"],
            mode=data.get("mode", "text")
        )


In [None]:
# test:
dataset = LegalQueryEvalDataset(
    queries={
        "q1": LegalQuery(
            id="q1",
            query="Thủ tục đăng ký xe máy",
            intent="procedure",
            complexity=1,
            law_id="điều 10 nghị định 123"
        ),
        "q2": LegalQuery(
            id="q2",
            query="So sánh mức phạt khi vượt đèn đỏ và đi ngược chiều",
            intent="comparison",
            complexity=2,
            law_id="điều 6 nghị định 100"
        )
    },
    corpus={
        "doc1": "Nội dung điều 10 nghị định 123",
        "doc2": "Nội dung điều 6 nghị định 100"
    },
    relevant_docs={
        "q1": ["doc1"],
        "q2": ["doc2"]
    },
    mode="text"
)

# Gọi hàm save_json để lưu lại thành file JSON
dataset.save_json("legal_eval_dataset.json")

In [None]:
# test from_json function
loaded_dataset = LegalQueryEvalDataset.from_json("test.json")


In [None]:
# test to_base_format function:
loaded_dataset.to_base_format()

EmbeddingQAFinetuneDataset(queries={'20fa093d-74d1-42cf-8e52-03de7be274ee': 'Quy trình thẩm tra an toàn giao thông trước khi đưa công trình vào khai thác là gì?', '2f335625-fd3a-474b-9c0d-2fe9611f7e18': 'Nếu tôi là chủ đầu tư, tôi cần làm gì để đảm bảo an toàn giao thông cho công trình đường bộ của mình?', 'efb279ab-582e-456e-b682-9a9cdbdd21dd': 'Tổ chức nào có đủ điều kiện để thực hiện thẩm tra an toàn giao thông?', '8c88ad61-3875-46ac-be93-4f221d474e38': 'Việc thẩm định an toàn giao thông dựa trên báo cáo của tổ chức nào?', '29388e92-ff83-4e31-8e2b-de3d53b8d1df': 'Nếu một công trình đường bộ không được thẩm tra an toàn giao thông, liệu có bị xử phạt không?'}, corpus={'0014e974-14a9-4ec5-895b-a8cf57914cc4': 'Nội dung tại Điều 32 trong Nghị định 165/2024/NĐ-CP quy định về quy trình thẩm tra, thẩm định an toàn giao thông đường bộ trước khi đưa công trình vào khai thác, nhằm đảm bảo an toàn cho người tham gia giao thông. Điều này được đặt trong bối cảnh của Chương V, nơi tập trung vào vi

In [17]:
base_dataset = dataset.to_base_format()

# Kiểm tra kiểu
print(isinstance(base_dataset, EmbeddingQAFinetuneDataset))

True


In [18]:
base_dataset

EmbeddingQAFinetuneDataset(queries={'q1': 'Thủ tục đăng ký xe máy', 'q2': 'So sánh mức phạt khi vượt đèn đỏ và đi ngược chiều'}, corpus={'doc1': 'Nội dung điều 10 nghị định 123', 'doc2': 'Nội dung điều 6 nghị định 100'}, relevant_docs={'q1': ['doc1'], 'q2': ['doc2']}, mode='text')

### 3. Run generating dataset (Run all Pleaseee):

In [7]:
def generate_qa_embedding_pairs(
    nodes: List[TextNode],
    llm = None,
    qa_generate_prompt_tmpl: str = QA_PAIRS_GENERATING_PROMPT,
    num_questions_per_chunk: int = 5,
) -> LegalQueryEvalDataset:
    """Generate examples given a set of nodes and return as LegalQueryEvalDataset."""
    llm = llm or Settings.llm  # Sử dụng LLM mặc định nếu không có LLM cụ thể
    node_dict = {
        node.node_id: node.get_content(metadata_mode=MetadataMode.NONE)
        for node in nodes
    }

    queries = {}
    relevant_docs = {}

    for node_id, text in tqdm(node_dict.items()):
        # Tạo câu hỏi từ node text
        query = qa_generate_prompt_tmpl.format(
            context_str=text, num_questions_per_chunk=num_questions_per_chunk
        )
        response = llm.complete(query)

        result = str(response).strip().split("\n")

        # Xử lý chuỗi JSON trả về từ LLM
        json_string = ''.join(result[1:-1])  # Loại bỏ phần đầu và cuối không cần thiết
        questions = json.loads(json_string)

        # Tạo các câu hỏi và lưu vào queries, relevant_docs
        for question in questions:
            question_id = str(uuid.uuid4())

            # Tạo đối tượng LegalQuery từ câu hỏi
            legal_query = LegalQuery(
                query=question["query"],
                intent=question["intent"],
                complexity=question["complexity"],
            )
            
            # Lưu vào queries và relevant_docs
            queries[question_id] = legal_query
            relevant_docs[question_id] = [node_id]  # Liên kết câu hỏi với node_id

    # Trả về đối tượng LegalQueryEvalDataset
    return LegalQueryEvalDataset(
        queries=queries,
        corpus=node_dict,  # Lưu trữ corpus là nội dung của các node
        relevant_docs=relevant_docs,
        mode="text"
    )

In [7]:
qa_dataset = generate_qa_embedding_pairs(
    llm = Settings.llm,
    nodes = nodes, 
    #qa_generate_prompt_tmpl = DEFAULT_CONTEXT_QUESTION_PAIR_PROMPT,
    num_questions_per_chunk = 5
)

NameError: name 'nodes' is not defined

In [79]:
qa_dataset.save_json("test.json")

#### Retrieval Pipeline Building

In [8]:
from llama_index.vector_stores.qdrant import QdrantVectorStore
from qdrant_client import QdrantClient
from qdrant_client import AsyncQdrantClient, models


from llama_index.llms.openai import OpenAI
from llama_index.postprocessor.rankgpt_rerank import RankGPTRerank
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core.retrievers import VectorIndexRetriever
from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core import (
    Settings,
    Document,
    QueryBundle,
    StorageContext,
    VectorStoreIndex,
)

import nest_asyncio
nest_asyncio.apply()


In [9]:
Settings.embed_model

OpenAIEmbedding(model_name='text-embedding-3-large', embed_batch_size=100, callback_manager=<llama_index.core.callbacks.base.CallbackManager object at 0x7f6891606c10>, num_workers=None, additional_kwargs={}, api_key='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', api_base='https://api.openai.com/v1', api_version='', max_retries=10, timeout=60.0, default_headers=None, reuse_client=True, dimensions=None)

In [10]:
# Dùng async client
async_client = AsyncQdrantClient(url="http://localhost:6333", timeout = 100)
qdrant_client = QdrantClient(url="http://localhost:6333", timeout =100)
vector_store = QdrantVectorStore(aclient=async_client, client=qdrant_client, collection_name="contextual_rag_nckh")
storage_context = StorageContext.from_defaults(vector_store=vector_store)

# Phải bật use_async
qdrant_index = VectorStoreIndex.from_vector_store(
    vector_store=vector_store, 
    storage_context=storage_context,
    use_async=True
)

retriever = qdrant_index.as_retriever(similarity_top_k=20)

  async_client = AsyncQdrantClient(url="http://localhost:6333", timeout = 100)
  qdrant_client = QdrantClient(url="http://localhost:6333", timeout =100)
Both client and aclient are provided. If using `:memory:` mode, the data between clients is not synced.


In [11]:
# test:
retrieved_nodes = retriever.retrieve("Tôi vượt đèn đỏ xử lí thế nào?")

RateLimitError: Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}}

### Trim Json:

In [7]:
import json

def trim_json_file(input_path: str, output_path: str, start: int = 0, end: int = 1500):
    with open(input_path, "r", encoding="utf-8") as f:
        data = json.load(f)

    # Lấy toàn bộ corpus
    corpus = data.get("corpus", {})

    # Cắt queries
    queries_items = list(data.get("queries", {}).items())
    trimmed_queries = dict(queries_items[start:end])

    # Cắt relevant_docs theo cùng các ID
    relevant_docs_all = data.get("relevant_docs", {})
    trimmed_relevant_docs = {
        qid: relevant_docs_all[qid]
        for qid in list(trimmed_queries.keys())
        if qid in relevant_docs_all
    }

    # Gộp lại dữ liệu mới
    trimmed_data = {
        "queries": trimmed_queries,
        "relevant_docs": trimmed_relevant_docs,
        "corpus": corpus,
        "mode": data.get("mode", "text")
    }

    # Ghi ra file mới
    with open(output_path, "w", encoding="utf-8") as f:
        json.dump(trimmed_data, f, ensure_ascii=False, indent=2)

    print(f"✅ Đã cắt từ index {start} đến {end} và lưu tại: {output_path}")

# Ví dụ gọi hàm:
input_path = '/workspace/competitions/Sly/RAG_Traffic_Law_experiment/duy/data/eval_dataset_4_retrieval.json'
output_path = '/workspace/competitions/Sly/RAG_Traffic_Law_experiment/duy/data/eval_dataset_4_retrieval_6000_.json'
trim_json_file(input_path, output_path, start=6000, end=-1)


✅ Đã cắt từ index 6000 đến -1 và lưu tại: /workspace/competitions/Sly/RAG_Traffic_Law_experiment/duy/data/eval_dataset_4_retrieval_6000_.json


In [11]:
from llama_index.core.evaluation import RetrieverEvaluator

In [12]:
qa_dataset = LegalQueryEvalDataset.base_from_json("/workspace/competitions/Sly/RAG_Traffic_Law_experiment/duy/data/eval_dataset_4_retrieval.json")
metrics = ["hit_rate", "mrr"]

reranker = RankGPTRerank(
            llm = Settings.llm,
            top_n=10,
)


retriever_evaluator = RetrieverEvaluator.from_metric_names(
    metric_names=metrics,
    retriever=retriever,
    node_postprocessors=[reranker]
)

In [13]:
qa_dataset

EmbeddingQAFinetuneDataset(queries={'11c52e41-18c8-40f7-add0-73db0f2845ad': 'Quy trình thẩm tra an toàn giao thông trước khi đưa công trình vào khai thác là gì?', '8e028b25-8f56-4387-8d61-755408ebcb41': 'Nếu tôi là chủ đầu tư, tôi cần làm gì để đảm bảo an toàn giao thông cho công trình đường bộ của mình?', 'b64d4ca6-762f-4f9d-99b0-eab4044cbe0e': 'Tổ chức nào có đủ điều kiện để thực hiện thẩm tra an toàn giao thông?', 'c789d93f-91d6-4f17-864c-913391ba36e8': 'Nếu tôi không thực hiện thẩm định an toàn giao thông, tôi có thể gặp rủi ro gì không?', 'b16d42cf-739e-4486-8acd-5ef445a1ec07': 'Việc thẩm tra an toàn giao thông có khác gì so với thẩm định an toàn giao thông không?', 'bfb1f2e2-23a6-4e09-bb23-2ba8c81cf4f1': 'Quy định về việc cập nhật thông tin trong cơ sở dữ liệu đường bộ là gì?', '86875b83-f889-4e43-8667-ff0fd7f02319': 'Nếu tôi không cung cấp thông tin đúng hạn cho cơ sở dữ liệu đường bộ, tôi có bị xử phạt không?', '2aa9d8a5-1369-42a3-9eea-2da619d573b3': 'Các bước cần thực hiện để 

In [14]:
# try it out on a sample query
sample_id, sample_query = list(qa_dataset.queries.items())[0]
sample_expected = qa_dataset.relevant_docs[sample_id]

eval_result = retriever_evaluator.evaluate(sample_query, sample_expected)
print(eval_result)

Query: Quy trình thẩm tra an toàn giao thông trước khi đưa công trình vào khai thác là gì?
Metrics: {'hit_rate': 1.0, 'mrr': 1.0}



In [15]:
# try it out on an entire dataset
eval_results = await retriever_evaluator.aevaluate_dataset(qa_dataset, show_progress=True)

  0%|          | 3/7445 [00:12<7:47:23,  3.77s/it] 

CancelledError: 