In [123]:
import json
from neo4j import GraphDatabase
from sentence_transformers import SentenceTransformer

In [124]:
URI = "neo4j+s://7aa78485.databases.neo4j.io"
AUTH = ("neo4j", "iX59KTgWRNyZvmkh3dDBGe0Dwbm-_XQGdP1KCW_m7rs")
driver = GraphDatabase.driver(URI, auth=AUTH)


In [125]:
with driver.session() as session:
    print("Deleting all nodes and relationships...")
    session.run("MATCH (n) DETACH DELETE n")
    print("Dropping old Vector Index...")
    session.run("DROP INDEX violation_index IF EXISTS")
    print("Database is completely empty and ready for new Schema.")

Deleting all nodes and relationships...
Dropping old Vector Index...
Database is completely empty and ready for new Schema.


In [126]:
model = SentenceTransformer("minhquan6203/paraphrase-vietnamese-law")

In [127]:
sum([param.numel() for param in model.parameters()])

278043648

In [128]:
with open('/home/taidvt/vietnamese-traffic-law-qa/data/processed/ND100_2019_normalized.json', 'r') as f:
    data_100 = json.load(f)

In [138]:
with open('/home/taidvt/vietnamese-traffic-law-qa/data/processed/ND168_2024_normalized.json', 'r') as f:
    data_168 = json.load(f)

In [130]:
IMPORT_QUERY = """
// --- 1. Legal Hierarchy ---
// Thêm doc_id để quản lý ID ngắn gọn (VD: ND100, ND123) bên cạnh tên đầy đủ
MERGE (doc:LegalDocument {id: $doc_id}) 
SET doc.name = $doc_name

MERGE (art:Article {name: $art_name})
MERGE (art)-[:PART_OF]->(doc)

MERGE (clause:Clause {name: $clause_name, full_ref: $full_ref})
MERGE (clause)-[:BELONGS_TO]->(art)

// --- 2. Vehicle / Category ---
MERGE (veh:VehicleType {name: $category})

// --- 3. The Violation (Central Node) ---
MERGE (vio:Violation {id: $vid})
SET vio.description = $desc,
    vio.severity = $severity,
    vio.embedding = $embedding,
    // QUAN TRỌNG: Lưu thêm doc_id vào đây để phục vụ lọc nhanh (Pre-filtering)
    vio.doc_id = $doc_id  

MERGE (vio)-[:DEFINED_IN]->(clause)
MERGE (vio)-[:APPLIES_TO]->(veh)

// --- 4. The Fine ---
MERGE (fine:Fine {min: $fine_min, max: $fine_max, currency: $currency})
MERGE (vio)-[:HAS_FINE]->(fine)

// --- 5. Additional Measures ---
FOREACH (measure_text IN $additional_measures | 
    MERGE (sup:SupplementaryPenalty {text: measure_text})
    MERGE (vio)-[:HAS_ADDITIONAL_PENALTY]->(sup)
)
"""

In [131]:
def import_data(tx, item):
    # Generate Vector Embedding for the description
    # This converts text meaning into numbers for the AI search
    vector = model.encode(item['description']).tolist()
       
    tx.run(IMPORT_QUERY, 
           # Mapping JSON fields to Cypher parameters
           vid=item['id'],
           desc=item['description'],
           severity=item.get('severity', 'Unknown'),
           embedding=vector,
           doc_id='ND100' if "100/2019" in item['legal_basis']['document'] else 'ND168',
           doc_name=item['legal_basis']['document'],
           art_name=item['legal_basis']['article'],
           clause_name=item['legal_basis']['section'],
           full_ref=item['legal_basis']['full_reference'],
           
           category=item['category'],
           
           fine_min=item['penalty']['fine_min'],
           fine_max=item['penalty']['fine_max'],
           currency=item['penalty']['currency'],
           
           additional_measures=item['additional_measures']
    )

In [132]:
# 4. Run the Import for 100
with driver.session() as session:
    for idx in range(len(data_100['violations'])):
        print("processing violation: ", data_100['violations'][idx]['id'])
        session.execute_write(import_data, data_100['violations'][idx])

print("Knowledge Graph Built Successfully!")

processing violation:  1
processing violation:  2
processing violation:  3
processing violation:  4
processing violation:  5
processing violation:  6
processing violation:  7
processing violation:  8
processing violation:  9
processing violation:  10
processing violation:  11
processing violation:  12
processing violation:  13
processing violation:  14
processing violation:  15
processing violation:  16
processing violation:  17
processing violation:  18
processing violation:  19
processing violation:  20
processing violation:  21
processing violation:  22
processing violation:  23
processing violation:  24
processing violation:  25
processing violation:  26
processing violation:  27
processing violation:  28
processing violation:  29
processing violation:  30
processing violation:  31
processing violation:  32
processing violation:  33
processing violation:  34
processing violation:  35
processing violation:  36
processing violation:  37
processing violation:  38
processing violation:

# extract all legal reference

In [None]:
import re
from typing import List, Dict

def extract_all_legal_references(text: str) -> List[Dict[str, str]]:
    """
    Extract all legal references with metadata.
    Returns list of dicts with 'type', 'point', and 'clause' fields.
    """
    results = []
    
    # Pattern for "điểm X, điểm Y khoản Z"
    pattern_with_points = r'((?:điểm\s+[a-zđ](?:,\s*)?)+)\s*khoản\s+(\d+)'
    
    # Track positions of already-matched khoản references
    matched_positions = set()
    
    # First pass: find all điểm + khoản combinations
    for match in re.finditer(pattern_with_points, text, re.IGNORECASE):
        points_str = match.group(1)
        clause_num = match.group(2)
        
        # Track this khoản's position
        matched_positions.add(match.start(2))
        
        # Extract individual points
        points = re.findall(r'điểm\s+([a-zđ])', points_str, re.IGNORECASE)
        
        for point in points:
            results.append({
                'type': 'point_clause',
                'point': point,
                'clause': clause_num,
                'formatted': f"điểm {point}, khoản {clause_num}"
            })
    
    # Second pass: find standalone khoản references
    for match in re.finditer(r'khoản\s+(\d+)', text, re.IGNORECASE):
        if match.start() not in matched_positions:
            # Check if there's a điểm within 50 characters before this khoản
            context_start = max(0, match.start() - 50)
            context = text[context_start:match.start()]
            
            if not re.search(r'điểm\s+[a-zđ]', context, re.IGNORECASE):
                clause_num = match.group(1)
                results.append({
                    'type': 'clause_only',
                    'point': None,
                    'clause': clause_num,
                    'formatted': f"khoản {clause_num}"
                })
    
    return results


for idx in range(len(data_168['violations'])):
    additional_measures = data_168['violations'][idx]['additional_measures']
    legal_basis = data_168['violations'][idx]['legal_basis']
    article = legal_basis['article']
    section = legal_basis['section']
    point = legal_basis['point']
    norm_additional_measures = []
    for measure in additional_measures:
        # Extract legal references using the new function
        measure_refs = extract_all_legal_references(measure['details'])
        
        # Check if this violation's legal basis matches any extracted reference
        match_found = False
        matched_ref = None
        
        for ref in measure_refs:
            # Case 1: Match point + clause (e.g., "Điểm h, Khoản 3")
            if ref['type'] == 'point_clause' and point and section:
                # Construct expected format: "điểm x, khoản y"
                expected = f"{point}, {section}".lower()
                if ref['formatted'].lower() == expected:
                    match_found = True
                    matched_ref = expected

                    break
            
            # Case 2: Match clause only (e.g., "Khoản 12") when no point specified
            elif ref['type'] == 'clause_only' and not point:
                if ref['formatted'].lower() == section.lower():
                    match_found = True
                    matched_ref = section
                    break
        
        if match_found:
            if measure.get('points'):
                norm_additional_measures.append(f"{measure['type']}: {measure['points']}")
            elif measure.get('duration'):
                norm_additional_measures.append(f"{measure['type']}: {measure['duration']}")
            else:
                norm_additional_measures.append(f"{measure['type']}")
    data_168['violations'][idx]['id'] = data_168['violations'][idx]['id']+1375
    data_168['violations'][idx]['additional_measures'] = norm_additional_measures


In [None]:
with open('./data/processed/violations_168_normalized.json', 'w') as f:
    json.dump(data_168, f, indent=4, ensure_ascii=False)

In [141]:
# 4. Run the Import for 168
with driver.session() as session:
    for idx in range(len(data_168['violations'])):
        print("processing violation: ", data_168['violations'][idx]['id'])
        session.execute_write(import_data, data_168['violations'][idx])

print("Knowledge Graph Built Successfully!")

processing violation:  1376
processing violation:  1377
processing violation:  1378
processing violation:  1379
processing violation:  1380
processing violation:  1381
processing violation:  1382
processing violation:  1383
processing violation:  1384
processing violation:  1385
processing violation:  1386
processing violation:  1387
processing violation:  1388
processing violation:  1389
processing violation:  1390
processing violation:  1391
processing violation:  1392
processing violation:  1393
processing violation:  1394
processing violation:  1395
processing violation:  1396
processing violation:  1397
processing violation:  1398
processing violation:  1399
processing violation:  1400
processing violation:  1401
processing violation:  1402
processing violation:  1403
processing violation:  1404
processing violation:  1405
processing violation:  1406
processing violation:  1407
processing violation:  1408
processing violation:  1409
processing violation:  1410
processing violation

In [142]:
len(data_168['violations'])

807

# Query

In [None]:
def search_traffic_law(user_question, top_k=3):
    driver = GraphDatabase.driver(URI, auth=AUTH)
    
    # Step A: Convert User Question to Vector
    question_embedding = model.encode(user_question).tolist()
    
    # Step B: The Cypher Query
    # This is a "Hybrid" query:
    # 1. It uses Vector Search to find the closest Violation node.
    # 2. It traverses the graph to find the connected Fine, Article, and Vehicle.
    query = """
    // 1. Find top k similar violations using the Vector Index
    CALL db.index.vector.queryNodes('violation_index', $k, $embedding)
    YIELD node AS violation, score
    
    // 2. Traverse the Graph to get context (The "Relational" part)
    MATCH (violation)-[:HAS_FINE]->(fine:Fine)
    MATCH (violation)-[:DEFINED_IN]->(clause:Clause)-[:BELONGS_TO]->(article:Article)
    MATCH (violation)-[:APPLIES_TO]->(vehicle:VehicleType)
    
    // 3. Optional: Get additional penalties if they exist
    OPTIONAL MATCH (violation)-[:HAS_ADDITIONAL_PENALTY]->(sup:SupplementaryPenalty)
    
    // 4. Return structured data
    RETURN 
        violation.description AS description,
        vehicle.name AS vehicle,
        fine.min AS min_fine,
        fine.max AS max_fine,
        article.name AS article,
        clause.name AS clause,
        collect(sup.text) AS additional_penalties,
        score
    """
    
    results = []
    with driver.session() as session:
        result = session.run(query, k=top_k, embedding=question_embedding)
        
        for record in result:
            results.append({
                "score": record["score"], # How confident the AI is (0 to 1)
                "description": record["description"],
                "vehicle": record["vehicle"],
                "fine": f"{record['min_fine']:,} - {record['max_fine']:,} VNĐ",
                "law": f"{record['article']}, {record['clause']}",
                "extra": record["additional_penalties"]
            })
            print(record['description'])
            
    driver.close()
    return results

In [143]:
# 2. Get the exact dimension of your model
# (Crucial: If this number doesn't match the index, search will fail later)
embedding_dimension = model.get_sentence_embedding_dimension()
print(f"Model Dimension: {embedding_dimension}") 

Model Dimension: 768


In [144]:
# 3. Create the Index
def create_vector_index():
    driver = GraphDatabase.driver(URI, auth=AUTH)
    query = """
    CREATE VECTOR INDEX violation_index IF NOT EXISTS
    FOR (v:Violation)
    ON (v.embedding)
    OPTIONS {indexConfig: {
      `vector.dimensions`: $dim,
      `vector.similarity_function`: 'cosine'
    }}
    """
    
    try:
        with driver.session() as session:
            session.run(query, dim=embedding_dimension)
            print("✅ Success: Vector Index 'violation_index' created.")
    except Exception as e:
        print(f"❌ Error: {e}")
    finally:
        driver.close()

In [145]:
create_vector_index()

✅ Success: Vector Index 'violation_index' created.


In [17]:
# --- TEST THE SYSTEM ---
question = "Xe máy vượt đèn xanh phạt bao nhiêu"
print(f"User asks: '{question}'\n")

answers = search_traffic_law(question, 5)

if answers:
    for i, answer in enumerate(answers):
        top_match = answer
        print(f"--- Match {i+1} (Confidence: {top_match['score']:.2f}) ---")
        print(f"Hành vi: {top_match['description']}")
        print(f"Phương tiện: {top_match['vehicle']}")
        print(f"Mức phạt: {top_match['fine']}")
        print(f"Căn cứ pháp lý: {top_match['law']}")
        if top_match['extra']:
            print(f"Hình thức bổ sung: {', '.join(top_match['extra'])}")
else:
    print("Không tìm thấy dữ liệu phù hợp.")

User asks: 'Xe máy vượt đèn xanh phạt bao nhiêu'

Không chấp hành hiệu lệnh hoặc chỉ dẫn của đèn tín hiệu, biển báo hiệu, vạch kẻ đường
Không chấp hành hiệu lệnh hoặc chỉ dẫn của đèn tín hiệu, biển báo hiệu, vạch kẻ đường
Đ) Không chấp hành hiệu lệnh của đèn tín hiệu giao thông.
Không chấp hành hiệu lệnh của đèn tín hiệu giao thông.
Thực hiện hành vi quy định tại khoản 4 Điều này buộc phải tháo dỡ các vật che khuất biển báo hiệu đường bộ, đèn tín hiệu giao thông
--- Match 1 (Confidence: 0.95) ---
Hành vi: Không chấp hành hiệu lệnh hoặc chỉ dẫn của đèn tín hiệu, biển báo hiệu, vạch kẻ đường
Phương tiện: Xe thô sơ
Mức phạt: 60,000 - 100,000 VNĐ
Căn cứ pháp lý: Điều 10, Khoản 1
--- Match 2 (Confidence: 0.95) ---
Hành vi: Không chấp hành hiệu lệnh hoặc chỉ dẫn của đèn tín hiệu, biển báo hiệu, vạch kẻ đường
Phương tiện: Người đi bộ
Mức phạt: 60,000 - 100,000 VNĐ
Căn cứ pháp lý: Điều 9, Khoản 1
--- Match 3 (Confidence: 0.95) ---
Hành vi: Đ) Không chấp hành hiệu lệnh của đèn tín hiệu giao thô

In [71]:
# 4. Create Fulltext Index for BM25/Keyword Search
def create_fulltext_index():
    driver = GraphDatabase.driver(URI, auth=AUTH)
    
    # Drop existing index if it exists
    drop_query = """
    DROP INDEX violation_text_index IF EXISTS
    """
    
    # Create fulltext index on Violation.description
    create_query = """
    CREATE FULLTEXT INDEX violation_text_index IF NOT EXISTS
    FOR (v:Violation)
    ON EACH [v.description]
    """
    
    try:
        with driver.session() as session:
            session.run(drop_query)
            session.run(create_query)
            print("✅ Success: Fulltext Index 'violation_text_index' created.")
    except Exception as e:
        print(f"❌ Error: {e}")
    finally:
        driver.close()

create_fulltext_index()


✅ Success: Fulltext Index 'violation_text_index' created.


In [21]:
from scripts.category_detector import VehicleCategoryDetector
detector = VehicleCategoryDetector()


In [22]:
vehicle_patterns = [keywords for keywords in detector.vehicle_patterns] 
business_patterns = [keywords for keywords in detector.business_patterns]
fallback_patterns = [keywords for keywords in detector.fallback_categories]


In [None]:
from google import genai
# Mocking the LLM Extraction function (Replace with actual API call)
def extract_entities_with_llm(query, vehicle_patterns, business_patterns, fallback_patterns):
    SYSTEM_PROMPT = f"""
    You are a Vietnamese traffic law assistant. Your task is to analyze user queries and determine if they are asking about ILLEGAL actions (traffic violations) or LEGAL actions.

    **Step 1: Determine if the query is about an illegal action (violation)**
    - ILLEGAL actions include: vượt đèn đỏ (running red light), nồng độ cồn (alcohol violation), không đội mũ bảo hiểm (no helmet), quá tốc độ (speeding), lấn làn (lane violation), không có giấy phép (no license), etc.
    - LEGAL actions include: vượt đèn xanh (going through green light), đi đúng làn (proper lane usage), đội mũ bảo hiểm (wearing helmet), đi đúng tốc độ (proper speed), etc.

    **Step 2: Extract entities in JSON format**
    If the query is about an ILLEGAL action (violation):
    1. "category": Map to one of these exact values (Following the priority order, if it includes in the higher priority, return that value):
      1.1. {vehicle_patterns}. 
      1.2. {business_patterns}.
      1.3. {fallback_patterns}.
      1.4. If not specified, return null.
    2. "intent": The complete violation expressed as an AFFIRMATIVE SENTENCE (statement), not as a question. Extract the violation action WITH ALL RELEVANT CONTEXTUAL DETAILS and convert it to a declarative form. PRESERVE important context such as:
       - Location/place (e.g., "trong khu dân cư", "trên đường cao tốc", "tại nơi có biển báo")
       - Conditions (e.g., "vào ban đêm", "trong mưa", "khi có người đi bộ")
       - Circumstances (e.g., "gây tai nạn", "không có người giám sát", "trong tình trạng say")
       - Specific details that affect the severity or nature of the violation
       - add the comma between verbs.
       
       Examples: "vượt đèn đỏ", "nồng độ cồn", "không đội mũ bảo hiểm", "quay đầu xe trái quy định trong khu dân cư", "vượt tốc độ trên đường cao tốc"

    If the query is about a LEGAL action (NOT a violation):
    - Return: {{"category": null, "intent": null}}

    **Examples:**

    User Query: "Đi xe con mà vượt đèn đỏ thì sao?"
    Reasoning: Vượt đèn đỏ is ILLEGAL - convert question to affirmative statement
    Output: {{"category": "Xe ô tô", "intent": "đi xe con vượt đèn đỏ"}}

    User Query: "Mức phạt nồng độ cồn?"
    Reasoning: Nồng độ cồn is ILLEGAL - convert question to affirmative statement
    Output: {{"category": null, "intent": "nồng độ cồn"}}

    User Query: "Xe con vượt đèn xanh phạt bao nhiêu?"
    Reasoning: Vượt đèn xanh is LEGAL, not a violation
    Output: {{"category": null, "intent": null}}

    User Query: "Xe máy đội mũ bảo hiểm có bị phạt không?"
    Reasoning: Đội mũ bảo hiểm is LEGAL, not a violation
    Output: {{"category": null, "intent": null}}

    User Query: "Không đội mũ bảo hiểm bị phạt như thế nào?"
    Reasoning: Không đội mũ bảo hiểm is ILLEGAL - convert question to affirmative statement
    Output: {{"category": null, "intent": "không đội mũ bảo hiểm"}}

    User Query: "Có bị phạt khi vượt đèn đỏ không?"
    Reasoning: Vượt đèn đỏ is ILLEGAL - convert question to affirmative statement
    Output: {{"category": null, "intent": "vượt đèn đỏ"}}

    User Query: "Quay đầu xe trái quy định trong khu dân cư phạt bao nhiêu?"
    Reasoning: Quay đầu xe trái quy định is ILLEGAL - PRESERVE location context "trong khu dân cư"
    Output: {{"category": null, "intent": "quay đầu xe trái quy định trong khu dân cư"}}

    User Query: "Xe máy vượt tốc độ trên đường cao tốc bị phạt gì?"
    Reasoning: Vượt tốc độ is ILLEGAL - PRESERVE location context "trên đường cao tốc"
    Output: {{"category": "Xe mô tô, xe gắn máy", "intent": "xe máy vượt tốc độ trên đường cao tốc"}}

    Analyze the query and return only the JSON output.
    """
    client = genai.Client(api_key="AIzaSyDv3cuC2X3_e2_2Yyejvk5cscNA_6XVnfI")
    response = client.models.generate_content(
        model="gemini-2.5-flash",
        config= genai.types.GenerateContentConfig(
            system_instruction=SYSTEM_PROMPT,
            response_mime_type="application/json",
        ),
        contents=query
    )
    extraction = json.loads(response.text)

        
    return {"category": extraction['category'], "intent": extraction['intent']}

def search_with_filter(user_query):
    # A. Extract Entities (The "Symbolic" Filter)
    extraction = extract_entities_with_llm(user_query, vehicle_patterns, business_patterns, fallback_patterns)
    target_category = extraction['category']
    query_intent = extraction['intent']

    if query_intent == None:
        print("Không biết.")
        return []
    # B. Embed the Query (The "Neuro" Search)
    # Note: We add "query:" prefix for the E5 model
    vector = model.encode(f"query: {query_intent}").tolist()
    
    print(f"🔍 Filter: {target_category} | Search: {user_query} | Intent: {query_intent}")

    # C. Dynamic Cypher Query
    # We construct the query based on whether a vehicle was found
    if target_category:
        # OPTION 1: Strict Filtering (Best for accuracy)
        cypher_query = """
        CALL db.index.vector.queryNodes('violation_index', 50, $embedding)
        YIELD node AS violation, score
        
        // --- THE FILTERING MAGIC HAPPENS HERE ---
        MATCH (violation)-[:APPLIES_TO]->(v:VehicleType)
        WHERE v.name CONTAINS $category_filter  // Only keep matching vehicles
        
        // Retrieve details
        MATCH (violation)-[:HAS_FINE]->(fine:Fine)
        MATCH (violation)-[:DEFINED_IN]->(clause:Clause)-[:BELONGS_TO]->(article:Article)
        
        RETURN violation.description, v.name as vehicle, fine.min, fine.max, clause.full_ref, score
        ORDER BY score DESC LIMIT 5
        """
    else:
        # OPTION 2: No Filter (Search everything)
        cypher_query = """
        CALL db.index.vector.queryNodes('violation_index', 50, $embedding)
        YIELD node AS violation, score
        
        MATCH (violation)-[:APPLIES_TO]->(v:VehicleType)
        MATCH (violation)-[:HAS_FINE]->(fine:Fine)
        MATCH (violation)-[:DEFINED_IN]->(clause:Clause)-[:BELONGS_TO]->(article:Article)
        
        RETURN violation.description, v.name as vehicle, fine.min, fine.max, clause.full_ref, score
        ORDER BY score DESC LIMIT 5
        """

    # Run the query with appropriate parameters
    with driver.session() as session:
        if target_category:
            # Pass category_filter only when it's used in the query
            result = session.run(cypher_query, 
                                 embedding=vector, 
                                 category_filter=target_category)
        else:
            # Don't pass category_filter when not needed
            result = session.run(cypher_query, embedding=vector)
        results = [record.data() for record in result]
    
    # Fallback: if no results and we had a category filter, try without it
    if len(results) == 0 and target_category:
        cypher_query = """
        CALL db.index.vector.queryNodes('violation_index', 50, $embedding)
        YIELD node AS violation, score
        
        MATCH (violation)-[:APPLIES_TO]->(v:VehicleType)
        MATCH (violation)-[:HAS_FINE]->(fine:Fine)
        MATCH (violation)-[:DEFINED_IN]->(clause:Clause)-[:BELONGS_TO]->(article:Article)
        
        RETURN violation.description, v.name as vehicle, fine.min, fine.max, clause.full_ref, score
        ORDER BY score DESC LIMIT 5
        """
        with driver.session() as session:
            result = session.run(cypher_query, embedding=vector)
            results = [record.data() for record in result]
    
    return results


In [24]:

# --- TEST ---
# Case 1: Specific Vehicle
results = search_with_filter("Xe con vượt đèn đỏ phạt bao nhiêu?")
for result in results:
    print(result)
# Result: Will ONLY return Car violations.

# Case 2: General Question
results = search_with_filter("Vượt đèn đỏ phạt bao nhiêu?")
for result in results:
    print(result)
# Result: Will return Car, Motorbike, and Bicycle violations mixed.

🔍 Filter: Xe ô tô | Search: Xe con vượt đèn đỏ phạt bao nhiêu?
{'violation.description': 'Không chấp hành hiệu lệnh, hướng dẫn của người điều khiển giao thông hoặc người kiểm soát giao thông', 'vehicle': 'Xe ô tô', 'fine.min': 3000000, 'fine.max': 5000000, 'clause.full_ref': 'Nghị định 100/2019/NĐ-CP, Điều 5, Khoản 5', 'score': 0.9561658501625061}
{'violation.description': 'Không đi đúng phần đường, làn đường, không giữ khoảng cách an toàn giữa hai xe theo quy định gây tai nạn giao thông hoặc đi vào đường có biển báo hiệu có nội dung cấm đi vào đối với loại phương tiện đang điều khiển, đi ngược chiều của đường một chiều, đi ngược chiều trên đường có biển Cấm đi ngược chiều gây tai nạn giao thông b) Điều khiển xe lạng lách, đánh võng', 'vehicle': 'Xe ô tô', 'fine.min': 10000000, 'fine.max': 12000000, 'clause.full_ref': 'Nghị định 100/2019/NĐ-CP, Điều 5, Khoản 7', 'score': 0.9443382024765015}
{'violation.description': 'Vi phạm quy định về kinh doanh, điều kiện kinh doanh vận tải bằng xe 

In [86]:
# Case 1: Specific Vehicle
results = search_with_filter("lạng lách đánh võng phạt bao nhiêu?")
for result in results:
    print(result)
# Result: Will ONLY return Car violations.

# Case 2: General Question
# results = search_with_filter("17 tuổi đi xe ô tô phạt bao nhiêu?")
# for result in results:
#     print(result)

🔍 Filter: None | Search: lạng lách đánh võng phạt bao nhiêu? | Intent: lạng lách đánh võng
{'violation.description': 'Khi làm nhiệm vụ mà trong cơ thể có chất kích thích khác mà pháp luật cầm sử dụng.', 'vehicle': 'Vi phạm khác', 'fine.min': 30000000, 'fine.max': 40000000, 'clause.full_ref': 'Nghị định 100/2019/NĐ-CP, Điều 66, Khoản 7', 'score': 0.8619955778121948}
{'violation.description': 'Mang, vác vật cồng kềnh gây cản trở giao thông', 'vehicle': 'Người đi bộ', 'fine.min': 60000, 'fine.max': 100000, 'clause.full_ref': 'Nghị định 100/2019/NĐ-CP, Điều 9, Khoản 1', 'score': 0.8134911060333252}
{'violation.description': 'Xâm phạm sức khỏe, tài sản của người bị nạn hoặc người gây tai nạn', 'vehicle': 'Vi phạm khác', 'fine.min': 6000000, 'fine.max': 8000000, 'clause.full_ref': 'Nghị định 100/2019/NĐ-CP, Điều 11, Khoản 10', 'score': 0.7581406831741333}
{'violation.description': 'Tự ý đốt lửa trên cầu, dưới gầm cầu', 'vehicle': 'Vi phạm khác', 'fine.min': 200000, 'fine.max': 300000, 'claus

In [99]:
def hybrid_search(user_query):
    driver = GraphDatabase.driver(URI, auth=AUTH)
    extraction = extract_entities_with_llm(user_query, vehicle_patterns, business_patterns, fallback_patterns)
    target_category = extraction['category']
    query_intent = extraction['intent']

    if query_intent == None:
        print("Không biết.")
        return []
    # B. Embed the Query (The "Neuro" Search)
    # Note: We add "query:" prefix for the E5 model
    vector = model.encode(f"query: {query_intent}").tolist()
    
    print(f"🔍 Filter: {target_category} | Search: {user_query} | Intent: {query_intent}")
    # 1. Vector Search (Semantic)
    vector = model.encode(f"query: {query_intent}").tolist()
    vector_query = """
    CALL db.index.vector.queryNodes('violation_index', 50, $embedding)
    YIELD node, score
    RETURN node.id as id, node.description as text, score as vector_score
    """
    
    # 2. Keyword Search (BM25 - Lexical)
    # Cần xử lý query cho đúng cú pháp Lucene (VD: AND/OR)
    keyword_query = """
    CALL db.index.fulltext.queryNodes("violation_text_index", $text) 
    YIELD node, score
    RETURN node.id as id, node.description as text, score as bm25_score
    LIMIT 50
    """
    
    with driver.session() as session:
        vec_results = session.run(vector_query, embedding=vector).data()
        kw_results = session.run(keyword_query, text=query_intent).data()
        
    # 3. RRF Fusion (Gộp kết quả)
    final_scores = {}
    k = 60 # Hằng số thường dùng
    
    print("--------------------------------")
    # Cộng điểm từ Vector List
    for rank, item in enumerate(vec_results):
        doc_id = item['id']
        if doc_id not in final_scores: final_scores[doc_id] = {"data": item, "score": 0}
        final_scores[doc_id]["score"] += 1 / (k + rank + 1)
        print(f"Rank {rank+1}: id={item['id']} - Text: {item['text']} - Vector Score: {final_scores[doc_id]['score']:.4f}")
    
    print("--------------------------------")
    # Cộng điểm từ Keyword List
    for rank, item in enumerate(kw_results):
        doc_id = item['id']
        if doc_id not in final_scores: final_scores[doc_id] = {"data": item, "score": 0}
        # Nếu item xuất hiện ở cả 2 list, điểm sẽ rất cao
        final_scores[doc_id]["score"] += 1 / (k + rank + 1)
        print(f"Rank {rank+1}: id={item['id']} - Text: {item['text']} - BM25 Score: {final_scores[doc_id]['score']:.4f}")
    
    print("--------------------------------")
    # 4. Sort và lấy Top kết quả
    sorted_results = sorted(final_scores.values(), key=lambda x: x['score'], reverse=True)
    return sorted_results[:]

In [100]:
hybrid_search("tự ý mở lối đi từ nhà ra đường có bị phạt không")

🔍 Filter: None | Search: tự ý mở lối đi từ nhà ra đường có bị phạt không | Intent: tự ý mở lối đi từ nhà ra đường
--------------------------------
Rank 1: id=297 - Text: Không đi đúng phần đường quy định - Vector Score: 0.0164
Rank 2: id=14 - Text: Không tuân thủ các quy định về nhường đường tại nơi đường bộ giao nhau - Vector Score: 0.0161
Rank 3: id=292 - Text: Đi ngược chiều đường của đường một chiều, đường có biển Cấm đi ngược chiều - Vector Score: 0.0159
Rank 4: id=115 - Text: Không tuân thủ các quy định về nhường đường tại nơi đường giao nhau - Vector Score: 0.0156
Rank 5: id=226 - Text: Không nhường đường cho хе đi ngược chiều theo quy định tại nơi đường hẹp, đường dốc, nơi có chướng ngại vật - Vector Score: 0.0154
Rank 6: id=218 - Text: Đi không đúng phần đường hoặc làn đường quy định (làn cùng chiều hoặc làn ngược chiều) - Vector Score: 0.0152
Rank 7: id=304 - Text: Không nhường đường theo quy định, không báo hiệu bằng tay khi chuyển hướng - Vector Score: 0.0149
Rank 8: id=145

[{'data': {'id': 904,
   'text': 'Để vật chướng ngại lên đường sắt làm cản trở giao thông đường sắt; c) Tự ý mở chắn đường ngang khi chắn đã đóng.',
   'vector_score': 0.8922538161277771},
  'score': 0.02528560548362529},
 {'data': {'id': 355,
   'text': 'Tự ý gắn vào công trình báo hiệu đường bộ các nội dung không liên quan tới ý nghĩa, mục đích của công trình đường bộ',
   'vector_score': 0.8996925354003906},
  'score': 0.0250384024577573},
 {'data': {'id': 981,
   'text': 'Không tổ chức thu hẹp bề rộng hoặc xóa bỏ lối đi tự mở là vị trí nguy hiểm đối với an toàn giao thông đường sắt theo quy định',
   'vector_score': 0.8872836828231812},
  'score': 0.02471590909090909},
 {'data': {'id': 55,
   'text': 'Không nhường đường cho xe đi trên đường ưu tiên, đường chính từ bất kỳ hướng nào tới tại nơi đường giao nhau',
   'vector_score': 0.9077160954475403},
  'score': 0.02420289855072464},
 {'data': {'id': 277,
   'text': 'Không nhường đường cho xe đi trên đường ưu tiên, đường chính từ bất

In [None]:
hybrid_search("không đội mũ bảo hiểm khi đi bộ thì phạt bao nhiêu?")

🔍 Filter: Xe mô tô, xe máy | Search: không đội mũ lưỡi chai khi đi xe máy thì phạt bao nhiêu? | Intent: không đội mũ lưỡi chai khi đi xe máy
--------------------------------
Rank 1: id=1020 - Text: Không kiểm tra định kỳ và kẹp chì niêm phong van hãm khẩn cấp, đồng hồ áp suất theo quy định - Vector Score: 0.0164
Rank 2: id=721 - Text: Mang hóa chất độc hại, chất dễ cháy, nổ, hàng nguy hiểm hoặc hàng cấm lưu thông trên xe khách - Vector Score: 0.0161
Rank 3: id=1057 - Text: Khi làm nhiệm vụ mà trong máu hoặc hơi thở có nồng độ cồn vượt quá 80 miligam/100 mililít máu hoặc vượt quá 0,4 miligam/1 lít khí thở - Vector Score: 0.0159
Rank 4: id=1056 - Text: Khi làm nhiệm vụ mà trong máu hoặc hơi thở có nồng độ cồn nhưng chưa vượt quá 50 miligam/100 mililít máu hoặc chưa vượt quá 0,25 miligam/1 lít khí thở. - Vector Score: 0.0156
Rank 5: id=534 - Text: Chở công-ten-nơ trên xe (kể cả sơ mi rơ moóc) mà không sử dụng thiết bị để định vị chắc chắn công-ten-nơ với xe hoặc có sử dụng thiết bị nhưng 

[{'data': {'id': 834,
   'text': 'Cho đầu máy dịch chuyển khi chưa nhận được kế hoạch dồn hoặc tín hiệu của người chỉ huy dồn cho phép',
   'vector_score': 0.7671996355056763},
  'score': 0.02079759862778731},
 {'data': {'id': 1020,
   'text': 'Không kiểm tra định kỳ và kẹp chì niêm phong van hãm khẩn cấp, đồng hồ áp suất theo quy định',
   'vector_score': 0.8758026957511902},
  'score': 0.01639344262295082},
 {'data': {'id': 137,
   'text': 'Không đội mũ bảo hiểm cho người đi mô tô, xe máy hoặc đội mũ bảo hiểm cho người đi mô tô, xe máy không cài quai đúng quy cách khi điều khiển xe tham gia giao thông trên đường bộ',
   'bm25_score': 10.506348609924316},
  'score': 0.01639344262295082},
 {'data': {'id': 721,
   'text': 'Mang hóa chất độc hại, chất dễ cháy, nổ, hàng nguy hiểm hoặc hàng cấm lưu thông trên xe khách',
   'vector_score': 0.8636034727096558},
  'score': 0.016129032258064516},
 {'data': {'id': 138,
   'text': 'Chở người ngồi trên xe không đội mũ bảo hiểm cho người đi mô tô,

# fix test set (id)

In [None]:
with open("./data/test_set.json", "r") as f:
    test_data = json.load(f)

with open("./data/processed/violations_100.json", "r") as f:
    data_100 = json.load(f)


In [None]:
for test_idx in range(len(test_data)):
    test_item = test_data[test_idx]
    for data_idx in range(len(data_100['violations'])):
        if test_item["id"] != -1:
            if test_item['description'].lower() in data_100['violations'][data_idx]['description'].lower() and test_item['category'].lower() in data_100['violations'][data_idx]['category'].lower():
                test_item['id'] = data_100['violations'][data_idx]['id']
                break
        
with open("./data/test_set_fixed.json", "w") as f:
    json.dump(test_data, f, indent=4, ensure_ascii=False)

# Normalize ND168
- normalize additional measures
- format article_section_point
- split violations ";"

In [134]:
with open("/home/taidvt/vietnamese-traffic-law-qa/data/processed/ND168_2024.json", "r") as f:
    data_168 = json.load(f)

def normalize_additional_measures(measure):
    try:
        if measure.get('points') == None and measure.get('duration') == None:
            return f"{measure['type']}: {measure['details']}"
        if measure.get('points') and (measure['points'] != "N/A" and measure['points'] != "0"):
            return f"{measure['type']}: {measure['points']} điểm" if "điểm" not in measure['points'].lower() else f"{measure['type']}: {measure['points']}"
        elif measure.get('duration') and (measure['duration'] != "N/A" and measure['duration'] != "0"):
            return f"{measure['type']}: {measure['duration']}"
        else:
            return f"{measure['type']}"
    except Exception as e:
        print(measure)
        raise e
        
def format_article_section_point(article, section, point):
    
    if point and "điểm" not in point.lower():
        point = f"Điểm {point}"
    
    if section and "khoản" not in section.lower():
        section = f"Khoản {section}"
    
    if article and "điều" not in article.lower():
        article = f"Điều {article}"
    return article, section, point

max_len = 1375 + len(data_168['violations'])
print("length of dataset before processing: ", max_len)
for data_idx in range(len(data_168['violations'])):
    # print(data_168['violations'][data_idx]['legal_basis'].keys())
    data_168['violations'][data_idx]['id'] = 1375 + data_idx + 1
    document = "Nghị định 168/2024/NĐ-CP"
    data_168['violations'][data_idx]['legal_basis']['document'] = document
    article = data_168['violations'][data_idx]['legal_basis']['article']
    section = data_168['violations'][data_idx]['legal_basis']['section']
    point = data_168['violations'][data_idx]['legal_basis']['point']
    try:
        article, section, point = format_article_section_point(article, section, point)
    except Exception as e:
        raise e 

    data_168['violations'][data_idx]['legal_basis']['full_reference'] = f"{document}, {article + ', ' if article else ''}{section + ', ' if section else ''}{point if point else ''}"


    data_168['violations'][data_idx]['legal_basis']['article'] = article
    data_168['violations'][data_idx]['legal_basis']['section'] = section
    data_168['violations'][data_idx]['legal_basis']['point'] = point
    if data_168['violations'][data_idx].get('additional_measures') == None:
        data_168['violations'][data_idx]['additional_measures'] = []
    normalized_additional_measures = []
    for measure in data_168['violations'][data_idx]['additional_measures']:
        normalized_additional_measures.append(normalize_additional_measures(measure))
    data_168['violations'][data_idx]['additional_measures'] = normalized_additional_measures
    
    
    if ":" not in data_168['violations'][data_idx]['description'] and len(data_168['violations'][data_idx]['description'].split(";")) > 1:
        try:
            base_violation = data_168['violations'][data_idx]
            first_data = data_168['violations'][data_idx]['description'].split(";")[0]
            remaining_data = data_168['violations'][data_idx]['description'].split(";")[1:]
            data_168['violations'][data_idx]['description'] = first_data.strip()
            for data_idx in range(len(remaining_data)):
                max_len += 1
                data_168['violations'].append({
                    "description": remaining_data[data_idx].strip(),
                    "category": base_violation['category'],
                    "penalty": base_violation['penalty'],
                    "additional_measures": base_violation['additional_measures'],
                    "severity": base_violation['severity'],
                    "legal_basis": base_violation['legal_basis'],
                    "id": max_len
                })
        except Exception as e:
            raise e
            break
    

print("length of dataset after processing: ", max_len)



length of dataset before processing:  2023
length of dataset after processing:  2182


In [135]:
len(data_168['violations'])

807

In [137]:
with open("/home/taidvt/vietnamese-traffic-law-qa/data/processed/ND168_2024_normalized.json", "w") as f:
    json.dump(data_168, f, indent=4, ensure_ascii=False)

# Normalize ND100
- normalize additional measures
- format article_section_point
- split violations ";"

In [118]:
with open("/home/taidvt/vietnamese-traffic-law-qa/data/processed/ND100_2019.json", "r") as f:
    data_100 = json.load(f)

In [120]:
len(data_100['violations'])

1165

In [121]:
def normalize_additional_measures(measure):
    try:
        if measure.get('points') == None and measure.get('duration') == None:
            return f"{measure['type']}: {measure['details']}"
        if measure.get('points') and (measure['points'] != "N/A" and measure['points'] != "0"):
            return f"{measure['type']}: {measure['points']} điểm" if "điểm" not in measure['points'].lower() else f"{measure['type']}: {measure['points']}"
        elif measure.get('duration') and (measure['duration'] != "N/A" and measure['duration'] != "0"):
            return f"{measure['type']}: {measure['duration']}"
        else:
            return f"{measure['type']}"
    except Exception as e:
        print(measure)
        raise e
        
def format_article_section_point(article, section, point):
    
    if point and "điểm" not in point.lower():
        point = f"Điểm {point}"
    
    if section and "khoản" not in section.lower():
        section = f"Khoản {section}"
    
    if article and "điều" not in article.lower():
        article = f"Điều {article}"
    return article, section, point

max_len = len(data_100['violations'])
print("length of dataset before processing: ", max_len)
for data_idx in range(len(data_100['violations'])):
    # print(data_100['violations'][data_idx]['legal_basis'].keys())
    data_100['violations'][data_idx]['id'] = data_idx + 1
    document = "Nghị định 100/2019/NĐ-CP"
    data_100['violations'][data_idx]['legal_basis']['document'] = document
    article = data_100['violations'][data_idx]['legal_basis']['article']
    section = data_100['violations'][data_idx]['legal_basis']['section']
    point = data_100['violations'][data_idx]['legal_basis']['point']
    try:
        article, section, point = format_article_section_point(article, section, point)
    except Exception as e:
        raise e 

    data_100['violations'][data_idx]['legal_basis']['full_reference'] = f"{document}, {article + ', ' if article else ''}{section + ', ' if section else ''}{point if point else ''}"


    data_100['violations'][data_idx]['legal_basis']['article'] = article
    data_100['violations'][data_idx]['legal_basis']['section'] = section
    data_100['violations'][data_idx]['legal_basis']['point'] = point
    if data_100['violations'][data_idx].get('additional_measures') == None:
        data_100['violations'][data_idx]['additional_measures'] = []
    normalized_additional_measures = []
    for measure in data_100['violations'][data_idx]['additional_measures']:
        normalized_additional_measures.append(normalize_additional_measures(measure))
    data_100['violations'][data_idx]['additional_measures'] = normalized_additional_measures
    
    
    if ":" not in data_100['violations'][data_idx]['description'] and len(data_100['violations'][data_idx]['description'].split(";")) > 1:
        try:
            base_violation = data_100['violations'][data_idx]
            first_data = data_100['violations'][data_idx]['description'].split(";")[0]
            remaining_data = data_100['violations'][data_idx]['description'].split(";")[1:]
            data_100['violations'][data_idx]['description'] = first_data.strip()
            for data_idx in range(len(remaining_data)):
                max_len += 1
                data_100['violations'].append({
                    "description": remaining_data[data_idx].strip(),
                    "category": base_violation['category'],
                    "penalty": base_violation['penalty'],
                    "additional_measures": base_violation['additional_measures'],
                    "severity": base_violation['severity'],
                    "legal_basis": base_violation['legal_basis'],
                    "id": max_len
                })
        except Exception as e:
            raise e
            break
    

print("length of dataset after processing: ", max_len)



length of dataset before processing:  1165
length of dataset after processing:  1375


In [122]:
with open("/home/taidvt/vietnamese-traffic-law-qa/data/processed/ND100_2019_normalized.json", "w") as f:
    json.dump(data_100, f, indent=4, ensure_ascii=False)