# process kw_db

In [None]:
import json
import re

input_file = "/content/keywords_db.jsonl"
output_file = "/content/keywords_db_processed.jsonl"

processed_data = []

with open(input_file, 'r', encoding='utf-8') as f:
    for line in f:
        line = line.strip()
        if not line:
            continue
        data = json.loads(line)

        clause_text = data.get("clause_text", "")

        # Tách thành các phần bằng space, giới hạn 4 phần
        parts = clause_text.split(" ", 4)  # [tag1, tag2, tag3, tag4, rest_of_text]
        if len(parts) >= 4:
            fourth = parts[3]
            # Kiểm tra xem phần thứ 4 là số đầu dòng dạng "1." hoặc "23."
            if re.match(r'^\d+\.$', fourth):
                # Xóa phần số đầu dòng này
                new_text = " ".join(parts[:3] + parts[4:]).strip()
            else:
                # Không phải số → giữ nguyên
                new_text = clause_text
        else:
            # Không đủ phần → giữ nguyên
            new_text = clause_text

        data["clause_text"] = new_text
        processed_data.append(data)

# Lưu file JSONL mới
with open(output_file, 'w', encoding='utf-8') as f_out:
    for item in processed_data:
        f_out.write(json.dumps(item, ensure_ascii=False) + "\n")

# In 10 dòng đầu tiên của clause_text đã xử lý
print("10 dòng đầu tiên của clause_text đã xử lý:\n")
for i, item in enumerate(processed_data[:10]):
    print(f"{i+1}: {item['clause_text']}\n")


10 dòng đầu tiên của clause_text đã xử lý:

1: luat_lao_dong dieu_1 khoan_0 Phạm vi điều chỉnh Bộ luật Lao động quy định tiêu chuẩn lao động; quyền, nghĩa vụ, trách nhiệm của người lao động, người sử dụng lao động, tổ chức đại diện người lao động tại cơ sở, tổ chức đại diện người sử dụng lao động trong quan hệ lao động và các quan hệ khác liên quan trực tiếp đến quan hệ lao động; quản lý nhà nước về lao động.

2: luat_lao_dong dieu_2 khoan_0 Đối tượng áp dụng

3: luat_lao_dong dieu_2 khoan_1 Người lao động, người học nghề, người tập nghề và người làm việc không có quan hệ lao động.

4: luat_lao_dong dieu_2 khoan_2 Người sử dụng lao động.

5: luat_lao_dong dieu_2 khoan_3 Người lao động nước ngoài làm việc tại Việt Nam.

6: luat_lao_dong dieu_2 khoan_4 Cơ quan, tổ chức, cá nhân khác có liên quan trực tiếp đến quan hệ lao động.

7: luat_lao_dong dieu_3 khoan_0 Giải thích từ ngữ Trong Bộ luật này, các từ ngữ dưới đây được hiểu như sau:

8: luat_lao_dong dieu_3 khoan_1 Người lao động là ngư

# process pc_db

In [None]:
import json
import re

input_file = "/content/keywords_db.jsonl"
output_file = "/content/pinecone_db.jsonl"

processed_data = []

with open(input_file, 'r', encoding='utf-8') as f:
    for line in f:
        line = line.strip()
        if not line:
            continue
        data = json.loads(line)

        clause_text = data.get("clause_text", "")
        clause_no = data.get("clause_no", "")
        article_title = data.get("article_title", "")
        law_title = data.get("law_title", "")

        # Xóa tag hiện tại: giả sử tag là tất cả các từ đầu đến từ thứ 3 (luat_lao_dong dieu_x khoan_y)
        parts = clause_text.split(" ", 3)
        if len(parts) >= 4:
            actual_text = parts[3].strip()
        else:
            actual_text = clause_text

        # Tạo prefix mới với dấu hai chấm
        prefix = f"Khoản {clause_no}, {article_title}, {law_title}:"

        # Nối lại
        new_clause_text = f"{prefix} {actual_text}"

        data["clause_text"] = new_clause_text
        processed_data.append(data)

# Lưu file JSONL mới
with open(output_file, 'w', encoding='utf-8') as f_out:
    for item in processed_data:
        f_out.write(json.dumps(item, ensure_ascii=False) + "\n")

# In 10 dòng đầu tiên của clause_text đã xử lý
print("10 dòng đầu tiên của clause_text đã xử lý:\n")
for i, item in enumerate(processed_data[:10]):
    print(f"{i+1}: {item['clause_text']}\n")


10 dòng đầu tiên của clause_text đã xử lý:

1: Khoản 0, Điều 1, Bộ luật lao động 2019 số 45/2019/QH14 áp dụng 2025 mới nhất: Phạm vi điều chỉnh Bộ luật Lao động quy định tiêu chuẩn lao động; quyền, nghĩa vụ, trách nhiệm của người lao động, người sử dụng lao động, tổ chức đại diện người lao động tại cơ sở, tổ chức đại diện người sử dụng lao động trong quan hệ lao động và các quan hệ khác liên quan trực tiếp đến quan hệ lao động; quản lý nhà nước về lao động.

2: Khoản 0, Điều 2, Bộ luật lao động 2019 số 45/2019/QH14 áp dụng 2025 mới nhất: Đối tượng áp dụng

3: Khoản 1, Điều 2, Bộ luật lao động 2019 số 45/2019/QH14 áp dụng 2025 mới nhất: Người lao động, người học nghề, người tập nghề và người làm việc không có quan hệ lao động.

4: Khoản 2, Điều 2, Bộ luật lao động 2019 số 45/2019/QH14 áp dụng 2025 mới nhất: Người sử dụng lao động.

5: Khoản 3, Điều 2, Bộ luật lao động 2019 số 45/2019/QH14 áp dụng 2025 mới nhất: Người lao động nước ngoài làm việc tại Việt Nam.

6: Khoản 4, Điều 2, Bộ luậ

In [None]:
!pip install pinecone --upgrade


Collecting pinecone
  Downloading pinecone-8.0.0-py3-none-any.whl.metadata (11 kB)
Collecting pinecone-plugin-assistant<4.0.0,>=3.0.1 (from pinecone)
  Downloading pinecone_plugin_assistant-3.0.1-py3-none-any.whl.metadata (30 kB)
Collecting pinecone-plugin-interface<0.1.0,>=0.0.7 (from pinecone)
  Downloading pinecone_plugin_interface-0.0.7-py3-none-any.whl.metadata (1.2 kB)
Collecting packaging<25.0,>=24.2 (from pinecone-plugin-assistant<4.0.0,>=3.0.1->pinecone)
  Downloading packaging-24.2-py3-none-any.whl.metadata (3.2 kB)
Downloading pinecone-8.0.0-py3-none-any.whl (745 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m745.9/745.9 kB[0m [31m46.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pinecone_plugin_assistant-3.0.1-py3-none-any.whl (280 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m280.9/280.9 kB[0m [31m22.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pinecone_plugin_interface-0.0.7-py3-none-any.whl (6.2 kB)
Downloading packaging

# Remove Clause 0

In [None]:
import json
import os

INPUT_FILE = "/content/pinecone_db.jsonl"
OUTPUT_FILE = "/content/pinecone_db_cleaned.jsonl"

def clean_clause_text(clause_text):
    # Xóa "Khoản 0," (có thể có khoảng trắng sau dấu phẩy)
    clause_text = clause_text.replace("Khoản 0, ", "")
    clause_text = clause_text.replace("Khoản 0,", "")
    clause_text = clause_text.replace("Khoản 0 :", "")
    return clause_text.strip()

def clean_file(input_path, output_path):
    with open(input_path, "r", encoding="utf-8") as infile, \
         open(output_path, "w", encoding="utf-8") as outfile:

        for line in infile:
            obj = json.loads(line)

            clause_no = obj.get("clause_no", None)
            clause_text = obj.get("clause_text", "")

            # Nếu clause_no == 0 hoặc clause_text chứa Khoản 0 thì sửa
            if str(clause_no) == "0" and "Khoản 0" in clause_text:
                obj["clause_text"] = clean_clause_text(clause_text)

            outfile.write(json.dumps(obj, ensure_ascii=False) + "\n")

    print(f"✔ Đã tạo file cleaned: {output_path}")

if __name__ == "__main__":
    clean_file(INPUT_FILE, OUTPUT_FILE)


✔ Đã tạo file cleaned: /content/pinecone_db_cleaned.jsonl


In [None]:
import json
from pinecone import Pinecone

# -----------------------
# Pinecone init
# -----------------------
pc = Pinecone(api_key='pcsk_35HNKS_CP3F1Dgjfots3HUFsShVfdgd1ZZq9V4wM5h7L2Xy3YYi8Z6MzQndcz9zTWC8mkL')
index_name = 'final2'
index = pc.Index(index_name)

# -----------------------
# Load JSONL mapping id -> clause_text
# -----------------------
jsonl_file = "/content/pinecone_db.jsonl"
id_to_clause_text = {}

with open(jsonl_file, "r", encoding="utf-8") as f:
    for line in f:
        item = json.loads(line)
        _id = item["id"]
        clause_text = item.get("clause_text", "")
        id_to_clause_text[_id] = clause_text

print(f"Loaded {len(id_to_clause_text)} entries from {jsonl_file}")

# -----------------------
# Upsert updated metadata
# -----------------------
batch_size = 100  # upsert theo batch

all_ids = list(id_to_clause_text.keys())
for i in range(0, len(all_ids), batch_size):
    batch_ids = all_ids[i:i+batch_size]
    vectors_to_upsert = []

    # Fetch existing vectors để giữ nguyên values
    fetch_resp = index.fetch(ids=batch_ids)
    vectors = fetch_resp.get("vectors", {})

    for vec_id in batch_ids:
        if vec_id in vectors:
            vec_info = vectors[vec_id]
            values = vec_info.get("values", [])
            metadata = vec_info.get("metadata", {})

            # Update clause_text
            metadata["clause_text"] = id_to_clause_text[vec_id]

            vectors_to_upsert.append({
                "id": vec_id,
                "values": values,
                "metadata": metadata
            })
        else:
            print(f"Warning: id {vec_id} not found in index, skipping")

    if vectors_to_upsert:
        index.upsert(vectors=vectors_to_upsert)
        print(f"Upserted {len(vectors_to_upsert)} vectors ({i + len(vectors_to_upsert)}/{len(all_ids)})")

print("✅ Update clause_text completed!")


Loaded 13146 entries from /content/pinecone_db.jsonl
Upserted 100 vectors (100/13146)
Upserted 100 vectors (200/13146)
Upserted 100 vectors (300/13146)
Upserted 100 vectors (400/13146)
Upserted 100 vectors (500/13146)
Upserted 100 vectors (600/13146)
Upserted 100 vectors (700/13146)
Upserted 100 vectors (800/13146)
Upserted 100 vectors (900/13146)
Upserted 100 vectors (1000/13146)
Upserted 100 vectors (1100/13146)
Upserted 100 vectors (1200/13146)
Upserted 100 vectors (1300/13146)
Upserted 100 vectors (1400/13146)
Upserted 100 vectors (1500/13146)
Upserted 100 vectors (1600/13146)
Upserted 100 vectors (1700/13146)
Upserted 100 vectors (1800/13146)
Upserted 100 vectors (1900/13146)
Upserted 100 vectors (2000/13146)
Upserted 100 vectors (2100/13146)
Upserted 100 vectors (2200/13146)
Upserted 100 vectors (2300/13146)
Upserted 100 vectors (2400/13146)
Upserted 100 vectors (2500/13146)
Upserted 100 vectors (2600/13146)
Upserted 100 vectors (2700/13146)
Upserted 100 vectors (2800/13146)
Upse