In [None]:
!pip install sentence-transformers faiss-cpu transformers datasets tqdm

Collecting faiss-cpu
  Downloading faiss_cpu-1.12.0-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (5.1 kB)
Downloading faiss_cpu-1.12.0-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl (31.4 MB)
[2K   [90mโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ[0m [32m31.4/31.4 MB[0m [31m82.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.12.0


In [None]:
import json
import os
from tqdm import tqdm
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

In [None]:
def extract_articles_v2(dataset):
    articles = []

    for category, subcats in dataset.items():
        for subcat, systems in subcats.items():
            for system_name, system_data in systems.items():

                brief = system_data.get("brief", "")
                metadata = system_data.get("metadata", {})

                parts = system_data.get("parts", {})
                for part_name, part_articles in parts.items():
                    for article in part_articles:
                        articles.append({
                            "category": category,
                            "sub_category": subcat,
                            "system": system_name,
                            "part": part_name,
                            "brief": brief,
                            "metadata": metadata,
                            "id": article.get("id"),
                            "title": article.get("Article_Title"),
                            "status": article.get("status"),
                            "text": article.get("Article_Text")
                        })
    return articles


In [None]:
with open("saudi_laws_scraped.json", "r", encoding="utf-8") as f:
    data = json.load(f)

articles = extract_articles_v2(data)
print(f"โ Total Articles Extracted: {len(articles)}")
print(json.dumps(articles[604], indent=2, ensure_ascii=False))

โ Total Articles Extracted: 16371
{
  "category": "ุฃูุธูุฉ ุนุงุฏูุฉ",
  "sub_category": "ุงูุฃูู ุงูุฏุงุฎูู ูุงูุฃุญูุงู ุงููุฏููุฉ ูุงูุฃูุธูุฉ ุงูุฌูุงุฆูุฉ",
  "system": "ูุธุงู ููุงูุญุฉ ุบุณู ุงูุฃููุงู",
  "part": "main",
  "brief": "ูุชุถูู ุงููุธุงู:\r\nุงูููุตูุฏ ุจุงูุนุจุงุฑุงุช ูุงูุฃููุงุธ ุงููุงุฑุฏุฉ ุจุงููุธุงู. ุงูุฃูุนุงู ุงูุชู ูุนุฏ ูุฑุชูุจูุง ูุฑุชูุจูุง ุฌุฑููุฉ ุบุณู ุงูุฃููุงู โ ูุง ูุฌุจ ุนูู ุงููุคุณุณุงุช ุงููุงููุฉ ูุบูุฑ ุงููุงููุฉ ุงุชุฎุงุฐู ูู ุฅุฌุฑุงุกุงุช ุญูุงู ูุฑุชูุจ ุฌุฑููุฉ ุบุณู ุงูุฃููุงู โ ุงูุจุฑุงูุฌ ุงูุชู ุชุถุนูุง ุงููุคุณุณุงุช ุงููุงููุฉ ูุบูุฑ ุงููุงููุฉ ูููุงูุญุฉ ุนูููุงุช ุบุณู ุงูุฃููุงู โ ูุญุฏุฉ ููุงูุญุฉ ุบุณู ุงูุฃููุงู โ ุนููุจุฉ ูุฑุชูุจ ุฌุฑููุฉ ุบุณู ุงูุฃููุงู.",
  "metadata": {
    "ุงูุงุณู": "ูุธุงู ููุงูุญุฉ ุบุณู ุงูุฃููุงู",
    "ุชุงุฑูุฎ 

In [None]:
def build_corpus(articles):
    corpus = []
    for art in articles:
        meta = art.get("metadata", {})
        meta_str = " ".join([f"{k}: {v}" for k, v in meta.items() if v])
        item_text = f"{art['title']} - {art['text']} {meta_str}"
        corpus.append(item_text.strip())
    return corpus

corpus = build_corpus(articles)
print(f"โ Corpus built with {len(corpus)} documents")
for i in range(2):
    print(f"\n--- Example {i+1} ---\n{corpus[i][:400]}...")

โ Corpus built with 16371 documents

--- Example 1 ---
ุงููุงุฏุฉ ุงูุฃููู - ุงูููููุฉ ุงูุนุฑุจูุฉ ุงูุณุนูุฏูุฉุ ุฏููุฉ ุนุฑุจูุฉ ุฅุณูุงููุฉุ ุฐุงุช
ุณูุงุฏุฉ ุชุงูุฉ
ุ ุฏูููุง
ุงูุฅุณูุงู
ุ ูุฏุณุชูุฑูุง
ูุชุงุจ ุงููู ุชุนุงูู
ูุณูุฉ ุฑุณููู ุตูู ุงููู ุนููู ูุณูู. ููุบุชูุง ูู ุงููุบุฉ ุงูุนุฑุจูุฉุ ูุนุงุตูุชูุง ูุฏููุฉ ุงูุฑูุงุถ. ุงูุงุณู: ุงููุธุงู ุงูุฃุณุงุณู ููุญูู ุชุงุฑูุฎ ุงูุฅุตุฏุงุฑ: 1412/08/27 ูู  ุงูููุงูู : 01/03/1992 ูู ุชุงุฑูุฎ ุงููุดุฑ: 1412/09/02  ูู ุงูููุงูู : 06/03/1992 ูู ุงูุญุงูุฉ: ุณุงุฑู ุฃุฏูุงุช ุฅุตุฏุงุฑ ุงููุธุงู: [{'text': 'ุฃูุฑ ูููู ุฑูู ุฃ/90 ุจุชุงุฑู...

--- Example 2 ---
ุงููุงุฏุฉ ุงูุซุงููุฉ - ุนูุฏุง ุงูุฏููุฉุ ููุง ุนูุฏุง ุงููุทุฑ ูุงูุฃุถุญูุ ูุชูููููุงุ ูู
ุงูุชูููู ุงููุฌุฑู. ุงูุงุณู: ุงููุธุงู ุงูุฃุณุงุณู ููุญูู ุชุงุฑูุฎ ุงูุฅุตุฏุงุฑ: 1412/08/27 ูู  ุง

In [None]:
import torch

embed_model = SentenceTransformer("BAAI/bge-m3", device="cuda" if torch.cuda.is_available() else "cpu")

batch_size = 32
embeddings = []
for i in tqdm(range(0, len(corpus), batch_size)):
    batch = corpus[i:i+batch_size]
    emb = embed_model.encode(batch, show_progress_bar=False, convert_to_numpy=True, normalize_embeddings=True)
    embeddings.append(emb)
embeddings = np.vstack(embeddings)


100%|โโโโโโโโโโ| 512/512 [41:04<00:00,  4.81s/it]


In [None]:
print(f"โ Embeddings shape: {embeddings.shape}")

โ Embeddings shape: (16371, 1024)


In [None]:
dim = embeddings.shape[1]
index = faiss.IndexFlatIP(dim)
index.add(embeddings)

faiss.write_index(index, "m3_legal_faiss.index")

In [None]:
index = faiss.read_index("m3_legal_faiss.index")

In [None]:
def retrieve(query, top_k=5):
    q_emb = embed_model.encode([query], convert_to_numpy=True, normalize_embeddings=True)
    D, I = index.search(q_emb, top_k)
    results = [(corpus[i], float(D[0][j])) for j, i in enumerate(I[0])]
    return results

query = "ูุง ูู ุดุนุงุฑ ุงูุฏููุฉ ุงูุณุนูุฏูุฉุ"
results = retrieve(query)

for i, (text, score) in enumerate(results, 1):
    print(f"\n๐น Result {i} (score={score:.3f})\n{text[:400]}...")


๐น Result 1 (score=0.578)
ุงููุงุฏุฉ ุงูุฃููู - ุงูููููุฉ ุงูุนุฑุจูุฉ ุงูุณุนูุฏูุฉุ ุฏููุฉ ุนุฑุจูุฉ ุฅุณูุงููุฉุ ุฐุงุช
ุณูุงุฏุฉ ุชุงูุฉ
ุ ุฏูููุง
ุงูุฅุณูุงู
ุ ูุฏุณุชูุฑูุง
ูุชุงุจ ุงููู ุชุนุงูู
ูุณูุฉ ุฑุณููู ุตูู ุงููู ุนููู ูุณูู. ููุบุชูุง ูู ุงููุบุฉ ุงูุนุฑุจูุฉุ ูุนุงุตูุชูุง ูุฏููุฉ ุงูุฑูุงุถ. ุงูุงุณู: ุงููุธุงู ุงูุฃุณุงุณู ููุญูู ุชุงุฑูุฎ ุงูุฅุตุฏุงุฑ: 1412/08/27 ูู  ุงูููุงูู : 01/03/1992 ูู ุชุงุฑูุฎ ุงููุดุฑ: 1412/09/02  ูู ุงูููุงูู : 06/03/1992 ูู ุงูุญุงูุฉ: ุณุงุฑู ุฃุฏูุงุช ุฅุตุฏุงุฑ ุงููุธุงู: [{'text': 'ุฃูุฑ ูููู ุฑูู ุฃ/90 ุจุชุงุฑู...

๐น Result 2 (score=0.571)
ุงููุงุฏุฉ ุงูุซุงููุฉ ( ุนูู ุฌูุงูุฉ ุงูููู ) - ูููู ูุฌูุงูุฉ ุงูููู ุนูู ุฎุงุต ููุทุงุจู
ุงูุนูู ุงููุทูู
ูู ุฃูุตุงููู ูููุทุฑููุฒ ูู ุงูุฒุงููุฉ ุงูุฏูููุง ูููู ุงููุฌุงูุฑุฉ ูุนูุฏ ุงูุนูู ุ