# Load Data From MongoDB

In [None]:
!pip install pymongo pypdf langchain_community tqdm



In [None]:
import requests
from bs4 import BeautifulSoup
import re
from pymongo import MongoClient
import pandas as pd

#  Extracting Content through PDF files

## Load Data From MongoDB

In [None]:
def load_data():
    # Settings
    username = "teamds"
    password = "teamds"
    database_name = "moroccanlawdb"
    collection_name = "moroccanlawcollection"
    uri = f"mongodb+srv://{username}:{password}@moroccanlawcluster.3fnez.mongodb.net/?retryWrites=true&w=majority&appName=MoroccanLawCluster"

    client = MongoClient(uri)
    db = client[database_name]
    collection = db[collection_name]
    documents = list(collection.find({}, {'Title': 1,"Type": 1, 'PDF_Link':1, '_id': 0}))

    return documents

In [None]:
laws = load_data()

In [None]:
laws[0]

{'Title': 'ظهير شريف رقم 1.58.250 بسن قانون الجنسية المغربية',
 'Type': 'ظهير',
 'PDF_Link': 'https://adala.justice.gov.ma/api/uploads/2024/07/22/%D9%82%D8%A7%D9%86%D9%88%D9%86%20%D8%A7%D9%84%D8%AC%D9%86%D8%B3%D9%8A%D8%A9-1721647191954.pdf#toolbar=0&statusbar=0'}

In [None]:
len(laws)

673

## Data Preprocessing

In [None]:
# Extract distinct Type values
distinct_types = {item["Type"] for item in laws}

# Convert to a list (optional) if order or indexing is needed
distinct_types_list = list(distinct_types)

print("Total Types:", len(distinct_types_list))
print("Distinct Types:", distinct_types_list)

Total Types: 19
Distinct Types: ['ظهير بمثابة قانون', 'النظام الداخلي', 'قانون تنظيمي', 'مدونة', 'دراسة', 'رأي', 'منشور', 'اتفاقية ثنائية', 'اتفاقية عامة', 'قانون', 'رسالة ملكية', 'مرسوم', 'تقرير', 'ظهير', '\u200fمرسوم', 'ظهير (نسخ)', 'مرسوم (نسخ)', 'قرار', 'قرار مشترك']


In [None]:
from langchain_community.document_loaders import PyPDFLoader
from tqdm import tqdm
from concurrent.futures import ProcessPoolExecutor, as_completed

In [None]:
# Function to process a single PDF
def process_pdf(law):
    try:
        # Load the PDF using PyPDFLoader
        loader = PyPDFLoader(law['PDF_Link'])

        # Extract and split the text content of the PDF into pages
        pages = loader.load_and_split()

        # Extract text content
        return [page.page_content for page in pages]
    except Exception as e:
        print(f"Error processing {law['PDF_Link']}: {e}")
        return []  # Return an empty list if an error occurs

In [None]:
# Main processing logic with multiprocessing
def process_all_pdfs(laws):
    pdf_texts = []

    # Use ProcessPoolExecutor for parallel processing
    with ProcessPoolExecutor() as executor:
        # Submit tasks to the executor
        futures = {executor.submit(process_pdf, law): law for law in laws}

        # Use tqdm to track progress
        for future in tqdm(as_completed(futures), total=len(futures), desc="Processing PDFs", unit="file"):
            # Collect results
            pdf_texts.extend(future.result())

    return pdf_texts

In [None]:
# Process all PDFs
pdf_texts = process_all_pdfs(laws)

# Print or use the extracted texts
print(pdf_texts)

Processing PDFs: 100%|██████████| 673/673 [38:43<00:00,  3.45s/file]


Buffered data was truncated after reaching the output size limit.

In [None]:
len(pdf_texts)

17081

In [None]:
pdf_texts[1]

'- 2 - \n \nظهير شريف رقم1.58.250 بسن قانون الجنسية المغربية1 \nكما تمتعديله بـ:  \n-  القانون رقم  08.23  بتتميم المادة11  الصادر بتنفيذه الظهير الشريف رقم1.23.19 \nبتاريخ19  من رجب1444  (10  فبراير2023)، الجريدة الرسمية عدد  7173  بتاريخ6  \nشعبان1444 (27 فبراير2023)، ص2244؛ \n-  القانون رقم  58.11  المتعلق بمحكمة النقض، المغير بموجبه الظهير الشريف رقم \n1.57.223  الصادر في2  ربيع الأول1377  (27  سبتمبر1957) بشأن المجلس الأعلى\nالصـ ادر ب ـت ـن ـفـي ـذه ال ـظـ هـي ـر ال ـشريف رقم  1.11.170  بتاريخ27  من ذي القعدة 1432  \n(25  أكتوبر2011)، ال ـج ـري ـدة ال ـرسـمية عدد  5989  مكرر بتاريخ 28  ذو القعدة 1432 \n(26 أكتوبر2011)، ص5228؛ \n-  القانون رقم  62.06  الصادر بتنفيذهالظهير  الشريف رقم  1.07.80 بتاريخ3  ربيع\nالأول  1428  )23  مارس2007(؛  الجريدة الرسمية عدد  5513  بتاريخ13  ربيع الأول \n1428 )2 أبريل2007، ص1116.  \n \n1 - الجريدة الرسمية عدد2395 بتاريخ4 ربيع الأول1378 )19 شتنبر1958(، ص 2190.'

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [None]:
# Define a text splitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,  # Maximum size of each chunk
    chunk_overlap=80  # Overlap between chunks for better context
)

# List to store all chunks
chunks = []

# Iterate through the text of each page
for page_content in pdf_texts:
    # Split the page content into chunks
    page_chunks = text_splitter.split_text(page_content)

    # Add the chunks to the list
    chunks.extend(page_chunks)

In [None]:
# Check the number of chunks generated
print(f"Total chunks: {len(chunks)}")

Total chunks: 73113


In [None]:
# Example output of first few chunks
for i, chunk in enumerate(chunks[:3]):
    print(f"Chunk {i+1}: {chunk}\n")

Chunk 1: قانون الجنسية المغربية 
صيغة محينة بتاريخ 27 فبراير2023

Chunk 2: - 2 - 
 
ظهير شريف رقم1.58.250 بسن قانون الجنسية المغربية1 
كما تمتعديله بـ:  
-  القانون رقم  08.23  بتتميم المادة11  الصادر بتنفيذه الظهير الشريف رقم1.23.19 
بتاريخ19  من رجب1444  (10  فبراير2023)، الجريدة الرسمية عدد  7173  بتاريخ6  
شعبان1444 (27 فبراير2023)، ص2244؛ 
-  القانون رقم  58.11  المتعلق بمحكمة النقض، المغير بموجبه الظهير الشريف رقم 
1.57.223  الصادر في2  ربيع الأول1377  (27  سبتمبر1957) بشأن المجلس الأعلى

Chunk 3: 1.57.223  الصادر في2  ربيع الأول1377  (27  سبتمبر1957) بشأن المجلس الأعلى
الصـ ادر ب ـت ـن ـفـي ـذه ال ـظـ هـي ـر ال ـشريف رقم  1.11.170  بتاريخ27  من ذي القعدة 1432  
(25  أكتوبر2011)، ال ـج ـري ـدة ال ـرسـمية عدد  5989  مكرر بتاريخ 28  ذو القعدة 1432 
(26 أكتوبر2011)، ص5228؛ 
-  القانون رقم  62.06  الصادر بتنفيذهالظهير  الشريف رقم  1.07.80 بتاريخ3  ربيع
الأول  1428  )23  مارس2007(؛  الجريدة الرسمية عدد  5513  بتاريخ13  ربيع الأول 
1428 )2 أبريل2007، ص1116.



In [None]:
import re

In [None]:
# Function to clean a single chunk of text
def clean_text(chunk):
    # Remove extra spaces
    chunk = re.sub(r'\s+', ' ', chunk).strip()

    # Normalize Arabic text
    chunk = re.sub(r'[إأآ]', 'ا', chunk)
    chunk = re.sub(r'ة', 'ه', chunk)

    # Remove special characters (optional, adjust as needed)
    chunk = re.sub(r'[^\w\s.,:؛؟!()-]', '', chunk)

    return chunk

In [None]:
# Apply cleaning to all chunks
cleaned_chunks = [clean_text(chunk) for chunk in chunks]

In [None]:
# Print some examples
print("Original : ", chunks[1])
print("Cleaned : ", cleaned_chunks[1])

Original :  - 2 - 
 
ظهير شريف رقم1.58.250 بسن قانون الجنسية المغربية1 
كما تمتعديله بـ:  
-  القانون رقم  08.23  بتتميم المادة11  الصادر بتنفيذه الظهير الشريف رقم1.23.19 
بتاريخ19  من رجب1444  (10  فبراير2023)، الجريدة الرسمية عدد  7173  بتاريخ6  
شعبان1444 (27 فبراير2023)، ص2244؛ 
-  القانون رقم  58.11  المتعلق بمحكمة النقض، المغير بموجبه الظهير الشريف رقم 
1.57.223  الصادر في2  ربيع الأول1377  (27  سبتمبر1957) بشأن المجلس الأعلى
Cleaned :  - 2 - ظهير شريف رقم1.58.250 بسن قانون الجنسيه المغربيه1 كما تمتعديله بـ: - القانون رقم 08.23 بتتميم الماده11 الصادر بتنفيذه الظهير الشريف رقم1.23.19 بتاريخ19 من رجب1444 (10 فبراير2023) الجريده الرسميه عدد 7173 بتاريخ6 شعبان1444 (27 فبراير2023) ص2244؛ - القانون رقم 58.11 المتعلق بمحكمه النقض المغير بموجبه الظهير الشريف رقم 1.57.223 الصادر في2 ربيع الاول1377 (27 سبتمبر1957) بشان المجلس الاعلى


In [None]:
import json

In [None]:
# Save cleaned data as JSON
with open("cleaned_chunks.json", "w", encoding="utf-8") as f:
    json.dump(cleaned_chunks, f, ensure_ascii=False, indent=4)

print("Cleaned data saved as cleaned_chunks.json")

Cleaned data saved as cleaned_chunks.json


# Vector Embedding

## Using API

In [None]:
import requests
import time

In [None]:
def get_embeddings(texts):

    API_URL = "https://api-inference.huggingface.co/pipeline/feature-extraction/sentence-transformers/LaBSE"

    headers = {"Authorization": "Bearer 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"}

    def query(payload):
        response = requests.post(API_URL, headers=headers, json=payload)
        result = response.json()

        # Check if model is still loading
        if 'error' in result and 'loading' in result['error']:
            print(f"Model is loading. Estimated time: {result.get('estimated_time', 'unknown')} seconds.")
            return None
        return result

    count=0
    # Retry logic
    embeddings = None
    while embeddings is None:
        embeddings = query({
            "inputs": texts
        })
        if embeddings is None:
            count+=1
            # Wait for 10 seconds before retrying
            time.sleep(10)
        if count == 10:
            return None

    return embeddings

In [None]:
get_embeddings(cleaned_chunks[:1])

{'error': 'Internal Server Error'}

In [None]:
# Helper function to divide list into batches
def split_into_batches(data, batch_size):
    for i in range(0, len(data), batch_size):
        yield data[i:i + batch_size]

In [None]:
# Define batch size
batch_size = 100

# Store embeddings
all_embeddings = []

# Initialize tqdm progress bar
total_batches = len(cleaned_chunks) // batch_size + (1 if len(cleaned_chunks) % batch_size != 0 else 0)

with tqdm(total=total_batches, desc="Processing Batches") as pbar:
    # Process batches
    for batch in split_into_batches(cleaned_chunks, batch_size):
        # Get embeddings for the current batch
        batch_embeddings = get_embeddings(batch)

        # Merge with the main embeddings list
        all_embeddings.extend(batch_embeddings)

        # Update the progress bar
        pbar.update(1)

In [None]:
print(f"Total embeddings: {len(all_embeddings)}")

## Using Model

In [None]:
from sentence_transformers import SentenceTransformer

  from tqdm.autonotebook import tqdm, trange


In [None]:
embedding_model = SentenceTransformer('sentence-transformers/LaBSE')

In [None]:
embeddings = embedding_model.encode(cleaned_chunks[:100]) # Embedings Sample

In [None]:
embeddings.shape

(100, 768)

# Save Vector embeddings

In [None]:
!pip install pinecone

In [None]:
from pinecone import Pinecone, ServerlessSpec

pc = Pinecone(api_key='pcsk_5shSMb_91Md5cJAMd4EfFYnDFNbqSYtPAYUTXPxaHLRRqWA8HwmHcBmsfQ3hjjECYX8Uia')

index_name = 'moroccanlaw-index'

In [None]:
def create_index(all_embeddings):
    # Ensure the index does not already exist, then create it
    if index_name not in [item['name'] for item in pc.list_indexes()]:
        pc.create_index(
            name=index_name,
            dimension=embeddings.shape[1],  # Replace with your model's dimension size
            metric="cosine",  # or "dotproduct", "euclidean"
            spec=ServerlessSpec(
            cloud="aws",
            region="us-east-1"
            )
        )

    return True

In [None]:
def connect_to_index(index_name=index_name):

    return pc.Index(index_name)

In [None]:
def insert_vectors(all_embeddings, all_texts):
    # Connect to the existing index
    index = connect_to_index(index_name)

    # Retrieve the total number of vectors currently in the index
    total_records = index.describe_index_stats()['total_vector_count']

    # Convert document embeddings to list of dictionaries for upsert
    vectors = [
        {
            "id": str(i + total_records),  # Start ID from total_records
            "values": embedding.tolist(),  # Convert each embedding to a list
            "metadata": {"text": doc}  # Attach the corresponding document as metadata
        }
        for i, (embedding, doc) in enumerate(zip(all_embeddings, all_texts))
    ]

    # Upsert the vectors into the Pinecone index
    index.upsert(vectors=vectors)

    return True

In [None]:
insert_vectors(embeddings,cleaned_chunks[:100])

True