In [1]:
import PyPDF2
import re
import pandas as pd

In [2]:
file_paths = [
    './documents/नेपालको-अन्तरिम-संविधान-२०६३.pdf',
    './documents/नेपालको-स_ंविधान.pdf'
]

In [3]:
def extract_text_from_pdf(file_path):
    text = ""
    with open(file_path, 'rb') as file:
        reader = PyPDF2.PdfReader(file)
        for page_num in range(len(reader.pages)):
            page = reader.pages[page_num]
            text += page.extract_text()
    return text

In [4]:
texts = [extract_text_from_pdf(file_path) for file_path in file_paths]


In [13]:
texts

 'www.lawcommission.gov.np  \n1 \n नेपालको संविधान \n \nनेपाल राजपत्रमा प्रकाशन मममि  \n२०७२।०६।०३  \nसंशोधन           प्रमाणीकरण  र प्रकाशन मममि  \n१. नेपालको संविधान (पविलो संशोधन), २०७२      २०७२।११।१६ \n२. नेपालको संविधान (दोस्रो संशोधन), २०७७        २०७७।०३।०४ \n  \n \nप्रस्िािना  \nिामी सािवभौमसत्तासम्पन्न  नेपाली जनिा ;  \nनेपालको स्ििन्त्त्रिा , सािवभौममकिा , भौगोमलक अखण्डिा , राविय एकिा, स्िाधीनिा र \nस्िामभमानलाई  अक्षुण्ण राखी जनिाको सािवभौम अमधकार , स्िायत्तिा र स्िशासनको  अमधकारलाई  \nआत्मसाि् गदै;   \nरािविि , लोकिन्त्त्र र अग्रगामी पररििवनका  लामग नेपाली जनिाले पटक–पटक गदै \nआएका ऐमििामसक  जन आन्त्दोलन , सशस्त्र संघर्व, त्याग र बमलदानको  गौरिपूणव इमििासलाई  \nस्मरण एिं शिीदिरू िथा बेपत्ता र पीमडि नागररकिरूलाई  सम्मान गदै;    \nसामन्त्िी , मनरंकुश, केन्त्रीकृि र एकात्मक राज्यव्यिस्थाले सृजना गरेका सबै प्रकारका \nविभेद र उत्पीडनको अन्त्त्य गदै;   \nबिुजािीय, बिुभावर्क, बिुधाममवक, बिुसांस्कृमिक िथा भौगोमलक विविधिायुक्त विशेर्िालाई \nआत्मसाि् गरी विविधिाबीचको  एकिा, सामाजजक 

In [5]:
def preprocess_and_structure_text(text):
    start_index = text.find("भाग")
    if start_index != -1:
        text = text[start_index:]
    
    # Remove specific URL
    text = text.replace('https://lawcommission.gov.np/np/', '')

    # Remove URLs and unnecessary characters
    text = re.sub(r'\[.*?\]', '', text) 
    text = re.sub(r'http\S+', '', text) 
    text = text.replace('\n', ' ').replace('\r', '')

    # Split text by "भाग"
    bhag_sections = re.split(r'(भाग[–\-]\d+)', text)
    structured_data = []
    current_bhag = ""
    
    for i in range(1, len(bhag_sections), 2):
        current_bhag = bhag_sections[i].strip()
        bhag_text = bhag_sections[i + 1].strip()
        
        lines = bhag_text.split(' ')
        current_header = ""
        current_section_number = ""
        current_text = ""
        
        for line in lines:
            line = line.strip()
            if re.match(r'^[०-९]+\.', line):  # Match headers like १. २. ३.
                if current_text:
                    structured_data.append([current_bhag, current_header, current_section_number, current_text.strip()])
                current_header = line
                current_section_number = ""
                current_text = ""
            elif re.match(r'^\(\d+\)', line):  # Match sub-sections like (१) (२) (३)
                if current_text:
                    structured_data.append([current_bhag, current_header, current_section_number, current_text.strip()])
                current_section_number = line
                current_text = ""
            else:
                current_text += " " + line
        
        if current_text:
            structured_data.append([current_bhag, current_header, current_section_number, current_text.strip()])

    return structured_data

In [6]:
structured_texts = [preprocess_and_structure_text(text) for text in texts]

combined_data = [item for sublist in structured_texts for item in sublist]

filtered_data = [row for row in combined_data if 'http' not in row[3] and 'https://lawcommission.gov.np/np/' not in row[3]]

In [7]:
columns = ["bhag", "header", "section_number", "text"]

In [8]:
df = pd.DataFrame(combined_data, columns=columns)
df.to_csv('./data/judicial_support_system_dataset.csv', index=False)

print("CSV file created successfully.")

CSV file created successfully.


In [9]:
df = pd.read_csv('./data/judicial_support_system_dataset.csv')

In [10]:
df.shape

(1871, 4)

In [11]:
df.head()

Unnamed: 0,bhag,header,section_number,text
0,भाग–१,,,प्रारजम्भक
1,भाग–१,१.,,संविधान मूल कानूनः
2,भाग–१,१.,(१),यो संविधान नेपालको मूल कानून िो । यस संविधानसँ...
3,भाग–१,१.,(२),यस संविधानको पालना गनुव प्रत्येक व्यजक्तको किव...
4,भाग–१,२.,,सािवभौमसत्ता र राजकीयसत्ताः नेपालको सािवभौमस...
