In [1]:
# Mount drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
base_dir = '/content/drive/MyDrive/LLM_Tasks/ChatBot/RAG Interface/Assets'
input_file = 'Sri Lanka Constitution-Sinhala.txt'      # Input file path
output_dir = f'{base_dir}/output_chunks'   # Directory where chunks will be saved

In [3]:
import os

def remove_vertical_whitespaces(text):
    """Remove vertical whitespaces from the given text."""
    return ' '.join(text.split())

def split_into_chunks(text, chunk_size):
    """Split text into chunks of constant word length without breaking words."""
    words = text.split()
    chunks = []

    for i in range(0, len(words), chunk_size):
        chunk = ' '.join(words[i:i + chunk_size])
        chunks.append(chunk)

    print(f"Total chunks: {len(chunks)}")
    print(f"First chunk: {chunks[0]}")

    return chunks

def save_chunks_to_file(chunks, output_dir):
    """Save each chunk as a separate file for faster loading."""
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)

    for idx, chunk in enumerate(chunks):
        zero_count = 5 - len(str(idx))
        zero_str = '0' * zero_count
        idx_str = zero_str + str(idx)
        with open(f"{output_dir}/chunk_{idx_str}.txt", 'w', encoding='utf-8') as file:
            file.write(chunk)

def load_chunks_from_file(input_dir):
    """Load all chunks from files in the specified directory."""
    chunks = []

    for filename in sorted(os.listdir(input_dir)):
        with open(f"{input_dir}/{filename}", 'r', encoding='utf-8') as file:
            chunks.append(file.read())

    return chunks

def process_text_file(input_file, output_dir, chunk_size):
    """Main function to read a file, process it, and save chunks."""
    with open(input_file, 'r', encoding='utf-8') as file:
        text = file.read()

    text = remove_vertical_whitespaces(text)
    chunks = split_into_chunks(text, chunk_size)
    save_chunks_to_file(chunks, output_dir)


In [42]:
# Example usage
token_count = 128
chunk_size = token_count * 120 // 267

In [None]:
# Process the text file and save chunks
process_text_file(f'{base_dir}/' + input_file, output_dir, chunk_size)

# Load the saved chunks
chunks = load_chunks_from_file(output_dir)
print(chunks)  # Display loaded chunks

In [5]:
# Load the text file
with open(f'{base_dir}/' + input_file, "r", encoding="utf-8") as file:
    text = file.read()

In [6]:
import re

# Define the regex pattern to find the matches
pattern = r'[XVI]{1,5}?.{0,4}?\s+වන පරිච්ඡේදය\s[^\.]{0,57}?(?=\d)'

# Find all matches of the pattern
matches = re.findall(pattern, text, re.DOTALL)
print(matches[0])

cleaned_matches = []

for _match in matches:
    # Remove the leading part and the trailing digit, then strip whitespace
    cleaned_text = re.sub(r'^[XVI]{1,5}?.{0,4}?\s+වන පරිච්ඡේදය\s', '', _match)
    cleaned_text = re.sub(r'\d$', '', cleaned_text).strip()
    cleaned_text = cleaned_text.replace('\n', ', ')
    cleaned_matches.append(cleaned_text)

# Display the matched sections
for idx, match in enumerate(cleaned_matches):
    print(f"Cleaned Match {idx + 1}:\n{match}\n")

# Split the text based on the pattern
sections = re.split(pattern, text)

print(sections[1])

# Display the split sections
# for idx, section in enumerate(sections):
#     print(f"Section {idx + 1}:\n{section}\n")


I වන පරිච්ඡේදය
ජනතාව, රජය සහ පරමාධිපත්‍යය

Cleaned Match 1:
ජනතාව, රජය සහ පරමාධිපත්‍යය

Cleaned Match 2:
බුද්ධාගම

Cleaned Match 3:
භාෂාව

Cleaned Match 4:
පුරවැසිභාවය

Cleaned Match 5:
රාජ්‍ය ප්‍රතිපත්තිය මෙහෙය වීමේ මූලධර්ම සහ මූලික යුතුකම්

Cleaned Match 6:
විධායකය, ජන රජයේ ජනාධිපතිවරයා

Cleaned Match 7:
ව්‍යවස්ථාදායකය, ආණ්ඩුක්‍රම ව්‍යවස්ථාව සංශෝධනය කිරීම

Cleaned Match 8:
ජනමත විචාරණය, හෝ

Cleaned Match 9:
ඡන්ද බලය, ඡන්ද විමසීම් හා මැතිවරණ

Cleaned Match 10:


Cleaned Match 11:
ජාතික, පොලිස්, කොමිෂන් සභාව

Cleaned Match 12:
පරිපාලන කටයුතු පිළිබඳ පාර්ලිමේන්තු, කොමසාරිස්වරයා

Cleaned Match 13:
අල්ලස් හෝ දූෂණ චෝදනා විමර්ශනය කිරීම සඳහා වූ කොමිෂන් සභාව

Cleaned Match 14:
ජාතික ප්‍රසම්පාදන කොමිෂන් සභාව

Cleaned Match 15:
පොදු විධිවිධාන

Cleaned Match 16:
අන්ත ර්කාලීන විධිවිධාන

Cleaned Match 17:
අර්ථ නිරූපණය

1. ශ්‍රී ලංකාව නිදහස්, ස්වෛරී, ස්වාධීන, ප්‍රජාතාන්ත්‍රික සමාජවාදී ජනරජයකි. ශ්‍රී ලංකාව, ශ්‍රී ලංකා ප්‍රජාතාන්ත්‍රික සමාජවාදී ජනරජය යනුවෙන් හඳුන්වනු ලැබේ.
2. ලංකා ජනරජය ඒකීය රජයකි.
3.

In [12]:
import re

# find all digits followed by a period
digits = re.findall(r'(?<=\D)(?<=\.)\s+', text)

print(len(digits))

1690


In [43]:
import re

def split_into_chunks(text, chunk_size, heading_text=''):
    """Split text into chunks of constant word length by sentence without breaking sentences."""
    # Use regex to split the text into sentences
    sentences = re.split(r'(?<=\D)(?<=\.)\s+', text)  # Split by periods preceded by non-numbers
    chunks = []
    current_chunk = []
    current_word_count = 0

    for sentence in sentences:
        words = sentence.split()
        num_words = len(words)

        # Check if adding the current sentence exceeds the chunk size
        if current_word_count + num_words > chunk_size:
            # If the current chunk is not empty, append it to chunks
            if current_chunk:
                chunks.append(heading_text + ' '.join(current_chunk))
            # Start a new chunk with the current sentence
            current_chunk = words
            current_word_count = num_words
        else:
            # Add the current sentence to the current chunk
            current_chunk.extend(words)
            current_word_count += num_words

    # Append any remaining sentences as a final chunk
    if current_chunk:
        chunks.append(heading_text + ' '.join(current_chunk))

    print(f"Total chunks: {len(chunks)}")
    print(f"First chunk: {chunks[0]}")

    return chunks

In [44]:
new_chunks = split_into_chunks(text, chunk_size)
# for chunk in new_chunks:
#     print(len(chunk))

Total chunks: 1099
First chunk: ශ්‍රී ලංකා ප්‍රජාතාන්ත්‍රික සමාජවාදී ජනරජයේ ආණ්ඩුක්‍රම ව්‍යවස්ථාව (2022 ඔක්තෝබර් මස 31 වැනි දින දක්වා සංශෝධිතයි) (විසිඑක්වන සංශෝධනය දක්වා සංශෝධන අන්තර්ගත කරන ලද) ප්‍රතිශෝධිත මුද්‍රණය 2023 පාර්ලිමේන්තු මහ ලේකම් කාර්යාලය මගින් ප්‍රකාශිතයි.


In [35]:
def split_into_chunks_with_headings(text, chunk_size):
    """Split text into chunks of constant word length by sentence with headings without breaking sentences."""

    # Define the regex pattern to find the matches
    pattern = r'[XVI]{1,5}?.{0,4}?\s+වන පරිච්ඡේදය\s[^\.]{0,57}?(?=\d)'

    # Find all matches of the pattern
    unclean_headings = re.findall(pattern, text, re.DOTALL)
    headings = []
    for _match in unclean_headings:
        # Remove the leading part and the trailing digit, then strip whitespace
        cleaned_text = re.sub(r'^[XVI]{1,5}?.{0,4}?\s+වන පරිච්ඡේදය\s', '', _match)
        cleaned_text = re.sub(r'\d$', '', cleaned_text).strip()
        cleaned_text = cleaned_text.replace('\n', ', ')
        headings.append(cleaned_text)

    # Sections, split by headings
    sections = re.split(pattern, text)

    if len(headings) == len(sections) - 1:
        headings.insert(0, None)

    chunks = []

    for idx, section in enumerate(sections):
        heading = '' if headings[idx] is None else f'{headings[idx]}: '
        chunks.extend(split_into_chunks(section, chunk_size, heading))

    return chunks

In [45]:
chunks = split_into_chunks_with_headings(text, chunk_size)

Total chunks: 3
First chunk: ශ්‍රී ලංකා ප්‍රජාතාන්ත්‍රික සමාජවාදී ජනරජයේ ආණ්ඩුක්‍රම ව්‍යවස්ථාව (2022 ඔක්තෝබර් මස 31 වැනි දින දක්වා සංශෝධිතයි) (විසිඑක්වන සංශෝධනය දක්වා සංශෝධන අන්තර්ගත කරන ලද) ප්‍රතිශෝධිත මුද්‍රණය 2023 පාර්ලිමේන්තු මහ ලේකම් කාර්යාලය මගින් ප්‍රකාශිතයි.
Total chunks: 7
First chunk: ජනතාව, රජය සහ පරමාධිපත්‍යය: 1. ශ්‍රී ලංකාව නිදහස්, ස්වෛරී, ස්වාධීන, ප්‍රජාතාන්ත්‍රික සමාජවාදී ජනරජයකි. ශ්‍රී ලංකාව, ශ්‍රී ලංකා ප්‍රජාතාන්ත්‍රික සමාජවාදී ජනරජය යනුවෙන් හඳුන්වනු ලැබේ. 2. ලංකා ජනරජය ඒකීය රජයකි. 3. ශ්‍රී ලංකා ජනරජයේ පරමාධිපත්‍යය ජනතාව කෙරෙහි පිහිටා ඇත්තේ ය. පරමාධිපත්‍යය අත්හළ නොහැක්කේ ය. පරමාධිපත්‍යයට පාලන බලතල, මූලික අයිතිවාසිකම් සහ ඡන්ද බලය ද ඇතුළත් වන්නේ ය. 4.
Total chunks: 37
First chunk: බුද්ධාගම: 9. ලංකා ජනරජය බුද්ධාගමට ප්‍රමුඛස්ථානය පිරිනමන්නේ ය. එහෙයින් 10 වන ව්‍යවස්ථාවෙන් සහ 14 වන ව්‍යවස්ථාවේ (1) වන අනුව්‍යවස්ථාවේ (ඉ) ඡේදයෙන් සියලුම ආගම්වලට පිරිනැමෙන අයිතිවාසිකම් ආරක්ෂා කර දෙන අතර බුද්ධ ශාසනය සුරක්ෂිත කොට පෝෂණය කිරීම රජයේ වගකීම විය යුත්තේ ය.
Total chunks: 25
First chunk: භා

In [46]:
len(chunks)

1104

In [50]:
print(chunks[3])

ජනතාව, රජය සහ පරමාධිපත්‍යය: 1. ශ්‍රී ලංකාව නිදහස්, ස්වෛරී, ස්වාධීන, ප්‍රජාතාන්ත්‍රික සමාජවාදී ජනරජයකි. ශ්‍රී ලංකාව, ශ්‍රී ලංකා ප්‍රජාතාන්ත්‍රික සමාජවාදී ජනරජය යනුවෙන් හඳුන්වනු ලැබේ. 2. ලංකා ජනරජය ඒකීය රජයකි. 3. ශ්‍රී ලංකා ජනරජයේ පරමාධිපත්‍යය ජනතාව කෙරෙහි පිහිටා ඇත්තේ ය. පරමාධිපත්‍යය අත්හළ නොහැක්කේ ය. පරමාධිපත්‍යයට පාලන බලතල, මූලික අයිතිවාසිකම් සහ ඡන්ද බලය ද ඇතුළත් වන්නේ ය. 4.


In [51]:
longest_string = max(chunks, key=len)
print(longest_string)
print(len(longest_string))

අර්ථ නිරූපණය: “නීතිය” යන්නෙන්‌, පාර්ලිමේන්තුවේ පනතක්‌ සහ ආණ්ඩුක්‍රම වාවස්ථාව ක්‍රියාත්මක වීම ආරම්භ වීමට පෙර කවර අවස්ථාවක වුව ද යම්කිසි වාවස්ථාදායකයක්‌ විසින්‌ පනවන ලද පනතක්‌ අදහස්‌ වන අතර, රාජසභා ආඥාවක්‌ ද ඊට ඇතුළත්‌ වේ; “පවත්නා නීතිය” සහ “පවත්නා ලිඛිත නීතිය” යන්නෙන්‌, පිළිවෙලින්‌ ආණ්ඩුක්‍රම ව්‍යවස්ථාව ක්‍රියාත්මක වීම ආරම්භ වන තෙක්‌ බලපැවැත්‌ වූ ද, ආණ්ඩුක්‍රම ව්‍යවස්ථාව යටතේ ඉදිරියටත්‌ බලපවත්වන්නා වූ ද යම්කිසි නීතියක්‌ සහ ලිඛිත නීතියක්‌ අදහස්‌ වේ; “පළාත්‌ පාලන ආයතනය” යන්නෙන්‌, මහා නගර සභාවක්‌, නගර සභාවක්‌, සුළු නගර සභාවක්‌ හෙ ගම්‌ සභාවක්‌ අදහස්‌ වන අතර, ඒ යම්‌ සභාවක්‌ විසින්‌ ක්‍රියාත්මක කරන හා ඉටු කරන බලතලවලට, කාර්යවලට සහ කර්තවාවලට අනුරූප වන්නා වූ හෝ සමාන වන්නා වූ බලතල, කාර්ය සහ කර්තව්‍ය ක්‍රියාත්මක කිරීම හා ඉටු කිරීම සඳහා යම්කිසි නීතියකින්‌ හෝ නීතියක්‌ යටතේ හෙ ඇති කොට පිහිටුවන ලද කවර වූ හෝ අධිකාරයක්‌ ඊට ඇතුළත්‌ වේ; “පිළිගත්‌ දේශපාලන පක්ෂය” යන්නෙන්‌, පාර්ලිමේන්තුව විසින්‌ අන්‍යාකාර විධිවිධාන සලසනු ලැබුවහොත්‌ මිස, 1946 ලංකා පාර්ලිමේන්තු මැතිවරණ) රාජසභා ආඥාව යටතේ පිළිගත්‌ දේශපාලන පක්ෂයක

In [52]:
save_chunks_to_file(chunks, output_dir)