In [1]:
# Mount drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import os
from tqdm.notebook import tqdm
import numpy as np
from concurrent.futures import ThreadPoolExecutor, as_completed

In [3]:
base_dir = '/content/drive/MyDrive/LLM_Tasks/ChatBot/RAG Interface/Assets'
input_dir = f'{base_dir}/output_chunks'   # Directory where chunks will be saved
embedding_dir = f'{base_dir}/embeddings'

In [4]:
def load_chunks_from_file(input_dir):
    """Load all chunks from files in the specified directory."""
    chunks = []
    dirs = sorted(os.listdir(input_dir))

    for filename in tqdm(dirs, desc="Loading Chunks: ", total=len(dirs)):
        with open(f"{input_dir}/{filename}", 'r', encoding='utf-8') as file:
            chunks.append(file.read())
        print(f"Loded {filename}")

    return chunks

input_file = 'Sri Lanka Constitution-Sinhala.txt'      # Input file path

chunks = load_chunks_from_file(input_dir)

Loading Chunks:   0%|          | 0/1104 [00:00<?, ?it/s]

Loded chunk_00000.txt
Loded chunk_00001.txt
Loded chunk_00002.txt
Loded chunk_00003.txt
Loded chunk_00004.txt
Loded chunk_00005.txt
Loded chunk_00006.txt
Loded chunk_00007.txt
Loded chunk_00008.txt
Loded chunk_00009.txt
Loded chunk_00010.txt
Loded chunk_00011.txt
Loded chunk_00012.txt
Loded chunk_00013.txt
Loded chunk_00014.txt
Loded chunk_00015.txt
Loded chunk_00016.txt
Loded chunk_00017.txt
Loded chunk_00018.txt
Loded chunk_00019.txt
Loded chunk_00020.txt
Loded chunk_00021.txt
Loded chunk_00022.txt
Loded chunk_00023.txt
Loded chunk_00024.txt
Loded chunk_00025.txt
Loded chunk_00026.txt
Loded chunk_00027.txt
Loded chunk_00028.txt
Loded chunk_00029.txt
Loded chunk_00030.txt
Loded chunk_00031.txt
Loded chunk_00032.txt
Loded chunk_00033.txt
Loded chunk_00034.txt
Loded chunk_00035.txt
Loded chunk_00036.txt
Loded chunk_00037.txt
Loded chunk_00038.txt
Loded chunk_00039.txt
Loded chunk_00040.txt
Loded chunk_00041.txt
Loded chunk_00042.txt
Loded chunk_00043.txt
Loded chunk_00044.txt
Loded chun

In [5]:
print(chunks[0])

ශ්‍රී ලංකා ප්‍රජාතාන්ත්‍රික සමාජවාදී ජනරජයේ ආණ්ඩුක්‍රම ව්‍යවස්ථාව (2022 ඔක්තෝබර් මස 31 වැනි දින දක්වා සංශෝධිතයි) (විසිඑක්වන සංශෝධනය දක්වා සංශෝධන අන්තර්ගත කරන ලද) ප්‍රතිශෝධිත මුද්‍රණය 2023 පාර්ලිමේන්තු මහ ලේකම් කාර්යාලය මගින් ප්‍රකාශිතයි.


In [6]:
!pip install sentence-transformers



In [7]:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('stsb-xlm-r-multilingual')

  from tqdm.autonotebook import tqdm, trange


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/3.73k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/709 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/505 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]



1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [8]:
def embed_and_save_chunks(chunks, model, embedding_dir):
    """Embed each chunk and save the embeddings as separate files."""
    if not os.path.exists(embedding_dir):
        os.makedirs(embedding_dir)

    for idx, chunk in tqdm(enumerate(chunks), desc="Embedding Chunks: ", total=len(chunks)):
        # Generate embedding
        embedding = model.encode(chunk)

        idx_str = str(idx)
        leading_zeros = '0' * (5 - len(idx_str))
        suffix = leading_zeros + idx_str
        # Save embedding as a .npy file for fast loading
        np.save(f"{embedding_dir}/embedding_{suffix}.npy", embedding)
        print(f"Saved embedding_{suffix}.npy")

embed_and_save_chunks(chunks, model, embedding_dir)

Embedding Chunks:   0%|          | 0/1104 [00:00<?, ?it/s]

Saved embedding_00000.npy
Saved embedding_00001.npy
Saved embedding_00002.npy
Saved embedding_00003.npy
Saved embedding_00004.npy
Saved embedding_00005.npy
Saved embedding_00006.npy
Saved embedding_00007.npy
Saved embedding_00008.npy
Saved embedding_00009.npy
Saved embedding_00010.npy
Saved embedding_00011.npy
Saved embedding_00012.npy
Saved embedding_00013.npy
Saved embedding_00014.npy
Saved embedding_00015.npy
Saved embedding_00016.npy
Saved embedding_00017.npy
Saved embedding_00018.npy
Saved embedding_00019.npy
Saved embedding_00020.npy
Saved embedding_00021.npy
Saved embedding_00022.npy
Saved embedding_00023.npy
Saved embedding_00024.npy
Saved embedding_00025.npy
Saved embedding_00026.npy
Saved embedding_00027.npy
Saved embedding_00028.npy
Saved embedding_00029.npy
Saved embedding_00030.npy
Saved embedding_00031.npy
Saved embedding_00032.npy
Saved embedding_00033.npy
Saved embedding_00034.npy
Saved embedding_00035.npy
Saved embedding_00036.npy
Saved embedding_00037.npy
Saved embedd

In [9]:
def load_embeddings(embedding_dir):
    """Load all embeddings from .npy files in the specified directory with a progress bar."""
    embeddings = []

    # Use tqdm to add a progress bar
    for filename in tqdm(sorted(os.listdir(embedding_dir)), desc="Loading embeddings"):
        embedding = np.load(f"{embedding_dir}/{filename}")
        embeddings.append(embedding)

        print(f"Loaded {filename}")

    return embeddings

embeddings = load_embeddings(embedding_dir)

Loading embeddings:   0%|          | 0/1104 [00:00<?, ?it/s]

Loaded embedding_00000.npy
Loaded embedding_00001.npy
Loaded embedding_00002.npy
Loaded embedding_00003.npy
Loaded embedding_00004.npy
Loaded embedding_00005.npy
Loaded embedding_00006.npy
Loaded embedding_00007.npy
Loaded embedding_00008.npy
Loaded embedding_00009.npy
Loaded embedding_00010.npy
Loaded embedding_00011.npy
Loaded embedding_00012.npy
Loaded embedding_00013.npy
Loaded embedding_00014.npy
Loaded embedding_00015.npy
Loaded embedding_00016.npy
Loaded embedding_00017.npy
Loaded embedding_00018.npy
Loaded embedding_00019.npy
Loaded embedding_00020.npy
Loaded embedding_00021.npy
Loaded embedding_00022.npy
Loaded embedding_00023.npy
Loaded embedding_00024.npy
Loaded embedding_00025.npy
Loaded embedding_00026.npy
Loaded embedding_00027.npy
Loaded embedding_00028.npy
Loaded embedding_00029.npy
Loaded embedding_00030.npy
Loaded embedding_00031.npy
Loaded embedding_00032.npy
Loaded embedding_00033.npy
Loaded embedding_00034.npy
Loaded embedding_00035.npy
Loaded embedding_00036.npy
L

In [10]:
print(f"chunks: {len(chunks)}; embeddings: {len(embeddings)}")

chunks: 1104; embeddings: 1104


In [11]:
!pip install faiss-cpu

Collecting faiss-cpu
  Downloading faiss_cpu-1.9.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.4 kB)
Downloading faiss_cpu-1.9.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (27.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.5/27.5 MB[0m [31m38.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.9.0


In [12]:
embeddings = np.array(embeddings)
embedding_dim = embeddings.shape[1]

In [13]:
import faiss

In [14]:
index = faiss.IndexFlatL2(embedding_dim)
index.add(embeddings)
index.ntotal

1104

In [15]:
faiss.write_index(index, f"{base_dir}/index_file.faiss")

In [16]:
index = faiss.read_index(f"{base_dir}/index_file.faiss")

In [33]:
k = 4
xq = model.encode(["ශ්‍රී ලංකාවේ මූලික මානව හිමිකම් මොනවාද?"])

In [34]:
D, I = index.search(xq, 10)  # search
print(I)

[[ 34  35 871  43  41  36  11  74  21  40]]


In [35]:
for chunk in [f'{i}: {D[0][idx]} {chunks[i]}' for idx, i in enumerate(I[0])]:
    print(chunk)

34: 105.62255096435547 බුද්ධාගම: (1) 13 වන ව්‍යවස්ථාවේ (5) වන සහ (6) වන අනුව්‍යවස්ථාවලින් ප්‍රකාශ කොට පිළිගෙන ඇති මූලික අයිතිවාසිකම් භුක්ති විඳිය හැක්කේ ද, ක්‍රියාත්මක විය හැක්කේ ද, රාජ්‍ය ආරක්ෂාව තහවුරු කිරීම පිණිස නීතියෙන් නියම කරනු ලැබිය හැකි සීමා කිරීම්වලට පමණක් යටත්ව ය.
35: 110.72984313964844 බුද්ධාගම: මෙම අනුව්‍යවස්ථාවේ කාර්ය සඳහා "නීතිය" යන්නට මහජන ආරක්ෂාව පිළිබඳව තත් කාලයේ අදාළ වන නීතිය යටතේ සාදන ලද නියෝග ද ඇතුළත් වන්නේ ය.
871: 112.91236877441406 පොදු විධිවිධාන: 12) මේ ව්‍යවස්ථාවේ “ප්‍රජා අයිතිවාසිකම්‌” යන්නෙන්‌“ අ) විදේශ ගමන්‌ බලපත්‍රයක්‌ ලබා ගැනීමේ අයිතිවාසිකම; ආ) රජයේ යම්‌ විභාගයකට පෙනී සිටීමේ අයිතිවාසිකම; ඇ) යම්‌ නිශ්චල දේපළක්‌ අයිතිව සිටීමේ අයිතිවාසිකම; ඈ) යම්‌ ලිඛිත නීතියක්‌ මගින්‌ හෝ යටතේ හභෝ වූ බලපත්‍රයක්‌, ලියාපදිංචි කිරීමක්‌ නැතහොත්‌ වෙනත්‌ බලය දීමක්‌ අවශ්‍ය වන යම්‌ රැකියාවක හෝ වෘත්තියක යෙදීමේ අයිතිවාසිකම අදහස්‌ වේ.] 158.
43: 115.38203430175781 බුද්ධාගම: (8) 12 වන ව්‍යවස්ථාවේ (1) වන අනුව්‍යවස්ථාවෙන්, 13 වන ව්‍යවස්ථාවෙන් සහ 14 වන ව්‍යවස්ථාවෙන් ප්‍රකාශ කොට පිළිගෙන ඇති ම