<div dir="rtl">
<font face="XB Zar" size=6>
<h1>مقدمه</h1>
</font>
<font face="XB Zar" size=3>
این تمرین به پیش‌پردازش متن، اصلاح پرسمان، ساخت نمایه، بازیابی boolean و فشرده‌سازی نمایه می‌پردازد.
<br>
دیتاستی که در اختبار شما قرار گرفته است شامل چکیده مقالات و id آن‌ها می‌باشد.
</font>
</div>

In [271]:
import nltk
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.corpus import stopwords
from nltk.metrics import edit_distance
import re
import json
import pandas as pd
from bitarray import bitarray
import os

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

[nltk_data] Downloading package punkt to /home/mhdi/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/mhdi/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /home/mhdi/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

<div dir='rtl'>
<h1> آماده‌سازی دیتاست</h1>
<p>
دیتاستی که در اختیار شما قرار گرفته است، دارای سطر‌هایی می‌باشد که دارای مقدار NaN می‌باشد. برای اینکه بتوانید با این دیتاست کار کنید، باید ابتدا این سطر‌ها را حذف کنید.
</p>
</div>

In [272]:
data_path = "./data/data.csv"
df = pd.read_csv(data_path).dropna()

In [273]:
df.tail(20)

Unnamed: 0,paperId,abstract
6157,6158,The level of abstraction at which application ...
6158,6159,This paper introduces a novel framework for ex...
6159,6160,Detection of control-flow errors at the softwa...
6160,6161,Recently demonstrated side-channel attacks on ...
6161,6162,Modern Graphics Processing Units (GPUs) widely...
6162,6163,The three dimensional discrete cosine transfor...
6163,6164,This book provides a unified treatment of Flip...
6164,6165,"Smaller feature sizes, reduced voltage levels,..."
6165,6166,"In this paper, we propose a standard micromagn..."
6167,6168,"""Emerging safety-critical real-time control sy..."


<div dir='rtl'>
<h1> Preprocessing (پیش پردازش)</h1>
<p>
بسیاری از داده ‌ها دارای مقادیر زیادی اطلاعات اضافه هستند که در پردازش ها به آن نیازی نیست و یا باعث ایجاد خطا میشوند.
دراین بخش داده را از دیتابیس مورد نظر خوانده
  و سپس پیش پردازش های مورد نیاز را اعمال کنید تا متن پیش پردازش شده را تولید کنید.
پس از اتمام پیش پردازش سایر عملیات گفته شده در ادامه را بر
روی متن ایجاد شده انجام میدهیم.


کلاس
"Preprocessor"
عملیات پیش پردازش را انجام میدهد. نام توابع عمل های مورد نظر نوشته شده است و که با توجه به آن باید کد مخصوص هر یک نوشته شود. تابع
"preprocessor"
تابع اصلی این کلاس است که متن بدون پیش پردازش را گرفته و پردازش های مورد نظر را در آن اعمال میکند و متن مورد نظر را ایجاد میکند.

در این بخش میتوانید از کتابخانه های آماده مانند
<a href="https://www.nltk.org/">NLTK</a>
و
<a href="https://spacy.io/">SpaCy</a>
استفاده کنید.
</p>
</div>

In [274]:
class Preprocessor:

    def __init__(self, stopwords):
        self.stopwords = stopwords
        self.ps = PorterStemmer()
        self.lem = WordNetLemmatizer()


    def preprocess(self, text, is_query=False):
        text = self.remove_links(text)
        text = self.remove_punctuations(text)
        tokens = self.word_tokenize(text)
        tokens = self.normalize(tokens)
        if not is_query:
            tokens = self.remove_stopwords(tokens)
        return tokens

    def normalize(self, tokens):
        for i, token in enumerate(tokens):
            token = token.lower()
            token = self.ps.stem(token)
            tokens[i] = self.lem.lemmatize(token)
        return tokens
    
    def remove_links(self, text):
        text = re.sub('http[s]?://\S+', '', text)        
        return text

    def remove_punctuations(self, text):
        regular_expression = r'[^\w\s]'
        return re.sub(regular_expression, ' ', text.lower())

    def word_tokenize(self, text):
        tokenized_text = nltk.tokenize.word_tokenize(text)
        return tokenized_text

    def remove_stopwords(self, words):
        return [word for word in words if word not in self.stopwords]

preprocessor = Preprocessor(stopwords=stopwords.words('english'))

<div dir='rtl'>
<h1>ساخت نمایه</h1>
<p>
شما در حال توسعه یک موتور جستجوی سریع هستید که از نمایه سازی پویا پشتیبانی می کند. موتور جستجو اسناد جدید را در قالب دسته‌هایی کوچک‌تر   
(batch) هندل می‌کند. در پایان هر روز، این دسته‌ها با استفاده از استراتژی ادغام لگاریتمی ادغام می شوند. هدف به حداقل رساندن هزینه ادغام است.  
مراحلی که باید برای حل این مسئله انجام دهید عبارتند از:
<li>توکن‌بندی و نرمال‌سازی متن از اسناد.</li>
    <li>ایجاد یک index مرتب‌ شده برای هر دسته از اسناد.</li>
    <li>ادغام بهینه چند دسته از indexها با استفاده از یک استراتژی ادغام لگاریتمی.</li>
وظیفه شما این است که بخش‌های خالی <strong>(مشخص شده به‌صورت {TODO})</strong> کد را پر کنید تا موتور جستجو عملی شود.
</p>
</div>

<div dir='rtl'>
<h3> دستورات </h3>
<li>متد <code>sort_based_index_construction</code> از <code>DocumentBatch</code>:</li>
<p>هر سند را با استفاده از تابع‌هایی که در قسمت قبل نوشتید، عمل preprocessing را روی آن انجام دهید.</p>
<p>برای هر توکن، شناسه سند را به فهرست معکوس (inverted index) برای آن توکن اضافه کنید.</p>
<li>متد <code>add_batch</code> در <code>FastSearchEngine</code></li>
<p>فهرست معکوس برای دسته (batch) را ایجاد کنید.</p>
<p>این دسته را به فهرست‌های روزانه اضافه کنید.</p>
<li>متد <code>end_of_day_merge</code> از <code>FastSearchEngine:</code></li>
<p>استراتژی ادغام لگاریتمی را پیاده‌سازی کنید تا به صورت بهینه فهرست‌های روزانه را با فهرست اصلی ادغام کنید.</p>

In [275]:
from collections import defaultdict, deque

class DocumentBatch:
    def __init__(self, docs: dict):
        self.documents = docs
        self.index = defaultdict(set)

    def sort_based_index_construction(self):
        for doc_id, doc in self.documents.items():
            tokens = preprocessor.preprocess(doc)
            for token in tokens:
                self.index[token].add(doc_id)
            
class FastSearchEngine:
    def __init__(self):
        self.main_index = defaultdict(set)
        self.daily_indices = deque()

    def add_batch(self, batch: DocumentBatch):
        batch.sort_based_index_construction()
        self.daily_indices.append(batch.index)
    
    def merge(self, first, second):
        merged_index = defaultdict(set)
        for token in first.keys() | second.keys():
            merged_index[token] = first[token] | second[token]
        return merged_index

    def end_of_day_logarithmic_merge(self):
        while len(self.daily_indices) > 1:
            first = self.daily_indices.popleft()
            second = self.daily_indices.popleft()
            self.daily_indices.append(self.merge(first, second))

        index = self.daily_indices.popleft()
        for token in index:
            main_index_set = self.main_index[token]

            union_set = main_index_set.union(index[token])
            self.main_index[token] = union_set       


In [276]:
# Divide the documents into groups to distribute them between servers. For example, let's consider two servers here.
# Divide the documents of each server into batches, for instance, five batches.
# Create an index for each batch and for each server, then merge them into the main index at the end of the day.
# Repeat this process until all documents are processed.

search_engine = FastSearchEngine()
size = 100
for i in range(size // 4):
    server_a_docs = {int(df.iloc[j]['paperId']): df.iloc[j]['abstract'] for j in range(2 * i, 2 * i + 2)}
    server_b_docs = {int(df.iloc[j]['paperId']): df.iloc[j]['abstract'] for j in range(size // 2 + 2 * i, size // 2 + 2 * i + 2)}
    
    server_a_batch = DocumentBatch(server_a_docs)
    server_b_batch = DocumentBatch(server_b_docs)

    search_engine.add_batch(server_a_batch)
    search_engine.add_batch(server_b_batch)

    search_engine.end_of_day_logarithmic_merge()

print(search_engine.main_index)

defaultdict(<class 'set'>, {'inform': {1, 65, 4, 5, 71, 73, 12, 79, 18, 84, 86, 24, 29, 32, 96, 38, 42, 55}, 'domain': {40, 98, 51}, 'grow': {52, 87}, 'irregular': {51}, 'becom': {1, 67, 11, 45, 78, 16, 17, 85, 87, 30}, 'previou': {1, 18, 83, 7, 41}, 'rewrit': {26, 52}, '62': {2}, 'two': {6, 7, 15, 80, 21, 25, 28, 31, 36, 38, 39, 51, 52, 55, 56, 57, 59}, 'recent': {64, 1, 89, 96, 36, 100, 71, 8, 40, 41, 83, 54, 57, 58}, 'ever': {67, 52, 85, 15}, 'demand': {1, 65, 67, 52, 84, 15, 14, 63}, 'number': {64, 1, 3, 67, 7, 11, 14, 15, 78, 17, 79, 83, 21, 87, 26, 91, 95, 96, 39, 50, 53}, 'base': {1, 4, 6, 7, 9, 12, 13, 15, 16, 19, 23, 24, 26, 27, 30, 31, 32, 38, 39, 40, 42, 43, 44, 47, 50, 55, 56, 59, 62, 64, 68, 69, 71, 76, 80, 81, 84, 86, 87, 88, 91, 93, 95, 96, 99, 101, 102}, 'multipl': {2, 3, 100, 101, 39, 44, 15, 24, 89, 25}, 'chip': {96, 2, 3, 68, 102, 7, 16, 80, 49, 50, 20, 53, 84, 56, 24, 88, 62, 95}, 'analysi': {32, 37, 39, 41, 10, 44, 15, 47, 49, 52, 22, 86, 56, 89, 91, 60}, 'link': {

<div dir='rtl'>
<h1>Spell Correction (اصلاح پرسمان)</h1>
<p>
در بسیاری از اوقات پرسمان دادە شده توسط کاربر، ممکن است ناقص یا دارای غلط املایی باشد. برای رفع این مشکل در بسیاری از موتورهای جستجو راە حل هایی تدارک دیده شدە است. ابتدا این راە حل ها را شرح دهید و بیان کنید که یک موتور جست و جو بر چه اساسی پرسمان های اصلاح شده را به کاربر نمایش می دهد.</p>
</div>

<div dir='rtl'>
<h2>پاسخ سوال بالا</h2>
دو نوع اصلاح پرسمان وجود دارد. یکی  isolated word و دیگری contest-sensetive.

حال ما در اینجا فقط از isolated word استفاده می‌کنیم. به این صورت که به ازای تک تک کلمات چک می‌کنیم که اگر آن کلمه در index وجود نداشته یا تعداد بسیار کمی وجود داشت با استفاده از روش k-gram لغات نزدیک به آن کلمه که دارای تعدادی بیشتری gram از حدی که مشخص کرده ایم داشت آن کلمات را به عنوان کاندیدا انتخاب می‌کنیم و سپس با روش edit distance آن کلماتی که ED کمتری داشتند را به کاربر معرفی می‌کنیم.

<div dir='rtl'>
<p>
    در این بخش، ابتدا با استفاده از روش bigram لغات نزدیک به لغات اصلی را پیدا کنید و در آخر با معیار minimum edit distance لغتی جایگزین را برای لغت مورد نظر پیدا کنید.  سپس برای هر پرسمان ورودی کاربر، در صورت اشتباه بودن آن، آن را تصحیح کنید. برای stopword‌ها نیز می‌توانید از لیست موجود که در قسمت‌های قبل ساختید استفاده کنید.
</p>
</div>

In [277]:
from typing import List


def create_bigram_word(word):
    if len(word) == 0:
        return []

    bigrams = ['$' + word[0]]
    for i in range(len(word)-1):
        bigrams.append(word[i:i+2])
    bigrams.append(word[-1] + '$')
    return bigrams

def create_bigram_index(words: List[str]):
    """
    Creates a bigram index for the spell correction

    Returns
    -------
    dict
        A dictionary of bigrams and their occurence
    """
    bigrams = {}
    for word in words:
        word_bigram = create_bigram_word(word)
        for bigram in word_bigram:
            if bigram not in bigrams:
                bigrams[bigram] = []
            bigrams[bigram].append(word)

    return bigrams

bigram_index = create_bigram_index(search_engine.main_index.keys())
print(bigram_index)

{'$i': ['inform', 'irregular', 'insignific', 'intervent', 'ideal', 'impos', 'illustr', 'import', 'integr', 'investig', 'impact', 'instrument', 'interest', 'invoc', 'increas', 'inject', 'involv', 'identif', 'implement', 'iter', 'incur', 'impli', 'imag', 'invalid', 'interfac', 'ii', 'issu', 'incorpor', 'initi', 'interconnect', 'input', 'includ', 'intel', 'instruct', 'illumin', 'inlin', 'independ', 'improv', 'idl', 'importantli', 'iso', 'identifi', 'immens', 'interact', 'introduc', 'intern', 'intens', 'insight', 'ident', 'interv', 'intellig', 'io', 'inde', 'infrastructur', 'ip', 'inexor', 'innnit', 'invent', 'inter', 'inspir', 'ieee', 'introduct', 'intrins', 'induct', 'intract', 'inductor', 'ise', 'imagenet', 'ineffici', 'iii', 'invers', 'invert', 'insid', 'ibm', 'intermedi', 'inher', 'internet', 'iot', 'inabl', 'ignal', 'individu', 'intend', 'increasingli', 'iiot', 'industri', 'infinit', 'instead', 'interfer', 'iscas89', 'imposs', 'idea', 'inconsist', 'inherit', 'indispens', 'induc', 'im

In [278]:
def spell_correction(query, bigram_index):
  """
    Correct the give query text, if it is misspelled

    Paramters
    ---------
    query: str
        The query text

    Returns
    ---------
    corrected_query: str
        The corrected text
    """
  query = preprocessor.preprocess(query, is_query=True)
  corrected_query = ""
  for word in query:
    if word in search_engine.main_index or word in preprocessor.stopwords:
      corrected_query += word + " "
      continue

    bigram_word = create_bigram_index([word])
    min_diff = 1000
    max_similarity_word = ""
    for bigram in bigram_word:
      if bigram in bigram_index:
        for word_index in bigram_index[bigram]:
          diff = edit_distance(word, word_index)
          if diff < min_diff:
            min_diff = diff
            max_similarity_word = word_index

    corrected_query += max_similarity_word + " "
  

  return corrected_query

# Example usage
user_query = "the most populr progarmming lanuage"
spell_correction(user_query, bigram_index)

'the most popular program languag '

<div dir='rtl'>
<h1> Boolean Retrieval </h1>
<p>
 در این قسمت هدف طراحی یک سامانەی بازیابی اطلاعات boolean می‌باشد. 

برای این کار ابتدا پیش پردازش‌های مورد نیاز را مانند بخش قبل بر روی متون انجام دهید و در مرحله بعد ماتریس doc−term را ایجاد کنید. در نهایت کلاس BooleanRetrievalModel را تکمیل کنید که شامل توابع preprocess_query و find_siⅿiⅼar_docs است که توضیحات هرکدام در قسمت کد موجود است. هدف نهایی این است که هرگاه کوئری به تابع find_siⅿiⅼar_docs از کلاس BooleanRetrievalModel داده شود، شناسه k تا از داک‌هایی که شامل کوئری داده شده هستند برگردانده شوند.
</p>
</div>

In [279]:
class Index:
    def __init__(self, docs: pd.DataFrame):
        self.docs = docs
        self.index = self.create_index()
        self.idf = {}

    def create_index(self):
        index = {}
        for id, doc in self.docs.iterrows():
            doc_id = doc['paperId']
            tokens = preprocessor.preprocess(doc['abstract'])
            for token in tokens:
                if token not in index:
                    index[token] = []
                index[token].append(doc_id)
        return index

In [280]:
class BooleanRetrievalModel:
    def __init__(self, doc_term_matrix):
        """    
        Set doc_term_matrix and initialize the model.
        """

        self.index = doc_term_matrix
        self.bigram_index = create_bigram_index(self.index)
    
    def preprocess_query(self, query):
        """
        Do necessary preprocessing here before using the query to find k similar docs.
        Use methods from Preprocess section.
        """
        correct_query = spell_correction(query, self.bigram_index)
        query_tokens = preprocessor.word_tokenize(correct_query)
        query_tokens = preprocessor.remove_stopwords(query_tokens)
        return query_tokens
    
    def find_siⅿiⅼar_docs(self, query, k=20):
        processed_query = self.preprocess_query(query)
        similiar_docs = {}

        for term in processed_query:
            if term not in self.index.keys():
                continue
            for doc in self.index[term]:
                if doc not in similiar_docs:
                    similiar_docs[doc] = 0
                similiar_docs[doc] += self.index[term].count(doc)
            
        return sorted(similiar_docs.items(),  key=lambda x:x[1], reverse=True) [:20]

<div dir='rtl'>
در این قسمت ۳ کوئری مختلف به دلخواه خود بزنید و لیست داکیومنت‌های مرتبط با آن‌ها را برگردانید. برای کوتاه‌تر شدن لیست جواب در هر کوئری می‌توانید از عملگر‌های منطقی مانند AND استفاده کنید.
</div>

In [281]:
data_size = 6170
doc_index = Index(df.iloc[:data_size,:])
model = BooleanRetrievalModel(doc_index.index)

In [282]:
query_1 = "Wht is the most populr progarmming lanuage?"
query_2 = "how many language dose exist?"
query_3 = "how can i sort dictionary by value in python"

print(list(model.find_similar_docs(query_1)))
print(list(model.find_similar_docs(query_2)))
print(list(model.find_similar_docs(query_3)))

[(5451, 289), (2286, 225), (124, 144), (5570, 144), (6134, 64), (3784, 52), (3692, 50), (5173, 40), (1709, 36), (364, 36), (552, 36), (1585, 29), (4372, 29), (2736, 25), (2872, 25), (3498, 25), (5702, 25), (2584, 20), (1113, 17), (179, 16)]
[(5451, 290), (2286, 225), (5570, 148), (124, 145), (3165, 41), (3110, 37), (3784, 37), (364, 36), (552, 36), (1585, 26), (4372, 26), (826, 25), (1335, 25), (3498, 25), (5702, 25), (781, 25), (4709, 25), (354, 20), (5757, 20), (1472, 17)]
[(1035, 324), (2602, 225), (4028, 225), (3357, 197), (1945, 196), (5400, 196), (3455, 169), (396, 122), (4561, 121), (4415, 100), (5900, 100), (882, 81), (23, 81), (1552, 64), (1707, 64), (3333, 64), (3761, 64), (1821, 50), (1098, 49), (5022, 49)]


<div dir='rtl'>

# ذخیره و فشرده‌سازی نمایه
در این بخش، در ابتدا دو الگوریتم فشرده‌سازی gamma code و variable byte را پیاده‌سازی کنید.  
سپس نمایه را به سه شکل زیر ذخیره کنید:
- نمایه‌ی اصلی بدون فشرده‌سازی
- نمایه‌ای که با استفاده از gamma code فشرده شده است.
- نمایه‌ای که با استفاده از variable byte فشرده شده است.

در ادامه اندازه‌ی هر کدام از سه فایل بالا را با استفاده از یک تابع به دست آورده و چاپ کنید.  
همچنین باید تابع‌هایی برای decompress کردن نمایه‌های فشرده‌شده پیاده‌سازی کنید.

**نکته‌ی ۱:** تمامی نمایه‌ها را نیز در کوئرا ارسال کنید. اگر حجم‌شان بیش‌تر از محدودیت کوئرا است، آن‌ها را در یک مکان دیگر آپلود کرده و لینک آن را در این فایل قرار دهید.  
**نکته‌ی ۲:** توابع زیر صرفاً پیشنهادی هستند و هر گونه تغییر تا زمانی که کاربردهای مورد نظر پیاده شود، آزاد است.
</div>

In [283]:
def change_base_number(number, base=2):
    if number == 0:
        return [0]
    digits = []
    while number:
        digits.append(int(number % base))
        number //= base
    return digits[::-1]

def byte_to_binary(data):
    return ''.join(format(x, '08b') for x in data)

def convert_gap_to_real_numbers(gaps):
    last = 0
    result = []
    for gap in gaps:
        last += gap
        result.append(last)
    return result


In [284]:
def gamma_encode(number: int):
    binary = change_base_number(number)
    offset = binary[1:]
    unary = len(offset)
    return [1] * unary + [0] + offset

def gamma_compression(docs, path):
    with open(path, 'wb') as f:
        for word, posting in docs.items():
            previous_docId = 0
            sorted_posting = sorted(posting)
            
            f.write(len(word).to_bytes(4, 'big') )
            f.write(bytes(word, encoding='UTF-8'))
            line = []
            for docId in sorted_posting:
                line += gamma_encode(docId - previous_docId)
                previous_docId = docId
            line += [1 for _ in range(len(line) % 8)]
            f.write((len(line)//8).to_bytes(4, 'big') )
            arr = bitarray(line)
            f.write(arr.tobytes())
            f.write(b'\0')

        f.write(b'\0')


In [286]:
def gamma_decoder_number(encoded: list[str]):
    return int('1'+''.join(encoded), 2)

def gamma_decoder(encoded):
    result = []
    start = 0
    i = 0
    while i < len(encoded):
        if encoded[i] == '0':
            result.append(gamma_decoder_number(encoded[i+1:i + (i-start) + 1]))
            start = i = i + (i-start)
        i += 1
    return result

def gamma_decompression(path):
    with open(path, 'rb') as f:
        data = f.read()
    
    index = {}
    i = 0
    while True:
        size = int.from_bytes(data[i:i+4], 'big')
        i += 4
        word = data[i:i+size].decode(encoding='UTF-8')
        i += size
        posting_size = int.from_bytes(data[i:i+4], 'big')
        i += 4
        posting = byte_to_binary(data[i:i+posting_size])
        index[word] = gamma_decoder(posting)
        i += posting_size + 1

        if i > len(data):
            break

    return index


In [287]:
def vb_encode_number(num, block_size):
    result = change_base_number(num, 2 ** (block_size - 1))
    result[-1] += 128
    return bytes(result)

def variable_byte_compression(docs, path, block_size=8):
    with open(path, 'wb') as f:
        for word, posting in docs.items():
            previous_docId = 0
            sorted_posting = sorted(posting)
            f.write(bytes(word, encoding='UTF-8'))
            f.write(b'\0')
            for docId in sorted_posting:
                f.write(vb_encode_number(docId - previous_docId, block_size))
                previous_docId = docId
            f.write(b'\0')

        f.write(b'\0')

In [288]:
def variable_byte_decoder_number(encoded, block_size, is_bit=True):
    bits = encoded
    if not is_bit:
        bits = byte_to_binary(encoded)
    result = ''.join([bits[i + 1:i + block_size] for i in range(0, len(bits), block_size)])
    return int(result, 2)

def variable_byte_decoder(encoded, block_size=8):
    result = []
    start = 0
    bits = byte_to_binary(encoded)
    byte_list = list(encoded)
    for i in range(len(byte_list)):
        if byte_list[i] >= 128:
            result.append(variable_byte_decoder_number(bits[start:(i + 1) * block_size], block_size))
            start = (i + 1) * block_size
    return result


def variable_byte_decompression(path, block_size=8):
    with open(path, 'rb') as f:
        data = f.read()
    
    index = {}
    i = 0
    while True:
        word = ''
        while data[i] != 0:
            word += chr(data[i])
            i += 1
        i += 1
        index[word] = []
        start = i
        while True:
            if data[i] == 0:
                positions = variable_byte_decoder(bytes(data[start:i]), block_size)
                index[word] = convert_gap_to_real_numbers(positions)
                break
            i += 1
        i += 1
        if data[i] == 0 or i > len(data):
            break

    return index

In [289]:
NO_COMRESS = "no-compression"
GAMMA = "gamma-code"
VB = "varable-byte"

def save_index(index, path, method):
    if method == NO_COMRESS:
        
        file = open(path, 'w')
        output = json.dump(index, file)
    if method == GAMMA:
        gamma_compression(index, path)
    if method == VB:
        variable_byte_compression(index, path)

def load_index(path, method):
    if method == NO_COMRESS:
        file  = open(path, 'r')
        return json.load(file)
    if method == GAMMA:
        return gamma_decompression(path)
    if method == VB:
        return variable_byte_decompression(path)

def get_size(file_path):
    file_stats = os.stat(file_path)
    print(f'File Size {file_path} in MegaBytes is {file_stats.st_size / (1024 * 1024)}')

In [290]:
save_index(index=doc_index.index, path='./indexes/no-comptassion', method=NO_COMRESS)
save_index(index=doc_index.index, path='./indexes/gamma', method=GAMMA)
save_index(index=doc_index.index, path='./indexes/vb', method=VB)

get_size('./indexes/no-comptassion')
get_size('./indexes/gamma')
get_size('./indexes/vb')

File Size ./indexes/no-comptassion in MegaBytes is 4.172425270080566
File Size ./indexes/gamma in MegaBytes is 0.7696285247802734
File Size ./indexes/vb in MegaBytes is 0.8842315673828125
