<div dir="rtl">
<font face="XB Zar" size=6>
<h1>مقدمه</h1>
</font>
<font face="XB Zar" size=3>
این تمرین به پیش‌پردازش متن، اصلاح پرسمان، ساخت نمایه، بازیابی boolean و فشرده‌سازی نمایه می‌پردازد.
<br>
دیتاستی که در اختبار شما قرار گرفته است شامل چکیده مقالات و id آن‌ها می‌باشد.
</font>
</div>

In [1]:
import nltk
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
import re


<div dir='rtl'>
<h1> آماده‌سازی دیتاست</h1>
<p>
دیتاستی که در اختیار شما قرار گرفته است، دارای سطر‌هایی می‌باشد که دارای مقدار NaN می‌باشد. برای اینکه بتوانید با این دیتاست کار کنید، باید ابتدا این سطر‌ها را حذف کنید.
</p>
</div>

In [None]:
# load the dataset and remove rows with missing values

<div dir='rtl'>
<h1> Preprocessing (پیش پردازش)</h1>
<p>
بسیاری از داده ‌ها دارای مقادیر زیادی اطلاعات اضافه هستند که در پردازش ها به آن نیازی نیست و یا باعث ایجاد خطا میشوند.
دراین بخش داده را از دیتابیس مورد نظر خوانده
  و سپس پیش پردازش های مورد نیاز را اعمال کنید تا متن پیش پردازش شده را تولید کنید.
پس از اتمام پیش پردازش سایر عملیات گفته شده در ادامه را بر
روی متن ایجاد شده انجام میدهیم.


کلاس
"Preprocessor"
عملیات پیش پردازش را انجام میدهد. نام توابع عمل های مورد نظر نوشته شده است و که با توجه به آن باید کد مخصوص هر یک نوشته شود. تابع
"preprocessor"
تابع اصلی این کلاس است که متن بدون پیش پردازش را گرفته و پردازش های مورد نظر را در آن اعمال میکند و متن مورد نظر را ایجاد میکند.

در این بخش میتوانید از کتابخانه های آماده مانند
<a href="https://www.nltk.org/">NLTK</a>
و
<a href="https://spacy.io/">SpaCy</a>
استفاده کنید.
</p>
</div>

In [None]:

class Preprocessor:

    def __init__(self, stopwords_path):
        self.stopwords = []
        self.ps = PorterStemmer()


    def preprocess(self, text):
        text = self.remove_links(text)
        text = self.remove_punctuations(text)
        tokens = self.word_tokenize(text)
        tokens = self.normalize(tokens)
        tokems = self.remove_stopwords(tokens)
        return

    def normalize(self, tokens):
        tokens = [token.lower for token in tokens]
        tokens = self.ps.stem(tokens)
        return tokens
    
    def remove_links(self, text):
        text = re.sub('http[s]?://\S+', '', text)        
        return text

    def remove_punctuations(self, text):
        text = ''.join(filter(lambda x: x.isalpha() or x.isdigit() or x.isspace(), text))
        return text

    def word_tokenize(self, text):
        tokenized_text = word_tokenize(text)
        return tokenized_text

    def remove_stopwords(self, words):
        return [word for word in words if word not in self.stopwords]


<div dir='rtl'>
<h1>ساخت نمایه</h1>
<p>
شما در حال توسعه یک موتور جستجوی سریع هستید که از نمایه سازی پویا پشتیبانی می کند. موتور جستجو اسناد جدید را در قالب دسته‌هایی کوچک‌تر   
(batch) هندل می‌کند. در پایان هر روز، این دسته‌ها با استفاده از استراتژی ادغام لگاریتمی ادغام می شوند. هدف به حداقل رساندن هزینه ادغام است.  
مراحلی که باید برای حل این مسئله انجام دهید عبارتند از:
<li>توکن‌بندی و نرمال‌سازی متن از اسناد.</li>
    <li>ایجاد یک index مرتب‌ شده برای هر دسته از اسناد.</li>
    <li>ادغام بهینه چند دسته از indexها با استفاده از یک استراتژی ادغام لگاریتمی.</li>
وظیفه شما این است که بخش‌های خالی <strong>(مشخص شده به‌صورت {TODO})</strong> کد را پر کنید تا موتور جستجو عملی شود.
</p>
</div>

<div dir='rtl'>
<h3> دستورات </h3>
<li>متد <code>sort_based_index_construction</code> از <code>DocumentBatch</code>:</li>
<p>هر سند را با استفاده از تابع‌هایی که در قسمت قبل نوشتید، عمل preprocessing را روی آن انجام دهید.</p>
<p>برای هر توکن، شناسه سند را به فهرست معکوس (inverted index) برای آن توکن اضافه کنید.</p>
<li>متد <code>add_batch</code> در <code>FastSearchEngine</code></li>
<p>فهرست معکوس برای دسته (batch) را ایجاد کنید.</p>
<p>این دسته را به فهرست‌های روزانه اضافه کنید.</p>
<li>متد <code>end_of_day_merge</code> از <code>FastSearchEngine:</code></li>
<p>استراتژی ادغام لگاریتمی را پیاده‌سازی کنید تا به صورت بهینه فهرست‌های روزانه را با فهرست اصلی ادغام کنید.</p>

In [None]:
from collections import defaultdict, deque

class DocumentBatch:
    def __init__(self, docs):
        self.documents = docs
        self.index = defaultdict(set)

    def sort_based_index_construction(self):
        # {TODO}: Build an inverted index for the batch
        pass

class FastSearchEngine:
    def __init__(self):
        self.main_index = defaultdict(set)
        self.daily_indices = deque()

    def add_batch(self, batch: DocumentBatch):
        # {TODO}: Incorporate the new batch into the daily indices
        pass

    def end_of_day_logarithmic_merge(self):
        # {TODO}: Implement the logarithmic merge strategy
        pass


# Divide the documents into groups to distribute them between servers. For example, let's consider two servers here.
# Divide the documents of each server into batches, for instance, five batches.
# Create an index for each batch and for each server, then merge them into the main index at the end of the day.
# Repeat this process until all documents are processed.


# Usage example
server_a_docs = ["sample_1", "sample_2", "sample_3", "sample_4", "sample_5", "sample_6", "sample_7", "sample_8", "sample_9", "sample_10"]
server_b_docs = ["sample_11", "sample_12", "sample_13", "sample_14", "sample_15", "sample_16", "sample_17", "sample_18", "sample_19", "sample_20"]

for i in range(5):
    server_a_batch = DocumentBatch(server_a_docs[i*2:i*2+2])
    server_b_batch = DocumentBatch(server_b_docs[i*2:i*2+2])

    search_engine = FastSearchEngine()
    search_engine.add_batch(server_a_batch)
    search_engine.add_batch(server_b_batch)

    # At end of day
    search_engine.end_of_day_logarithmic_merge()

# Note that the above was just an example demonstrating the general process.
# but you can take two servers and five batches for each server as a constant and implement the process for them.
print(search_engine.main_index)


<div dir='rtl'>
<h1>Spell Correction (اصلاح پرسمان)</h1>
<p>
در بسیاری از اوقات پرسمان دادە شده توسط کاربر، ممکن است ناقص یا دارای غلط املایی باشد. برای رفع این مشکل در بسیاری از موتورهای جستجو راە حل هایی تدارک دیده شدە است. ابتدا این راە حل ها را شرح دهید و بیان کنید که یک موتور جست و جو بر چه اساسی پرسمان های اصلاح شده را به کاربر نمایش می دهد.</p>
</div>

<div dir='rtl'>
<h2>پاسخ سوال بالا</h2>
پاسخ‌ خود را در این سلول بنویسید.

<div dir='rtl'>
<p>
    در این بخش، ابتدا با استفاده از روش bigram لغات نزدیک به لغات اصلی را پیدا کنید و در آخر با معیار minimum edit distance لغتی جایگزین را برای لغت مورد نظر پیدا کنید.  سپس برای هر پرسمان ورودی کاربر، در صورت اشتباه بودن آن، آن را تصحیح کنید. برای stopword‌ها نیز می‌توانید از لیست موجود که در قسمت‌های قبل ساختید استفاده کنید.
</p>
</div>

In [None]:
from typing import List, Dict

def create_bigram_index():
    """
    Creates a bigram index for the spell correction

    Returns
    -------
    dict
        A dictionary of bigrams and their occurence
    """
    # TODO: Create the bigram index here
    bigram: Dict[str, List[str]] = {}
    return bigram

bigram_index = create_bigram_index()

In [None]:
def spell_correction(query):
  """
    Correct the give query text, if it is misspelled

    Paramters
    ---------
    query: str
        The query text

    Returns
    ---------
    corrected_query: str
        The corrected text
    """
  # TODO: correct the query
  corrected_query = ""

  return corrected_query

# Example usage
user_query = "Wht is the most populr progarmming lanuage?"
spell_correction(user_query)

<div dir='rtl'>
<h1> Boolean Retrieval </h1>
<p>
 در این قسمت هدف طراحی یک سامانەی بازیابی اطلاعات boolean می‌باشد. 

برای این کار ابتدا پیش پردازش‌های مورد نیاز را مانند بخش قبل بر روی متون انجام دهید و در مرحله بعد ماتریس doc−term را ایجاد کنید. در نهایت کلاس BooleanRetrievalModel را تکمیل کنید که شامل توابع preprocess_query و find_siⅿiⅼar_docs است که توضیحات هرکدام در قسمت کد موجود است. هدف نهایی این است که هرگاه کوئری به تابع find_siⅿiⅼar_docs از کلاس BooleanRetrievalModel داده شود، شناسه k تا از داک‌هایی که شامل کوئری داده شده هستند برگردانده شوند.
</p>
</div>

In [None]:
# preprocess and tokenize all documents

In [None]:
def make_doc_term_matrix(documents):
    """
    Create doc_term_matrix by using documents and unique words.
    """
    pass

In [None]:
class BooleanRetrievalModel:
    def __init__(self, doc_term_matrix):
        """    
        Set doc_term_matrix and initialize the model.
        """

    def preprocess_query(self, query):
        """
        Do necessary preprocessing here before using the query to find k similar docs.
        Use methods from Preprocess section.
        """
        processed_query = ''
        return processed_query
    
    def find_siⅿiⅼar_docs(self, query, k=20):
        processed_query = preprocess_query(query)
        """
        Find k similiar documents.
        """
        similiar_docs = []
        return similiar_docs

<div dir='rtl'>
در این قسمت ۳ کوئری مختلف به دلخواه خود بزنید و لیست داکیومنت‌های مرتبط با آن‌ها را برگردانید. برای کوتاه‌تر شدن لیست جواب در هر کوئری می‌توانید از عملگر‌های منطقی مانند AND استفاده کنید.
</div>

In [None]:
# make 3 queries and find similar docs for each of them

<div dir='rtl'>

# ذخیره و فشرده‌سازی نمایه
در این بخش، در ابتدا دو الگوریتم فشرده‌سازی gamma code و variable byte را پیاده‌سازی کنید.  
سپس نمایه را به سه شکل زیر ذخیره کنید:
- نمایه‌ی اصلی بدون فشرده‌سازی
- نمایه‌ای که با استفاده از gamma code فشرده شده است.
- نمایه‌ای که با استفاده از variable byte فشرده شده است.

در ادامه اندازه‌ی هر کدام از سه فایل بالا را با استفاده از یک تابع به دست آورده و چاپ کنید.  
همچنین باید تابع‌هایی برای decompress کردن نمایه‌های فشرده‌شده پیاده‌سازی کنید.

**نکته‌ی ۱:** تمامی نمایه‌ها را نیز در کوئرا ارسال کنید. اگر حجم‌شان بیش‌تر از محدودیت کوئرا است، آن‌ها را در یک مکان دیگر آپلود کرده و لینک آن را در این فایل قرار دهید.  
**نکته‌ی ۲:** توابع زیر صرفاً پیشنهادی هستند و هر گونه تغییر تا زمانی که کاربردهای مورد نظر پیاده شود، آزاد است.
</div>

In [None]:
def gamma_encode():
    pass

def variable_byte_encode():
    pass


In [None]:
def gamma_decode():
    pass

def variable_byte_decode():
    pass


In [None]:
def save_index():
    pass

def load_index():
    pass

def get_size():
    pass