# IR Project
in this project I have created a indexer for docs and also a search engine using tf-idf scoring.

### Importing Libs

In [1]:
# %pip install hazm

from indexer import Indexer
from search_engine import SearchEngine

### Setting Configs

In [2]:
DEBUG = True                                # Set true to see what is happening behind the scene.
DB_ADDR = './IR_data_news_5k 2.json'         # Database address
INDEX_ADDR = 'index.json'                   # Index address
REFINED_DB_ADDRESS = './refined_db.json'    # Refined DB address
ENABLE_NORMALIZER = True                    # Enables normalizer. else raw text will be processed!
REMOVE_FIRST_X_SW = 50                      # Remove first x most frequent words
SHOW_X_RESULT = 5                           # limits the max displayable result
MAX_CHAMPIONS = 10                          # limits maximum champions

### Building and Running Indexer
first we build index: it must contain items like below: <br>
index[token] -> {freq:int, postings_list:{'doc_id':freq_in_doc}}

In [3]:
indexer = Indexer(DB_ADDR, INDEX_ADDR, REFINED_DB_ADDRESS, REMOVE_FIRST_X_SW, ENABLE_NORMALIZER, DEBUG)
indexer.run()

Max Docs: 5000
First Content Before Normalization:
به گزارش خبرگزاری فارس، سردار آزمون ستاره تیم ملی کشورمان و عضو باشگاه زنیت به دلیل درخشش بی نظیرش در لیگ روسیه و نزدیک بودن زمان پایان قراردادش با باشگاه روسی مشتریان زیادی پیدا کرده است. سیماک سرمربی زنیت روز گذشته در مصاحبه با رسانه های روسیه اعلام کرد مسئله آینده آزمون آسان است این بازیکن قصد تمدید قراردادش را ندارد و در تابستان به باشگاه جدیدی می رود. در همین رابطه سایت «hitc» به تحلیل حرف های سرمربی زنیت پرداخت و این حرف ها را فرصتی استثنایی برای دو باشگاه اورتون و نیوکاسل دانست.  این رسانه انگلیسی، نوشت: سردار آزمون ستاره ایرانی زنیت در لیگ قهرمانان اروپا در یک بازی جذاب به کابوس هواداران چلسی تبدیل شد. این ستاره ایرانی یک گل فوق العاده در این بازی به ثمر رساند و اگر واکنش های فوق العاده کپه آ نبود می توانست چندین بار دیگر دروزاه شاگردان توخل را باز کند. ستاره ایرانی از دو سال گذشته بنا به اعلام مدیر برنامه اش از باشگاه اورتون با ریاست فرهاد مشیری ایرانی پیشنهاد داشته و یکی از گزینه های تقویت خط حمله این تیم است. از طرف دیگر نیو

### Building Search Engine
In this engine I have used tf-idf scoring.

In [5]:
search_engine = SearchEngine(INDEX_ADDR, REFINED_DB_ADDRESS, ENABLE_NORMALIZER, DEBUG)
search_engine.set_max_display_res(SHOW_X_RESULT)
search_engine.run()

Running search engine...
Max Doc:5000
Engine is up.


### Testing Search Engine
here I am testing search engine results:

first lets check one simple word

In [6]:
search_engine.search('اخبار')

purified query tokens:  ['اخبار']
0-Doc_ID: 10070 - Score: 1.2229039385723641
1-Doc_ID: 5749 - Score: 1.2229039385723641
2-Doc_ID: 12132 - Score: 1.0533521182374836
3-Doc_ID: 3781 - Score: 1.0533521182374836
4-Doc_ID: 4082 - Score: 1.0533521182374836
88 results in 0.0 seconds:
Search Results:
1 - Title: دیدار دانشجویان با جبلی / صدا و سیما باید شفاف باشد
 به گزارش خبرنگار تشکل‌های دانشگاهی خبرگزاری فارس، کوثر قاسمی عضو شورای مرکزی جنبش عدالتخواه دانشجوی...
https://www.farsnews.ir/news/14000916000787/دیدار-دانشجویان-با-جبلی--صدا-و-سیما-باید-شفاف-باشد
2 - Title: پیش بینی مفسر مشهور فوتبال روسیه از آینده آزمون+عکس
 به گزارش خبرگزاری فارس، سردار آزمون در میان لژیونرهای ایرانی این روزها بیشترین اخبار نقل و انتقالات...
https://www.farsnews.ir/news/14001010000074/پیش-بینی-مفسر-مشهور-فوتبال-روسیه-از-آینده-آزمون-عکس
3 - Title: شش درخت زیتون در دانشگاه امام صادق(ع) کاشته و به یاد شش اسیر فلسطینی نام‎گذاری شد
 به گزارش خبرنگار تشکل‌های دانشگاهی خبرگزاری فارس، مراسم کاشت و نام‎گذاری شش درخت زیتون 

now I will try a few simple words

In [7]:
search_engine.search('اخبار روز ایران')

purified query tokens:  ['اخبار', 'روز', 'ایران']
0-Doc_ID: 9266 - Score: 1.7590579182696398
1-Doc_ID: 5749 - Score: 1.3861888856002826
2-Doc_ID: 12132 - Score: 1.312152636208975
3-Doc_ID: 1322 - Score: 1.2438753768269755
4-Doc_ID: 10070 - Score: 1.2229039385723641
1475 results in 0.013234376907348633 seconds:
Search Results:
1 - Title: بُرشی از کتاب « فتنه تغلب»/ روایت‌هایی از متن و فرامتن آشوب‌های ‌۸۸
 گروه سیاسی خبرگزاری فارس، کتاب «فتنه تغلب» شامل برخی سخنان منتشرنشده‌ رهبر انقلاب است؛ از جمله در ط...
https://www.farsnews.ir/news/14001008000978/بُرشی-از-کتاب-فتنه-تغلب-روایت‌هایی-از-متن-و-فرامتن-آشوب‌های-‌۸۸
2 - Title: پیش بینی مفسر مشهور فوتبال روسیه از آینده آزمون+عکس
 به گزارش خبرگزاری فارس، سردار آزمون در میان لژیونرهای ایرانی این روزها بیشترین اخبار نقل و انتقالات...
https://www.farsnews.ir/news/14001010000074/پیش-بینی-مفسر-مشهور-فوتبال-روسیه-از-آینده-آزمون-عکس
3 - Title: شش درخت زیتون در دانشگاه امام صادق(ع) کاشته و به یاد شش اسیر فلسطینی نام‎گذاری شد
 به گزارش خبرنگار تشکل‌ها

and trying one specific word

In [8]:
search_engine.search('کمیسیون')

purified query tokens:  ['کمیسیون']
0-Doc_ID: 9970 - Score: 1.4042807983705692
1-Doc_ID: 7401 - Score: 1.3718386014478272
2-Doc_ID: 11449 - Score: 1.2405332648584786
3-Doc_ID: 11143 - Score: 1.2281682069495348
4-Doc_ID: 9500 - Score: 1.2281682069495348
722 results in 0.0030236244201660156 seconds:
Search Results:
1 - Title: 70 هزار کلاس بدون معلم/ نیاز 200 هزار میلیاردی برای سنددار کردن اموال آموزش و پرورش
 گروه سیاسی خبرگزاری فارس - وحید ونایی: هم تحصیلات حوزوی دارد و هم تحصیلات دانشگاهی، عضویت در هیات ع...
https://www.farsnews.ir/news/14000915000506/0-هزار-کلاس-بدون-معلم-نیاز-200-هزار-میلیاردی-برای-سنددار-کردن-اموال
2 - Title: نشست خبری| برخی سوپرمن‌ها با انتشار کلیپ چنین نشان دادند که حاکمیت در پی محدودیت فضای مجازی است
 به گزارش خبرنگار پارلمانی خبرگزاری فارس نشست خبری اعضای کمیسیون مشترک بررسی طرح نظام تنظیم مقررات خ...
https://www.farsnews.ir/news/14001207000511/نشست-خبری|-برخی-سوپرمن‌ها-با-انتشار-کلیپ-چنین-نشان-دادند-که-حاکمیت-در
3 - Title: دستور کار هفته جاری صحن مجلس/ بررسی طر

let's try more specific words

In [9]:
search_engine.search('اخبار کمیسیون اجاره املاک')

purified query tokens:  ['اخبار', 'کمیسیون', 'اجاره', 'املاک']
0-Doc_ID: 9283 - Score: 3.7283990612082913
1-Doc_ID: 10923 - Score: 3.1311715444094244
2-Doc_ID: 9164 - Score: 2.090617813787269
3-Doc_ID: 11544 - Score: 1.8614943788482505
4-Doc_ID: 11777 - Score: 1.8058201652824957
832 results in 0.006072521209716797 seconds:
Search Results:
1 - Title: بررسی شفافیت مالی در حوزه شهرداری‌ها در مرکز پژوهش‌های مجلس
 به گزارش حوزه پارلمانی خبرگزاری فارس،  معاونت پژوهش‌های اقتصادی دفتر مطالعات بخش عمومی مرکز پژوهش ه...
https://www.farsnews.ir/news/14001008000578/بررسی-شفافیت-مالی-در-حوزه-شهرداری‌ها-در-مرکز-پژوهش‌های-مجلس
2 - Title: مجلس طرح «ثبت رسمی معاملات اموال غیرمنقول» را اصلاح کرد/ تعیین مجازات برای قضات و ماموران متخلف
 به گزارش خبرنگار پارلمانی خبرگزاری فارس، نمایندگان مجلس شورای اسلامی در جلسه علنی امروز، اصلاحات طر...
https://www.farsnews.ir/news/14000826000226/مجلس-طرح-ثبت-رسمی-معاملات-اموال-غیرمنقول-را-اصلاح-کرد-تعیین-مجازات
3 - Title: جزئیات طرح جدید مجلس برای سامان‌بخشی به بورس+ م

### Let's Check Champions List Power
so far we were searching on the main index, and now I will enable champions list

In [10]:
# limit champions for 5 doc per term
search_engine.enable_champions_list(MAX_CHAMPIONS)

Lets do the same searches again:

In [11]:
search_engine.search('اخبار')

purified query tokens:  ['اخبار']
0-Doc_ID: 10396 - Score: 0.5266760591187418
1-Doc_ID: 10505 - Score: 0.5266760591187418
2-Doc_ID: 10666 - Score: 0.5266760591187418
3-Doc_ID: 10882 - Score: 0.5266760591187418
4-Doc_ID: 10924 - Score: 0.5266760591187418
9 results in 0.0 seconds:
Search Results:
1 - Title: عضو هیأت رئیسه مجلس: دفاع از حقوق مردم دلیل بازگشت طرح حمایت از کاربران در فضای مجازی  است
 به گزارش خبرنگار پارلمانی خبرگزاری فارس، حجت‌الاسلام علیرضا سلیمی عضو هیأت رئیسه مجلس شورای اسلامی ...
https://www.farsnews.ir/news/14000909000792/عضو-هیأت-رئیسه-مجلس-دفاع-از-حقوق-مردم-دلیل-بازگشت-طرح-حمایت-از
2 - Title: وزیر علوم: هر فردی برای پیشرفت ایران تلاش کند «بسیجی» است/ لزوم توجه به تحقیقات بنیادی
 به گزارش حوزه تشکل‌های دانشگاهی خبرگزاری فارس، محمدعلی زلفی‌گل وزیر علوم در همایش «طرح جامع راه مهن...
https://www.farsnews.ir/news/14000907000920/وزیر-علوم-هر-فردی-برای-پیشرفت-ایران-تلاش-کند-بسیجی-است-لزوم-توجه-به
3 - Title: نایب رئیس کمیسیون فرهنگی مجلس: برای مقابله با اقدامات ضدایرانی صهی

In [12]:
search_engine.search('اخبار روز ایران')

purified query tokens:  ['اخبار', 'روز', 'ایران']
0-Doc_ID: 11495 - Score: 1.0690969121229794
1-Doc_ID: 10012 - Score: 0.9980467507587232
2-Doc_ID: 10882 - Score: 0.9058119650950607
3-Doc_ID: 10505 - Score: 0.5266760591187418
4-Doc_ID: 10666 - Score: 0.5266760591187418
17 results in 0.0 seconds:
Search Results:
1 - Title: گزارش فارس از اجتماع میدانی یوم الله 13 آبان در تهران/ تاکید بر ضرورت هوشیاری ملت‌های منطقه برابر توطئه‌های آمریکا
 به گزارش خبرنگار سیاسی خبرگزاری فارس، مراسم اجتماعی میدانی به مناسبت یوم الله 13 آبان روز ملی استکب...
https://www.farsnews.ir/news/14000813000113/گزارش-فارس-از-اجتماع-میدانی-یوم-الله-3-آبان-در-تهران-تاکید-بر-ضرورت
2 - Title: تحریف اظهارات وزیر کشور و سوءاستفاده رسانه‌های معاند/ افکار فمینیستی جز تحقیر زن آثار دیگری ندارد
 به گزارش خبرنگار سیاسی خبرگزاری فارس، روی کار آمدن دولت سیزدهم و افزایش تلاش مسئولان برای حل مشکلات...
https://www.farsnews.ir/news/14000918000553/تحریف-اظهارات-وزیر-کشور-و-سوءاستفاده-رسانه‌های-معاند-افکار-فمینیستی
3 - Title: گریه گرگ؛

In [13]:
search_engine.search('کمیسیون')

purified query tokens:  ['کمیسیون']
0-Doc_ID: 10019 - Score: 0.25281453512917307
1-Doc_ID: 10032 - Score: 0.25281453512917307
2-Doc_ID: 10034 - Score: 0.25281453512917307
3-Doc_ID: 10129 - Score: 0.25281453512917307
4-Doc_ID: 10130 - Score: 0.25281453512917307
9 results in 0.0 seconds:
Search Results:
1 - Title: قالیباف: برنامه بلندمدت دوجانبه، لازمه ارتقای روابط تجاری و حل مشکلات تجّار است
 به گزارش خبرگزاری فارس، محمدباقر قالیباف رئیس مجلس شورای اسلامی که روز گذشته به منظور شرکت در اتحاد...
https://www.farsnews.ir/news/14000918000309/قالیباف-برنامه-بلندمدت-دوجانبه-لازمه-ارتقای-روابط-تجاری-و-حل-مشکلات
2 - Title: رئیس مجلس وارد استانبول شد
 به گزارش حوزه پارلمانی خبرگزاری فارس، محمدباقر قالیباف رئیس مجلس شورای اسلامی عصر امروز (چهارشنبه 1...
https://www.farsnews.ir/news/14000917000749/رئیس-مجلس-وارد-استانبول-شد
3 - Title: موادی دیگر از آیین نامه داخلی مجمع تشخیص مصلحت نظام تصویب شد
 به گزارش گروه سیاسی خبرگزاری فارس، در جلسه امروز مجمع تشخیص مصلحت نظام که به ریاست آیت الله آملی لا...
h

In [14]:
search_engine.search('اخبار کمیسیون اجاره املاک')

purified query tokens:  ['اخبار', 'کمیسیون', 'اجاره', 'املاک']
0-Doc_ID: 8011 - Score: 1.2696346685604234
1-Doc_ID: 10666 - Score: 1.1801921520649055
2-Doc_ID: 10924 - Score: 0.7794905942479149
3-Doc_ID: 10147 - Score: 0.6826174966481084
4-Doc_ID: 11035 - Score: 0.6826174966481084
33 results in 0.0 seconds:
Search Results:
1 - Title: مصوبه کمیسیون تلفیق بودجه برای توسعه شبکه ریلی کشور
 حجت‌الاسلام سید محمدرضا میرتاج‌الدینی نماینده مردم تبریز در مجلس شورای اسلامی در گفت‌وگو با خبرنگار...
https://www.farsnews.ir/news/14001116000282/مصوبه-کمیسیون-تلفیق-بودجه-برای-توسعه-شبکه-ریلی-کشور
2 - Title: نایب رئیس کمیسیون فرهنگی مجلس: برای مقابله با اقدامات ضدایرانی صهیونیست‌ها در میادین ورزشی همراه دولت هستیم
 غلامرضا منتظری نایب رئیس کمیسیون فرهنگی مجلس شورای اسلامی در گفت‌وگو با خبرنگار پارلمانی خبرگزاری ف...
https://www.farsnews.ir/news/14000827000308/نایب-رئیس-کمیسیون-فرهنگی-مجلس-برای-مقابله-با-اقدامات-ضدایرانی
3 - Title: نامه نماینده مجلس/ پرداخت 22 میلیارد تومان به پرسپولیس مغایر اساسنامه صن

# Search with Cosine
so let's go back to search on main index and this time use cosine scoring function! 

In [15]:
search_engine.disable_champions_list()
search_engine.set_search_score_mode('cosine')

search mode set to 'cosine'. if not exist default is tf_idf


and repeat the same search again!

In [16]:
search_engine.search('اخبار')

purified query tokens:  ['اخبار']
0-Doc_ID: 10070 - Score: 0.9996446021375629
1-Doc_ID: 5749 - Score: 0.9996446021375629
2-Doc_ID: 12132 - Score: 0.9995875142768296
3-Doc_ID: 3781 - Score: 0.9995875142768296
4-Doc_ID: 4082 - Score: 0.9995875142768296
88 results in 0.0010004043579101562 seconds:
Search Results:
1 - Title: دیدار دانشجویان با جبلی / صدا و سیما باید شفاف باشد
 به گزارش خبرنگار تشکل‌های دانشگاهی خبرگزاری فارس، کوثر قاسمی عضو شورای مرکزی جنبش عدالتخواه دانشجوی...
https://www.farsnews.ir/news/14000916000787/دیدار-دانشجویان-با-جبلی--صدا-و-سیما-باید-شفاف-باشد
2 - Title: پیش بینی مفسر مشهور فوتبال روسیه از آینده آزمون+عکس
 به گزارش خبرگزاری فارس، سردار آزمون در میان لژیونرهای ایرانی این روزها بیشترین اخبار نقل و انتقالات...
https://www.farsnews.ir/news/14001010000074/پیش-بینی-مفسر-مشهور-فوتبال-روسیه-از-آینده-آزمون-عکس
3 - Title: شش درخت زیتون در دانشگاه امام صادق(ع) کاشته و به یاد شش اسیر فلسطینی نام‎گذاری شد
 به گزارش خبرنگار تشکل‌های دانشگاهی خبرگزاری فارس، مراسم کاشت و نام‎گذ

In [17]:
search_engine.search('اخبار روز ایران')

purified query tokens:  ['اخبار', 'روز', 'ایران']
0-Doc_ID: 5749 - Score: 0.9940833883486686
1-Doc_ID: 3781 - Score: 0.986413819227386
2-Doc_ID: 5330 - Score: 0.986413819227386
3-Doc_ID: 9646 - Score: 0.986413819227386
4-Doc_ID: 9894 - Score: 0.986413819227386
1475 results in 0.004229068756103516 seconds:
Search Results:
1 - Title: پیش بینی مفسر مشهور فوتبال روسیه از آینده آزمون+عکس
 به گزارش خبرگزاری فارس، سردار آزمون در میان لژیونرهای ایرانی این روزها بیشترین اخبار نقل و انتقالات...
https://www.farsnews.ir/news/14001010000074/پیش-بینی-مفسر-مشهور-فوتبال-روسیه-از-آینده-آزمون-عکس
2 - Title: گفت‌و‌گوی فارس با مسئول فدراسیون عراق درباره جزئیات کرونایی‌ها قبل از بازی با ایران
 به گزارش خبرگزاری فارس، امروز رسانه های عراق اخباری متفاوت از کرونایی های تیم ملی این کشور منتشر کر...
https://www.farsnews.ir/news/14001104000419/گفت‌و‌گوی-فارس-با-مسئول-فدراسیون-عراق-درباره-جزئیات-کرونایی‌ها-قبل-از
3 - Title: از تکذیب توافق آزمون با لیون تا خوشحالی روس‌ها+عکس
 به گزارش خبرگزاری فارس، پیش از این نشر

In [18]:
search_engine.search('کمیسیون')

purified query tokens:  ['کمیسیون']
0-Doc_ID: 9970 - Score: 0.9996909545876997
1-Doc_ID: 7401 - Score: 0.9996836528481591
2-Doc_ID: 11449 - Score: 0.9996502031629024
3-Doc_ID: 11143 - Score: 0.9996466850980623
4-Doc_ID: 9500 - Score: 0.9996466850980623
722 results in 0.001001119613647461 seconds:
Search Results:
1 - Title: 70 هزار کلاس بدون معلم/ نیاز 200 هزار میلیاردی برای سنددار کردن اموال آموزش و پرورش
 گروه سیاسی خبرگزاری فارس - وحید ونایی: هم تحصیلات حوزوی دارد و هم تحصیلات دانشگاهی، عضویت در هیات ع...
https://www.farsnews.ir/news/14000915000506/0-هزار-کلاس-بدون-معلم-نیاز-200-هزار-میلیاردی-برای-سنددار-کردن-اموال
2 - Title: نشست خبری| برخی سوپرمن‌ها با انتشار کلیپ چنین نشان دادند که حاکمیت در پی محدودیت فضای مجازی است
 به گزارش خبرنگار پارلمانی خبرگزاری فارس نشست خبری اعضای کمیسیون مشترک بررسی طرح نظام تنظیم مقررات خ...
https://www.farsnews.ir/news/14001207000511/نشست-خبری|-برخی-سوپرمن‌ها-با-انتشار-کلیپ-چنین-نشان-دادند-که-حاکمیت-در
3 - Title: دستور کار هفته جاری صحن مجلس/ بررسی طرح

In [19]:
search_engine.search('اخبار کمیسیون اجاره املاک')

purified query tokens:  ['اخبار', 'کمیسیون', 'اجاره', 'املاک']
0-Doc_ID: 9483 - Score: 0.8535308983628984
1-Doc_ID: 9283 - Score: 0.8304899229492531
2-Doc_ID: 9898 - Score: 0.8304245190161244
3-Doc_ID: 10923 - Score: 0.6500591715076605
4-Doc_ID: 11777 - Score: 0.638958990482419
832 results in 0.0037817955017089844 seconds:
Search Results:
1 - Title: دیوان محاسبات: کسری تراز لایحه بودجه سال آینده 35درصد از بودجه امسال کمتر است
 به گزارش خبرگزاری فارس، به نقل از روابط عمومی و امور بین الملل دیوان محاسبات کشور، با ارائه لایحه ب...
https://www.farsnews.ir/news/14001004000648/دیوان-محاسبات-کسری-تراز-لایحه-بودجه-سال-آینده-35درصد-از-بودجه-امسال
2 - Title: بررسی شفافیت مالی در حوزه شهرداری‌ها در مرکز پژوهش‌های مجلس
 به گزارش حوزه پارلمانی خبرگزاری فارس،  معاونت پژوهش‌های اقتصادی دفتر مطالعات بخش عمومی مرکز پژوهش ه...
https://www.farsnews.ir/news/14001008000578/بررسی-شفافیت-مالی-در-حوزه-شهرداری‌ها-در-مرکز-پژوهش‌های-مجلس
3 - Title: آیین نامه ثبت اطلاعات اموال غیرمنقول دستگاه‏‌های اجرایی تصویب شد