# IR Project
in this project I have created a indexer for docs and also a search engine using tf-idf scoring.

### Importing Libs

In [1]:
from indexer import Indexer
from search_engine import SearchEngine

### Setting Configs

In [2]:
DEBUG = True                                # Set true to see what is happening behind the scene.
DB_ADDR = './IR_data_news_12k.json'         # Database address
INDEX_ADDR = 'index.json'                   # Index address
REFINED_DB_ADDRESS = './refined_db.json'    # Refined DB address
ENABLE_NORMALIZER = True                    # Enables normalizer. else raw text will be processed!
REMOVE_FIRST_X_SW = 50                      # Remove first x most frequent words
SHOW_X_RESULT = 5                           # limits the max displayable result

### Building and Running Indexer
first we build index: it must contain items like below: <br>
index[token] -> {freq:int, postings_list:{'doc_id':freq_in_doc}}

In [3]:
indexer = Indexer(DB_ADDR, INDEX_ADDR, REFINED_DB_ADDRESS, REMOVE_FIRST_X_SW, ENABLE_NORMALIZER, DEBUG)
indexer.run()
del(indexer)

Max Docs: 12202
Some of tokens ready to index: [{'doc_id': '0', 'token': 'به'}, {'doc_id': '0', 'token': 'گزارش'}, {'doc_id': '0', 'token': 'خبرگزاری'}, {'doc_id': '0', 'token': 'فارس'}, {'doc_id': '0', 'token': '،'}, {'doc_id': '0', 'token': 'کنفدراسیون'}, {'doc_id': '0', 'token': 'فوتبال'}, {'doc_id': '0', 'token': 'آسیا'}, {'doc_id': '0', 'token': 'AFC'}, {'doc_id': '0', 'token': 'در'}]
Here you can see 10 first stop words:
0-term: و, freq: 219258
1-term: در, freq: 164533
2-term: به, freq: 132864
3-term: ،, freq: 120348
4-term: از, freq: 92982
5-term: این, freq: 82646
6-term: که, freq: 75470
7-term: کرد#کن, freq: 74160
8-term: با, freq: 69037
9-term: را, freq: 67496
Number of extracted terms in dict: 45924


### Building Search Engine
In this engine I have used tf-idf scoring.

In [6]:
search_engine = SearchEngine(INDEX_ADDR, REFINED_DB_ADDRESS, ENABLE_NORMALIZER, DEBUG)
search_engine.set_max_display_res(SHOW_X_RESULT)
search_engine.run()

Running search engine...
Max Doc:12202
Engine is up.


### Testing Search Engine
here I am testing search engine results:

first lets check one simple word

In [31]:
search_engine.search('اخبار')

purified query tokens:  ['اخبار']
0-Doc_ID: 10599 - Score: 0.9997216264111134
1-Doc_ID: 9070 - Score: 0.9996770029689236
2-Doc_ID: 10070 - Score: 0.9996404783859326
3-Doc_ID: 11697 - Score: 0.9996404783859326
4-Doc_ID: 3805 - Score: 0.9996404783859326
228 results in 0.000431060791015625 seconds:
Search Results:
1 - Title: اختتامیه نخستین جشنواره رسانه‌ای بهارستان برگزار شد/ خبرنگار و عکاس فارس برگزیده شدند
 به گزارش گروه سیاسی خبرگزاری فارس، نخستین جشنواره رسانه‌ای بهارستان صبح امروز (شنبه، 6 آذر ماه)  با...
https://www.farsnews.ir/news/14000906000605/اختتامیه-نخستین-جشنواره-رسانه‌ای-بهارستان-برگزار-شد-خبرنگار-و-عکاس
2 - Title: پیش شرط‌های پابرجایی مکتب سلیمانی در گفت‌وگو با ۲ عضو کمیسیون امنیت ملی/ حاج قاسم از دست چه کسانی خون دل خورد؟
 گروه سیاسی خبرگزاری فارس ـ محمد مهدی احمدی: صبح جمعه 13 دی ماه بود که خبری از رسانه ها به ایران مخا...
https://www.farsnews.ir/news/14001008000231/پیش-شرط‌های-پابرجایی-مکتب-سلیمانی-در-گفت‌وگو-با-۲-عضو-کمیسیون-امنیت
3 - Title: دیدار دانشجویان با جبلی / 

now I will try a few simple words

In [8]:
search_engine.search('اخبار روز ایران')

purified query tokens:  ['اخبار', 'روز', 'ایران']
0-Doc_ID: 9070 - Score: 1.8380900011091281
1-Doc_ID: 11697 - Score: 1.7978046505567495
2-Doc_ID: 9266 - Score: 1.7519659678979633
3-Doc_ID: 10599 - Score: 1.5592711422385783
4-Doc_ID: 5749 - Score: 1.3716843322574008
3575 results in 0.06985974311828613 seconds:
Search Results:
1 - Title: پیش شرط‌های پابرجایی مکتب سلیمانی در گفت‌وگو با ۲ عضو کمیسیون امنیت ملی/ حاج قاسم از دست چه کسانی خون دل خورد؟
 گروه سیاسی خبرگزاری فارس ـ محمد مهدی احمدی: صبح جمعه 13 دی ماه بود که خبری از رسانه ها به ایران مخا...
https://www.farsnews.ir/news/14001008000231/پیش-شرط‌های-پابرجایی-مکتب-سلیمانی-در-گفت‌وگو-با-۲-عضو-کمیسیون-امنیت
2 - Title: پرهیز شدید آیت‌الله مهدوی‌کنی از رانت و سفارش/ از علاقه خاص حضرت امام(ره) تا اصرار بر تربیت دانشجو ـ سرباز برای اسلام
 خبرگزاری فارس- وحید ونایی: هفتمین سالگرد درگذشت آیت‌الله محمدرضا مهدوی کنی را پشت سر گذاشتیم که 29 ...
https://www.farsnews.ir/news/14000804000796/پرهیز-شدید-آیت‌الله-مهدوی‌کنی-از-رانت-و-سفارش-از-علاقه-خا

and trying one specific word

In [9]:
search_engine.search('کمیسیون')

purified query tokens:  ['کمیسیون']
0-Doc_ID: 11882 - Score: 1.452599688992581
1-Doc_ID: 7506 - Score: 1.404413176533665
2-Doc_ID: 9970 - Score: 1.3893750505556857
3-Doc_ID: 7401 - Score: 1.3572772115465832
4-Doc_ID: 10042 - Score: 1.312669533065633
1800 results in 0.013529062271118164 seconds:
Search Results:
1 - Title: آخرین وضعیت طرح صیانت از فضای مجازی/ از اجرای آزمایشی قانون تا رفع عیوب در یک بازه 2 تا 7 ساله
 خبرگزاری فارس- وحید ونایی: طرح حمایت از حقوق کاربران و خدمات پایه کاربردی فضای مجازی موسوم به طرح ص...
https://www.farsnews.ir/news/14000803000223/آخرین-وضعیت-طرح-صیانت-از-فضای-مجازی-از-اجرای-آزمایشی-قانون-تا-رفع
2 - Title: کلیات طرح حمایت از کاربران فضای مجازی در کمیسیون ویژه تصویب شد
 حجت الاسلام احمد حسین فلاحی عضو کمیسیون مشترک بررسی طرح حمایت از کاربران در فضای مجازی در گفتگو با ...
https://www.farsnews.ir/news/14001203000680/کلیات-طرح-حمایت-از-کاربران-فضای-مجازی-در-کمیسیون-ویژه-تصویب-شد
3 - Title: 70 هزار کلاس بدون معلم/ نیاز 200 هزار میلیاردی برای سنددار کردن اموال آم

let's try more specific words

In [10]:
search_engine.search('اخبار کمیسیون اجاره املاک')

purified query tokens:  ['اخبار', 'کمیسیون', 'اجاره', 'املاک']
0-Doc_ID: 11891 - Score: 4.473875348442115
1-Doc_ID: 9130 - Score: 3.978417736499276
2-Doc_ID: 9283 - Score: 3.76144295563732
3-Doc_ID: 10923 - Score: 3.1421441592538177
4-Doc_ID: 8680 - Score: 2.888162245762019
2071 results in 0.035840511322021484 seconds:
Search Results:
1 - Title: توزیع منابع پولی و مالی بانک‌ها برای خانه‌دار شدن مردم ناعادلانه است/ راهکار مالیات‌ستانی از خانه‌های خالی و املاک بدون استفاده
 حوزه تشکل‌های دانشگاهی خبرگزاری فارس، طی سال‌های گذشته مشکل مسکن در شهرهای بزرگ و کوچک مشکلات زیادی...
https://www.farsnews.ir/news/14000803000316/توزیع-منابع-پولی-و-مالی-بانک‌ها-برای-خانه‌دار-شدن-مردم-ناعادلانه-است-
2 - Title: انتقاد کمیسیون اصل 90 از تأخیر نامتعارف و روند اجرایی نامطلوب قانون جامع حدنگار
 به گزارش خبرنگار پارلمانی خبرگزاری فارس، گزارش کمیسیون اصل 90 مجلس شورای اسلامی در مورد نحوه اجرای ...
https://www.farsnews.ir/news/14001014000151/انتقاد-کمیسیون-اصل-90-از-تأخیر-نامتعارف-و-روند-اجرایی-نامطلوب-قانون

### Let's Check Champions List Power
so far we were searching on the main index, and now I will enable champions list

In [11]:
# limit champions for 5 doc per term
search_engine.enable_champions_list(x_most_related=5)
search_engine.run()

Running search engine...
Max Doc:12202
Engine is up.


Lets do the same searches again:

In [33]:
search_engine.search('اخبار')

purified query tokens:  ['اخبار']
0-Doc_ID: 10599 - Score: 0.9997216264111134
1-Doc_ID: 9070 - Score: 0.9996770029689236
2-Doc_ID: 10070 - Score: 0.9996404783859326
3-Doc_ID: 11697 - Score: 0.9996404783859326
4-Doc_ID: 3805 - Score: 0.9996404783859326
228 results in 0.0009996891021728516 seconds:
Search Results:
1 - Title: اختتامیه نخستین جشنواره رسانه‌ای بهارستان برگزار شد/ خبرنگار و عکاس فارس برگزیده شدند
 به گزارش گروه سیاسی خبرگزاری فارس، نخستین جشنواره رسانه‌ای بهارستان صبح امروز (شنبه، 6 آذر ماه)  با...
https://www.farsnews.ir/news/14000906000605/اختتامیه-نخستین-جشنواره-رسانه‌ای-بهارستان-برگزار-شد-خبرنگار-و-عکاس
2 - Title: پیش شرط‌های پابرجایی مکتب سلیمانی در گفت‌وگو با ۲ عضو کمیسیون امنیت ملی/ حاج قاسم از دست چه کسانی خون دل خورد؟
 گروه سیاسی خبرگزاری فارس ـ محمد مهدی احمدی: صبح جمعه 13 دی ماه بود که خبری از رسانه ها به ایران مخا...
https://www.farsnews.ir/news/14001008000231/پیش-شرط‌های-پابرجایی-مکتب-سلیمانی-در-گفت‌وگو-با-۲-عضو-کمیسیون-امنیت
3 - Title: دیدار دانشجویان با جبلی /

In [35]:
search_engine.search('اخبار روز ایران')

purified query tokens:  ['اخبار', 'روز', 'ایران']
0-Doc_ID: 5749 - Score: 0.9947080285731545
1-Doc_ID: 10152 - Score: 0.9873830863017122
2-Doc_ID: 3781 - Score: 0.9873830863017122
3-Doc_ID: 5330 - Score: 0.9873830863017122
4-Doc_ID: 9646 - Score: 0.9873830863017122
3575 results in 0.018771648406982422 seconds:
Search Results:
1 - Title: پیش بینی مفسر مشهور فوتبال روسیه از آینده آزمون+عکس
 به گزارش خبرگزاری فارس، سردار آزمون در میان لژیونرهای ایرانی این روزها بیشترین اخبار نقل و انتقالات...
https://www.farsnews.ir/news/14001010000074/پیش-بینی-مفسر-مشهور-فوتبال-روسیه-از-آینده-آزمون-عکس
2 - Title: نماینده جامعه اسلامی دانشجویان در دیدار با اژه‌ای: مردم باید ثمره مبارزه با فساد را لمس کنند
 به گزارش خبرنگار تشکل‌های دانشگاهی خبرگزاری فارس، امیرمحمد کولانی نماینده اتحادیه جامعه اسلامی دانش...
https://www.farsnews.ir/news/14000915000774/نماینده-جامعه-اسلامی-دانشجویان-در-دیدار-با-اژه‌ای-مردم-باید-ثمره
3 - Title: گفت‌و‌گوی فارس با مسئول فدراسیون عراق درباره جزئیات کرونایی‌ها قبل از بازی با ایر

In [37]:
search_engine.search('کمیسیون')

purified query tokens:  ['کمیسیون']
0-Doc_ID: 11882 - Score: 0.9997013522061723
1-Doc_ID: 7506 - Score: 0.9996911145893808
2-Doc_ID: 9970 - Score: 0.9996877743595739
3-Doc_ID: 7401 - Score: 0.9996803975055916
4-Doc_ID: 10042 - Score: 0.9996695470988544
1800 results in 0.0015377998352050781 seconds:
Search Results:
1 - Title: آخرین وضعیت طرح صیانت از فضای مجازی/ از اجرای آزمایشی قانون تا رفع عیوب در یک بازه 2 تا 7 ساله
 خبرگزاری فارس- وحید ونایی: طرح حمایت از حقوق کاربران و خدمات پایه کاربردی فضای مجازی موسوم به طرح ص...
https://www.farsnews.ir/news/14000803000223/آخرین-وضعیت-طرح-صیانت-از-فضای-مجازی-از-اجرای-آزمایشی-قانون-تا-رفع
2 - Title: کلیات طرح حمایت از کاربران فضای مجازی در کمیسیون ویژه تصویب شد
 حجت الاسلام احمد حسین فلاحی عضو کمیسیون مشترک بررسی طرح حمایت از کاربران در فضای مجازی در گفتگو با ...
https://www.farsnews.ir/news/14001203000680/کلیات-طرح-حمایت-از-کاربران-فضای-مجازی-در-کمیسیون-ویژه-تصویب-شد
3 - Title: 70 هزار کلاس بدون معلم/ نیاز 200 هزار میلیاردی برای سنددار کردن اموا

In [40]:
search_engine.search('اخبار کمیسیون اجاره املاک')

purified query tokens:  ['اخبار', 'کمیسیون', 'اجاره', 'املاک']
0-Doc_ID: 9308 - Score: 0.8602433824109029
1-Doc_ID: 9483 - Score: 0.8602433824109029
2-Doc_ID: 9898 - Score: 0.8385626856126239
3-Doc_ID: 9283 - Score: 0.8323135795156452
4-Doc_ID: 10090 - Score: 0.8162534054077998
2071 results in 0.013052701950073242 seconds:
Search Results:
1 - Title: تصویب اعتبار ۳ هزار میلیاردی برای تقویت صندوق نوآوری و شکوفایی
 به گزارش خبرنگار پارلمانی خبرگزاری فارس، طرح جهش تولید دانش‌بنیان در دستور کار جلسه علنی امروز (چها...
https://www.farsnews.ir/news/14001008000299/تصویب-اعتبار-۳-هزار-میلیاردی-برای-تقویت-صندوق-نوآوری-و-شکوفایی
2 - Title: دیوان محاسبات: کسری تراز لایحه بودجه سال آینده 35درصد از بودجه امسال کمتر است
 به گزارش خبرگزاری فارس، به نقل از روابط عمومی و امور بین الملل دیوان محاسبات کشور، با ارائه لایحه ب...
https://www.farsnews.ir/news/14001004000648/دیوان-محاسبات-کسری-تراز-لایحه-بودجه-سال-آینده-35درصد-از-بودجه-امسال
3 - Title: آیین نامه ثبت اطلاعات اموال غیرمنقول دستگاه‏‌های اجرایی تص

# Search with Cosine
so let's go back to search on main index and this time use cosine scoring function! 

In [43]:
search_engine.disable_champions_list()
search_engine.set_search_score_mode('cosine')

search mode set to 'cosine'. if not exist default is tf_idf


and repeat the same search again!

In [17]:
search_engine.search('اخبار')

purified query tokens:  ['اخبار']
0-Doc_ID: 10599 - Score: 0.9997216264111134
1-Doc_ID: 9070 - Score: 0.9996770029689236
2-Doc_ID: 10070 - Score: 0.9996404783859326
3-Doc_ID: 11697 - Score: 0.9996404783859326
4-Doc_ID: 3805 - Score: 0.9996404783859326
228 results in 0.000255584716796875 seconds:
Search Results:
1 - Title: اختتامیه نخستین جشنواره رسانه‌ای بهارستان برگزار شد/ خبرنگار و عکاس فارس برگزیده شدند
 به گزارش گروه سیاسی خبرگزاری فارس، نخستین جشنواره رسانه‌ای بهارستان صبح امروز (شنبه، 6 آذر ماه)  با...
https://www.farsnews.ir/news/14000906000605/اختتامیه-نخستین-جشنواره-رسانه‌ای-بهارستان-برگزار-شد-خبرنگار-و-عکاس
2 - Title: پیش شرط‌های پابرجایی مکتب سلیمانی در گفت‌وگو با ۲ عضو کمیسیون امنیت ملی/ حاج قاسم از دست چه کسانی خون دل خورد؟
 گروه سیاسی خبرگزاری فارس ـ محمد مهدی احمدی: صبح جمعه 13 دی ماه بود که خبری از رسانه ها به ایران مخا...
https://www.farsnews.ir/news/14001008000231/پیش-شرط‌های-پابرجایی-مکتب-سلیمانی-در-گفت‌وگو-با-۲-عضو-کمیسیون-امنیت
3 - Title: دیدار دانشجویان با جبلی / 

In [18]:
search_engine.search('اخبار روز ایران')

purified query tokens:  ['اخبار', 'روز', 'ایران']
0-Doc_ID: 5749 - Score: 0.9947080285731545
1-Doc_ID: 10152 - Score: 0.9873830863017122
2-Doc_ID: 3781 - Score: 0.9873830863017122
3-Doc_ID: 5330 - Score: 0.9873830863017122
4-Doc_ID: 9646 - Score: 0.9873830863017122
3575 results in 0.018929243087768555 seconds:
Search Results:
1 - Title: پیش بینی مفسر مشهور فوتبال روسیه از آینده آزمون+عکس
 به گزارش خبرگزاری فارس، سردار آزمون در میان لژیونرهای ایرانی این روزها بیشترین اخبار نقل و انتقالات...
https://www.farsnews.ir/news/14001010000074/پیش-بینی-مفسر-مشهور-فوتبال-روسیه-از-آینده-آزمون-عکس
2 - Title: نماینده جامعه اسلامی دانشجویان در دیدار با اژه‌ای: مردم باید ثمره مبارزه با فساد را لمس کنند
 به گزارش خبرنگار تشکل‌های دانشگاهی خبرگزاری فارس، امیرمحمد کولانی نماینده اتحادیه جامعه اسلامی دانش...
https://www.farsnews.ir/news/14000915000774/نماینده-جامعه-اسلامی-دانشجویان-در-دیدار-با-اژه‌ای-مردم-باید-ثمره
3 - Title: گفت‌و‌گوی فارس با مسئول فدراسیون عراق درباره جزئیات کرونایی‌ها قبل از بازی با ایر

In [19]:
search_engine.search('کمیسیون')

purified query tokens:  ['کمیسیون']
0-Doc_ID: 11882 - Score: 0.9997013522061723
1-Doc_ID: 7506 - Score: 0.9996911145893808
2-Doc_ID: 9970 - Score: 0.9996877743595739
3-Doc_ID: 7401 - Score: 0.9996803975055916
4-Doc_ID: 10042 - Score: 0.9996695470988544
1800 results in 0.0009634494781494141 seconds:
Search Results:
1 - Title: آخرین وضعیت طرح صیانت از فضای مجازی/ از اجرای آزمایشی قانون تا رفع عیوب در یک بازه 2 تا 7 ساله
 خبرگزاری فارس- وحید ونایی: طرح حمایت از حقوق کاربران و خدمات پایه کاربردی فضای مجازی موسوم به طرح ص...
https://www.farsnews.ir/news/14000803000223/آخرین-وضعیت-طرح-صیانت-از-فضای-مجازی-از-اجرای-آزمایشی-قانون-تا-رفع
2 - Title: کلیات طرح حمایت از کاربران فضای مجازی در کمیسیون ویژه تصویب شد
 حجت الاسلام احمد حسین فلاحی عضو کمیسیون مشترک بررسی طرح حمایت از کاربران در فضای مجازی در گفتگو با ...
https://www.farsnews.ir/news/14001203000680/کلیات-طرح-حمایت-از-کاربران-فضای-مجازی-در-کمیسیون-ویژه-تصویب-شد
3 - Title: 70 هزار کلاس بدون معلم/ نیاز 200 هزار میلیاردی برای سنددار کردن اموا

In [20]:
search_engine.search('اخبار کمیسیون اجاره املاک')

purified query tokens:  ['اخبار', 'کمیسیون', 'اجاره', 'املاک']
0-Doc_ID: 9308 - Score: 0.8602433824109029
1-Doc_ID: 9483 - Score: 0.8602433824109029
2-Doc_ID: 9898 - Score: 0.8385626856126239
3-Doc_ID: 9283 - Score: 0.8323135795156452
4-Doc_ID: 10090 - Score: 0.8162534054077998
2071 results in 0.018111228942871094 seconds:
Search Results:
1 - Title: تصویب اعتبار ۳ هزار میلیاردی برای تقویت صندوق نوآوری و شکوفایی
 به گزارش خبرنگار پارلمانی خبرگزاری فارس، طرح جهش تولید دانش‌بنیان در دستور کار جلسه علنی امروز (چها...
https://www.farsnews.ir/news/14001008000299/تصویب-اعتبار-۳-هزار-میلیاردی-برای-تقویت-صندوق-نوآوری-و-شکوفایی
2 - Title: دیوان محاسبات: کسری تراز لایحه بودجه سال آینده 35درصد از بودجه امسال کمتر است
 به گزارش خبرگزاری فارس، به نقل از روابط عمومی و امور بین الملل دیوان محاسبات کشور، با ارائه لایحه ب...
https://www.farsnews.ir/news/14001004000648/دیوان-محاسبات-کسری-تراز-لایحه-بودجه-سال-آینده-35درصد-از-بودجه-امسال
3 - Title: آیین نامه ثبت اطلاعات اموال غیرمنقول دستگاه‏‌های اجرایی تص