# IR Project
in this project I have created a indexer for docs and also a search engine using tf-idf scoring.

### Importing Libs

In [22]:
from indexer import Indexer
from search_engine import SearchEngine

### Setting Configs

In [23]:
DEBUG = True                                # Set true to see what is happening behind the scene.
DB_ADDR = './IR_data_news_12k.json'         # Database address
INDEX_ADDR = 'index.json'                   # Index address
REFINED_DB_ADDRESS = './refined_db.json'    # Refined DB address
REMOVE_FIRST_X_SW = 50                      # Remove first x most frequent words

### Building and Running Indexer
first we build index: it must contain items like below: <br>
index[token] -> {freq:int, postings_list:{'doc_id':freq_in_doc}}

In [3]:
indexer = Indexer(DB_ADDR, INDEX_ADDR, REFINED_DB_ADDRESS, REMOVE_FIRST_X_SW, DEBUG)
indexer.run()
del(indexer)

Max Docs: 12202
Some of tokens ready to index: [{'doc_id': '0', 'token': 'به'}, {'doc_id': '0', 'token': 'گزارش'}, {'doc_id': '0', 'token': 'خبرگزاری'}, {'doc_id': '0', 'token': 'فارس'}, {'doc_id': '0', 'token': '،'}, {'doc_id': '0', 'token': 'کنفدراسیون'}, {'doc_id': '0', 'token': 'فوتبال'}, {'doc_id': '0', 'token': 'آسیا'}, {'doc_id': '0', 'token': 'AFC'}, {'doc_id': '0', 'token': 'در'}]
Here you can see 10 first stop words:
0-term: و, freq: 219258
1-term: در, freq: 164533
2-term: به, freq: 132864
3-term: ،, freq: 120348
4-term: از, freq: 92982
5-term: این, freq: 82646
6-term: که, freq: 75470
7-term: کرد#کن, freq: 74160
8-term: با, freq: 69037
9-term: را, freq: 67496


### Building Search Engine
In this engine I have used tf-idf scoring.

In [24]:
search_engine = SearchEngine(INDEX_ADDR, REFINED_DB_ADDRESS, 12202, DEBUG)

### Testing Search Engine
here I am testing search engine results:

first lets check one simple word

In [25]:
search_engine.run(test_q='اخبار')

purified query tokens:  ['اخبار']
0-Doc_ID: 10599 - Score: 1.5592711422385783
1-Doc_ID: 9070 - Score: 1.3435524770477898
2-Doc_ID: 10070 - Score: 1.2068384909036214
3-Doc_ID: 11697 - Score: 1.2068384909036214
4-Doc_ID: 3805 - Score: 1.2068384909036214
Search Results:
1 - Title: اختتامیه نخستین جشنواره رسانه‌ای بهارستان برگزار شد/ خبرنگار و عکاس فارس برگزیده شدند
 به گزارش گروه سیاسی خبرگزاری فارس، نخستین جشنواره رسانه‌ای بهارستان صبح امروز (شنبه، 6 آذر ماه)  با...
https://www.farsnews.ir/news/14000906000605/اختتامیه-نخستین-جشنواره-رسانه‌ای-بهارستان-برگزار-شد-خبرنگار-و-عکاس
2 - Title: پیش شرط‌های پابرجایی مکتب سلیمانی در گفت‌وگو با ۲ عضو کمیسیون امنیت ملی/ حاج قاسم از دست چه کسانی خون دل خورد؟
 گروه سیاسی خبرگزاری فارس ـ محمد مهدی احمدی: صبح جمعه 13 دی ماه بود که خبری از رسانه ها به ایران مخا...
https://www.farsnews.ir/news/14001008000231/پیش-شرط‌های-پابرجایی-مکتب-سلیمانی-در-گفت‌وگو-با-۲-عضو-کمیسیون-امنیت
3 - Title: دیدار دانشجویان با جبلی / صدا و سیما باید شفاف باشد
 به گزارش خبرنگار ت

now I will try a few simple words

In [26]:
search_engine.run(test_q='اخبار روز ایران')

purified query tokens:  ['اخبار', 'روز', 'ایران']
0-Doc_ID: 9070 - Score: 1.8380900011091281
1-Doc_ID: 11697 - Score: 1.7978046505567495
2-Doc_ID: 9266 - Score: 1.7519659678979633
3-Doc_ID: 10599 - Score: 1.5592711422385783
4-Doc_ID: 5749 - Score: 1.3716843322574008
Search Results:
1 - Title: پیش شرط‌های پابرجایی مکتب سلیمانی در گفت‌وگو با ۲ عضو کمیسیون امنیت ملی/ حاج قاسم از دست چه کسانی خون دل خورد؟
 گروه سیاسی خبرگزاری فارس ـ محمد مهدی احمدی: صبح جمعه 13 دی ماه بود که خبری از رسانه ها به ایران مخا...
https://www.farsnews.ir/news/14001008000231/پیش-شرط‌های-پابرجایی-مکتب-سلیمانی-در-گفت‌وگو-با-۲-عضو-کمیسیون-امنیت
2 - Title: پرهیز شدید آیت‌الله مهدوی‌کنی از رانت و سفارش/ از علاقه خاص حضرت امام(ره) تا اصرار بر تربیت دانشجو ـ سرباز برای اسلام
 خبرگزاری فارس- وحید ونایی: هفتمین سالگرد درگذشت آیت‌الله محمدرضا مهدوی کنی را پشت سر گذاشتیم که 29 ...
https://www.farsnews.ir/news/14000804000796/پرهیز-شدید-آیت‌الله-مهدوی‌کنی-از-رانت-و-سفارش-از-علاقه-خاص-حضرت-امام
3 - Title: بُرشی از کتاب « فتنه ت

and trying one specific word

In [28]:
search_engine.run(test_q='کمیسیون')

purified query tokens:  ['کمیسیون']
0-Doc_ID: 11882 - Score: 1.452599688992581
1-Doc_ID: 7506 - Score: 1.404413176533665
2-Doc_ID: 9970 - Score: 1.3893750505556857
3-Doc_ID: 7401 - Score: 1.3572772115465832
4-Doc_ID: 10042 - Score: 1.312669533065633
Search Results:
1 - Title: آخرین وضعیت طرح صیانت از فضای مجازی/ از اجرای آزمایشی قانون تا رفع عیوب در یک بازه 2 تا 7 ساله
 خبرگزاری فارس- وحید ونایی: طرح حمایت از حقوق کاربران و خدمات پایه کاربردی فضای مجازی موسوم به طرح ص...
https://www.farsnews.ir/news/14000803000223/آخرین-وضعیت-طرح-صیانت-از-فضای-مجازی-از-اجرای-آزمایشی-قانون-تا-رفع
2 - Title: کلیات طرح حمایت از کاربران فضای مجازی در کمیسیون ویژه تصویب شد
 حجت الاسلام احمد حسین فلاحی عضو کمیسیون مشترک بررسی طرح حمایت از کاربران در فضای مجازی در گفتگو با ...
https://www.farsnews.ir/news/14001203000680/کلیات-طرح-حمایت-از-کاربران-فضای-مجازی-در-کمیسیون-ویژه-تصویب-شد
3 - Title: 70 هزار کلاس بدون معلم/ نیاز 200 هزار میلیاردی برای سنددار کردن اموال آموزش و پرورش
 گروه سیاسی خبرگزاری فارس - وحید و

let's try more specific words

In [29]:
search_engine.run(test_q='اخبار کمیسیون اجاره املاک')

purified query tokens:  ['اخبار', 'کمیسیون', 'اجاره', 'املاک']
0-Doc_ID: 11891 - Score: 4.473875348442115
1-Doc_ID: 9130 - Score: 3.978417736499276
2-Doc_ID: 9283 - Score: 3.76144295563732
3-Doc_ID: 10923 - Score: 3.1421441592538177
4-Doc_ID: 8680 - Score: 2.888162245762019
Search Results:
1 - Title: توزیع منابع پولی و مالی بانک‌ها برای خانه‌دار شدن مردم ناعادلانه است/ راهکار مالیات‌ستانی از خانه‌های خالی و املاک بدون استفاده
 حوزه تشکل‌های دانشگاهی خبرگزاری فارس، طی سال‌های گذشته مشکل مسکن در شهرهای بزرگ و کوچک مشکلات زیادی...
https://www.farsnews.ir/news/14000803000316/توزیع-منابع-پولی-و-مالی-بانک‌ها-برای-خانه‌دار-شدن-مردم-ناعادلانه-است-
2 - Title: انتقاد کمیسیون اصل 90 از تأخیر نامتعارف و روند اجرایی نامطلوب قانون جامع حدنگار
 به گزارش خبرنگار پارلمانی خبرگزاری فارس، گزارش کمیسیون اصل 90 مجلس شورای اسلامی در مورد نحوه اجرای ...
https://www.farsnews.ir/news/14001014000151/انتقاد-کمیسیون-اصل-90-از-تأخیر-نامتعارف-و-روند-اجرایی-نامطلوب-قانون
3 - Title: بررسی شفافیت مالی در حوزه شهرداری‌

### Let's Check Champions List Power
so far we were searching on the main index, and now I will enable champions list

In [30]:
# limit champions for 5 doc per term
search_engine.enable_champions_list(x_most_related=5)

Lets do the same searches again:

In [31]:
search_engine.run(test_q='اخبار')

purified query tokens:  ['اخبار']
0-Doc_ID: 10323 - Score: 0.5197570474128596
1-Doc_ID: 10327 - Score: 0.5197570474128596
2-Doc_ID: 10396 - Score: 0.5197570474128596
3-Doc_ID: 10505 - Score: 0.5197570474128596
Search Results:
1 - Title: همایش « بیداد آب» | تفکر «جهانگیری» برای توسعه صنایع در فلات مرکزی کاملا غلط بود/ منابع آبی فعلی را مدیریت کنیم
 به گزارش خبرنگار تشکل‌های دانشگاهی خبرگزاری فارس، به همت بسیج دانشجویی دانشگاه شریف همایش « بیداد آ...
https://www.farsnews.ir/news/14000910000854/همایش-بیداد-آب-|-تفکر-جهانگیری-برای-توسعه-صنایع-در-فلات-مرکزی-کاملا
2 - Title: رئیس مجمع نمایندگان اصفهان: دانشگاه‌ها برای حل معضل کم‌آبی وارد عمل شوند/ از مصوبات شورای آب پیروی می‌کنیم
 به گزارش خبرنگار تشکل‌های دانشگاهی خبرگزاری فارس، به همت بسیج دانشجویی دانشگاه شریف همایش « بیداد آ...
https://www.farsnews.ir/news/14000910000874/رئیس-مجمع-نمایندگان-اصفهان-دانشگاه‌ها-برای-حل-معضل-کم‌آبی-وارد-عمل
3 - Title: عضو هیأت رئیسه مجلس: دفاع از حقوق مردم دلیل بازگشت طرح حمایت از کاربران در فضای مجازی  است


In [32]:
search_engine.run(test_q='اخبار روز ایران')

purified query tokens:  ['اخبار', 'روز', 'ایران']
0-Doc_ID: 10012 - Score: 0.9886412709887098
1-Doc_ID: 10327 - Score: 0.5197570474128596
2-Doc_ID: 10396 - Score: 0.5197570474128596
3-Doc_ID: 10505 - Score: 0.5197570474128596
4-Doc_ID: 1 - Score: 0.16484584135377944
Search Results:
1 - Title: تحریف اظهارات وزیر کشور و سوءاستفاده رسانه‌های معاند/ افکار فمینیستی جز تحقیر زن آثار دیگری ندارد
 به گزارش خبرنگار سیاسی خبرگزاری فارس، روی کار آمدن دولت سیزدهم و افزایش تلاش مسئولان برای حل مشکلات...
https://www.farsnews.ir/news/14000918000553/تحریف-اظهارات-وزیر-کشور-و-سوءاستفاده-رسانه‌های-معاند-افکار-فمینیستی
2 - Title: رئیس مجمع نمایندگان اصفهان: دانشگاه‌ها برای حل معضل کم‌آبی وارد عمل شوند/ از مصوبات شورای آب پیروی می‌کنیم
 به گزارش خبرنگار تشکل‌های دانشگاهی خبرگزاری فارس، به همت بسیج دانشجویی دانشگاه شریف همایش « بیداد آ...
https://www.farsnews.ir/news/14000910000874/رئیس-مجمع-نمایندگان-اصفهان-دانشگاه‌ها-برای-حل-معضل-کم‌آبی-وارد-عمل
3 - Title: عضو هیأت رئیسه مجلس: دفاع از حقوق مردم دلیل بازگ

In [33]:
search_engine.run(test_q='کمیسیون')

purified query tokens:  ['کمیسیون']
0-Doc_ID: 10019 - Score: 0.25013103357524946
1-Doc_ID: 10032 - Score: 0.25013103357524946
2-Doc_ID: 10034 - Score: 0.25013103357524946
3-Doc_ID: 10097 - Score: 0.25013103357524946
Search Results:
1 - Title: قالیباف: برنامه بلندمدت دوجانبه، لازمه ارتقای روابط تجاری و حل مشکلات تجّار است
 به گزارش خبرگزاری فارس، محمدباقر قالیباف رئیس مجلس شورای اسلامی که روز گذشته به منظور شرکت در اتحاد...
https://www.farsnews.ir/news/14000918000309/قالیباف-برنامه-بلندمدت-دوجانبه-لازمه-ارتقای-روابط-تجاری-و-حل-مشکلات
2 - Title: رئیس مجلس وارد استانبول شد
 به گزارش حوزه پارلمانی خبرگزاری فارس، محمدباقر قالیباف رئیس مجلس شورای اسلامی عصر امروز (چهارشنبه 1...
https://www.farsnews.ir/news/14000917000749/رئیس-مجلس-وارد-استانبول-شد
3 - Title: موادی دیگر از آیین نامه داخلی مجمع تشخیص مصلحت نظام تصویب شد
 به گزارش گروه سیاسی خبرگزاری فارس، در جلسه امروز مجمع تشخیص مصلحت نظام که به ریاست آیت الله آملی لا...
https://www.farsnews.ir/news/14000917000730/موادی-دیگر-از-آیین-نامه-داخل

In [34]:
search_engine.run(test_q='اخبار کمیسیون اجاره املاک')

purified query tokens:  ['اخبار', 'کمیسیون', 'اجاره', 'املاک']
0-Doc_ID: 10090 - Score: 2.057244937925184
1-Doc_ID: 10817 - Score: 1.4368170634183541
2-Doc_ID: 10158 - Score: 1.3330033047512502
3-Doc_ID: 10824 - Score: 1.3330033047512502
4-Doc_ID: 10396 - Score: 1.3126536643796494
Search Results:
1 - Title: نظر مرکز پژوهش‌های مجلس درباره طرح کاهش تعرفه بنگاه‌های معاملاتی و حق دلالی‌ها
 به گزارش خبرگزاری فارس، معاونت مطالعات حقوقی مرکز پژوهش‌های مجلس شورای اسلامی به اظهار نظر کارشناسی...
https://www.farsnews.ir/news/14000916000533/نظر-مرکز-پژوهش‌های-مجلس-درباره-طرح-کاهش-تعرفه-بنگاه‌های-معاملاتی-و-حق
2 - Title: مجلس برای زندانیان آبان 98 تخفیف و بخشش گرفت/ تلاش برای کاهش مجازات مهریه
 گروه پارلمانی خبرگزاری فارس- سیده زهرا عبداللهی: « یکی از آن‌هایی که آبان ۹۸ به مردم شلیک کرد من بو...
https://www.farsnews.ir/news/14000828000414/مجلس-برای-زندانیان-آبان-9-تخفیف-و-بخشش-گرفت-تلاش-برای-کاهش-مجازات
3 - Title: اصلاح ایرادات شورای نگهبان به لایحه درآمد پایدار شهرداری‌ها در کمیسیون شوراها
 روح ا

# Search with Cosine
so let's go back to search on main index and this time use cosine scoring function! 

In [35]:
search_engine.disable_champions_list()
search_engine.set_search_score_mode('cosine')

search mode set to 'cosine'. if not exist default is tf_idf


and repeat the same search again!

In [36]:
search_engine.run(test_q='اخبار')

purified query tokens:  ['اخبار']
Search Results:
no result found!


In [37]:
search_engine.run(test_q='اخبار روز ایران')

purified query tokens:  ['اخبار', 'روز', 'ایران']
Search Results:
no result found!


In [38]:
search_engine.run(test_q='کمیسیون')

purified query tokens:  ['کمیسیون']
Search Results:
no result found!


In [39]:
search_engine.run(test_q='اخبار کمیسیون اجاره املاک')

purified query tokens:  ['اخبار', 'کمیسیون', 'اجاره', 'املاک']
Search Results:
no result found!
