# IR Project
in this project I have created a indexer for docs and also a search engine using tf-idf scoring.

### Importing Libs

In [19]:
# %pip install hazm

from indexer import Indexer
from search_engine import SearchEngine

### Setting Configs

In [20]:
DEBUG = True                                # Set true to see what is happening behind the scene.
DB_ADDR = './IR_data_news_12k.json'         # Database address
INDEX_ADDR = './index.json'                 # Index address
REFINED_DB_ADDRESS = './refined_db.json'    # Refined DB address
ENABLE_NORMALIZER = True                    # Enables normalizer. else raw text will be processed!
REMOVE_FIRST_X_SW = 50                      # Remove first x most frequent words
SHOW_X_RESULT = 5                           # limits the max displayable result
MAX_CHAMPIONS = 10                          # limits maximum champions

### Building and Running Indexer
first we build index: it must contain items like below: <br>
index[token] -> {freq:int, postings_list:{'doc_id':freq_in_doc}}

In [21]:
indexer = Indexer(DB_ADDR, INDEX_ADDR, REFINED_DB_ADDRESS, REMOVE_FIRST_X_SW, ENABLE_NORMALIZER, DEBUG)
indexer.run()

Max Docs: 12202
First Content Before Normalization:
به گزارش خبرگزاری فارس، کنفدراسیون فوتبال آسیا (AFC) در نامه ای رسمی به فدراسیون فوتبال ایران و باشگاه گیتی پسند زمان  قرعه کشی جام باشگاه های فوتسال آسیا را رسماً اعلام کرد. بر این اساس 25 فروردین ماه 1401 مراسم قرعه کشی جام باشگاه های فوتسال آسیا در مالزی برگزار می شود. باشگاه گیتی پسند بعنوان قهرمان فوتسال ایران در سال 1400 به این مسابقات راه پیدا کرده است. پیش از این گیتی پسند تجربه 3 دوره حضور در جام باشگاه های فوتسال آسیا را داشته که هر سه دوره به فینال مسابقات راه پیدا کرده و یک عنوان قهرمانی و دو مقام دومی بدست آورده است. انتهای پیام/



After Normalization: 
به گزارش خبرگزاری فارس، کنفدراسیون فوتبال آسیا  AFC  در نامه‌ای رسمی به فدراسیون فوتبال ایران و باشگاه گیتی پسند زمان قرعه‌کشی جام باشگاه‌های فوتسال آسیا را رسما اعلام کرد  بر این اساس ۲۵ فروردین‌ماه ۱۴۰۱ مراسم قرعه‌کشی جام باشگاه‌های فوتسال آسیا در مالزی برگزار می‌شود  باشگاه گیتی پسند بعنوان قهرمان فوتسال ایران در سال ۱۴۰۰ به این مسابقات راه پیدا کرده است  پیش از این گی

### Building Search Engine
In this engine I have used tf-idf scoring.

In [22]:
search_engine = SearchEngine(INDEX_ADDR, REFINED_DB_ADDRESS, ENABLE_NORMALIZER, DEBUG)
search_engine.set_max_display_res(SHOW_X_RESULT)
search_engine.run()

Running search engine...
Max Doc:12202
Engine is up.


### Testing Search Engine
here I am testing search engine results:

first lets check one simple word

In [23]:
search_engine.search('اخبار')

purified query tokens:  ['اخبار']
0-Doc_ID: 10599 - Score: 1.5592711422385783
1-Doc_ID: 9070 - Score: 1.3435524770477898
2-Doc_ID: 10070 - Score: 1.2068384909036214
3-Doc_ID: 11697 - Score: 1.2068384909036214
4-Doc_ID: 3805 - Score: 1.2068384909036214
228 results in 0.0010073184967041016 seconds:
Search Results:
1 - Title: اختتامیه نخستین جشنواره رسانه‌ای بهارستان برگزار شد/ خبرنگار و عکاس فارس برگزیده شدند
 به گزارش گروه سیاسی خبرگزاری فارس، نخستین جشنواره رسانه‌ای بهارستان صبح امروز (شنبه، 6 آذر ماه)  با...
https://www.farsnews.ir/news/14000906000605/اختتامیه-نخستین-جشنواره-رسانه‌ای-بهارستان-برگزار-شد-خبرنگار-و-عکاس
2 - Title: پیش شرط‌های پابرجایی مکتب سلیمانی در گفت‌وگو با ۲ عضو کمیسیون امنیت ملی/ حاج قاسم از دست چه کسانی خون دل خورد؟
 گروه سیاسی خبرگزاری فارس ـ محمد مهدی احمدی: صبح جمعه 13 دی ماه بود که خبری از رسانه ها به ایران مخا...
https://www.farsnews.ir/news/14001008000231/پیش-شرط‌های-پابرجایی-مکتب-سلیمانی-در-گفت‌وگو-با-۲-عضو-کمیسیون-امنیت
3 - Title: دیدار دانشجویان با جبلی /

now I will try a few simple words

In [24]:
search_engine.search('اخبار روز ایران')

purified query tokens:  ['اخبار', 'روز', 'ایران']
0-Doc_ID: 9070 - Score: 1.8380900011091281
1-Doc_ID: 11697 - Score: 1.7978046505567495
2-Doc_ID: 9266 - Score: 1.7519659678979633
3-Doc_ID: 10599 - Score: 1.5592711422385783
4-Doc_ID: 5749 - Score: 1.3716843322574008
3575 results in 0.07859945297241211 seconds:
Search Results:
1 - Title: پیش شرط‌های پابرجایی مکتب سلیمانی در گفت‌وگو با ۲ عضو کمیسیون امنیت ملی/ حاج قاسم از دست چه کسانی خون دل خورد؟
 گروه سیاسی خبرگزاری فارس ـ محمد مهدی احمدی: صبح جمعه 13 دی ماه بود که خبری از رسانه ها به ایران مخا...
https://www.farsnews.ir/news/14001008000231/پیش-شرط‌های-پابرجایی-مکتب-سلیمانی-در-گفت‌وگو-با-۲-عضو-کمیسیون-امنیت
2 - Title: پرهیز شدید آیت‌الله مهدوی‌کنی از رانت و سفارش/ از علاقه خاص حضرت امام(ره) تا اصرار بر تربیت دانشجو ـ سرباز برای اسلام
 خبرگزاری فارس- وحید ونایی: هفتمین سالگرد درگذشت آیت‌الله محمدرضا مهدوی کنی را پشت سر گذاشتیم که 29 ...
https://www.farsnews.ir/news/14000804000796/پرهیز-شدید-آیت‌الله-مهدوی‌کنی-از-رانت-و-سفارش-از-علاقه-خا

and trying one specific word

In [25]:
search_engine.search('کمیسیون')

purified query tokens:  ['کمیسیون']
0-Doc_ID: 11882 - Score: 1.452599688992581
1-Doc_ID: 7506 - Score: 1.404413176533665
2-Doc_ID: 9970 - Score: 1.3893750505556857
3-Doc_ID: 7401 - Score: 1.3572772115465832
4-Doc_ID: 10042 - Score: 1.312669533065633
1800 results in 0.015594959259033203 seconds:
Search Results:
1 - Title: آخرین وضعیت طرح صیانت از فضای مجازی/ از اجرای آزمایشی قانون تا رفع عیوب در یک بازه 2 تا 7 ساله
 خبرگزاری فارس- وحید ونایی: طرح حمایت از حقوق کاربران و خدمات پایه کاربردی فضای مجازی موسوم به طرح ص...
https://www.farsnews.ir/news/14000803000223/آخرین-وضعیت-طرح-صیانت-از-فضای-مجازی-از-اجرای-آزمایشی-قانون-تا-رفع
2 - Title: کلیات طرح حمایت از کاربران فضای مجازی در کمیسیون ویژه تصویب شد
 حجت الاسلام احمد حسین فلاحی عضو کمیسیون مشترک بررسی طرح حمایت از کاربران در فضای مجازی در گفتگو با ...
https://www.farsnews.ir/news/14001203000680/کلیات-طرح-حمایت-از-کاربران-فضای-مجازی-در-کمیسیون-ویژه-تصویب-شد
3 - Title: 70 هزار کلاس بدون معلم/ نیاز 200 هزار میلیاردی برای سنددار کردن اموال آم

let's try more specific words

In [26]:
search_engine.search('اخبار کمیسیون اجاره املاک')

purified query tokens:  ['اخبار', 'کمیسیون', 'اجاره', 'املاک']


0-Doc_ID: 11891 - Score: 4.473875348442115
1-Doc_ID: 9130 - Score: 3.978417736499276
2-Doc_ID: 9283 - Score: 3.76144295563732
3-Doc_ID: 10923 - Score: 3.1421441592538177
4-Doc_ID: 8680 - Score: 2.888162245762019
2071 results in 0.033516883850097656 seconds:
Search Results:
1 - Title: توزیع منابع پولی و مالی بانک‌ها برای خانه‌دار شدن مردم ناعادلانه است/ راهکار مالیات‌ستانی از خانه‌های خالی و املاک بدون استفاده
 حوزه تشکل‌های دانشگاهی خبرگزاری فارس، طی سال‌های گذشته مشکل مسکن در شهرهای بزرگ و کوچک مشکلات زیادی...
https://www.farsnews.ir/news/14000803000316/توزیع-منابع-پولی-و-مالی-بانک‌ها-برای-خانه‌دار-شدن-مردم-ناعادلانه-است-
2 - Title: انتقاد کمیسیون اصل 90 از تأخیر نامتعارف و روند اجرایی نامطلوب قانون جامع حدنگار
 به گزارش خبرنگار پارلمانی خبرگزاری فارس، گزارش کمیسیون اصل 90 مجلس شورای اسلامی در مورد نحوه اجرای ...
https://www.farsnews.ir/news/14001014000151/انتقاد-کمیسیون-اصل-90-از-تأخیر-نامتعارف-و-روند-اجرایی-نامطلوب-قانون
3 - Title: بررسی شفافیت مالی در حوزه شهرداری‌ها در مرکز پژوهش‌

### Let's Check Champions List Power
so far we were searching on the main index, and now I will enable champions list

In [27]:
# limit champions for 5 doc per term
search_engine.enable_champions_list(MAX_CHAMPIONS)

Lets do the same searches again:

In [28]:
search_engine.search('اخبار')

purified query tokens:  ['اخبار']
0-Doc_ID: 10323 - Score: 0.5197570474128596
1-Doc_ID: 10327 - Score: 0.5197570474128596
2-Doc_ID: 10396 - Score: 0.5197570474128596
3-Doc_ID: 10505 - Score: 0.5197570474128596
4-Doc_ID: 10574 - Score: 0.5197570474128596
9 results in 0.0 seconds:
Search Results:
1 - Title: همایش « بیداد آب» | تفکر «جهانگیری» برای توسعه صنایع در فلات مرکزی کاملا غلط بود/ منابع آبی فعلی را مدیریت کنیم
 به گزارش خبرنگار تشکل‌های دانشگاهی خبرگزاری فارس، به همت بسیج دانشجویی دانشگاه شریف همایش « بیداد آ...
https://www.farsnews.ir/news/14000910000854/همایش-بیداد-آب-|-تفکر-جهانگیری-برای-توسعه-صنایع-در-فلات-مرکزی-کاملا
2 - Title: رئیس مجمع نمایندگان اصفهان: دانشگاه‌ها برای حل معضل کم‌آبی وارد عمل شوند/ از مصوبات شورای آب پیروی می‌کنیم
 به گزارش خبرنگار تشکل‌های دانشگاهی خبرگزاری فارس، به همت بسیج دانشجویی دانشگاه شریف همایش « بیداد آ...
https://www.farsnews.ir/news/14000910000874/رئیس-مجمع-نمایندگان-اصفهان-دانشگاه‌ها-برای-حل-معضل-کم‌آبی-وارد-عمل
3 - Title: عضو هیأت رئیسه مجلس: 

In [29]:
search_engine.search('اخبار روز ایران')

purified query tokens:  ['اخبار', 'روز', 'ایران']
0-Doc_ID: 10012 - Score: 0.9886412709887098
1-Doc_ID: 10790 - Score: 0.9825378315181192
2-Doc_ID: 10772 - Score: 0.8494487301204184
3-Doc_ID: 10862 - Score: 0.8494487301204184
4-Doc_ID: 10327 - Score: 0.5197570474128596
17 results in 0.0 seconds:
Search Results:
1 - Title: تحریف اظهارات وزیر کشور و سوءاستفاده رسانه‌های معاند/ افکار فمینیستی جز تحقیر زن آثار دیگری ندارد
 به گزارش خبرنگار سیاسی خبرگزاری فارس، روی کار آمدن دولت سیزدهم و افزایش تلاش مسئولان برای حل مشکلات...
https://www.farsnews.ir/news/14000918000553/تحریف-اظهارات-وزیر-کشور-و-سوءاستفاده-رسانه‌های-معاند-افکار-فمینیستی
2 - Title: آبان 98| شبیخون دولت اعتدال‌گرایان به اعتماد مردم/ مطالبه دانشگاهیان برای محاکمه دولتمردان سابق
 گروه تشکل‌های دانشگاهی خبرگزاری فارس؛ کشور ما دو سال پیش در آبان‌ماه شاهد حوادث تلخی بود، حوادث تلخ...
https://www.farsnews.ir/news/14000824000529/آبان-9|-شبیخون-دولت-اعتدال‌گرایان-به-اعتماد-مردم-مطالبه-دانشگاهیان
3 - Title: وقتی امید و اعتماد مردم به آی

In [30]:
search_engine.search('کمیسیون')

purified query tokens:  ['کمیسیون']
0-Doc_ID: 10019 - Score: 0.25013103357524946
1-Doc_ID: 10032 - Score: 0.25013103357524946
2-Doc_ID: 10034 - Score: 0.25013103357524946
3-Doc_ID: 10097 - Score: 0.25013103357524946
4-Doc_ID: 10102 - Score: 0.25013103357524946
9 results in 0.0009496212005615234 seconds:
Search Results:
1 - Title: قالیباف: برنامه بلندمدت دوجانبه، لازمه ارتقای روابط تجاری و حل مشکلات تجّار است
 به گزارش خبرگزاری فارس، محمدباقر قالیباف رئیس مجلس شورای اسلامی که روز گذشته به منظور شرکت در اتحاد...
https://www.farsnews.ir/news/14000918000309/قالیباف-برنامه-بلندمدت-دوجانبه-لازمه-ارتقای-روابط-تجاری-و-حل-مشکلات
2 - Title: رئیس مجلس وارد استانبول شد
 به گزارش حوزه پارلمانی خبرگزاری فارس، محمدباقر قالیباف رئیس مجلس شورای اسلامی عصر امروز (چهارشنبه 1...
https://www.farsnews.ir/news/14000917000749/رئیس-مجلس-وارد-استانبول-شد
3 - Title: موادی دیگر از آیین نامه داخلی مجمع تشخیص مصلحت نظام تصویب شد
 به گزارش گروه سیاسی خبرگزاری فارس، در جلسه امروز مجمع تشخیص مصلحت نظام که به ریاست آیت

In [31]:
search_engine.search('اخبار کمیسیون اجاره املاک')

purified query tokens:  ['اخبار', 'کمیسیون', 'اجاره', 'املاک']
0-Doc_ID: 10090 - Score: 2.057244937925184
1-Doc_ID: 11655 - Score: 1.5831343383264995
2-Doc_ID: 10817 - Score: 1.4368170634183541
3-Doc_ID: 10913 - Score: 1.388630550959438
4-Doc_ID: 10158 - Score: 1.3330033047512502
33 results in 0.0009968280792236328 seconds:
Search Results:
1 - Title: نظر مرکز پژوهش‌های مجلس درباره طرح کاهش تعرفه بنگاه‌های معاملاتی و حق دلالی‌ها
 به گزارش خبرگزاری فارس، معاونت مطالعات حقوقی مرکز پژوهش‌های مجلس شورای اسلامی به اظهار نظر کارشناسی...
https://www.farsnews.ir/news/14000916000533/نظر-مرکز-پژوهش‌های-مجلس-درباره-طرح-کاهش-تعرفه-بنگاه‌های-معاملاتی-و-حق
2 - Title: فارس من| تدبیر مجلس برای جلوگیری از فرار مفسدان/ آیا همه مسئولان «ممنوع‌الخروج» می‌شوند؟
 گروه پارلمانی خبرگزاری فارس ـ حامد حسین عسکری: ماجرای فرار مفسدان اقتصادی از کشور، مخصوصا آن دسته ا...
https://www.farsnews.ir/news/14000810000538/فارس-من|-تدبیر-مجلس-برای-جلوگیری-از-فرار-مفسدان-آیا-همه-مسئولان
3 - Title: مجلس برای زندانیان آبان 98 

# Search with Cosine
so let's go back to search on main index and this time use cosine scoring function! 

In [32]:
search_engine.disable_champions_list()
search_engine.set_search_score_mode('cosine')

search mode set to 'cosine'. if not exist default is tf_idf


and repeat the same search again!

In [33]:
search_engine.search('اخبار')

purified query tokens:  ['اخبار']
0-Doc_ID: 10599 - Score: 0.9997216264111134
1-Doc_ID: 9070 - Score: 0.9996770029689236
2-Doc_ID: 10070 - Score: 0.9996404783859326
3-Doc_ID: 11697 - Score: 0.9996404783859326
4-Doc_ID: 3805 - Score: 0.9996404783859326
228 results in 0.0 seconds:
Search Results:
1 - Title: اختتامیه نخستین جشنواره رسانه‌ای بهارستان برگزار شد/ خبرنگار و عکاس فارس برگزیده شدند
 به گزارش گروه سیاسی خبرگزاری فارس، نخستین جشنواره رسانه‌ای بهارستان صبح امروز (شنبه، 6 آذر ماه)  با...
https://www.farsnews.ir/news/14000906000605/اختتامیه-نخستین-جشنواره-رسانه‌ای-بهارستان-برگزار-شد-خبرنگار-و-عکاس
2 - Title: پیش شرط‌های پابرجایی مکتب سلیمانی در گفت‌وگو با ۲ عضو کمیسیون امنیت ملی/ حاج قاسم از دست چه کسانی خون دل خورد؟
 گروه سیاسی خبرگزاری فارس ـ محمد مهدی احمدی: صبح جمعه 13 دی ماه بود که خبری از رسانه ها به ایران مخا...
https://www.farsnews.ir/news/14001008000231/پیش-شرط‌های-پابرجایی-مکتب-سلیمانی-در-گفت‌وگو-با-۲-عضو-کمیسیون-امنیت
3 - Title: دیدار دانشجویان با جبلی / صدا و سیما باید ش

In [34]:
search_engine.search('اخبار روز ایران')

purified query tokens:  ['اخبار', 'روز', 'ایران']
0-Doc_ID: 5749 - Score: 0.9947080285731545
1-Doc_ID: 10152 - Score: 0.9873830863017122
2-Doc_ID: 3781 - Score: 0.9873830863017122
3-Doc_ID: 5330 - Score: 0.9873830863017122
4-Doc_ID: 9646 - Score: 0.9873830863017122
3575 results in 0.0200042724609375 seconds:
Search Results:
1 - Title: پیش بینی مفسر مشهور فوتبال روسیه از آینده آزمون+عکس
 به گزارش خبرگزاری فارس، سردار آزمون در میان لژیونرهای ایرانی این روزها بیشترین اخبار نقل و انتقالات...
https://www.farsnews.ir/news/14001010000074/پیش-بینی-مفسر-مشهور-فوتبال-روسیه-از-آینده-آزمون-عکس
2 - Title: نماینده جامعه اسلامی دانشجویان در دیدار با اژه‌ای: مردم باید ثمره مبارزه با فساد را لمس کنند
 به گزارش خبرنگار تشکل‌های دانشگاهی خبرگزاری فارس، امیرمحمد کولانی نماینده اتحادیه جامعه اسلامی دانش...
https://www.farsnews.ir/news/14000915000774/نماینده-جامعه-اسلامی-دانشجویان-در-دیدار-با-اژه‌ای-مردم-باید-ثمره
3 - Title: گفت‌و‌گوی فارس با مسئول فدراسیون عراق درباره جزئیات کرونایی‌ها قبل از بازی با ایران

In [35]:
search_engine.search('کمیسیون')

purified query tokens:  ['کمیسیون']
0-Doc_ID: 11882 - Score: 0.9997013522061723
1-Doc_ID: 7506 - Score: 0.9996911145893808
2-Doc_ID: 9970 - Score: 0.9996877743595739
3-Doc_ID: 7401 - Score: 0.9996803975055916
4-Doc_ID: 10042 - Score: 0.9996695470988544
1800 results in 0.002020120620727539 seconds:
Search Results:
1 - Title: آخرین وضعیت طرح صیانت از فضای مجازی/ از اجرای آزمایشی قانون تا رفع عیوب در یک بازه 2 تا 7 ساله
 خبرگزاری فارس- وحید ونایی: طرح حمایت از حقوق کاربران و خدمات پایه کاربردی فضای مجازی موسوم به طرح ص...
https://www.farsnews.ir/news/14000803000223/آخرین-وضعیت-طرح-صیانت-از-فضای-مجازی-از-اجرای-آزمایشی-قانون-تا-رفع
2 - Title: کلیات طرح حمایت از کاربران فضای مجازی در کمیسیون ویژه تصویب شد
 حجت الاسلام احمد حسین فلاحی عضو کمیسیون مشترک بررسی طرح حمایت از کاربران در فضای مجازی در گفتگو با ...
https://www.farsnews.ir/news/14001203000680/کلیات-طرح-حمایت-از-کاربران-فضای-مجازی-در-کمیسیون-ویژه-تصویب-شد
3 - Title: 70 هزار کلاس بدون معلم/ نیاز 200 هزار میلیاردی برای سنددار کردن اموال

In [36]:
search_engine.search('اخبار کمیسیون اجاره املاک')

purified query tokens:  ['اخبار', 'کمیسیون', 'اجاره', 'املاک']
0-Doc_ID: 9308 - Score: 0.8602433824109029
1-Doc_ID: 9483 - Score: 0.8602433824109029
2-Doc_ID: 9898 - Score: 0.8385626856126239
3-Doc_ID: 9283 - Score: 0.8323135795156452
4-Doc_ID: 10090 - Score: 0.8162534054077998
2071 results in 0.0184328556060791 seconds:
Search Results:
1 - Title: تصویب اعتبار ۳ هزار میلیاردی برای تقویت صندوق نوآوری و شکوفایی
 به گزارش خبرنگار پارلمانی خبرگزاری فارس، طرح جهش تولید دانش‌بنیان در دستور کار جلسه علنی امروز (چها...
https://www.farsnews.ir/news/14001008000299/تصویب-اعتبار-۳-هزار-میلیاردی-برای-تقویت-صندوق-نوآوری-و-شکوفایی
2 - Title: دیوان محاسبات: کسری تراز لایحه بودجه سال آینده 35درصد از بودجه امسال کمتر است
 به گزارش خبرگزاری فارس، به نقل از روابط عمومی و امور بین الملل دیوان محاسبات کشور، با ارائه لایحه ب...
https://www.farsnews.ir/news/14001004000648/دیوان-محاسبات-کسری-تراز-لایحه-بودجه-سال-آینده-35درصد-از-بودجه-امسال
3 - Title: آیین نامه ثبت اطلاعات اموال غیرمنقول دستگاه‏‌های اجرایی تصوی