In [1]:
from parsivar import Normalizer, Tokenizer, FindStems
from stopwordsiso import stopwords
from positional_index.index import PositionalIndex
import json
import pandas as pd

## 1 - Loading the json data

In [2]:
with open('./IR_data_news_12k.json') as json_file:
    docs = json.load(json_file)

## 2 - Doing all preprocesses

In [3]:
normalizer = Normalizer()
tokenizer = Tokenizer()
stemmer = FindStems()
stop_words = stopwords('fa')

In [4]:
print('Started preprocessing ...')
for doc_id in docs:
    text = docs[doc_id]['content']
    stemmed_tokens = PositionalIndex.preprocess(text)
    docs[doc_id]['tokens'] = stemmed_tokens
print('Finished preprocessing')

Started preprocessing ...
Finished preprocessing


In [5]:
index = PositionalIndex()
for doc_id in docs:
    index.add_from_dict(doc_id, docs[doc_id])
index.finish_indexing()

In [6]:
index.query('فدراسیون فوتبال')

Unnamed: 0,title,url,rank
3457,عزیزی‌خادم:‌ ما را به جادوگری متهم کردند ولی ج...,https://www.farsnews.ir/news/14001108000181/عز...,43
5268,توضیح فدراسیون فوتبال درمورد لزوم اصلاح اساسنا...,https://www.farsnews.ir/news/14001017000146/تو...,22
6323,عزیزی خادم:وقتی به فدراسیون آمدم یک چای خشک هم...,https://www.farsnews.ir/news/14001002000257/عز...,19
2788,اصولی: فدراسیون فوتبال جمهوری اسلامی ایران هست...,https://www.farsnews.ir/news/14001117000518/اص...,19
2626,ماجدی:فدراسیون فوتبال بدون حمایت مجلس و دولت ک...,https://www.farsnews.ir/news/14001119000114/ما...,18
...,...,...,...
3620,سلطانی:‌ پرسپولیسی‌ها تحمل کنند تا کاسه درویش ...,https://www.farsnews.ir/news/14001106000438/سل...,1
3615,مذاکره تراکتور با 2 خارجی و نامه نگاری با 3 با...,https://www.farsnews.ir/news/14001106000531/مذ...,1
3610,ادعای خبرنگار عراقی: طارمی بازی با عراق از دست...,https://www.farsnews.ir/news/14001106000596/اد...,1
3607,گزارش تمرین تیم ملی| سر و صدای عجیب ملی‌پوشان ...,https://www.farsnews.ir/news/14001106000633/گز...,1


In [7]:
text = 'فدراسیون' + ' ! ' + 'فوتبال'
index.query(text)

Unnamed: 0,title,url,rank
5989,چند عضو مجمع انتخاباتی کمیته تاکنون مشخص شده‌ا...,https://www.farsnews.ir/news/14001006000509/چن...,24
5896,هشدار صالحی‌امیری در خصوص ادغام بودجه؛ دوستان ...,https://www.farsnews.ir/news/14001008000079/هش...,18
6638,نامه‌های باشگاه سیرجان جعلی از آب درآمد/تقوی: ...,https://www.farsnews.ir/news/14000927000393/نا...,18
154,ملایی: ورزش همگانی عقب‌ماندگی زیادی دارد/مشکلا...,https://www.farsnews.ir/news/14001222000123/مل...,17
2125,پولادگر: به درخواست اعضا مجمع بسکتبال به تعویق...,https://www.farsnews.ir/news/14001125000662/پو...,17
...,...,...,...
4888,سرخوردگی پرافتخارترین راننده جهان و ابهام در ر...,https://www.farsnews.ir/news/14001021000654/سر...,1
2147,ویلموتس فعلا از اخراج قسر در رفت,https://www.farsnews.ir/news/14001125000275/وی...,1
2149,وینگادا پرونده جنجال جدید کی‌روش در مصر را بست...,https://www.farsnews.ir/news/14001125000216/وی...,1
4836,صید نماینده ایران در بازی‌های المپیک زمستانی شد,https://www.farsnews.ir/news/14001022000538/صی...,1


# Phase 2

## Ranked Retrieval by tf-ifd and similarity

In [8]:
index.ranked_query('فدراسیون فوتبال')

Unnamed: 0,title,url,similarity
719.0,برگزاری مجمع انتخاباتی هیات فوتبال خراسان با ح...,https://www.farsnews.ir/news/14001215000166/بر...,0.419181
1973.0,دبیر کل در فدراسیون فوتبال ماندنی شد,https://www.farsnews.ir/news/14001128000781/دب...,0.416128
2589.0,اعمال فشار فدراسیون به هیات رئیسه برای حمایت ا...,https://www.farsnews.ir/news/14001119000836/اع...,0.41458
2009.0,بهاروند و مهرعلی مجوز حضور در نشست هیات رئیسه ...,https://www.farsnews.ir/news/14001128000158/به...,0.411904
2637.0,جانشین مهدوی کیا به عنوان مدیر فنی فدراسیون فو...,https://www.farsnews.ir/news/14001119000102/جا...,0.407391
4847.0,رونمایی از انتصاب‌های جدید در فدراسیون فوتبال,https://www.farsnews.ir/news/14001022000495/رو...,0.406941
4840.0,پاسخ عضو هیأت رئیسه به اختلاف سراجی با فدراسیو...,https://www.farsnews.ir/news/14001022000548/پا...,0.399236
3053.0,پنهان‌کاری در فدراسیون فوتبال؟/ متن کامل نامه ...,https://www.farsnews.ir/news/14001113000464/پن...,0.398996
3054.0,پنهان‌کاری در فدراسیون فوتبال؟/ متن کامل نامه ...,https://www.farsnews.ir/news/14001113000464/پن...,0.398996
502.0,برگزاری مراسم روز جهانی فوتبال زنان با حضور نا...,https://www.farsnews.ir/news/14001217000401/بر...,0.398086
