In [1]:
from parsivar import Normalizer, Tokenizer, FindStems
from stopwordsiso import stopwords
from positional_index.index import PositionalIndex
import json
import pandas as pd

## 1 - Loading the json data

In [2]:
with open('./IR_data_news_12k.json') as json_file:
    docs = json.load(json_file)

## 2 - Doing all preprocesses

In [3]:
normalizer = Normalizer()
tokenizer = Tokenizer()
stemmer = FindStems()
stop_words = stopwords('fa')

In [4]:
print('Started preprocessing ...')
for doc_id in docs:
    text = docs[doc_id]['content']
    stemmed_tokens = PositionalIndex.preprocess(text)
    docs[doc_id]['tokens'] = stemmed_tokens
print('Finished preprocessing')

Started preprocessing ...
Finished preprocessing


In [5]:
index = PositionalIndex()
for doc_id in docs:
    index.add_from_dict(doc_id, docs[doc_id])
index.finish_indexing()

In [6]:
index.query('فدراسیون فوتبال')

Unnamed: 0,title,url,count
3457,عزیزی‌خادم:‌ ما را به جادوگری متهم کردند ولی ج...,https://www.farsnews.ir/news/14001108000181/عز...,43
5268,توضیح فدراسیون فوتبال درمورد لزوم اصلاح اساسنا...,https://www.farsnews.ir/news/14001017000146/تو...,22
6323,عزیزی خادم:وقتی به فدراسیون آمدم یک چای خشک هم...,https://www.farsnews.ir/news/14001002000257/عز...,19
2788,اصولی: فدراسیون فوتبال جمهوری اسلامی ایران هست...,https://www.farsnews.ir/news/14001117000518/اص...,19
2626,ماجدی:فدراسیون فوتبال بدون حمایت مجلس و دولت ک...,https://www.farsnews.ir/news/14001119000114/ما...,18
...,...,...,...
3620,سلطانی:‌ پرسپولیسی‌ها تحمل کنند تا کاسه درویش ...,https://www.farsnews.ir/news/14001106000438/سل...,1
3615,مذاکره تراکتور با 2 خارجی و نامه نگاری با 3 با...,https://www.farsnews.ir/news/14001106000531/مذ...,1
3610,ادعای خبرنگار عراقی: طارمی بازی با عراق از دست...,https://www.farsnews.ir/news/14001106000596/اد...,1
3607,گزارش تمرین تیم ملی| سر و صدای عجیب ملی‌پوشان ...,https://www.farsnews.ir/news/14001106000633/گز...,1


In [7]:
words = index.preprocess('فدراسیون فوتبال')
words

['فدراسیون', 'فوتبال']

In [8]:
stack = []
for i, word in enumerate(words):
    if len(stack) == 0:
        n = index.get_phrase_docs([word])
    else:
        n = index.get_phrase_and(stack.pop(), [word])
    stack.append(n)
    print(stack[0])

{0: 1, 1: 1, 3: 4, 7: 1, 8: 2, 13: 15, 16: 1, 27: 11, 30: 1, 33: 2, 35: 1, 36: 1, 37: 1, 45: 3, 50: 3, 52: 1, 53: 2, 55: 1, 56: 1, 58: 1, 62: 2, 65: 5, 68: 6, 70: 2, 79: 1, 80: 2, 81: 3, 84: 1, 86: 6, 87: 1, 89: 6, 100: 5, 106: 14, 122: 2, 127: 3, 128: 2, 133: 1, 134: 1, 137: 1, 138: 1, 139: 10, 140: 8, 144: 8, 147: 2, 154: 17, 160: 11, 164: 4, 165: 2, 169: 4, 171: 1, 174: 2, 176: 1, 179: 4, 182: 5, 184: 3, 191: 1, 202: 8, 204: 4, 209: 7, 228: 2, 229: 4, 259: 4, 293: 1, 302: 4, 304: 1, 311: 3, 312: 4, 319: 1, 324: 15, 327: 1, 338: 1, 349: 3, 352: 4, 354: 2, 371: 6, 375: 1, 378: 8, 385: 17, 387: 2, 391: 1, 396: 3, 397: 2, 401: 2, 402: 2, 404: 8, 408: 3, 409: 2, 417: 1, 419: 1, 420: 2, 435: 10, 445: 1, 446: 4, 449: 3, 451: 1, 452: 2, 454: 6, 456: 8, 457: 1, 458: 13, 459: 8, 460: 1, 461: 9, 463: 3, 464: 1, 465: 6, 468: 1, 469: 10, 472: 11, 473: 4, 478: 1, 479: 3, 483: 1, 493: 1, 495: 5, 499: 1, 502: 4, 505: 1, 508: 4, 509: 1, 510: 2, 511: 1, 513: 1, 517: 4, 523: 1, 534: 2, 544: 12, 545: 2

In [9]:
text = 'فدراسیون' + ' ! ' + 'فوتبال'
index.query(text)

Unnamed: 0,title,url,count
5989,چند عضو مجمع انتخاباتی کمیته تاکنون مشخص شده‌ا...,https://www.farsnews.ir/news/14001006000509/چن...,24
5896,هشدار صالحی‌امیری در خصوص ادغام بودجه؛ دوستان ...,https://www.farsnews.ir/news/14001008000079/هش...,18
6638,نامه‌های باشگاه سیرجان جعلی از آب درآمد/تقوی: ...,https://www.farsnews.ir/news/14000927000393/نا...,18
154,ملایی: ورزش همگانی عقب‌ماندگی زیادی دارد/مشکلا...,https://www.farsnews.ir/news/14001222000123/مل...,17
2125,پولادگر: به درخواست اعضا مجمع بسکتبال به تعویق...,https://www.farsnews.ir/news/14001125000662/پو...,17
...,...,...,...
4888,سرخوردگی پرافتخارترین راننده جهان و ابهام در ر...,https://www.farsnews.ir/news/14001021000654/سر...,1
2147,ویلموتس فعلا از اخراج قسر در رفت,https://www.farsnews.ir/news/14001125000275/وی...,1
2149,وینگادا پرونده جنجال جدید کی‌روش در مصر را بست...,https://www.farsnews.ir/news/14001125000216/وی...,1
4836,صید نماینده ایران در بازی‌های المپیک زمستانی شد,https://www.farsnews.ir/news/14001022000538/صی...,1


In [10]:
index.preprocess('کتاب های ! خواندنی')

['کتاب', '!', 'خواندنی']

In [11]:
PositionalIndex.stop_words = PositionalIndex.stop_words.difference('!')

In [12]:
pd.Series({'a': 3, 'b': 2}).sort_values()

b    2
a    3
dtype: int64

In [13]:
docs['0']

{'title': 'اعلام زمان قرعه کشی جام باشگاه های فوتسال آسیا',
 'content': '\nبه گزارش خبرگزاری فارس، کنفدراسیون فوتبال آسیا (AFC) در نامه ای رسمی به فدراسیون فوتبال ایران و باشگاه گیتی پسند زمان\xa0 قرعه کشی جام باشگاه های فوتسال آسیا را رسماً اعلام کرد. بر این اساس 25 فروردین ماه 1401 مراسم قرعه کشی جام باشگاه های فوتسال آسیا در مالزی برگزار می شود. باشگاه گیتی پسند بعنوان قهرمان فوتسال ایران در سال 1400 به این مسابقات راه پیدا کرده است. پیش از این گیتی پسند تجربه 3 دوره حضور در جام باشگاه های فوتسال آسیا را داشته که هر سه دوره به فینال مسابقات راه پیدا کرده و یک عنوان قهرمانی و دو مقام دومی بدست آورده است. انتهای پیام/\n\n\n',
 'tags': ['اعلام زمان',
  'قرعه\u200cکشی',
  'قرعه\u200cکشی جام',
  'قرعه\u200cکشی جام باشگاه\u200cهای فوتسال',
  'ای اف سی',
  'گیتی پسند'],
 'date': '3/15/2022 5:59:27 PM',
 'url': 'https://www.farsnews.ir/news/14001224001005/اعلام-زمان-قرعه-کشی-جام-باشگاه-های-فوتسال-آسیا',
 'category': 'sports',
 'tokens': ['گزارش',
  'خبرگزاری',
  'فارس',
  'کنفدراسیون',
  'ف

In [14]:
df = pd.DataFrame(columns=['title', 'content', 'tags', 'date', 'url', 'category'])

In [15]:
df

Unnamed: 0,title,content,tags,date,url,category


In [16]:
a = pd.Series({'title': 1, 'content': 1, 'tags': 2, 'date': 2, 'url': 5, 'category': 5}).to_frame().T
pd.concat([df, a], axis=0)

Unnamed: 0,title,content,tags,date,url,category
0,1,1,2,2,5,5


In [17]:
df.append(a)

  df.append(a)


Unnamed: 0,title,content,tags,date,url,category
0,1,1,2,2,5,5


In [18]:
a

Unnamed: 0,title,content,tags,date,url,category
0,1,1,2,2,5,5


In [19]:
b = {'title': 1, 'content': 1, 'tags': 2, 'date': 2, 'url': 5, 'category': 5}

In [20]:
df.append()

TypeError: append() missing 1 required positional argument: 'other'

In [None]:
a = {"a": 1, "b": 2}
s1 = pd.Series(a, name='43').to_frame().T
s1

In [None]:
b = {"a": 1, "b": 2}
s2 = pd.Series(b, name='44').to_frame().T
s2

In [None]:
pd.concat([s1, s2])

In [None]:
df1 = pd.DataFrame({'a': [3, 6], 'b': [1, 3]})
df1

In [None]:
df2 = pd.DataFrame({'c': [2, 6, 9], 'd': [2, 3, 9]})
df2

In [None]:
df1.merge(df2, left_index=True, right_index=True).loc[:, ["a", "b"]]