In [1]:
from parsivar import Normalizer, Tokenizer, FindStems
from stopwordsiso import stopwords
from positional_index.index import PositionalIndex
import json
import pandas as pd

## 1 - Loading the json data

In [2]:
with open('./IR_data_news_12k.json') as json_file:
    docs = json.load(json_file)

## 2 - Doing all preprocesses

In [3]:
normalizer = Normalizer()
tokenizer = Tokenizer()
stemmer = FindStems()
stop_words = stopwords('fa')

In [4]:
print('Started preprocessing ...')
for doc_id in docs:
    text = docs[doc_id]['content']
    stemmed_tokens = PositionalIndex.preprocess(text)
    docs[doc_id]['tokens'] = stemmed_tokens
print('Finished preprocessing')

Started preprocessing ...
Finished preprocessing


In [5]:
index = PositionalIndex()
for doc_id in docs:
    index.add_from_dict(doc_id, docs[doc_id])

In [6]:
index.dictionary['آسیا']

[0: [5, 22, 34, 56], 8: [133, 139, 160, 165, 257, 307], 13: [145, 225, 237], 29: [502], 30: [14, 20, 53], 34: [107], 50: [436, 442], 54: [175, 187], 55: [296], 56: [56], 60: [51], 65: [20], 68: [12, 28, 97, 100, 154, 164, 171, 206, 212, 224, 242, 292, 311], 70: [10, 86], 71: [130], 84: [29], 86: [391], 91: [16], 93: [37, 47, 62], 104: [146], 122: [14, 39, 43], 130: [10, 58], 140: [192], 141: [60], 142: [46, 53, 92, 100, 134, 160, 179, 275], 143: [16, 83, 94, 107, 152], 148: [180, 250, 499, 545], 155: [170], 163: [1957, 2018, 2030, 2043, 2060], 181: [451], 182: [75], 184: [114], 202: [69, 78], 210: [12], 221: [11], 232: [31, 53, 98], 281: [96], 286: [65], 301: [8, 40], 304: [299], 305: [24], 320: [159], 322: [18, 221], 337: [15, 72, 86], 345: [13], 382: [16, 52], 387: [40, 183], 391: [54], 395: [40, 49, 90, 96], 406: [18, 26], 408: [89], 409: [6, 16, 44, 60, 71], 415: [159, 166, 186], 421: [14, 69, 82], 429: [53], 449: [283], 455: [11], 477: [140], 478: [178, 280, 301], 482: [48, 135], 

In [7]:
t = normalizer.normalize('تحریم های آمریکا ! ایران')
t

'تحریم\u200cهای آمریکا ! ایران'

In [8]:
ts = tokenizer.tokenize_words(t)

In [9]:
for token in ts:
    print(stemmer.convert_to_stem(token))

تحریم
آمریکا
!
ایران


In [16]:
docs['0']

{'title': 'اعلام زمان قرعه کشی جام باشگاه های فوتسال آسیا',
 'content': '\nبه گزارش خبرگزاری فارس، کنفدراسیون فوتبال آسیا (AFC) در نامه ای رسمی به فدراسیون فوتبال ایران و باشگاه گیتی پسند زمان\xa0 قرعه کشی جام باشگاه های فوتسال آسیا را رسماً اعلام کرد. بر این اساس 25 فروردین ماه 1401 مراسم قرعه کشی جام باشگاه های فوتسال آسیا در مالزی برگزار می شود. باشگاه گیتی پسند بعنوان قهرمان فوتسال ایران در سال 1400 به این مسابقات راه پیدا کرده است. پیش از این گیتی پسند تجربه 3 دوره حضور در جام باشگاه های فوتسال آسیا را داشته که هر سه دوره به فینال مسابقات راه پیدا کرده و یک عنوان قهرمانی و دو مقام دومی بدست آورده است. انتهای پیام/\n\n\n',
 'tags': ['اعلام زمان',
  'قرعه\u200cکشی',
  'قرعه\u200cکشی جام',
  'قرعه\u200cکشی جام باشگاه\u200cهای فوتسال',
  'ای اف سی',
  'گیتی پسند'],
 'date': '3/15/2022 5:59:27 PM',
 'url': 'https://www.farsnews.ir/news/14001224001005/اعلام-زمان-قرعه-کشی-جام-باشگاه-های-فوتسال-آسیا',
 'category': 'sports',
 'tokens': array(['گزارش', 'خبرگزاری', 'فارس', 'کنفدراسیون', 'فوت

In [18]:
index.check_phrase(PositionalIndex.preprocess('فدراسیون فوتبال ایران'))

{0: 1,
 3: 0,
 33: 0,
 35: 0,
 53: 0,
 86: 0,
 87: 0,
 89: 0,
 127: 0,
 128: 0,
 138: 0,
 165: 0,
 184: 0,
 191: 0,
 202: 0,
 204: 0,
 229: 0,
 293: 1,
 302: 0,
 311: 0,
 378: 0,
 404: 2,
 409: 2,
 417: 0,
 446: 0,
 458: 0,
 472: 0,
 555: 0,
 687: 0,
 775: 0,
 789: 0,
 790: 0,
 797: 0,
 798: 0,
 847: 0,
 848: 0,
 857: 1,
 860: 2,
 868: 0,
 870: 0,
 885: 1,
 912: 0,
 913: 0,
 1011: 0,
 1053: 0,
 1094: 0,
 1111: 0,
 1122: 1,
 1193: 0,
 1196: 0,
 1198: 1,
 1203: 0,
 1214: 0,
 1252: 0,
 1262: 0,
 1276: 0,
 1304: 0,
 1305: 0,
 1308: 0,
 1315: 0,
 1355: 0,
 1392: 0,
 1419: 0,
 1437: 0,
 1463: 0,
 1522: 1,
 1525: 0,
 1535: 0,
 1548: 0,
 1553: 0,
 1572: 0,
 1580: 0,
 1585: 0,
 1595: 0,
 1600: 0,
 1604: 0,
 1633: 0,
 1640: 0,
 1672: 0,
 1678: 0,
 1727: 0,
 1730: 0,
 1742: 0,
 1753: 0,
 1809: 0,
 1814: 0,
 1824: 0,
 1825: 0,
 1876: 0,
 1894: 0,
 1938: 0,
 1951: 0,
 1961: 0,
 1979: 0,
 1991: 2,
 2029: 0,
 2046: 0,
 2087: 0,
 2098: 0,
 2137: 0,
 2219: 0,
 2248: 0,
 2261: 1,
 2263: 0,
 2286: 0,
 22

In [11]:
PositionalIndex.preprocess('اعلام زمان')

array([], dtype=object)

In [12]:
normalizer.normalize('اعلام زمان')

'اعلام زمان'

In [17]:
text = 'فدراسیون فوتبال ایران'
normalized_text = PositionalIndex.normalizer.normalize(text)        # Normalization
tokens = PositionalIndex.tokenizer.tokenize_words(normalized_text)  # Tokenization
nonstop_tokens = []                                                 # Handling stop words
for token in tokens:
    if token not in PositionalIndex.stop_words:
        nonstop_tokens.append(token)
pd.Series(nonstop_tokens, dtype='object').apply(PositionalIndex.stemmer.convert_to_stem).values  # Getting stems
nonstop_tokens

['فدراسیون', 'فوتبال', 'ایران']

In [20]:
docs['404']

{'title': 'اقدام سپاهان به کمیته انضباطی کشید/فدراسیون فوتبال: تست VAR بدون هماهنگی فدراسیون غیر حرفه\u200cای است',
 'content': '\nبه گزارش خبرگزاری فارس، سایت فدراسیون فوتبال نوشت: بر اساس موضوعات مطرح شده در ارتباط با راه اندازی سامانه VAR طی روزهای اخیر لازم است مواردی در این مورد به استحضار اهالی فوتبال و عموم علاقمندان به این موضوع رسانده شود. \xa0راه اندازی این سامانه بر اساس استانداردها و قوانین فدراسیون جهانی فوتبال تنها با تایید فیفا و با هماهنگى فدراسیون فوتبال ایران جهت پیاده سازى در مسابقات صورت می گیرد، لذا انجام هرگونه تست هاى فنى و آزمایشى آنلاین و یا آفلاین تنها با اعلام و کسب تاییدیه از فدراسیون جهانى فوتبال توسط فدراسیون فوتبال ایران امکان پذیر بوده و بر همین اساس مسئولیت پیامدها و تبعات قانونی اقداماتی که خارج از این چارچوب انجام شود متوجه عاملان اینگونه فعالیت های غیر حرفه ای خواهد بود. فدراسیون فوتبال جمهوری اسلامی ایران فرآیند پیاده سازى سیستم کمک داور ویدیویى در مسابقات ملی و باشگاهی را از ابتدا تحت نظر فدراسیون جهانى و بر اساس پروتکل هاى فنى و اجرایى ابلاغى فیفا