# Preprocessing Documents



### Loading Data

In [1]:
import json
from string import punctuation
import re
from hazm import *

file_path = 'C:/Users/Samin/Desktop/University/Term 7/Information Retrieval/Project/Data/IR_data_news_12k.json'

try:
    f = open(file_path, 'r', encoding='utf-8')
    data_raw = json.load(f)
    print("File opened successfully!")
    f.close()
except IOError:
    print("Error opening file.")


File opened successfully!


In [2]:
data = {}
for docID, body in data_raw.items():
        data[docID] = {}
        data[docID]['title'] = body['title']
        data[docID]['content'] = body['content']
        data[docID]['url'] = body['url']

# data = {
#     'docID_1': {
#         'title': 'Title of Document 1',
#         'content': 'This is the content of Document 1.',
#         'url': 'http://example.com/document1'
#     },
#     'docID_2': {
#         'title': 'Title of Document 2',
#         'content': 'This is the content of Document 2.',
#         'url': 'http://example.com/document2'
#     },
#     # more documents...
# }

### Preprocessing

In [3]:
# four needed steps functions implementing..

def to_normalize(input_text):
    print('Normalization..')
    output_text = Normalizer().normalize(input_text)
    print(f'input : {input_text} ')
    print(f'output : {output_text}')
    return output_text
# input_text = 'این یک متن نمونه است'
# text = to_normalize(input_text)

In [4]:
def to_tokenize(input_text):
    print('Tokenizing...')
    output_text = word_tokenize(input_text)
    print(f'input : {input_text} ')
    print(f'output : {output_text}')
    return output_text
# input_text = 'این یک متن نمونه است'
# tokenized_text = to_tokenize(input_text)

In [5]:
def to_remove_stop_words(input_text):
    print('Removing Stop Words..')
    stop_words = stopwords_list()
    output_text = [word for word in input_text if not word in stop_words]
    print(f'input : {input_text} ')
    print(f'output : {output_text}')
    return output_text

# input_text = 'این یک متن نمونه است'
# tokenized_text = to_tokenize(input_text)
# filtered_text = to_remove_stop_words(tokenized_text)


In [6]:
def to_stem(input_text):
    print('Stemming...')
    stemmer = Stemmer()
    output_text = [stemmer.stem(word) for word in input_text]
    print(f'input : {input_text} ')
    print(f'output : {output_text}')
    return output_text

# input_text = 'کتاب های بسیاری را خوانده ام'
# normalized_text = to_normalize(input_text)
# tokenized_text = to_tokenize(normalized_text)
# stemmed_text = to_stem(tokenized_text)


In [7]:
# preprocessed data dictionary
def preprocess(data):
    # create a new dictionary to store the preprocessed data
    preprocessed_data = {}

    for docID, doc in data.items():
        preprocessed_doc = {}
        preprocessed_doc['title'] = doc['title']
        pure_content = re.sub(f'[{punctuation}؟،٪×÷»«]+', '', doc['content'])
        preprocessed_doc['content'] = to_stem(to_remove_stop_words(to_tokenize(to_normalize(pure_content))))
        preprocessed_doc['url'] = doc['url']
        preprocessed_data[docID] = preprocessed_doc

    return preprocessed_data


In [8]:
data_test = {
    'docID_1': {
        'title': 'Title of Document 1',
        'content': 'این یک متن نمونه است که برای تست پردازش متن به کار می‌رود.',
        'url': 'http://example.com/document1'
    }
}

preprocessed_data = preprocess(data_test)

# Check the changes in preprocessed data
print(preprocessed_data['docID_1']['content'])


Normalization..
input : این یک متن نمونه است که برای تست پردازش متن به کار می‌رود 
output : این یک متن نمونه است که برای تست پردازش متن به کار می‌رود
Tokenizing...
input : این یک متن نمونه است که برای تست پردازش متن به کار می‌رود 
output : ['این', 'یک', 'متن', 'نمونه', 'است', 'که', 'برای', 'تست', 'پردازش', 'متن', 'به', 'کار', 'می\u200cرود']
Removing Stop Words..
input : ['این', 'یک', 'متن', 'نمونه', 'است', 'که', 'برای', 'تست', 'پردازش', 'متن', 'به', 'کار', 'می\u200cرود'] 
output : ['متن', 'نمونه', 'تست', 'پردازش', 'متن', 'کار']
Stemming...
input : ['متن', 'نمونه', 'تست', 'پردازش', 'متن', 'کار'] 
output : ['متن', 'نمونه', 'تس', 'پرداز', 'متن', 'کار']
['متن', 'نمونه', 'تس', 'پرداز', 'متن', 'کار']
