# Part 1

In [1]:
!pip install hazm



In [2]:
import csv
from hazm import *
import string
import re
from collections import Counter
from nltk import ngrams
import math
import numpy as np

In [3]:
normalizer = Normalizer()

In [4]:
data_path = 'drive/MyDrive/Work/Colab Notebooks/divar_posts_dataset.csv'

In [5]:
pattern = re.compile(r'\u200c')
punctuations = set(string.punctuation) | set(['؟', '_', '،'])

In [6]:
from hazm.utils import stopwords_list
print(stopwords_list())

['آخرین', 'آقای', 'آمد', 'آمده', 'آمده_است', 'آن', 'آنان', 'آنجا', 'آنها', 'آنچه', 'آنکه', 'آورد', 'آوری', 'آیا', 'ابتدا', 'اثر', 'اجرا', 'اخیر', 'از', 'است', 'اش', 'اغلب', 'افراد', 'افرادی', 'افزود', 'البته', 'اما', 'امر', 'امکان', 'اند', 'او', 'اول', 'اولین', 'اکنون', 'اگر', 'ایشان', 'این', 'اینجا', 'اینکه', 'با', 'بار', 'باره', 'باز', 'باشد', 'باشند', 'باعث', 'بالا', 'باید', 'بخش', 'بخشی', 'بدون', 'بر', 'برابر', 'براساس', 'برای', 'برخی', 'برداری', 'بروز', 'بزرگ', 'بسیار', 'بسیاری', 'بعد', 'بعضی', 'بلکه', 'بنابراین', 'بندی', 'به', 'بهتر', 'بهترین', 'بود', 'بودن', 'بودند', 'بوده', 'بوده_است', 'بی', 'بیان', 'بیرون', 'بیش', 'بیشتر', 'بیشتری', 'بین', 'تا', 'تاکنون', 'تبدیل', 'تحت', 'ترتیب', 'تعداد', 'تعیین', 'تغییر', 'تمام', 'تمامی', 'تنها', 'تهیه', 'تو', 'جا', 'جاری', 'جای', 'جایی', 'جدی', 'جدید', 'جریان', 'جز', 'جمع', 'جمعی', 'حال', 'حالا', 'حالی', 'حتی', 'حد', 'حداقل', 'حدود', 'حل', 'خاص', 'خاطرنشان', 'خصوص', 'خطر', 'خواهد_بود', 'خواهد_شد', 'خواهد_کرد', 'خوب', 'خوبی', 'خود', 'خودش', '

In [7]:
commercial_posts = []

# Open CSV file and process its contents
with open(data_path) as csv_file:
    csv_reader = csv.reader(csv_file, delimiter=',')

    # Iterate over each row in the CSV file
    for row in csv_reader:
        # Split each row into sentences
        sentences = row[0].split('\n')

        # Process each sentence
        for sentence in sentences:

            # Tokenize the sentence into sentences
            tokenized_sentences = sent_tokenize(sentence)

            # Process each tokenized sentence
            for tokenized_sentence in tokenized_sentences:

                # Normalize the sentence
                # sentence = normalizer.normalize(sentence)
                tokenized_sentence = normalizer.correct_spacing(tokenized_sentence)
                tokenized_sentence = normalizer.decrease_repeated_chars(tokenized_sentence)
                tokenized_sentence = normalizer.seperate_mi(tokenized_sentence)
                tokenized_sentence = normalizer.persian_number(tokenized_sentence)

                # Replace ZERO WIDTH NON-JOINER characters with space
                tokenized_sentence = re.sub(pattern, '', tokenized_sentence)

                # Remove all punctuations
                tokenized_sentence = "".join([char for char in tokenized_sentence if char not in punctuations])


                # Replace 'NUM' characters with space
                tokenized_sentence = re.sub(r'NUM', '', tokenized_sentence)

                # Normalize the tokenized sentence and append it to commercial_posts
                commercial_posts.append(tokenized_sentence)

In [8]:
commercial_posts = commercial_posts[1:]
commercial_posts = [post for post in commercial_posts if len(post) > 0]

In [9]:
len(commercial_posts)

378

In [10]:
commercial_posts

['کلاسیک و شیک و استثنایی',
 'چرم مالزی',
 'چوب راش',
 'فوقالعاده سالم و بدون عیب و ایراد',
 'سلامیک عدد گلدون نخل سهطبقهی سالم دارم با پایهی سفالی به علت جابجایی میفروشمش',
 'سریال ۴۳ jبدون شکستگی سه حلقه لاستیک نو یک حلقه ضعیف موتور و گیر بکس سالم زیر بار درجه یک',
 'مبل راحتی هفت نفره شامل سه نفره یک عدد دونفره یک عدد مبل تکی دو عدد ومیز جلو مبلی بسیار تمیز در ضمن برای تخفیف هزینه حمل در داخل تهران بعهده فروشنده میباشد',
 'شارژی کنترلی سویچ حمل تا ۳۵ کیلو صندلی برای دو نفر موزیکال سه موج رادیو',
 'بسیارتمیزوسالم وچوب راش فقط به علت جابهجایی وکمبودجامیفروشم به خریدارواقعی تخفیف جزئی هم میدم',
 'خازن ۳۰ فاراد',
 'Q PERTORS',
 'تمیز ۲۰ ولت',
 'مولینکس فرانسه اكبند ۱۲ نفره جديد با جعبه sms جواب داده نميشود تماس تلفنى و يا تلگرام سپاس',
 'دوگانه ال پی جی بیمه با تخفیف دارد',
 'تودوزی نو ترکیهای',
 'لاستیک شصت درصد',
 'معاوضه با مینیبوس پراید',
 'پاژن',
 'وهر ماشین دیگر هم رنج قیمت',
 'دیگ مسی کف ۵۷ دهنه ۴۳ ارتفاع ۲۷ سانتیمتر',
 'سلام',
 'گیپور لباس بادست دوخته شده میشه روی پارچه یا لباس 

# Part 2

In [None]:
def get_ngrams(text: list, n):
    return list(ngrams(text, n, pad_left=True, pad_right=True, left_pad_symbol='<s>', right_pad_symbol='</s>'))

word_tokenizer = WordTokenizer()
def get_words(sentence):
    words = word_tokenizer.tokenize(sentence)
    return words


In [None]:
unigrams = []
bigrams = []
trigrams = []
for post in commercial_posts:
    unigrams.extend(get_ngrams(get_words(post), 1))
    bigrams.extend(get_ngrams(get_words(post), 2))
    trigrams.extend(get_ngrams(get_words(post), 3))

In [None]:
from nltk.probability import FreqDist, ConditionalFreqDist


print('most common unigrams:')
for word, freq in FreqDist(unigrams).most_common(10):
    print(f'{word}: {freq}')

print('most common bigrams:')
for bigram, freq in FreqDist(bigrams).most_common(10):
    print(f'{bigram}: {freq}')

print('most common trigrams:')
for trigram, freq in FreqDist(trigrams).most_common(10):
    print(f'{trigram}: {freq}')


most common unigrams:
('و',): 117
('با',): 65
('سالم',): 59
('نو',): 48
('به',): 42
('تمیز',): 41
('بدون',): 34
('در',): 34
('یک',): 32
('رنگ',): 29
most common bigrams:
('در', 'حد'): 17
('سالم', '</s>'): 17
('<s>', 'یک'): 14
('بسیار', 'تمیز'): 13
('کاملا', 'سالم'): 13
('تمیز', '</s>'): 12
('سالم', 'و'): 11
('<s>', 'فروش'): 11
('تمیز', 'و'): 10
('یک', 'عدد'): 9
most common trigrams:
('سالم', '</s>', '</s>'): 17
('<s>', '<s>', 'یک'): 14
('تمیز', '</s>', '</s>'): 12
('<s>', '<s>', 'فروش'): 11
('<s>', '<s>', 'سلام'): 9
('<s>', '<s>', 'قیمت'): 9
('<s>', '<s>', 'مبل'): 8
('نو', '</s>', '</s>'): 8
('در', 'حد', 'نو'): 8
('میباشد', '</s>', '</s>'): 7


In [None]:
# Create FreqDist for unigrams
unigram_freq = FreqDist(unigrams)

# Create ConditionalFreqDist for bigrams
conditional_bigrams_freq = ConditionalFreqDist([(bigram[0], bigram[1]) for bigram in bigrams])

# Create ConditionalFreqDist for trigrams
conditional_trigrams_freq = ConditionalFreqDist([(trigram[0:2], trigram[2]) for trigram in trigrams])

In [None]:
conditional_bigrams_freq.items()

dict_items([('<s>', FreqDist({'یک': 14, 'فروش': 11, 'سلام': 9, 'قیمت': 9, 'مبل': 8, 'با': 7, 'رنگ': 7, 'در': 7, 'از': 6, 'کاملا': 6, ...})), ('کلاسیک', FreqDist({'و': 1})), ('و', FreqDist({'بدون': 6, 'تمیز': 5, 'نو': 4, 'سالم': 4, 'خش': 3, 'شیک': 2, 'بسیار': 2, 'وسایل': 2, '۱': 2, 'کاور': 2, ...})), ('شیک', FreqDist({'و': 3, '</s>': 2, 'با': 1, 'نوی': 1})), ('استثنایی', FreqDist({'</s>': 1})), ('چرم', FreqDist({'مالزی': 1, 'اصل': 1, 'مصنوعی': 1})), ('مالزی', FreqDist({'</s>': 1})), ('چوب', FreqDist({'راش': 2, 'روس': 1, 'و': 1, 'گردو': 1, 'فندوقی': 1})), ('راش', FreqDist({'</s>': 2, 'فقط': 1})), ('فوقالعاده', FreqDist({'سالم': 2, 'نو': 1, 'تمیز': 1, 'شیک': 1, 'خوب': 1})), ('سالم', FreqDist({'</s>': 17, 'و': 11, 'بدون': 2, 'وتمیز': 2, 'میباشد': 2, 'تمیز': 2, 'دارم': 1, 'زیر': 1, 'که': 1, 'همراه': 1, ...})), ('بدون', FreqDist({'رنگ': 6, 'ضربه': 3, 'ایراد': 3, 'خط': 3, 'کوچکترین': 2, 'هیچ': 2, 'عیب': 1, 'خطو': 1, 'تشک': 1, 'حتی': 1, ...})), ('عیب', FreqDist({'و': 1})), ('ایراد', FreqDist({

In [None]:
from nltk.probability import LaplaceProbDist, SimpleGoodTuringProbDist

# Create Laplace probability distribution for unigrams
laplace_unigram_probdist = LaplaceProbDist(unigram_freq, bins=1e10)
laplace_unigram_probdist.SUM_TO_ONE = True

***I set the bins to a fixed value for all three models.***

In [None]:
for unigram in unigrams:
    print(f'{unigram}: {laplace_unigram_probdist.prob(unigram)}')

('کلاسیک',): 1.9999993186002322e-10
('و',): 1.179999597974137e-08
('شیک',): 7.999997274400929e-10
('و',): 1.179999597974137e-08
('استثنایی',): 1.9999993186002322e-10
('چرم',): 3.9999986372004645e-10
('مالزی',): 1.9999993186002322e-10
('چوب',): 6.999997615100812e-10
('راش',): 3.9999986372004645e-10
('فوقالعاده',): 6.999997615100812e-10
('سالم',): 5.999997955800697e-09
('و',): 1.179999597974137e-08
('بدون',): 3.499998807550406e-09
('عیب',): 1.9999993186002322e-10
('و',): 1.179999597974137e-08
('ایراد',): 5.999997955800696e-10
('سلامیک',): 1.9999993186002322e-10
('عدد',): 2.6999990801103134e-09
('گلدون',): 1.9999993186002322e-10
('نخل',): 1.9999993186002322e-10
('سهطبقهی',): 1.9999993186002322e-10
('سالم',): 5.999997955800697e-09
('دارم',): 7.999997274400929e-10
('با',): 6.599997751380766e-09
('پایهی',): 1.9999993186002322e-10
('سفالی',): 1.9999993186002322e-10
('به',): 4.299998534990499e-09
('علت',): 4.99999829650058e-10
('جابجایی',): 1.9999993186002322e-10
('میفروشمش',): 1.9999993186002

In [None]:
bigram_probdist = SimpleGoodTuringProbDist(freqdist=FreqDist(bigrams), bins=1e10)
bigram_probdist.SUM_TO_ONE = True

for bigram in bigrams:
    print(f'{bigram}: {bigram_probdist.prob(bigram)}')

('<s>', 'کلاسیک'): 4.016738252252003e-05
('کلاسیک', 'و'): 4.016738252252003e-05
('و', 'شیک'): 0.00018787488205737659
('شیک', 'و'): 0.0004718097853431737
('و', 'استثنایی'): 4.016738252252003e-05
('استثنایی', '</s>'): 4.016738252252003e-05
('<s>', 'چرم'): 4.016738252252003e-05
('چرم', 'مالزی'): 4.016738252252003e-05
('مالزی', '</s>'): 4.016738252252003e-05
('<s>', 'چوب'): 4.016738252252003e-05
('چوب', 'راش'): 0.00018787488205737659
('راش', '</s>'): 0.00018787488205737659
('<s>', 'فوقالعاده'): 0.00018787488205737659
('فوقالعاده', 'سالم'): 0.00018787488205737659
('سالم', 'و'): 0.0025339522907395842
('و', 'بدون'): 0.0012164602037448879
('بدون', 'عیب'): 4.016738252252003e-05
('عیب', 'و'): 4.016738252252003e-05
('و', 'ایراد'): 4.016738252252003e-05
('ایراد', '</s>'): 0.00018787488205737659
('<s>', 'سلامیک'): 4.016738252252003e-05
('سلامیک', 'عدد'): 4.016738252252003e-05
('عدد', 'گلدون'): 4.016738252252003e-05
('گلدون', 'نخل'): 4.016738252252003e-05
('نخل', 'سهطبقهی'): 4.016738252252003e-05
('

In [None]:
bigram_probdist.prob(('تخفیف', 'هم'))

0.0007112404524327027

In [None]:
trigram_probdist = SimpleGoodTuringProbDist(freqdist=FreqDist(trigrams), bins=1e10)
trigram_probdist.SUM_TO_ONE = True

for trigram in trigrams:
    print(f'{trigram}: {trigram_probdist.prob(trigram)}')

('<s>', '<s>', 'کلاسیک'): 1.7903116646209847e-05
('<s>', 'کلاسیک', 'و'): 1.7903116646209847e-05
('کلاسیک', 'و', 'شیک'): 1.7903116646209847e-05
('و', 'شیک', 'و'): 1.7903116646209847e-05
('شیک', 'و', 'استثنایی'): 1.7903116646209847e-05
('و', 'استثنایی', '</s>'): 1.7903116646209847e-05
('استثنایی', '</s>', '</s>'): 1.7903116646209847e-05
('<s>', '<s>', 'چرم'): 1.7903116646209847e-05
('<s>', 'چرم', 'مالزی'): 1.7903116646209847e-05
('چرم', 'مالزی', '</s>'): 1.7903116646209847e-05
('مالزی', '</s>', '</s>'): 1.7903116646209847e-05
('<s>', '<s>', 'چوب'): 1.7903116646209847e-05
('<s>', 'چوب', 'راش'): 1.7903116646209847e-05
('چوب', 'راش', '</s>'): 0.0002039708115570285
('راش', '</s>', '</s>'): 0.0002039708115570285
('<s>', '<s>', 'فوقالعاده'): 0.0002039708115570285
('<s>', 'فوقالعاده', 'سالم'): 0.0002039708115570285
('فوقالعاده', 'سالم', 'و'): 0.0002039708115570285
('سالم', 'و', 'بدون'): 0.00039460968742246626
('و', 'بدون', 'عیب'): 1.7903116646209847e-05
('بدون', 'عیب', 'و'): 1.7903116646209847e

In [None]:
bigram_probdist.prob(('سشبسیسیبسیلس', 'هووووورنیسیهسیت'))   # probability of a given bigram that is not in the corpus

7.294586134131473e-11

In [None]:
bigram_probdist.prob(('سالم', '</s>'))  # probability of سالم followed by </s> in the training data with 18 frequencies

0.004144900597001053

In [None]:
bigram_probdist.prob(('با', 'چهار'))    # probability of 'با' followed by 'چهار' that is 'با چهار' with one frequency

4.016738252252003e-05

**The same bins are used for all three models so that the probability of unseen data is less than all observed data**

In [None]:
bigram_prob = {}
for bigram in bigrams:
    bigram_prob[bigram] = bigram_probdist.prob(bigram)

In [None]:
sorted(bigram_prob.items(), key=lambda x: x[1], reverse=True)[:10]

[(('در', 'حد'), 0.004144900597001053),
 (('سالم', '</s>'), 0.004144900597001053),
 (('<s>', 'یک'), 0.0033374718734424046),
 (('بسیار', 'تمیز'), 0.003069076425327325),
 (('کاملا', 'سالم'), 0.003069076425327325),
 (('تمیز', '</s>'), 0.002801194894254802),
 (('سالم', 'و'), 0.0025339522907395842),
 (('<s>', 'فروش'), 0.0025339522907395842),
 (('تمیز', 'و'), 0.0022675177043093775),
 (('یک', 'عدد'), 0.002002125582305882)]

In [None]:
def compute_perplexity(probabilities):
    # Compute the log probabilities
    log_probs = -np.log2(probabilities)

    # Compute the average log probability
    avg_log_prob = np.mean(log_probs)

    return avg_log_prob


def perplexity(test_sentence):
    # Normalize the sentence
    # sentence = normalizer.normalize(sentence)
    test_sentence = normalizer.correct_spacing(test_sentence)
    test_sentence = normalizer.decrease_repeated_chars(test_sentence)
    test_sentence = normalizer.seperate_mi(test_sentence)
    test_sentence = normalizer.persian_number(test_sentence)

    # Replace ZERO WIDTH NON-JOINER characters with space
    test_sentence = re.sub(pattern, '', test_sentence)

    # Remove all punctuations
    test_sentence = "".join([char for char in test_sentence if char not in punctuations])

    # Replace 'NUM' characters with space
    test_sentence = re.sub(r'NUM', '', test_sentence)

    test_unigrams = get_ngrams(get_words(test_sentence), 1)
    test_bigrams = get_ngrams(get_words(test_sentence), 2)
    test_trigrams = get_ngrams(get_words(test_sentence), 3)

    test_unigram_prob = [laplace_unigram_probdist.prob(unigram) for unigram in test_unigrams]
    test_bigram_prob = [bigram_probdist.prob(bigram) for bigram in test_bigrams]
    test_trigram_prob = [trigram_probdist.prob(trigram) for trigram in test_trigrams]

    print(f'''
test unigram prob: {test_unigram_prob}
test bigram prob: {test_bigram_prob}
test trigram prob: {test_trigram_prob}
''')

    print(f'''
unigram perplexity: {compute_perplexity(test_unigram_prob)}
bigram perplexity: {compute_perplexity(test_bigram_prob)}
trigram perplexity: {compute_perplexity(test_trigram_prob)}
''')


In [None]:
perplexity('دو عدد پیراهن دخترونه مارک در حد نو مناسب تا یکسال ونیم')


test unigram prob: [9.99999659300116e-10, 2.6999990801103134e-09, 3.9999986372004645e-10, 1.9999993186002322e-10, 7.999997274400929e-10, 3.499998807550406e-09, 1.799999386740209e-09, 4.899998330570569e-09, 1.0999996252301277e-09, 2.3999991823202785e-09, 2.999998977900348e-10, 1.9999993186002322e-10]
test bigram prob: [4.016738252252003e-05, 0.0007112404524327027, 7.294586134131473e-11, 4.016738252252003e-05, 4.016738252252003e-05, 7.294586134131473e-11, 0.004144900597001053, 0.0017381106293262827, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05]
test trigram prob: [1.7903116646209847e-05, 1.7903116646209847e-05, 8.477062978818141e-11, 8.477062978818141e-11, 1.7903116646209847e-05, 8.477062978818141e-11, 8.477062978818141e-11, 0.0015189452527119278, 8.477062978818141e-11, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05]


unigram perplexity: 29.917607

In [None]:
perplexity('گوشی بسیار بسیار تمیز و فقط سه هفته کارکرده و در حد آک')


test unigram prob: [1.1999995911601392e-09, 1.999999318600232e-09, 1.999999318600232e-09, 4.199998569060488e-09, 1.179999597974137e-08, 2.799999046040325e-09, 9.99999659300116e-10, 1.9999993186002322e-10, 2.999998977900348e-10, 1.179999597974137e-08, 3.499998807550406e-09, 1.799999386740209e-09, 2.999998977900348e-10]
test bigram prob: [0.0009608302416342047, 7.294586134131473e-11, 4.016738252252003e-05, 0.003069076425327325, 0.0022675177043093775, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 0.004144900597001053, 0.00018787488205737659, 4.016738252252003e-05]
test trigram prob: [0.0008257901115980492, 8.477062978818141e-11, 8.477062978818141e-11, 1.7903116646209847e-05, 0.00039460968742246626, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 0.0002039708115570285, 1.790311664

In [None]:
perplexity('کفش طبی چرم مصنوعی مارک لمون طب که نو میباشد')


test unigram prob: [8.999996933701045e-10, 1.9999993186002322e-10, 3.9999986372004645e-10, 2.999998977900348e-10, 7.999997274400929e-10, 1.9999993186002322e-10, 1.9999993186002322e-10, 1.1999995911601392e-09, 4.899998330570569e-09, 1.0999996252301277e-09]
test bigram prob: [0.0004718097853431737, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 0.001475967686982045]
test trigram prob: [0.00039460968742246626, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 0.0012846193960164684]


unigram perplexity: 30.677882293836024
bigram perplexity: 13.807834035078542
trigram perplexity: 14.883835537962268



In [None]:
perplexity('دوربین عکاسی خانگی کنان سالم در‌حد نو')


test unigram prob: [3.9999986372004645e-10, 1.9999993186002322e-10, 1.9999993186002322e-10, 1.9999993186002322e-10, 5.999997955800697e-09, 3.9999986372004645e-10, 4.899998330570569e-09]
test bigram prob: [4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 0.0004718097853431737, 0.0017381106293262827]
test trigram prob: [1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 8.477062978818141e-11, 0.0015189452527119278]


unigram perplexity: 30.573338520439204
bigram perplexity: 13.479933443146923
trigram perplexity: 17.022929661774697



In [None]:
perplexity('گل مصنوعی کاملا سالم بدون ایراد همراه با گلدان')


test unigram prob: [3.9999986372004645e-10, 2.999998977900348e-10, 2.1999992504602553e-09, 5.999997955800697e-09, 3.499998807550406e-09, 5.999997955800696e-10, 1.8999993526702203e-09, 6.599997751380766e-09, 3.9999986372004645e-10]
test bigram prob: [4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 0.003069076425327325, 0.00018787488205737659, 0.0004718097853431737, 4.016738252252003e-05, 0.002002125582305882, 4.016738252252003e-05, 4.016738252252003e-05]
test trigram prob: [1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05]


unigram perplexity: 29.446186788684727
bigram perplexity: 12.836137488118453
trigram perplexity: 15.76942971495648



In [None]:
sorted_bigram_prob = sorted(bigram_prob.items(), key=lambda x: x[1], reverse=True)

unigram_prob = {}
for unigram in unigrams:
    unigram_prob[unigram] = laplace_unigram_probdist.prob(unigram)

trigram_prob = {}
for trigram in trigrams:
    trigram_prob[trigram] = trigram_probdist.prob(trigram)

In [None]:
trigram_prob

{('<s>', '<s>', 'کلاسیک'): 1.7903116646209847e-05,
 ('<s>', 'کلاسیک', 'و'): 1.7903116646209847e-05,
 ('کلاسیک', 'و', 'شیک'): 1.7903116646209847e-05,
 ('و', 'شیک', 'و'): 1.7903116646209847e-05,
 ('شیک', 'و', 'استثنایی'): 1.7903116646209847e-05,
 ('و', 'استثنایی', '</s>'): 1.7903116646209847e-05,
 ('استثنایی', '</s>', '</s>'): 1.7903116646209847e-05,
 ('<s>', '<s>', 'چرم'): 1.7903116646209847e-05,
 ('<s>', 'چرم', 'مالزی'): 1.7903116646209847e-05,
 ('چرم', 'مالزی', '</s>'): 1.7903116646209847e-05,
 ('مالزی', '</s>', '</s>'): 1.7903116646209847e-05,
 ('<s>', '<s>', 'چوب'): 1.7903116646209847e-05,
 ('<s>', 'چوب', 'راش'): 1.7903116646209847e-05,
 ('چوب', 'راش', '</s>'): 0.0002039708115570285,
 ('راش', '</s>', '</s>'): 0.0002039708115570285,
 ('<s>', '<s>', 'فوقالعاده'): 0.0002039708115570285,
 ('<s>', 'فوقالعاده', 'سالم'): 0.0002039708115570285,
 ('فوقالعاده', 'سالم', 'و'): 0.0002039708115570285,
 ('سالم', 'و', 'بدون'): 0.00039460968742246626,
 ('و', 'بدون', 'عیب'): 1.7903116646209847e-05,
 

In [None]:
import re
import random

def unigram_predict(test_sentence):
    # Normalize the sentence
    # sentence = normalizer.normalize(sentence)
    test_sentence = normalizer.correct_spacing(test_sentence)
    test_sentence = normalizer.decrease_repeated_chars(test_sentence)
    test_sentence = normalizer.seperate_mi(test_sentence)
    test_sentence = normalizer.persian_number(test_sentence)

    # Replace ZERO WIDTH NON-JOINER characters with space
    test_sentence = re.sub(pattern, '', test_sentence)

    # Remove all punctuations
    test_sentence = "".join([char for char in test_sentence if char not in punctuations])

    # Replace 'NUM' characters with space
    test_sentence = re.sub(r'NUM', '', test_sentence)

    words = get_words(test_sentence)

    while len(words) < 10:
        next_word = random.choices([unigram for unigram in unigram_prob if unigram not in ('<s>', '</s>')], weights=list(unigram_prob.values()))[0][0]

        words.append(next_word)

    return ' '.join(words)



def bigram_predict(test_sentence):
    # Normalize the sentence
    # sentence = normalizer.normalize(sentence)
    test_sentence = normalizer.correct_spacing(test_sentence)
    test_sentence = normalizer.decrease_repeated_chars(test_sentence)
    test_sentence = normalizer.seperate_mi(test_sentence)
    test_sentence = normalizer.persian_number(test_sentence)

    # Replace ZERO WIDTH NON-JOINER characters with space
    test_sentence = re.sub(pattern, '', test_sentence)

    # Remove all punctuations
    test_sentence = "".join([char for char in test_sentence if char not in punctuations])

    # Replace 'NUM' characters with space
    test_sentence = re.sub(r'NUM', '', test_sentence)

    words = get_words(test_sentence)

    while len(words) < 10:
        last_word = words[-1]

        # Filtered list of bigram probabilities
        filtered_bigram_prob = [(bigram[1], prob) for bigram, prob in sorted_bigram_prob if bigram[0] == last_word and bigram[1] not in ('<s>', '</s>')]

        if filtered_bigram_prob:
            # If there are bigram predictions available, use them
            next_word = random.choices([word for word, _ in filtered_bigram_prob], weights=[prob for _, prob in filtered_bigram_prob])[0]
            words.append(next_word)

        else:
            # If there are no bigram predictions available, fallback to unigram generation
            words.append(laplace_unigram_probdist.generate()[0])

    return ' '.join(words)


def trigram_predict(test_sentence):
    # Normalize the sentence
    # sentence = normalizer.normalize(sentence)
    test_sentence = normalizer.correct_spacing(test_sentence)
    test_sentence = normalizer.decrease_repeated_chars(test_sentence)
    test_sentence = normalizer.seperate_mi(test_sentence)
    test_sentence = normalizer.persian_number(test_sentence)

    # Replace ZERO WIDTH NON-JOINER characters with space
    test_sentence = re.sub(pattern, '', test_sentence)

    # Remove all punctuations
    test_sentence = "".join([char for char in test_sentence if char not in punctuations])

    # Replace 'NUM' characters with space
    test_sentence = re.sub(r'NUM', '', test_sentence)

    words = get_words(test_sentence)

    while len(words) < 10:
        last_two_words = tuple(words[-2:])

        # Filtered list of trigram probabilities
        filtered_trigram_prob = [(trigram[-1], prob) for trigram, prob in trigram_prob.items() if trigram[:2] == last_two_words and trigram[-1] not in ('<s>', '</s>')]

        if filtered_trigram_prob:
            # If there are trigram predictions available, use them
            next_word = random.choices([word for word, _ in filtered_trigram_prob], weights=[prob for _, prob in filtered_trigram_prob])[0]
            words.append(next_word)
        else:
            # If there are no trigram predictions available, fallback to bigram generation
            filtered_bigram_prob = [(bigram[1], prob) for bigram, prob in sorted_bigram_prob if bigram[0] == last_two_words[1] and bigram[1] not in ('<s>', '</s>')]

            if filtered_bigram_prob:
                # If there are bigram predictions available, use them
                next_word = random.choices([word for word, _ in filtered_bigram_prob], weights=[prob for _, prob in filtered_bigram_prob])[0]
                words.append(next_word)
            else:
                # If there are no bigram predictions available, fallback to unigram generation
                words.append(laplace_unigram_probdist.generate()[0])

    return ' '.join(words)




In [None]:
test_sentences = [
    'مبل هفت نفره خود رنگ',
    'دستگاه تردمیل نو',
    'کفش مردانه',
    'تعدادی وسایل اداری و پزشکی',
]

unigram_predicts = []
bigram_predicts = []
trigram_predicts = []

for sentence in test_sentences:
    unigram_predict_sent = unigram_predict(sentence)
    bigram_predict_sent = bigram_predict(sentence)
    trigram_predict_sent = trigram_predict(sentence)

    unigram_predicts.append(unigram_predict_sent)
    bigram_predicts.append(bigram_predict_sent)
    trigram_predicts.append(trigram_predict_sent)

    print(f'''
    Sentence: {sentence}
    Unigram Predict: {unigram_predict_sent}
    Bigram Predict: {bigram_predict_sent}
    Trigram Predict: {trigram_predict_sent}
    ''')


    Sentence: مبل هفت نفره خود رنگ
    Unigram Predict: مبل هفت نفره خود رنگ و مبل فروش موتور سند
    Bigram Predict: مبل هفت نفره خود رنگ قهوهای گونه سوال تماس بگیرید
    Trigram Predict: مبل هفت نفره خود رنگ کاملا سالم و تمیز شسته
    

    Sentence: دستگاه تردمیل نو
    Unigram Predict: دستگاه تردمیل نو تومان ﺍﻝ همه هزار ۹ لباس هم
    Bigram Predict: دستگاه تردمیل نو میباشند ماه ۱۴ روز خوابه قیمتش هم
    Trigram Predict: دستگاه تردمیل نو وکارنکرده دوموتوره دارای شیب اسپیکر فن باد
    

    Sentence: کفش مردانه
    Unigram Predict: کفش مردانه رنگها ناهار وزن خریداریشده و میتونه با گارانتی
    Bigram Predict: کفش مردانه با تخفیف زیاد استفاده نشده و بدون ایراد
    Trigram Predict: کفش مردانه اسپورت شیک با زیره بسیار نرم وسبک سفارشی
    

    Sentence: تعدادی وسایل اداری و پزشکی
    Unigram Predict: تعدادی وسایل اداری و پزشکی بگیرید قالپاقها روی جدید بیمه
    Bigram Predict: تعدادی وسایل اداری و پزشکی استفاده نمیکنم میخوام بفروشم به
    Trigram Predict: تعدادی وسایل اداری و پزشکی استفا



In [None]:
for sentence in unigram_predicts:
    print(sentence)
    perplexity(sentence)

مبل هفت نفره خود رنگ و مبل فروش موتور سند

test unigram prob: [1.1999995911601392e-09, 7.999997274400929e-10, 1.999999318600232e-09, 1.9999993186002322e-10, 2.9999989779003484e-09, 1.179999597974137e-08, 9.999996593001161e-11, 7.999997274400929e-10, 1.9999993186002322e-10]
test bigram prob: [0.0017381106293262827, 0.0004718097853431737, 0.0009608302416342047, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 7.294586134131473e-11, 7.294586134131473e-11, 7.294586134131473e-11, 7.294586134131473e-11]
test trigram prob: [0.0015189452527119278, 0.00039460968742246626, 0.00039460968742246626, 1.7903116646209847e-05, 1.7903116646209847e-05, 8.477062978818141e-11, 8.477062978818141e-11, 8.477062978818141e-11, 8.477062978818141e-11, 8.477062978818141e-11, 8.477062978818141e-11]


unigram perplexity: 30.14190096922431
bigram perplexity: 20.874958196283053
trigram perplexity: 24.023819371336458

دستگاه تردمیل نو تومان ﺍﻝ همه هزار ۹ لباس هم

test unigram prob: [1.99999931860023

In [None]:
for sentence in bigram_predicts:
    print(sentence)
    perplexity(sentence)

مبل هفت نفره خود رنگ قهوهای گونه سوال تماس بگیرید

test unigram prob: [1.1999995911601392e-09, 7.999997274400929e-10, 1.999999318600232e-09, 1.9999993186002322e-10, 2.9999989779003484e-09, 2.999998977900348e-10, 1.9999993186002322e-10, 1.9999993186002322e-10, 1.5999994548801858e-09, 7.999997274400929e-10]
test bigram prob: [0.0017381106293262827, 0.0004718097853431737, 0.0009608302416342047, 4.016738252252003e-05, 4.016738252252003e-05, 0.00018787488205737659, 7.294586134131473e-11, 4.016738252252003e-05, 4.016738252252003e-05, 0.0012164602037448879, 0.001475967686982045]
test trigram prob: [0.0015189452527119278, 0.00039460968742246626, 0.00039460968742246626, 1.7903116646209847e-05, 1.7903116646209847e-05, 8.477062978818141e-11, 8.477062978818141e-11, 8.477062978818141e-11, 1.7903116646209847e-05, 1.7903116646209847e-05, 0.0010531297880587013, 0.0012846193960164684]


unigram perplexity: 30.479407071205923
bigram perplexity: 13.981382520581644
trigram perplexity: 17.91029026989843

د

In [None]:
for sentence in trigram_predicts:
    print(sentence)
    perplexity(sentence)

مبل هفت نفره خود رنگ کاملا سالم و تمیز شسته

test unigram prob: [1.1999995911601392e-09, 7.999997274400929e-10, 1.999999318600232e-09, 1.9999993186002322e-10, 2.9999989779003484e-09, 2.1999992504602553e-09, 5.999997955800697e-09, 1.179999597974137e-08, 4.199998569060488e-09, 1.9999993186002322e-10]
test bigram prob: [0.0017381106293262827, 0.0004718097853431737, 0.0009608302416342047, 4.016738252252003e-05, 4.016738252252003e-05, 4.016738252252003e-05, 0.003069076425327325, 0.0025339522907395842, 0.0009608302416342047, 4.016738252252003e-05, 7.294586134131473e-11]
test trigram prob: [0.0015189452527119278, 0.00039460968742246626, 0.00039460968742246626, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 1.7903116646209847e-05, 0.000604865674467578, 0.000604865674467578, 1.7903116646209847e-05, 8.477062978818141e-11, 8.477062978818141e-11]


unigram perplexity: 29.173775052639392
bigram perplexity: 13.575077699291915
trigram perplexity: 16.5934932710125

دستگاه تردم

# Part 3

In [None]:
tokenized_text = [word_tokenize(post) for post in commercial_posts]

In [None]:
tokenized_text

[['کلاسیک', 'و', 'شیک', 'و', 'استثنایی'],
 ['چرم', 'مالزی'],
 ['چوب', 'راش'],
 ['فوقالعاده', 'سالم', 'و', 'بدون', 'عیب', 'و', 'ایراد'],
 ['سلامیک',
  'عدد',
  'گلدون',
  'نخل',
  'سهطبقهی',
  'سالم',
  'دارم',
  'با',
  'پایهی',
  'سفالی',
  'به',
  'علت',
  'جابجایی',
  'میفروشمش'],
 ['سریال',
  '۴۳',
  'jبدون',
  'شکستگی',
  'سه',
  'حلقه',
  'لاستیک',
  'نو',
  'یک',
  'حلقه',
  'ضعیف',
  'موتور',
  'و',
  'گیر',
  'بکس',
  'سالم',
  'زیر',
  'بار',
  'درجه',
  'یک'],
 ['مبل',
  'راحتی',
  'هفت',
  'نفره',
  'شامل',
  'سه',
  'نفره',
  'یک',
  'عدد',
  'دونفره',
  'یک',
  'عدد',
  'مبل',
  'تکی',
  'دو',
  'عدد',
  'ومیز',
  'جلو',
  'مبلی',
  'بسیار',
  'تمیز',
  'در',
  'ضمن',
  'برای',
  'تخفیف',
  'هزینه',
  'حمل',
  'در',
  'داخل',
  'تهران',
  'بعهده',
  'فروشنده',
  'میباشد'],
 ['شارژی',
  'کنترلی',
  'سویچ',
  'حمل',
  'تا',
  '۳۵',
  'کیلو',
  'صندلی',
  'برای',
  'دو',
  'نفر',
  'موزیکال',
  'سه',
  'موج',
  'رادیو'],
 ['بسیارتمیزوسالم',
  'وچوب',
  'راش',
  'فقط',
  'به'

In [None]:
!pip install gdown

import gdown

# Google Drive file ID
file_id = '1Q3JK4NVUC2t5QT63aDiVrCRBV225E_B3'

# URL template for downloading files from Google Drive
url_template = 'https://drive.google.com/uc?id={}&export=download'

# Construct the download URL
download_url = url_template.format(file_id)

# Define the output file path
output_file = 'pos_tagger.model'

# Download the file
gdown.download(download_url, output_file, quiet=False)




Downloading...
From: https://drive.google.com/uc?id=1Q3JK4NVUC2t5QT63aDiVrCRBV225E_B3&export=download
To: /content/pos_tagger.model
100%|██████████| 19.2M/19.2M [00:00<00:00, 193MB/s]


'pos_tagger.model'

In [None]:
model_path = 'pos_tagger.model'
tagger = POSTagger(model = model_path)
token_tag_list = tagger.tag_sents(tokenized_text)

In [None]:
import pandas as pd

flat_list = [item for sublist in token_tag_list for item in sublist]
df = pd.DataFrame(flat_list, columns=['Token', 'Tag'])

df


Unnamed: 0,Token,Tag
0,کلاسیک,ADJ
1,و,CCONJ
2,شیک,ADJ
3,و,CCONJ
4,استثنایی,ADJ
...,...,...
3402,خریدار,NOUN
3403,تخفیف,NOUN
3404,هم,CCONJ
3405,داده,VERB


In [None]:
df['Tag'].value_counts()

Tag
NOUN       940
NOUN,EZ    780
ADJ        332
NUM        304
VERB       226
ADP        210
ADJ,EZ     166
CCONJ      153
ADV        127
ADP,EZ      79
PRON        31
DET         28
SCONJ       14
DET,EZ      13
NUM,EZ       3
PUNCT        1
Name: count, dtype: int64

In [None]:
def extract_nouns(tag):
    tags = tag.split(',')
    return 'NOUN' in tags

# Filter the DataFrame for rows where the 'Tag' column contains 'N' (noun)
nouns_df = df[df['Tag'].apply(extract_nouns)]

In [None]:
nouns_df

Unnamed: 0,Token,Tag
5,چرم,"NOUN,EZ"
6,مالزی,NOUN
7,چوب,"NOUN,EZ"
8,راش,NOUN
9,فوقالعاده,"NOUN,EZ"
...,...,...
3389,سایزهای,"NOUN,EZ"
3396,حد,"NOUN,EZ"
3400,جهیزیه,NOUN
3402,خریدار,NOUN


In [None]:
# Add a column to calculate the frequency of each token
nouns_df.loc[:, 'Frequency'] = nouns_df.groupby('Token')['Token'].transform('count')

# Drop duplicate rows to keep only unique tokens
unique_nouns_df = nouns_df.drop_duplicates(subset=['Token'])

# Sort the DataFrame by frequency in descending order
sorted_unique_nouns_df = unique_nouns_df.sort_values(by='Frequency', ascending=False)

# Print the top 15 unique tokens with the highest frequency
top_tokens = sorted_unique_nouns_df.head(15)
print(top_tokens)

       Token      Tag  Frequency
486      رنگ  NOUN,EZ         29
17       عدد  NOUN,EZ         26
797     فروش  NOUN,EZ         23
162     قیمت     NOUN         23
74     تخفیف  NOUN,EZ         23
142     بیمه     NOUN         23
53      نفره     NOUN         19
360       حد  NOUN,EZ         17
272      میز  NOUN,EZ         17
36    لاستیک  NOUN,EZ         16
270    همراه     NOUN         16
209      سال     NOUN         16
132     تماس  NOUN,EZ         15
546    تومان     NOUN         15
184  استفاده     NOUN         14


# Part4

In [None]:
import pandas as pd

# Define the data
data = {
    'Noun': [2, 1, 2, 0, 1],
    'Verb': [0, 2, 2, 0, 0],
    'Modal': [0, 0, 0, 3, 1]
}

# Create the DataFrame
df = pd.DataFrame(data, index=['Tom', 'Mark', 'Watch', 'Can', 'Will'])
df_probability = df.div(df.sum(axis=0))


In [None]:
df

Unnamed: 0,Noun,Verb,Modal
Tom,2,0,0
Mark,1,2,0
Watch,2,2,0
Can,0,0,3
Will,1,0,1


In [None]:
df_probability

Unnamed: 0,Noun,Verb,Modal
Tom,0.333333,0.0,0.0
Mark,0.166667,0.5,0.0
Watch,0.333333,0.5,0.0
Can,0.0,0.0,0.75
Will,0.166667,0.0,0.25


In [None]:
transition_df = pd.DataFrame(index=['<S>', 'Noun', 'Verb', 'Modal'], columns=['Noun', 'Verb', 'Modal', '<E>'])

transition_df.loc['<S>'] = [3, 0, 1, 0]
transition_df.loc['Noun'] = [0, 1, 3, 2]
transition_df.loc['Verb'] = [2, 0, 0, 2]
transition_df.loc['Modal'] = [1, 3, 0, 0]

print(transition_df)

      Noun Verb Modal <E>
<S>      3    0     1   0
Noun     0    1     3   2
Verb     2    0     0   2
Modal    1    3     0   0


In [None]:
transition_df_probability = transition_df.div(transition_df.sum(axis=1), axis=0)

print(transition_df_probability)

       Noun      Verb Modal       <E>
<S>    0.75       0.0  0.25       0.0
Noun    0.0  0.166667   0.5  0.333333
Verb    0.5       0.0   0.0       0.5
Modal  0.25      0.75   0.0       0.0


In [None]:
0.25*0.75*0.25*0.333333*0.166667*0.5*0.5*0.333333*0.333333

7.233789062478298e-05