In [1]:
from corpus import Corpus
from lm import LM
from sentence import Sentence
from hazm import POSTagger
from nltk import FreqDist

None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.


In [2]:
datafile = "digikala_comment.csv"
corpus0 = Corpus(datafile, 0) #dont add start or end symbol
corpus1 = Corpus(datafile, 1)
corpus2 = Corpus(datafile, 2)
corpus3 = Corpus(datafile, 3)

lm1 = LM(corpus1, 1)
lm2 = LM(corpus1, 2)
lm3 = LM(corpus1, 3)

# 1- preprocess

In [8]:
corpus = Corpus("digikala_comment.csv", 3)
corpus.print()
#به دلیل مشکل در نمایش لیست های ترکیبی فارسی و انگلیسی، لییست توکن ها ممکن است به ترتیب واقعی نمایش داده نشوند

['<s>', '<s>', 'نسبت', 'به', 'قیمتش', 'ارزش', 'خرید', 'داره', 'جاداره', 'طراحیش', 'قشنگه', 'تنها', 'مشکلش', 'بندهای', 'ضعیفش', 'هست', 'که', 'باعث', 'میشه', 'استحکام', 'چندانی', 'نداشنه', 'باشه', '</s>']
--------
['<s>', '<s>', 'چند', 'ماهی', 'میشه', 'که', 'گرفتمش\u200c', '</s>']
--------
['<s>', '<s>', 'برای', 'برنامه', 'نویسی', 'و', 'کارای', 'گرافیکی', 'ازش', 'استفاده', 'میکنم', '</s>']
--------
['<s>', '<s>', 'واقعا', 'از', 'هر', 'لحاظ', 'بگین', 'عالیه', '</s>']
--------
['<s>', '<s>', 'پراید', 'ستون', 'جدید', '</s>']
--------
['<s>', '<s>', 'اقا', 'همه', 'چیش', 'خوبه', 'فقط', 'از', 'پایین', 'زیاد', 'حاشیه', 'داره', 'که', 'با', 'روشن', 'شدن', 'گوشی', 'بیشتر', 'هم', 'میشه', '</s>']
--------
['<s>', '<s>', 'و', 'نکته', 'دیگه', 'اینکه', 'به', 'خاطر', 'این', 'که', 'اطرافش', 'یه', 'کوچلو', 'خمیده', 'هست', 'گلس', 'بعد', 'یه', 'مدتی', 'جدا', 'مشیه', '</s>']
--------
['<s>', '<s>', 'ولی', 'در', 'کل', 'با', 'این', 'قیمت', 'بهترین', 'گوشی', 'هست', 'و', 'همه', 'چی', 'داره', 'از', 'دوربین', 'گرف

# 2- creating language model

### 2-1 ngram frequencies

In [4]:
print("most repeated unigrams")
print(lm1.get_top_freqs(8))

print("most repeated bigrams")
print(lm2.get_top_freqs(8))

print("most repeated trigrams")
print(lm3.get_top_freqs(8))


most repeated unigrams
[('و', 365), ('</s>', 355), ('از', 213), ('که', 185), ('این', 164), ('به', 155), ('هم', 121), ('خیلی', 110)]
most repeated bigrams
[('نسبت به', 23), ('از این', 19), ('این گوشی', 18), ('در کل', 17), ('پیشنهاد میکنم', 14), ('داره </s>', 14), ('بعد از', 14), ('از دیجی', 14)]
most repeated trigrams
[('نسبت به قیمتش', 9), ('ممنون از دیجی', 9), ('حتما پیشنهاد میکنم', 8), ('از دیجی کالا', 8), ('به نظر من', 7), ('این گوشی رو', 6), ('پیشنهاد میکنم ممنون', 6), ('میکنم ممنون از', 6)]


### 2-3 ngram probability

In [15]:
print("probabilites:\n")
test_good_trigram = 'حتما پیشنهاد میکنم'
test_bad_trigram = 'قن ممد عاتی'
print("good trigram")
print(lm3.cal_prob(test_good_trigram))
print("bad trigram")
print(lm3.cal_prob(test_bad_trigram))

test_good_bigram = 'با کیفیت'
test_bad_bigram = 'قن عاتی'
print("\ngood bigram")
print(lm2.cal_prob(test_good_bigram))
print("bad bigram")
print(lm2.cal_prob(test_bad_bigram))

test_good_unigram = 'عالی'
test_bad_unigram = 'عاتی'
print("\ngood unigram")
print(lm1.cal_prob(test_good_unigram))
print("bad unigram")
print(lm1.cal_prob(test_bad_unigram))


probabilites:

good trigram
0.0006448265844097513
bad trigram
9.509541689562383e-11

good bigram
0.0011252930116257718
bad bigram
7.348791344609595e-11

good unigram
2.9720184463278236e-05
bad unigram
9.906728154426078e-07


### 2-4 perplexity

In [3]:
sen_list:list[Sentence] = []
sen_list.append(Sentence("این لپ تاپ سخت افزار خیلی قوی داره و از پس هر کاری به راحتی بر میاد"))
sen_list.append(Sentence("این ساعت بسیار زیبا طراحی و ساخته شده"))
sen_list.append(Sentence("یک محصول با کیفیت ایرانی که حقیقتا جای حمایت داره"))
sen_list.append(Sentence("بوش و ماندگاری خوب هست من خیلی دوستش دارم"))

In [4]:
for N in range(1, 4):
    corpus = Corpus("digikala_comment.csv", N)
    lm:LM = LM(corpus, N)
    for i, sen in enumerate(sen_list):
        sen.print()
        print(f"(N: {N}, per: {lm.perplexity(sen)})\n")

این لپ تاپ سخت افزار خیلی قوی داره و از پس هر کاری به راحتی بر میاد
(N: 1, per: 463453876.8162574)

این ساعت بسیار زیبا طراحی و ساخته شده
(N: 1, per: 315161448.3745544)

یک محصول با کیفیت ایرانی که حقیقتا جای حمایت داره
(N: 1, per: 355667476.9047862)

بوش و ماندگاری خوب هست من خیلی دوستش دارم
(N: 1, per: 274187898.1461269)

این لپ تاپ سخت افزار خیلی قوی داره و از پس هر کاری به راحتی بر میاد
(N: 2, per: 400951.3754283903)

این ساعت بسیار زیبا طراحی و ساخته شده
(N: 2, per: 20495.30050056201)

یک محصول با کیفیت ایرانی که حقیقتا جای حمایت داره
(N: 2, per: 24296.655088067255)

بوش و ماندگاری خوب هست من خیلی دوستش دارم
(N: 2, per: 271875.3260319782)

این لپ تاپ سخت افزار خیلی قوی داره و از پس هر کاری به راحتی بر میاد
(N: 3, per: 38964415.84468573)

این ساعت بسیار زیبا طراحی و ساخته شده
(N: 3, per: 458866.3785052263)

یک محصول با کیفیت ایرانی که حقیقتا جای حمایت داره
(N: 3, per: 673811.2907961836)

بوش و ماندگاری خوب هست من خیلی دوستش دارم
(N: 3, per: 6247453.409946131)



# 3- word prediction 

In [25]:
beg1 = "کیفیت محصولات چینی زرین"
beg2 = "از لحاظ جنس جنس خوبی داره"
beg3 = "حتما پیشنهاد میکنم"
beg4 = "بعد از چند روز استفاده"

##### unigram generatioins

In [4]:
lm1.extened_sen(beg1).print()

کیفیت محصولات چینی زرین شاید سنج یه فیلتری مراجعه از فعلا باسلام


In [5]:
lm1.extened_sen(beg2).print()

از لحاظ جنس جنس خوبی داره نکته براتون اینکه کامل تنها بلند


In [27]:

lm1.extened_sen(beg3).print()

حتما پیشنهاد میکنم خونه لذت فیلم گوشی هم گوشی میره ناچیزی اسپرسو


In [7]:
lm1.extened_sen(beg4).print()

بعد از چند روز استفاده بخرین بیشتر از دل قبلش خریدم در


##### bigram generatioins

In [9]:
lm2.extened_sen(beg1).print()

کیفیت محصولات چینی زرین عالیه از این گوشی کار کردم با همین


In [12]:
lm2.extened_sen(beg2).print()

از لحاظ جنس جنس خوبی داره و زیر پونصدهزار تومان همچین جعبه


In [29]:
lm2.extened_sen(beg3).print()

حتما پیشنهاد میکنم امتحان کردم منتظرم بیاد پایین زیاد حاشیه داره </s>


In [30]:
lm2.extened_sen(beg4).print()

بعد از چند روز استفاده کردم خوب بود ولی خیلی با این


##### trigram generatioins

In [14]:
lm3.extened_sen(beg1).print()

کیفیت محصولات چینی زرین عالیه و قیمتش هم عالی به نظر میرسه


In [15]:
lm2.extened_sen(beg2).print()

از لحاظ جنس جنس خوبی داره در کل راضی هستم از لحاظ


In [41]:
lm2.extened_sen(beg3).print()

حتما پیشنهاد میکنم ممنون از فروش من خیلی خوب و با قیمت


In [37]:
lm2.extened_sen(beg4).print()

بعد از چند روز استفاده کنید که کیفیت صفحه اش هم مشکلی


##### perplexity

In [5]:
from sentence import Sentence


n1_sen1 = Sentence("کیفیت محصولات چینی زرین شاید سنج یه فیلتری مراجعه از فعلا باسلام")
n1_sen2 = Sentence("از لحاظ جنس جنس خوبی داره نکته براتون اینکه کامل تنها بلند")
n1_sen3 = Sentence("حتما پیشنهاد میکنم خونه لذت فیلم گوشی هم گوشی میره ناچیزی اسپرسو")
n1_sen4 = Sentence("بعد از چند روز استفاده بخرین بیشتر از دل قبلش خریدم در")

n2_sen1 = Sentence("کیفیت محصولات چینی زرین عالیه از این گوشی کار کردم با همین")
n2_sen2 = Sentence("از لحاظ جنس جنس خوبی داره و زیر پونصدهزار تومان همچین جعبه")
n2_sen3 = Sentence("حتما پیشنهاد میکنم امتحان کردم منتظرم بیاد پایین زیاد حاشیه داره </s>")
n2_sen4 = Sentence("بعد از چند روز استفاده کردم خوب بود ولی خیلی با این")

n3_sen1 = Sentence("کیفیت محصولات چینی زرین عالیه و قیمتش هم عالی به نظر میرسه")
n3_sen2 = Sentence("از لحاظ جنس جنس خوبی داره در کل راضی هستم از لحاظ")
n3_sen3 = Sentence("حتما پیشنهاد میکنم ممنون از فروش من خیلی خوب و با قیمت")
n3_sen4 = Sentence("بعد از چند روز استفاده کنید که کیفیت صفحه اش هم مشکلی")

all_sentences: list[Sentence] = [
    n1_sen1, n1_sen2, n1_sen3, n1_sen4,
    n2_sen1, n2_sen2, n2_sen3, n2_sen4,
    n3_sen1, n3_sen2, n3_sen3, n3_sen4
]
for sen in all_sentences:
    print()
    sen.print()
    for lang_model in [lm1, lm2, lm3]:
        print(f"{lang_model.get_n()}gram perplexity: {lang_model.perplexity(sen):.0f}")



کیفیت محصولات چینی زرین شاید سنج یه فیلتری مراجعه از فعلا باسلام
1gram perplexity: 978998047
2gram perplexity: 307427070
3gram perplexity: 2082670777

از لحاظ جنس جنس خوبی داره نکته براتون اینکه کامل تنها بلند
1gram perplexity: 585314360
2gram perplexity: 65629232
3gram perplexity: 327507827

حتما پیشنهاد میکنم خونه لذت فیلم گوشی هم گوشی میره ناچیزی اسپرسو
1gram perplexity: 587029393
2gram perplexity: 1093001960
3gram perplexity: 3135862985

بعد از چند روز استفاده بخرین بیشتر از دل قبلش خریدم در
1gram perplexity: 367264302
2gram perplexity: 51161355
3gram perplexity: 584322259

کیفیت محصولات چینی زرین عالیه از این گوشی کار کردم با همین
1gram perplexity: 302710631
2gram perplexity: 130382
3gram perplexity: 412478041

از لحاظ جنس جنس خوبی داره و زیر پونصدهزار تومان همچین جعبه
1gram perplexity: 540716448
2gram perplexity: 163677
3gram perplexity: 9052178

حتما پیشنهاد میکنم امتحان کردم منتظرم بیاد پایین زیاد حاشیه داره 
1gram perplexity: 642824499
2gram perplexity: 51510
3gram perplexity

# 4- POS tagging

In [21]:
posTagger = POSTagger(model = 'pos_tagger.model')
tag_freq = FreqDist()
noun_freq = FreqDist()
for i in range(corpus0.get_len()):
    tags = posTagger.tag(corpus0.get_item(i))
    for word, pos in tags:
        tag_freq[pos] = tag_freq.get(pos, 0) +1
        if pos == 'NOUN':
            noun_freq[word] = noun_freq.get(word, 0) +1
    print(tags)

[('نسبت', 'NOUN'), ('به', 'ADP'), ('قیمتش', 'NOUN'), ('ارزش', 'NOUN,EZ'), ('خرید', 'NOUN'), ('داره', 'VERB'), ('جاداره', 'NOUN,EZ'), ('طراحیش', 'NOUN'), ('قشنگه', 'VERB'), ('تنها', 'ADV'), ('مشکلش', 'NOUN'), ('بندهای', 'NOUN,EZ'), ('ضعیفش', 'ADJ'), ('هست', 'VERB'), ('که', 'SCONJ'), ('باعث', 'ADJ,EZ'), ('میشه', 'NOUN'), ('استحکام', 'NOUN,EZ'), ('چندانی', 'ADJ'), ('نداشنه', 'VERB'), ('باشه', 'VERB')]
[('چند', 'DET'), ('ماهی', 'NOUN'), ('میشه', 'VERB'), ('که', 'SCONJ'), ('گرفتمش\u200c', 'VERB')]
[('برای', 'ADP,EZ'), ('برنامه', 'NOUN,EZ'), ('نویسی', 'NOUN'), ('و', 'CCONJ'), ('کارای', 'NOUN,EZ'), ('گرافیکی', 'ADJ'), ('ازش', 'ADP'), ('استفاده', 'NOUN'), ('میکنم', 'VERB')]
[('واقعا', 'ADV'), ('از', 'ADP'), ('هر', 'DET'), ('لحاظ', 'NOUN'), ('بگین', 'NOUN'), ('عالیه', 'ADJ')]
[('پراید', 'NOUN,EZ'), ('ستون', 'NOUN,EZ'), ('جدید', 'ADJ')]
[('اقا', 'NOUN'), ('همه', 'DET,EZ'), ('چیش', 'NOUN'), ('خوبه', 'VERB'), ('فقط', 'ADV'), ('از', 'ADP'), ('پایین', 'ADV'), ('زیاد', 'ADJ,EZ'), ('حاشیه', 'NOUN'), (

In [26]:
print("pos tag freqs:")
tag_freq

pos tag freqs:


FreqDist({'NOUN': 2313, 'VERB': 1313, 'NOUN,EZ': 1203, 'ADP': 792, 'ADJ': 725, 'CCONJ': 640, 'ADV': 539, 'NUM': 293, 'SCONJ': 288, 'DET': 252, ...})

In [25]:
print("top 15 nouns:")
noun_freq.most_common(15)


top 15 nouns:


[('های', 37),
 ('ها', 35),
 ('گوشی', 34),
 ('استفاده', 33),
 ('نسبت', 23),
 ('رو', 22),
 ('پیشنهاد', 19),
 ('صدا', 19),
 ('قیمتش', 18),
 ('میشه', 17),
 ('کالا', 17),
 ('می', 16),
 ('دستگاه', 16),
 ('خرید', 15),
 ('کار', 15)]