In [1]:
# ! pip install hazm

In [40]:
import pandas as pd
import numpy as np
import re
from __future__ import unicode_literals
import hazm
import nltk
import codecs
import tqdm

In [3]:
with open('masnavi.txt', 'r', encoding="utf8") as infile:
    masnavi = infile.readlines()

In [4]:
data = []

In [5]:
def process_beyt(text):
    result = re.search("(\d{1,3})\.(\d{1,3})", text)
    if result:
        poem, beyt = result.groups()
        beyt_text = [mesra for mesra in re.sub("(\d{1,3})\.(\d{1,3})", "", text).split("\t") if mesra]
        data.append((section, poem, beyt, beyt_text[0], beyt_text[1]))
    return None

In [6]:
section = 0
for line in masnavi:
    if re.search("(?:دفتر).*.(?:مثنوی)", line):
        section += 1
        if section == 7:
            break
        print(f"Processing Dafter {section}")
    else:
        process_beyt(line)

Processing Dafter 1
Processing Dafter 2
Processing Dafter 3
Processing Dafter 4
Processing Dafter 5
Processing Dafter 6


In [7]:
masnavi_df = pd.DataFrame(data, columns=['Daftar', 'Poem', 'Beyt', 'Mesra1', 'Mesra2'])

In [8]:
normalizer = hazm.Normalizer()

In [9]:
def custom_normalizer(series):
    series = series.replace('*', '')
    series = series.replace("\n",'')
    return series

In [10]:
masnavi_df['Mesra1'] =  masnavi_df['Mesra1'].apply(lambda x:custom_normalizer(normalizer.normalize(x)))

In [11]:
masnavi_df['Mesra2'] =  masnavi_df['Mesra2'].apply(lambda x:custom_normalizer(normalizer.normalize(x)))

In [12]:
masnavi_df

Unnamed: 0,Daftar,Poem,Beyt,Mesra1,Mesra2
0,1,1,1,بشنو از نی، چون حکایت میکند,واز جدائی‌ها شکایت میکند
1,1,1,2,کز نیستان تا مرا ببریده‌اند,از نفیرم مرد و زن نالیده‌اند
2,1,1,3,سینه خواهم شرحه شرحه از فراق,تا بگویم شرح درد اشتیاق
3,1,1,4,هر کسی کاو دور ماند از اصل خویش,باز جوید روزگار وصل خویش
4,1,1,5,من به هر جمعیتی نالان شدم,جفت بد حالان و خوش حالان شدم
...,...,...,...,...,...
22595,6,187,98,تو عدوی، وز عدو شهد و لبن,بی تکلف زهر گردد در دهن
22596,6,187,99,هر وجودی کز عدم بنمود سر,بر یکی زهر است و، بر دیگر شکر
22597,6,187,100,دوست شو، وز خوی ناخوش شو بری,تا ز خمرۀ زهر هم حلوا خوری
22598,6,187,101,ز آن نشد فاروق را زهری گزند,که بد آن تریاق فاروقیش قند


In [13]:
masnavi_df['Mesra1_tokenized'] =  masnavi_df['Mesra1'].apply(lambda x:hazm.word_tokenize(x))

In [14]:
masnavi_df['Mesra2_tokenized'] =  masnavi_df['Mesra2'].apply(lambda x:hazm.word_tokenize(x))

In [15]:
masnavi_df

Unnamed: 0,Daftar,Poem,Beyt,Mesra1,Mesra2,Mesra1_tokenized,Mesra2_tokenized
0,1,1,1,بشنو از نی، چون حکایت میکند,واز جدائی‌ها شکایت میکند,"[بشنو, از, نی, ،, چون, حکایت, میکند]","[واز, جدائی‌ها, شکایت, میکند]"
1,1,1,2,کز نیستان تا مرا ببریده‌اند,از نفیرم مرد و زن نالیده‌اند,"[کز, نیستان, تا, مرا, ببریده‌اند]","[از, نفیرم, مرد, و, زن, نالیده‌اند]"
2,1,1,3,سینه خواهم شرحه شرحه از فراق,تا بگویم شرح درد اشتیاق,"[سینه, خواهم_شرحه, شرحه, از, فراق]","[تا, بگویم, شرح, درد, اشتیاق]"
3,1,1,4,هر کسی کاو دور ماند از اصل خویش,باز جوید روزگار وصل خویش,"[هر, کسی, کاو, دور, ماند, از, اصل, خویش]","[باز, جوید, روزگار, وصل, خویش]"
4,1,1,5,من به هر جمعیتی نالان شدم,جفت بد حالان و خوش حالان شدم,"[من, به, هر, جمعیتی, نالان, شدم]","[جفت, بد, حالان, و, خوش, حالان, شدم]"
...,...,...,...,...,...,...,...
22595,6,187,98,تو عدوی، وز عدو شهد و لبن,بی تکلف زهر گردد در دهن,"[تو, عدوی, ،, وز, عدو, شهد, و, لبن]","[بی, تکلف, زهر, گردد, در, دهن]"
22596,6,187,99,هر وجودی کز عدم بنمود سر,بر یکی زهر است و، بر دیگر شکر,"[هر, وجودی, کز, عدم, بنمود, سر]","[بر, یکی, زهر, است, و, ،, بر, دیگر, شکر]"
22597,6,187,100,دوست شو، وز خوی ناخوش شو بری,تا ز خمرۀ زهر هم حلوا خوری,"[دوست, شو, ،, وز, خوی, ناخوش, شو, بری]","[تا, ز, خمرۀ, زهر, هم, حلوا, خوری]"
22598,6,187,101,ز آن نشد فاروق را زهری گزند,که بد آن تریاق فاروقیش قند,"[ز, آن, نشد, فاروق, را, زهری, گزند]","[که, بد, آن, تریاق, فاروقیش, قند]"


In [16]:
from itertools import chain
from collections import Counter

In [17]:
words_in_masnavi = masnavi_df.Mesra1_tokenized + masnavi_df.Mesra2_tokenized
words_in_masnavi

0        [بشنو, از, نی, ،, چون, حکایت, میکند, واز, جدائ...
1        [کز, نیستان, تا, مرا, ببریده‌اند, از, نفیرم, م...
2        [سینه, خواهم_شرحه, شرحه, از, فراق, تا, بگویم, ...
3        [هر, کسی, کاو, دور, ماند, از, اصل, خویش, باز, ...
4        [من, به, هر, جمعیتی, نالان, شدم, جفت, بد, حالا...
                               ...                        
22595    [تو, عدوی, ،, وز, عدو, شهد, و, لبن, بی, تکلف, ...
22596    [هر, وجودی, کز, عدم, بنمود, سر, بر, یکی, زهر, ...
22597    [دوست, شو, ،, وز, خوی, ناخوش, شو, بری, تا, ز, ...
22598    [ز, آن, نشد, فاروق, را, زهری, گزند, که, بد, آن...
22599    [هین, بجو, تریاق, فاروق, ،, ای, غلام, تا, شوی,...
Length: 22600, dtype: object

In [32]:
all_words = list(chain.from_iterable(words_in_masnavi))

In [34]:
words_frequencies = nltk.FreqDist(all_words).most_common(100)

In [35]:
words_frequencies

[('،', 12267),
 ('و', 11064),
 ('از', 7190),
 ('را', 6594),
 ('آن', 5786),
 ('در', 5632),
 ('که', 4387),
 ('او', 3877),
 ('بر', 3643),
 ('این', 3595),
 ('تو', 3374),
 ('چون', 3126),
 ('است', 2921),
 ('ز', 2842),
 ('؟', 2838),
 ('تا', 2578),
 ('به', 2464),
 ('ای', 2063),
 ('من', 1982),
 ('هر', 1910),
 ('بود', 1870),
 ('گفت', 1735),
 ('شد', 1618),
 (':', 1596),
 ('بی', 1523),
 ('با', 1512),
 ('اندر', 1467),
 ('خود', 1433),
 ('جان', 1267),
 ('چه', 1229),
 ('گر', 1182),
 ('ما', 1162),
 ('هم', 1095),
 ('سر', 1009),
 ('حق', 957),
 ('پیش', 949),
 ('نیست', 890),
 ('کرد', 877),
 ('دل', 861),
 ('پس', 818),
 ('آب', 789),
 ('سوی', 766),
 ('یک', 761),
 ('آمد', 749),
 ('شود', 724),
 ('باشد', 724),
 ('کن', 721),
 ('نی', 715),
 ('دو', 685),
 ('باز', 681),
 ('کی', 671),
 ('صد', 663),
 ('کند', 650),
 ('چو', 633),
 ('دست', 631),
 ('رو', 603),
 ('یا', 603),
 ('بد', 597),
 ('هست', 581),
 ('نه', 579),
 ('چشم', 578),
 ('همچو', 566),
 ('بهر', 560),
 ('نور', 538),
 ('ور', 533),
 ('پر', 530),
 ('زین', 518),
 ('

In [48]:
print ('%-16s' % 'Number of words', '%-16s' % len(all_words))
print ('%-16s' % 'Number of unique words', '%-16s' % len(set(all_words)))
avg=np.sum([len(word) for word in all_words])/len(all_words)
print ('%-16s' % 'Average word length', '%-16s' % avg)
print ('%-16s' % 'Longest word', '%-16s' % all_words[np.argmax([len(word) for word in all_words])])

Number of words  303352          
Number of unique words 22596           
Average word length 3.1201178828555607
Longest word     نخواهم_هدیه‌ات  


In [49]:
stopwords = [normalizer.normalize(x.strip()) for x in codecs.open('stopwords.txt','r','utf-8').readlines()]

In [50]:
no_stop_words = [t for t in tqdm.tqdm(all_words) if t not in stopwords]

100% 303352/303352 [00:01<00:00, 235653.85it/s]


In [51]:
print ('%-16s' % 'Number of words', '%-16s' % len(no_stop_words))
print ('%-16s' % 'Number of unique words', '%-16s' % len(set(no_stop_words)))
avg=np.sum([len(word) for word in no_stop_words])/len(no_stop_words)
print ('%-16s' % 'Average word length', '%-16s' % avg)

Number of words  190646          
Number of unique words 22266           
Average word length 3.5769489000556005


In [53]:
no_stop_frequencies = nltk.FreqDist(no_stop_words).most_common(100)

In [55]:
no_stop_frequencies

[('،', 12267),
 ('ز', 2842),
 ('؟', 2838),
 ('ای', 2063),
 (':', 1596),
 ('اندر', 1467),
 ('جان', 1267),
 ('گر', 1182),
 ('سر', 1009),
 ('حق', 957),
 ('دل', 861),
 ('آب', 789),
 ('کن', 721),
 ('نی', 715),
 ('کی', 671),
 ('صد', 663),
 ('چو', 633),
 ('دست', 631),
 ('بد', 597),
 ('هست', 581),
 ('چشم', 578),
 ('همچو', 566),
 ('بهر', 560),
 ('نور', 538),
 ('ور', 533),
 ('زین', 518),
 ('جهان', 489),
 ('عقل', 488),
 ('لیک', 473),
 ('مر', 466),
 ('آید', 458),
 ('کاو', 445),
 ('دم', 440),
 ('کز', 411),
 ('گشت', 411),
 ('بس', 401),
 ('تن', 395),
 ('جمله', 392),
 ('خوش', 384),
 ('خدا', 382),
 ('همی', 372),
 ('کار', 371),
 ('مرد', 361),
 ('دید', 358),
 ('کان', 354),
 ('مرا', 353),
 ('شیر', 345),
 ('آتش', 336),
 ('روز', 325),
 ('هین', 325),
 ('ره', 321),
 ('«', 319),
 ('»', 318),
 ('خاک', 316),
 ('شاه', 303),
 ('چونکه', 298),
 ('زمان', 289),
 ('شب', 284),
 ('خلق', 282),
 ('خر', 277),
 ('کس', 276),
 ('زن', 273),
 ('عشق', 273),
 ('کو', 271),
 ('سخن', 266),
 ('شه', 265),
 ('نفس', 263),
 ('الله', 261),

In [56]:
persian_punctuation = ['،','؟',':']

In [57]:
no_punc_words = [t for t in tqdm.tqdm(no_stop_words) if t not in persian_punctuation]

100% 190646/190646 [00:00<00:00, 1532889.64it/s]


In [58]:
no_punc_frequencies = nltk.FreqDist(no_punc_words).most_common(100)

In [59]:
no_punc_frequencies

[('ز', 2842),
 ('ای', 2063),
 ('اندر', 1467),
 ('جان', 1267),
 ('گر', 1182),
 ('سر', 1009),
 ('حق', 957),
 ('دل', 861),
 ('آب', 789),
 ('کن', 721),
 ('نی', 715),
 ('کی', 671),
 ('صد', 663),
 ('چو', 633),
 ('دست', 631),
 ('بد', 597),
 ('هست', 581),
 ('چشم', 578),
 ('همچو', 566),
 ('بهر', 560),
 ('نور', 538),
 ('ور', 533),
 ('زین', 518),
 ('جهان', 489),
 ('عقل', 488),
 ('لیک', 473),
 ('مر', 466),
 ('آید', 458),
 ('کاو', 445),
 ('دم', 440),
 ('کز', 411),
 ('گشت', 411),
 ('بس', 401),
 ('تن', 395),
 ('جمله', 392),
 ('خوش', 384),
 ('خدا', 382),
 ('همی', 372),
 ('کار', 371),
 ('مرد', 361),
 ('دید', 358),
 ('کان', 354),
 ('مرا', 353),
 ('شیر', 345),
 ('آتش', 336),
 ('روز', 325),
 ('هین', 325),
 ('ره', 321),
 ('«', 319),
 ('»', 318),
 ('خاک', 316),
 ('شاه', 303),
 ('چونکه', 298),
 ('زمان', 289),
 ('شب', 284),
 ('خلق', 282),
 ('خر', 277),
 ('کس', 276),
 ('زن', 273),
 ('عشق', 273),
 ('کو', 271),
 ('سخن', 266),
 ('شه', 265),
 ('نفس', 263),
 ('الله', 261),
 ('گوید', 259),
 ('جو', 258),
 ('گل', 257)