In [1]:
! pip install nltk
! pip install tqdm
! pip install numpy
! pip install pandas

In [35]:
import nltk
import codecs
import tqdm

# Read text
GAZALS_FILE_PATH = 'all_qazals_mesra.txt'
mesra_collection = codecs.open(GAZALS_FILE_PATH,'rU','utf-8').readlines()

# Select part of that
mesra_collection = mesra_collection[40:100]

In [36]:
from hazm import Normalizer

# Normalizer on qazals collection
normalizer = Normalizer(token_based=True, kohan_style=True)
mesra_normalized = [normalizer.normalize(x) for x in tqdm.tqdm(mesra_collection)]
mesra_normalized

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 60/60 [00:00<00:00, 127.12it/s]


['اگر دشنام فرمایی و اگر نفرین دعا گویم',
 'جواب تلخ می\u200cزیبد لب لعل شکرخا را',
 'نصیحت گوش کن جانا که از جان دوست\u200cتر دارند',
 'جوانان سعادتمند پند پیر دانا را',
 'حدیث از مطرب و می گو و راز دهر کمتر جو',
 'که کس نگشود و نگشاید به حکمت این معما را',
 'غزل گفتی و در سفتی بیا و خوش بخوان حافظ',
 'که بر نظم تو افشاند فلک عقد ثریا را',
 'صبا به لطف بگو آن غزال رعنا را',
 'که سر به کوه و بیابان تو داده\u200cای ما را',
 'شکرفروش که عمرش دراز باد چرا',
 'تفقدی نکند طوطی شکرخا را',
 'غرور حسنت اجازت اگر نداد ای گل',
 'که پرسشی نکنی عندلیب شیدا را',
 'به خلق و لطف توان کرد صید اهل نظر',
 'به بند و دام نگیرند مرغ دانا را',
 'ندانم از چه سبب رنگ آشنایی نیست',
 'سهی قدان سیه چشم ماه سیما را',
 'چو با حبیب نشینی و باده پیمایی',
 'به یاد دار محبان بادپیما را',
 'جز این قدر نتوان گفت در جمال تو عیب',
 'که وضع مهر و وفا نیست روی زیبا را',
 'در آسمان نه عجب اگر به گفته حافظ',
 'سرود زهره به رقص آورد مسیحا را',
 'دل می\u200cرود از دستم صاحب دلان خدا را',
 'دردا که راز پنهان خواهد شد آشکارا',
 '

In [37]:
# Normalizer on special cases
n = [
    normalizer.normalize('اوفتادم'),
    normalizer.normalize('می ساخته ام'),
    normalizer.normalize('می یافته ام'),
    normalizer.normalize('نمی رفته ای'),
    normalizer.normalize('همی افتیم')
]
print('\n'.join(n))

اوفتادم
می‌ساخته‌ام
می‌یافته‌ام
نمی‌رفته‌ای
همی‌افتیم


In [38]:
from hazm import Lemmatizer

# Lemmatizer on Kohan verbs
lemmatizer = Lemmatizer()
l = [
    lemmatizer.lemmatize('افتادندی'),
    lemmatizer.lemmatize('یافتمی'),
    lemmatizer.lemmatize('می‌نیفتد'),
    lemmatizer.lemmatize('همی‌بیفتید'),
]
print('\n'.join(l))


افتاد#افت
یافت#یاب
افتاد#افت
همی‌بیفتید


In [39]:
# Combine lemmitizing with normalizing
n1 = normalizer.normalize('همی افتیم')
l1 = lemmatizer.lemmatize(n1)

n2 = normalizer.normalize('همی بیفتادند')
l2 = lemmatizer.lemmatize(n2)

print(l1,l2)

افتاد#افت افتاد#افت


In [40]:
# add Kohan conjugations
lemmatizer.conjugations('افتاد#افت')

['افتادم',
 'افتادی',
 'افتاد',
 'افتادیم',
 'افتادید',
 'افتادند',
 'نیفتادم',
 'نیفتادی',
 'نیفتاد',
 'نیفتادیم',
 'نیفتادید',
 'نیفتادند',
 'میفتادم',
 'میفتادی',
 'میفتاد',
 'میفتادیم',
 'میفتادید',
 'میفتادند',
 'افتاده\u200cام',
 'افتاده\u200cای',
 'افتاده است',
 'افتاده\u200cایم',
 'افتاده\u200cاید',
 'افتاده\u200cاند',
 'نیفتاده\u200cام',
 'نیفتاده\u200cای',
 'نیفتاده است',
 'نیفتاده\u200cایم',
 'نیفتاده\u200cاید',
 'نیفتاده\u200cاند',
 'میفتاده\u200cام',
 'میفتاده\u200cای',
 'میفتاده است',
 'میفتاده\u200cایم',
 'میفتاده\u200cاید',
 'میفتاده\u200cاند',
 'می\u200cافتادم',
 'می\u200cافتادی',
 'می\u200cافتاد',
 'می\u200cافتادیم',
 'می\u200cافتادید',
 'می\u200cافتادند',
 'نمی\u200cافتادم',
 'نمی\u200cافتادی',
 'نمی\u200cافتاد',
 'نمی\u200cافتادیم',
 'نمی\u200cافتادید',
 'نمی\u200cافتادند',
 'ممی\u200cافتادم',
 'ممی\u200cافتادی',
 'ممی\u200cافتاد',
 'ممی\u200cافتادیم',
 'ممی\u200cافتادید',
 'ممی\u200cافتادند',
 'همی\u200cبیفتادم',
 'همی\u200cبیفتادی',
 'همی\u200cبیفتاد',
 'همی\u200c

In [41]:
from hazm.utils import stopwords_list

# Add more stopwords according to the Kohan texts
print(stopwords_list())

['کمی', 'شروع', 'ایشان', 'شش', 'داشت', 'ممکن', 'بلکه', 'بوده', 'می\u200cگیرد', 'براساس', 'شود', 'بود', 'دوم', 'ابتدا', 'اکنون', 'می\u200cکنیم', 'نظیر', 'شده_بود', 'بسیار', 'کاین', 'یابد', 'تبدیل', 'دچار', 'چنین', 'طرف', 'محسوب', 'تنها', 'باشد', 'آنکه', 'کنند', 'تحت', 'همچون', 'نیست', 'حتی', 'حال', 'بدون', 'داده_است', 'دارد', 'نیمه', 'جز', 'و', 'درباره', 'کردم', 'اولین', 'حد', 'روند', 'حالا', 'همچنین', 'زاده', 'حداقل', 'گر', 'می\u200cتوان', 'خواهد_کرد', 'بودند', 'ار', 'به', 'مورد', 'آقای', 'شمار', 'اگر', 'فرد', 'باره', 'داد', 'برابر', 'متفاوت', 'بخش', 'می\u200cکند', 'کافی', 'می\u200cدهد', 'وی', 'اند', 'کاملا', 'بسیاری', 'چرا', 'لذا', 'شما', 'اش', 'جایی', 'ندارند', 'خواهد_شد', 'نخستین', 'یا', 'کلی', 'پخش', 'چگونه', 'وان', 'خاطرنشان', 'داشتند', 'کنیم', 'وقتی', 'می\u200cیابد', 'کرده', 'بیشتر', 'آمده_است', 'بنابراین', 'خاص', 'ندارد', 'کسانی', 'یک', 'جای', 'اما', 'بر', 'آمده', 'است', 'اجرا', 'بیرون', 'هستند', 'سپس', 'ناشی', 'برخی', 'چه', 'نحوه', 'دور', 'کردن', 'می\u200cگوید', 'دادند', 'تهیه'

In [42]:
# Detected stopwords of Kohan qazals
tokens = normalizer.tokenizer.tokenize(''.join(mesra_normalized))
stopword_tokens_in_qazals = {t for t in tokens if t in stopwords_list()}
stopword_tokens_in_qazals

{'آن',
 'آورد',
 'از',
 'است',
 'او',
 'اگر',
 'این',
 'با',
 'بر',
 'به',
 'تغییر',
 'تو',
 'جای',
 'خود',
 'دار',
 'دارد',
 'در',
 'دهد',
 'دو',
 'را',
 'روی',
 'سبب',
 'شد',
 'شمار',
 'ما',
 'من',
 'می',
 'می\u200cرود',
 'نظر',
 'نه',
 'نیست',
 'و',
 'چه',
 'چون',
 'کرد',
 'کس',
 'کند',
 'که',
 'گفت',
 'گفته',
 'یا'}