In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
from transformers import AutoTokenizer, AutoModel
import torch

In [2]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"using {device} device")

using cuda device


In [4]:
#read a .txt file line by line and return a dataframe that every row of it contains 4 consecutive lines
def read_file(filename):
    with open(filename, 'r',encoding="utf-8") as f:
        lines = f.readlines()
        lines = [line.strip() for line in lines]
        lines = [line for line in lines if line != '']
        #stack every 4 lines together
        lines = [lines[i:i+4] for i in range(0, len(lines), 4)]
        #convert to dataframe
        df = pd.DataFrame(lines, columns=['0', '1', '2', '3'])
    f.close()
    return df

In [5]:
attar = read_file(".\\Persian_poems_corpus-master\\normalized\\attar_norm.txt")
#column 0, 1 of rows 10 to 20
#add a column to the dataframe
attar["label"] = 0

In [6]:
bidel = read_file(".\\Persian_poems_corpus-master\\normalized\\bidel_norm.txt")
bidel["label"] = 1
jami = read_file(".\\Persian_poems_corpus-master\\normalized\\jami_norm.txt")
jami["label"] = 2
sanaee = read_file(".\\Persian_poems_corpus-master\\normalized\\sanaee_norm.txt")
sanaee["label"] = 3
moulavi = read_file(".\\Persian_poems_corpus-master\\normalized\\moulavi_norm.txt")
moulavi["label"] = 4
bahar = read_file(".\\Persian_poems_corpus-master\\normalized\\bahar_norm.txt")
bahar["label"] = 5
kamal = read_file(".\\Persian_poems_corpus-master\\normalized\\kamal_norm.txt")
kamal["label"] = 6
vahshi = read_file(".\\Persian_poems_corpus-master\\normalized\\vahshi_norm.txt")
vahshi["label"] = 7
parvin = read_file(".\\Persian_poems_corpus-master\\normalized\\parvin_norm.txt")
parvin["label"] = 8
hafez = read_file(".\\Persian_poems_corpus-master\\normalized\\hafez_norm.txt")
hafez["label"] = 9

In [7]:
#concatenate all dataframes
df = pd.concat([attar, bidel, jami, sanaee, moulavi, bahar, kamal, vahshi, parvin, hafez], ignore_index=True)
df = df.dropna()
df[50000:50010]

Unnamed: 0,0,1,2,3,label
50000,شرر خیزست چشم از اشک گرمم,به رنگ داغ جامم شعله پیماست,نخواندم غیر درس بی نشانی,ورق های کتابم بال عنقاست,1
50001,نی ام خاتم ولی از دولت عشق,خط پیشانی من هم چلیپاست,بکن حفظ نفس تا می توانی,که نخل زندگی زین ریشه برپاست,1
50002,چو دل روشن شود هستی غبار است,نفس در خانه آیینه رسواست,شدم خاک و غبارم هیچ ننشست,هنوزم ناله های درد پیداست,1
50003,سبک بگذر ز دلهای اسیرا ن,که تمکین تو سنگ شیشه ماست,فلک گرد خرام کیست یارب,ز پا ننشست تا این فتنه برخاست,1
50004,به رنگ آبله عمری ست بیدل,ز خجلت دیده من در ته پاست,رفتن عمر ز رفتار نفسها پیداست,وحشت موج تماشای خرام دریاست,1
50005,گردبادی که به خود دودصفت می پیچد,نفس سوخته سینه چاک صحراست,جوهر آینه افسرده ز قید وطن است,عکس راگرد سفرآب رخ نشو و نماست,1
50006,ازگهر موج محال است تراود بیرون,گره تار نظر چشم حیاپیشه ماست,قطع سررشته پرواز طلب نتوان کرد,بال اگر سلسله کوتاه کند ناله رساست,1
50007,نرگس مست تو را در چمن حسن ادا,می شوخی همه در ساغر لبریز حیاست,بس که بی آبله گامی نشمردم به رهت,آب آیینه ز نقش قدمم چهره گشاست,1
50008,اعتبار به خود آتش زدنم سهل مگیر,قد شمع از همه کس یک سر و گردن بالاست,ای تمنا مکن از خجلت جولان آبم,عمرها شد چوگهر قطره من آبله پاست,1
50009,هیچکس نیست زباندان خیالم بیدل,نغمه پرده دل از همه آهنگ جداست,ز آهم نخل حسرت شعله بالاست,چراغ مرده را آتش مسیحاست,1


In [8]:
poets = ['attar', 'bidel', 'jami', 'sanaee', 'moulavi', 'bahar', 'kamal', 'vahshi', 'parvin', 'hafez']
#shuffle the dataframe
df = df.sample(frac=1).reset_index(drop=True)
df

Unnamed: 0,0,1,2,3,label
0,هر که بود اندر آن دو جای مقیم,چون شد اطباق آسمان ها طی,ماند در سدره جبرییل از وی,رفت از آنجا به یاری رفرف,2
1,ای بهار آزاد باش و هرچه می خواهی بگوی,برخیز ساقیا بده آن جام خسروی,تا درکشم به یاد شهنشاه پهلوی,شاها به شوکت تو زیانی نمی رسد,5
2,تا زجایی راه یابد سوی تو,در نفسها میزند اوهوی تو,آب از صنعت روان در مرغزار,در درون چشمه نالان زار زار,0
3,خورشید کو ز تنگی بر چرخ می کشد تیغ,از بیم تیر چشمش گردون حصار گیرد,او آفتاب حسن است از پرده گر بتابد,دهر خرف ز رویش طبع بهار گیرد,0
4,ریختند اندر دهانش شوربا,می فشردند اندرو نان پاره ها,گفت ای دل گرچه خود تن می زنی,راز می دانی و نازی می کنی,4
...,...,...,...,...,...
134914,ناگه وزش خشم دهاقین خراسان,از باغ وطن کرد برون زاغ و زغن را,آن روز کز ارمینیه بگذشت تراژان,بگرفت تسیفون صفت بیت حزن را,5
134915,حور سپیدچهر ز دیو سیاه رنگ,خورشید رخ نهفت و برآمد هلال عید,خمیده سر چو ابروی مه طلعتان شنگ,چون تازه بادرنگی سر زده ز شاخ,5
134916,درین دیوان سرای ناموافق,چو پروانه نبینی هیچ عاشق,چنان درجان او شوقیست از دوست,که نه از مغز اندیشد نه از پوست,0
134917,من ز مو عاریم بحمدالله,قدوه عارفان به سر قدم,قطب حق صاحب فصوص حکم,قدس الله سره الاصفی,2


In [28]:
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
#tokenize the text
df['tokens'] = df.apply(lambda x: tokenizer.encode(x['0'] + ' ' + x['1'] + ' ' + x['2'] + ' ' + x['3'], add_special_tokens=True, padding=True), axis=1)

In [11]:
#split the data into train and test
s = 0.7*len(df)
train = df[:int(s)]
test = df[int(s):]