**Get DataSet From Google Drive**

In [1]:
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

In [2]:
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

In [3]:
fileDownloaded = drive.CreateFile({'id':'1G2kHOR24vY5D6QkXKQfXO2t6qIJBrUEy'})

In [4]:
fileDownloaded.GetContentFile('Arabic_poetry_dataset.csv')

**Load Dataset To Data Frame**

In [4]:
import numpy as np 
import pandas as pd 

In [5]:
missing_values = ["missing",np.nan]
df = pd.read_csv('Arabic_poetry_dataset.csv',na_values= missing_values,usecols = ['poet_name','poem_text','category'])

info about dataset

In [6]:
df.head()

Unnamed: 0,category,poet_name,poem_text
0,الإمارات,خلفان بن مصبح,بدت تختال في حُلل الجمالِ\nوجادت بالزيارة والو...
1,الإمارات,خلفان بن مصبح,يا طائر الشعر القرير\nيا وحي إلهام الصدور\nأسع...
2,الإمارات,خلفان بن مصبح,بنت حجرات أرى من عجب\nأن أرى فيك جمال العرب\nد...
3,الإمارات,خلفان بن مصبح,هذا الربيع بنور الحسن وافانا\nوقد كسا الأرض با...
4,الإمارات,خلفان بن مصبح,روحي فداك وإن مُنحتُ صدوداً\nأخفاك ما بي أم أط...


In [7]:
df.nunique()

category        28
poet_name      538
poem_text    54767
dtype: int64

**poet names & poem Cateories**

In [9]:
def GetPoetNames(DataFrame):
  poet_name = DataFrame.poet_name.unique()
  return poet_name

In [10]:
def GetPoemCategories(Dataframe):
  poem_categories = Dataframe.category.unique()
  return poem_categories


In [11]:
categories = GetPoemCategories(df)
print(categories)

['الإمارات' 'البحرين' 'الجزائر' 'السعودية' 'السودان' 'العراق' 'المغرب'
 'اليمن' 'تونس' 'سوريا' 'عمان' 'فلسطين' 'لبنان' 'ليبيا' 'مصر' 'الأردن'
 'الكويت' 'قطر' 'موريتانيا' 'العصر الجاهلي' 'العصر الإسلامي'
 'العصر العباسي' 'العصر الايوبي' 'العصر العثماني' 'عصر المخضرمون'
 'العصر الاموي' 'العصر الأندلسي' 'العصر المملوكي']


In [12]:
poets = GetPoetNames(df)
print(poets)

['خلفان بن مصبح' 'سالم بن عبدالله الكراني' 'حماد بن سعيد'
 'مبارك بن حمد العقيلي' 'علي بن محمد الشحي' 'محمد بن حمود الشحي'
 'محمد بن صالح المنتفقي' 'يوسف بن رويسم' 'هدى السعدي' 'مانع سعيد العتيبة'
 'عارف الخاجة' 'حمد بن خليفة أبو شهاب' 'كريم معتوق'
 'سالم أبو جمهور القبيسي' 'قاسم حداد' 'أحلام مستغانمي' 'سهام آل براهمي'
 'جلواح' 'عبد القادر الجزائري' 'سليمان بن سحمان' 'عبد الرحمن بن مساعد'
 'أحمد اللهيب' 'عبدالرحمن العشماوي' 'شريف بقنه' 'ابن بشير الإحسائي'
 'سامي المالكي' 'غازي القصيبي' 'محمد بن عبود العمودي'
 'مدثر بن إبراهيم بن الحجاز' 'محمد عبد الباري' 'إدريس جمّاع'
 'حمزة الملك طمبل' 'احمد مطر' 'نازك الملائكة' 'بدر شاكر السياب'
 'محمد مهدي الجواهري' 'عبد الرزاق عبد الواحد' 'بهاء الدين الصيادي'
 'معروف الرصافي' 'أبو الفيض الكتاني' 'مَحمد اسموني' 'شاعر الحمراء'
 'عبدالله البردوني' 'عبد الولي الشميرى' 'ابن شهاب العلوي' 'محمد الشوكاني'
 'ابن طاهر' 'ابن رشيق القيرواني' 'الشاذلي خزنه دار' 'أبو القاسم الشابي'
 'سليم عبدالقادر' 'نزار قباني' 'خليل مردم بك' 'بطرس كرامة'
 'أبو الهدى الصيادي' '

Get all poets that belong to poem category

In [13]:
def GetPoetsNamesByCategories(Dataframe,Category):
  PoemCategory = Dataframe.loc[Dataframe.category==Category]
  poetName = PoemCategory.poet_name.unique()
  return poetName

In [14]:
GetPoetsNamesByCategories(df,"سوريا")

array(['سليم عبدالقادر', 'نزار قباني', 'خليل مردم بك', 'بطرس كرامة',
       'أبو الهدى الصيادي'], dtype=object)

In [15]:
def GetCategoryByPoetName(Dataframe,PoetName):
  PoetName = Dataframe.loc[Dataframe.poet_name==PoetName]
  CategoryName = PoetName.category.unique()
  return CategoryName

In [16]:
GetCategoryByPoetName(df,"إيليا ابو ماضي")

array(['لبنان'], dtype=object)

**Split Dataframe To SubDataframe**

Split by Category

In [17]:
def SplitByCategory(Dataframe,CategoryName):
  SubDataframe = Dataframe.loc[Dataframe["category"]==CategoryName]
  SubDataframe.to_csv(CategoryName+'.csv',encoding='utf-8-sig')
  return SubDataframe


In [18]:
SyrianPoem = SplitByCategory(df,"سوريا")
SyrianPoem.head()

Unnamed: 0,category,poet_name,poem_text
4061,سوريا,سليم عبدالقادر,إنهم يطلعـون مـن كـلِّ أفْـقٍ\nكلُّ وجـهٍ منهم...
4062,سوريا,سليم عبدالقادر,الَ لِيْ: سِرْ، وَرَاحَ يَعْدُو أَمَامِي \nفِي...
4063,سوريا,سليم عبدالقادر,ماضٍ ، وأعرف ما دربي وما هدفي\nوالموت يرقص لي ...
4064,سوريا,سليم عبدالقادر,لِمَاذَا تَخَافُونَنِي، لَسْتُ أَدْرِي \nفَلَي...
4065,سوريا,سليم عبدالقادر,هَذَا الحِصَارُ الرَّهِيبُ المُتْعِبُ القَاسِي...


In [19]:
SyrianPoem.nunique()

category        1
poet_name       5
poem_text    1905
dtype: int64

Split By poet Name 

In [2]:
def SplitByPoetName(Dataframe , PoetName ):
  SubDataframe = Dataframe.loc[Dataframe["poet_name"]==PoetName]
  SubDataframe.to_csv(PoetName+'.csv',encoding='utf-8-sig')
  return SubDataframe

In [21]:
AboAlqasemDataframe = SplitByPoetName(df,"أبو القاسم الشابي")
AboAlqasemDataframe.head()

Unnamed: 0,category,poet_name,poem_text
3970,تونس,أبو القاسم الشابي,يَخرُجْنَ من فُرُجاتِ النَّقعِ داميةً\nكأنَّ آ...
3971,تونس,أبو القاسم الشابي,ما كلَّما بل ربَّما عبثَ البُكا\nبدموعِ عينِكَ...
3972,تونس,أبو القاسم الشابي,سَأعيشُ رَغْمَ الدَّاءِ والأَعداءِ\nكالنَّسْر ...
3973,تونس,أبو القاسم الشابي,أَيُّها الحُبُّ أنتَ سِرُّ بَلائِي\nوهُمُومي و...
3974,تونس,أبو القاسم الشابي,يا لَيْتَ شِعْري هلْ لِلَيْلِ الن\nنَفْسِ مِنْ...


In [22]:
AboAlqasemDataframe.nunique()

category      1
poet_name     1
poem_text    91
dtype: int64

In [8]:
EleaAboMadiDataFrame = SplitByPoetName(df,"إيليا ابو ماضي")
EleaAboMadiDataFrame.nunique()

category       1
poet_name      1
poem_text    172
dtype: int64

**Get Poems Text of Specific Poet**

In [9]:
def GetPoems(Dataframe):
  PoemDF = Dataframe.poem_text
  Poems = ""
  for i in range(len(PoemDF)):
    Poems += PoemDF.iloc[i]

  return Poems

In [25]:
AboAlqasemPoems = GetPoems(AboAlqasemDataframe)

In [26]:
print(AboAlqasemPoems)

يَخرُجْنَ من فُرُجاتِ النَّقعِ داميةً
كأنَّ آذانَها أَطرفُ أَقلامِما كلَّما بل ربَّما عبثَ البُكا
بدموعِ عينِكَ من بُكاءِ حَمامِ
وإذا الشمالُ معَ العشيِّ تنسَّمتْ
هاجَ التنسُّمُ لي دفينَ سقامِسَأعيشُ رَغْمَ الدَّاءِ والأَعداءِ
كالنَّسْر فوقَ القِمَّةِ الشَّمَّاءِ
أرْنُو إلى الشَّمْسِ المُضِيئةِ هازِئاً
بالسُّحْبِ والأَمطارِ والأَنواءِ
لا أرْمقُ الظِّلَّ الكئيبَ ولا أرَى
مَا في قَرارِ الهُوَّةِ السَّوداءِ
وأَسيرُ في دُنيا المَشَاعرِ حالِماً
غَرِداً وتلكَ سَعادةُ الشعَراءِ
أُصْغي لمُوسيقى الحَياةِ وَوَحْيِها
وأذيبُ روحَ الكَوْنِ في إنْشَائي
وأُصيخُ للصَّوتِ الإِلهيِّ الَّذي
يُحْيي بقلبي مَيِّتَ الأَصْداءِ
وأقولُ للقَدَرِ الَّذي لا ينثني
عَنْ حَرْبِ آمالي بكلِّ بَلاءِ
لا يُطْفِئُ اللَّهبَ المؤجَّجَ في دمي
موجُ الأسى وعواصفُ الأَزراءِ
فاهدمْ فؤادي ما استطعتَ فانَّهُ
سيكون مثلَ الصَّخرة الصَّمَّاءِ
لا يعرفُ الشَّكوى الذليلَة والبكا
وضراعَة الأَطفالِ والضّعفاءِ
ويعيشُ جبَّاراً يحدِّق دائماً
بالفجر بالفجرِ الجميلِ النَّائي
إِملأْ طريقي بالمخاوفِ والدُّجى
وزوابعِ الأَشواكِ والحصباءِ
وانْشر علي

In [10]:
EleaAboMadiPoems = GetPoems(EleaAboMadiDataFrame)

**Build Model**

In [11]:
import tensorflow as tf
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Embedding, LSTM, Dense, Bidirectional
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.models import Sequential
from tensorflow.keras.optimizers import Adam
from keras.utils.np_utils import to_categorical
import numpy as np 

In [12]:
def TokenizePoems(Poem,Print=False):
  tokenizer = Tokenizer()
  corpus = Poem.split("\n")
  tokenizer.fit_on_texts(corpus)
  total_words = len(tokenizer.word_index) + 1
  if(Print):
    print("Words numbers ",total_words)
    print("Tokenizer word index ",tokenizer.word_index)
     
  return corpus,tokenizer,total_words,len(corpus)

In [31]:
#TokenizePoems(EleaAboMadiPoems,Print=True)

Words numbers  22327
Tokenizer word index  {'في': 1, 'ما': 2, 'مِن': 3, 'لا': 4, 'عَلى': 5, 'لَم': 6, 'وَلا': 7, 'أَن': 8, 'يا': 9, 'إِلى': 10, 'قَد': 11, 'أَو': 12, 'مِنَ': 13, 'إِذا': 14, 'كانَ': 15, 'إِن': 16, 'حَتّى': 17, 'الَّذي': 18, 'أَنا': 19, 'مَن': 20, 'بِهِ': 21, 'لَو': 22, 'إِلّا': 23, 'فيهِ': 24, 'لَيسَ': 25, 'بِها': 26, 'عَن': 27, 'وَإِذا': 28, 'لَستُ': 29, 'وَما': 30, 'هَذا': 31, 'إِنَّ': 32, 'أَدري': 33, 'لَها': 34, 'كَما': 35, 'فيها': 36, 'أَم': 37, 'وَلَم': 38, 'كَم': 39, 'لي': 40, 'بَينَ': 41, 'كُلِّ': 42, 'كُلُّ': 43, 'فَإِذا': 44, 'لَهُ': 45, 'الأَرضِ': 46, 'نَفسي': 47, 'فَما': 48, 'أَنتَ': 49, 'غَيرَ': 50, 'عِندَ': 51, 'أَنَّ': 52, 'فَوقَ': 53, 'كَيفَ': 54, 'وَإِن': 55, 'وَفي': 56, 'هُوَ': 57, 'وَقَد': 58, 'الدُنيا': 59, 'وَهوَ': 60, 'كُنتُ': 61, 'لَمّا': 62, 'مَعَ': 63, 'الهَوى': 64, 'وَلَكِن': 65, 'الثَرى': 66, 'عَنِ': 67, 'كَأَنَّما': 68, 'بِنا': 69, 'ذا': 70, 'إِنّي': 71, 'سِوى': 72, 'مِنهُ': 73, 'هِيَ': 74, 'كُلَّما': 75, 'وَلَو': 76, 'بَعدَ': 77, 'مِثلَ': 78

(['وطنَ النجومِ: أنا هُنا ',
  'حدّقْ، أتذكرُ مَن أنا؟',
  'أَلَمَحتَ في الماضي البعيدِ',
  'فتىً غريرًا أرعنا؟ ',
  'جذلانَ يَمرحُ في حقولِكَ',
  'كالنسيمِ مُدندنا',
  'المُقتَني المملوكُ ملعبُه',
  'وغيرُ المقتَنَى! ',
  'يتسلّقُ الأشجارَ لا ضَجَرا',
  'يُحسُّ ولا وَنَى ',
  'ويعودُ بالأغصانِ يَبريها',
  'سيوفًا أو قَنا ',
  'ويَخوضُ في وحلِ الشّتا',
  'مُتهلّلا مُتيمّنا ',
  'لا يتّقي شرَّ العيونِ',
  'ولا يخافُ الألسنا ',
  'ولَكَمْ تَشيطنَ كي يَقولَ',
  'الناسُ عنه "تشيطنا"',
  '***',
  '***',
  'أنا ذلكَ الولدُ الذي',
  'دُنياه كانت ههنا! ',
  'أنا مَن مياهِكَ قطرةٌ',
  'فاضتْ جداولَ مِن سَنا ',
  'أنا مِن ترابِكَ ذرّةٌ',
  'ماجَتْ مواكبَ مِن مُنَى',
  'أنا مِن طيورِكَ بلبلٌ',
  'غنّى بمجدِكَ فاغتنى ',
  'حَمَلَ الطّلاقةَ والبشاشةَ',
  'مِن ربوعِكَ للدُّنى',
  'كم عانقَتْ رُوحي رُباكَ',
  'وصفّقتْ في المُنحنى؟',
  'للأَرْزِ يَهزأُ بالرياحِ',
  'وبالدهورِ وبالفَنا',
  'للبحرِ يَنشرُهُ بُنوكَ',
  'حضارةٍ وتمدّنا ',
  'لليلِ فيكَ مُصلّيا،',
  'للصبحِ فيكَ مُؤذِّنا ',
  'للشمسِ تُبطئ

**Generate Sequence**

In [13]:
def GenerateInputSequence(Poem,Print=False):
  corpus,tokenizer,total_words,curpus_num = TokenizePoems(Poem,Print)
  input_sequences = []
  for line in corpus:
    # مصفوفة من تتالي الكلمات بصيغة انتجر
    token_list = tokenizer.texts_to_sequences([line])[0]
    for i in range(1, len(token_list)):
      n_gram_sequence = token_list[:i+1]
      input_sequences.append(n_gram_sequence)

  if(Print):
    print("Corpus length ",corpus)
    print("Corpus Sequence ",input_sequences)
    print("Corpus Sequence Length ",len(input_sequences))

  return input_sequences,tokenizer,total_words,curpus_num

In [42]:
#Sequences,tokenizer,words,corpus = GenerateInputSequence(EleaAboMadiPoems,Print=True)


TypeError: ignored

**Create X and Y "Data and Labels"**

Padding the Sequences Corpus

In [14]:
def Generate_X_Y(Poem,Print=False):
  sequences,tokenizer,words,corpus = GenerateInputSequence(Poem,Print)
  max_sequence_len = max([len(x) for x in sequences])
  sequences = np.array(pad_sequences(sequences, maxlen=max_sequence_len, padding='pre'))
  xs, labels = sequences[:,:-1],sequences[:,-1]
  ys = to_categorical(labels, num_classes=words)
  if(Print):
    print("Max Sequence Length " ,max_sequence_len )
  return xs,ys,tokenizer,words,max_sequence_len


In [15]:
X,Y,tokenizer,WordsNumber,MaxSequenceLength=Generate_X_Y(EleaAboMadiPoems,Print=True)

Words numbers  22327
Tokenizer word index  {'في': 1, 'ما': 2, 'مِن': 3, 'لا': 4, 'عَلى': 5, 'لَم': 6, 'وَلا': 7, 'أَن': 8, 'يا': 9, 'إِلى': 10, 'قَد': 11, 'أَو': 12, 'مِنَ': 13, 'إِذا': 14, 'كانَ': 15, 'إِن': 16, 'حَتّى': 17, 'الَّذي': 18, 'أَنا': 19, 'مَن': 20, 'بِهِ': 21, 'لَو': 22, 'إِلّا': 23, 'فيهِ': 24, 'لَيسَ': 25, 'بِها': 26, 'عَن': 27, 'وَإِذا': 28, 'لَستُ': 29, 'وَما': 30, 'هَذا': 31, 'إِنَّ': 32, 'أَدري': 33, 'لَها': 34, 'كَما': 35, 'فيها': 36, 'أَم': 37, 'وَلَم': 38, 'كَم': 39, 'لي': 40, 'بَينَ': 41, 'كُلِّ': 42, 'كُلُّ': 43, 'فَإِذا': 44, 'لَهُ': 45, 'الأَرضِ': 46, 'نَفسي': 47, 'فَما': 48, 'أَنتَ': 49, 'غَيرَ': 50, 'عِندَ': 51, 'أَنَّ': 52, 'فَوقَ': 53, 'كَيفَ': 54, 'وَإِن': 55, 'وَفي': 56, 'هُوَ': 57, 'وَقَد': 58, 'الدُنيا': 59, 'وَهوَ': 60, 'كُنتُ': 61, 'لَمّا': 62, 'مَعَ': 63, 'الهَوى': 64, 'وَلَكِن': 65, 'الثَرى': 66, 'عَنِ': 67, 'كَأَنَّما': 68, 'بِنا': 69, 'ذا': 70, 'إِنّي': 71, 'سِوى': 72, 'مِنهُ': 73, 'هِيَ': 74, 'كُلَّما': 75, 'وَلَو': 76, 'بَعدَ': 77, 'مِثلَ': 78

**Build Model**

In [16]:
def BuildModel(PrintDetails=False):
  model = Sequential()
  model.add(Embedding(WordsNumber, 50, input_length=MaxSequenceLength-1))
  model.add(LSTM(100,return_sequences=True))
  model.add(Bidirectional(LSTM(100)))
  model.add(Dense(WordsNumber/2, activation='relu'))
  model.add(Dense(WordsNumber, activation='softmax'))
  adam = Adam(learning_rate=0.01)
  model.compile(loss='categorical_crossentropy', optimizer=adam, metrics=['accuracy'])
  #earlystop = EarlyStopping(monitor='val_loss', min_delta=0, patience=5, verbose=0, mode='auto')
  if(PrintDetails):
    print(model.summary())
    tf.keras.utils.plot_model(model, to_file='model.png', show_shapes=True, show_layer_names=True)
  return model

In [17]:
Model = BuildModel(PrintDetails=True)

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 11, 50)            1116350   
_________________________________________________________________
lstm (LSTM)                  (None, 11, 100)           60400     
_________________________________________________________________
bidirectional (Bidirectional (None, 200)               160800    
_________________________________________________________________
dense (Dense)                (None, 11163)             2243763   
_________________________________________________________________
dense_1 (Dense)              (None, 22327)             249258628 
Total params: 252,839,941
Trainable params: 252,839,941
Non-trainable params: 0
_________________________________________________________________
None


Train Model

In [20]:
def BuildModel2(PrintDetails=False):
  model = Sequential()
  model.add(Embedding(WordsNumber, 100, input_length=MaxSequenceLength-1))
  model.add(Bidirectional(LSTM(100)))
  model.add(Dense(WordsNumber, activation='softmax'))
  adam = Adam(learning_rate=0.01)
  model.compile(loss='categorical_crossentropy', optimizer=adam, metrics=['accuracy'])
  if(PrintDetails):
    print(model.summary())
    tf.keras.utils.plot_model(model, to_file='model.png', show_shapes=True, show_layer_names=True)
  return model

In [29]:
Model2 = BuildModel2(True)

Model: "sequential_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_2 (Embedding)      (None, 11, 100)           2232700   
_________________________________________________________________
bidirectional_2 (Bidirection (None, 200)               160800    
_________________________________________________________________
dense_3 (Dense)              (None, 22327)             4487727   
Total params: 6,881,227
Trainable params: 6,881,227
Non-trainable params: 0
_________________________________________________________________
None


In [30]:
def TrainModel(X,Y,Model):
  history = Model.fit(X, Y, epochs=10,batch_size=32)

In [31]:
def TrainModel2(X,Y,Model):
  history = Model.fit(X, Y, epochs=10,batch_size=32)

In [32]:
TrainModel2(X,Y,Model2)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [None]:
TrainModel(X,Y,Model)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10

**Evaluation**

In [None]:
def TrainMode2(X,Y,Model):
  history = Model.fit(X, Y, epochs=10,batch_size=32)

In [38]:
def PredectNextOf(Tokenizer,Model,MaxSequenceLength,Sentence = "",PredectionLength=0):
  seed_text = Sentence
  next_words = PredectionLength
  tokenizer = Tokenizer
  for _ in range(next_words):
    token_list = tokenizer.texts_to_sequences([seed_text])[0]
    token_list = pad_sequences([token_list], maxlen=MaxSequenceLength-1, padding='pre')
    predicted = Model.predict_classes(token_list, verbose=0)
    output_word = ""
    for word, index in tokenizer.word_index.items():
      if index == predicted:
        output_word = word
        break
    seed_text += " " + output_word
  print(seed_text)
  


In [63]:
PredectNextOf(tokenizer,Model2,MaxSequenceLength,Sentence ="يصرعن ذا اللب",PredectionLength=40)



يصرعن ذا اللب يَدَّعي حَقّا وَذَلِكَ ثارا إِنَّما البَلّورُ جامِدا القَضا الـ إِنَّما صورَتَها هِندُ كَالسِرِّ اليَأسُ فيهِ الوَرى لا الناسِ الناسِ لَكِن لَم أَجِدني تَستَقي وَلا الوَرى موسى هَذي الخُطوبا الشَمأَلُ الشَمأَلُ الناسِ لَكِن لَكِن تَخلُقُ فيهِ غَيرِهِ وَاِغتِباطٍ أَو وَلا الكَرى
