**Import Library for data**

In [None]:
import pandas as pd
import numpy as np
from google.colab import drive

**Import data from google drive**

In [None]:
drive.mount('/content/drive')

file_path = '/content/drive/MyDrive/Arabic_poetry_dataset.csv'

df = pd.read_csv(file_path)

df.head()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Unnamed: 0,poet_name,poet_era,poem_tags,poem_title,poem_text,poem_count
0,لقيط بن يعمر الإيادي,العصر الجاهلي,"قصائد هجاء, عموديه, بحر الوافر, قافية الدال (د)",سلام في الصحيفة من لقيط,سَلامٌ في الصَحيفَةِ مِن لَقيطٍ\nإِلى مَن بِال...,عدد الابيات : 4
1,لقيط بن يعمر الإيادي,العصر الجاهلي,"قصائد حزينه, عموديه, بحر البسيط, قافية الألف ...",يا دار عمرة من محتلها الجرعا,يا دارَ عَمرَةَ مِن مُحتَلِّها الجَرَعا\nهاجَت...,عدد الابيات : 60
2,لقيط بن يعمر الإيادي,العصر الجاهلي,"قصائد قصيره, عموديه, بحر الرجز, قافية الألف (ا)",وخاننا خوان في ارتباعنا,وَخانَنا خَوّانٌ في اِرتِباعِنا\nفَاِنفَدَّ لِ...,عدد الابيات : 1
3,زبان بن سيار الفزاري,العصر الجاهلي,"قصائد قصيره, عموديه, بحر الطويل, قافية الألف ...",تنح إليكم يا ابن كوز فإننا,تَنَحَّ إِلَيكُم يا اِبنَ كوزٍ فَإِنَّنا\nوَإِ...,عدد الابيات : 1
4,زبان بن سيار الفزاري,العصر الجاهلي,"قصائد قصيره, عموديه, بحر الطويل, قافية الباء ...",تطارحه الأنساب حتى رددنه,تُطارِحُهُ الأَنسابُ حَتّى رَدَدنَهُ\nإِلى نَس...,عدد الابيات : 1


**Data processing and cleaning**


1. Split values from the poem_tags column

In [None]:

# Function to split values from the poem_tags column
def split_poem_tags(row):
    # Initialize variables for the new columns
    sea = None
    rhyme = None
    topic = None
    type = None

    # Check if the value is a string before processing
    if isinstance(row['poem_tags'], str):
        tags = row['poem_tags'].split(',')  # Split the text based on commas

        # Determine each value based on the text
        for tag in tags:
            tag = tag.strip()  # Remove extra spaces
            if 'بحر' in tag:
                sea = tag  # Assign to sea if contains 'بحر'
            elif 'قافية' in tag:
                rhyme = tag  # Assign to rhyme if contains 'قافية'
            elif 'قصائد' in tag:
                topic = tag  # Assign to topic if contains 'قصائد'
            else:
                type = tag  # Any other text is considered the type of poem

    return pd.Series([sea, rhyme, topic, type])

# Apply the function to the DataFrame df for each row and store results in new columns
df[['sea', 'rhyme', 'topic', 'type']] = df.apply(split_poem_tags, axis=1)
# Display the DataFrame after adding the new columns

df.head()

Unnamed: 0,poet_name,poet_era,poem_tags,poem_title,poem_text,poem_count,sea,rhyme,topic,type
0,لقيط بن يعمر الإيادي,العصر الجاهلي,"قصائد هجاء, عموديه, بحر الوافر, قافية الدال (د)",سلام في الصحيفة من لقيط,سَلامٌ في الصَحيفَةِ مِن لَقيطٍ\nإِلى مَن بِال...,عدد الابيات : 4,بحر الوافر,قافية الدال (د),قصائد هجاء,عموديه
1,لقيط بن يعمر الإيادي,العصر الجاهلي,"قصائد حزينه, عموديه, بحر البسيط, قافية الألف ...",يا دار عمرة من محتلها الجرعا,يا دارَ عَمرَةَ مِن مُحتَلِّها الجَرَعا\nهاجَت...,عدد الابيات : 60,بحر البسيط,قافية الألف (ا),قصائد حزينه,عموديه
2,لقيط بن يعمر الإيادي,العصر الجاهلي,"قصائد قصيره, عموديه, بحر الرجز, قافية الألف (ا)",وخاننا خوان في ارتباعنا,وَخانَنا خَوّانٌ في اِرتِباعِنا\nفَاِنفَدَّ لِ...,عدد الابيات : 1,بحر الرجز,قافية الألف (ا),قصائد قصيره,عموديه
3,زبان بن سيار الفزاري,العصر الجاهلي,"قصائد قصيره, عموديه, بحر الطويل, قافية الألف ...",تنح إليكم يا ابن كوز فإننا,تَنَحَّ إِلَيكُم يا اِبنَ كوزٍ فَإِنَّنا\nوَإِ...,عدد الابيات : 1,بحر الطويل,قافية الألف (ا),قصائد قصيره,عموديه
4,زبان بن سيار الفزاري,العصر الجاهلي,"قصائد قصيره, عموديه, بحر الطويل, قافية الباء ...",تطارحه الأنساب حتى رددنه,تُطارِحُهُ الأَنسابُ حَتّى رَدَدنَهُ\nإِلى نَس...,عدد الابيات : 1,بحر الطويل,قافية الباء (ب),قصائد قصيره,عموديه


2. Display the number of missing values in each column

In [None]:
print(df.isnull().sum())

poet_name        0
poet_era         0
poem_tags       32
poem_title       2
poem_text     1012
poem_count    1012
sea           1349
rhyme         1069
topic         1050
type          1013
dtype: int64



3.   Remove all rows that contain any missing values

In [None]:
df = df.dropna()

print(df.isnull().sum())

print(df.shape)

poet_name     0
poet_era      0
poem_tags     0
poem_title    0
poem_text     0
poem_count    0
sea           0
rhyme         0
topic         0
type          0
dtype: int64
(71628, 10)


4. Extract the duplicate rows based on the column poem_title

In [None]:
duplicate_titles = df[df.duplicated(subset=['poem_title'], keep=False)]

duplicate_titles

Unnamed: 0,poet_name,poet_era,poem_tags,poem_title,poem_text,poem_count,sea,rhyme,topic,type
70,امرؤ القيس,العصر الجاهلي,"قصائد رثاء, عموديه, بحر الطويل, قافية الباء (ب)",أجارتنا إن الخطوب تنوب,أجارَتَنا إنَّ الخُطُوبَ تَنوبُ\nوإني مُقِيمٌ ...,عدد الابيات : 5,بحر الطويل,قافية الباء (ب),قصائد رثاء,عموديه
77,امرؤ القيس,العصر الجاهلي,"قصائد عامه, عموديه, بحر المتقارب, قافية الدال...",تطاول ليلك بالأثمد,تَطاوَلَ لَيلُكَ بِالأَثمَدِ\nوَنامَ الخَلِيُّ...,عدد الابيات : 16,بحر المتقارب,قافية الدال (د),قصائد عامه,عموديه
129,حاتم الطائي,العصر الجاهلي,"قصائد عامه, عموديه, بحر الوافر, قافية العين (ع)",لعمرك ما أضاع بنو زياد,لَعَمرُكَ ما أَضاعَ بَنو زِيادٍ\nذِمارَ أَبيهِ...,عدد الابيات : 4,بحر الوافر,قافية العين (ع),قصائد عامه,عموديه
149,حاتم الطائي,العصر الجاهلي,"قصائد عامه, عموديه, بحر الطويل, قافية الدال (د)",وعاذلة هبت بليل تلومني,وَعاذِلَةٍ هَبَّت بِلَيلٍ تَلومُني\nوَقَد غابَ...,عدد الابيات : 15,بحر الطويل,قافية الدال (د),قصائد عامه,عموديه
207,أوس بن حجر,العصر الجاهلي,"قصائد عامه, عموديه, بحر الكامل, قافية الدال (د)",أبني لبينى لستم بيد,أَبَني لُبَينى لَستُمُ بِيَدٍ\nإِلّا يَداً لَي...,عدد الابيات : 8,بحر الكامل,قافية الدال (د),قصائد عامه,عموديه
...,...,...,...,...,...,...,...,...,...,...
74945,أبو دلف العجلي,العصر العباسي,"قصائد قصيره, عموديه, بحر مجزوء الكامل, قافية ...",طلب المعاش مفرق,طلب المعاش مفرِّقٌ\nبين الأحبَّة والوطن\nومُصَ...,عدد الابيات : 2,بحر مجزوء الكامل,قافية النون (ن),قصائد قصيره,عموديه
74950,أبو دلف العجلي,العصر العباسي,"قصائد قصيره, عموديه, بحر المنسرح, قافية الألف...",أوصيك خيرا به فإن له,أوصيك خيراً به فإن له\nخلائقاً لا أزال أحمدها\...,عدد الابيات : 2,بحر المنسرح,قافية الألف (ا),قصائد قصيره,عموديه
74963,أبو دلف العجلي,العصر العباسي,"قصائد حكمة, عموديه, بحر مجزوء الكامل, قافية ا...",لا تفخرن بلحية,لا تفخرنَّ بلحية\nكثرت منابتها طويله\nتهوي بها...,عدد الابيات : 3,بحر مجزوء الكامل,قافية الهاء (ه),قصائد حكمة,عموديه
74979,أبو سعد المخزومي,العصر العباسي,"قصائد قصيره, عموديه, بحر الكامل, قافية الدال ...",أيسومني المأمون خطة عاجز,أيسومني المأمون خطة عاجز\nأو ما رأى بالامس رأس...,عدد الابيات : 1,بحر الكامل,قافية الدال (د),قصائد قصيره,عموديه


5. Remove duplicate rows and keep only the first instance.

In [None]:
df = df.drop_duplicates(subset=['poem_title'], keep='first')

print(df.duplicated(subset=['poem_title']).sum())

0


6. Display the data type of each column and convert them to string type.

In [None]:
print(df.dtypes)

df = df.astype(str)

print(df.dtypes)

poet_name     object
poet_era      object
poem_tags     object
poem_title    object
poem_text     object
poem_count    object
sea           object
rhyme         object
topic         object
type          object
dtype: object
poet_name     object
poet_era      object
poem_tags     object
poem_title    object
poem_text     object
poem_count    object
sea           object
rhyme         object
topic         object
type          object
dtype: object


7. Drop the unnecessary columns

In [None]:
datacleaning = df.drop(columns=['poem_tags', 'poet_name', 'poem_title','type','poet_era'])

datacleaning

Unnamed: 0,poem_text,poem_count,sea,rhyme,topic
0,سَلامٌ في الصَحيفَةِ مِن لَقيطٍ\nإِلى مَن بِال...,عدد الابيات : 4,بحر الوافر,قافية الدال (د),قصائد هجاء
1,يا دارَ عَمرَةَ مِن مُحتَلِّها الجَرَعا\nهاجَت...,عدد الابيات : 60,بحر البسيط,قافية الألف (ا),قصائد حزينه
2,وَخانَنا خَوّانٌ في اِرتِباعِنا\nفَاِنفَدَّ لِ...,عدد الابيات : 1,بحر الرجز,قافية الألف (ا),قصائد قصيره
3,تَنَحَّ إِلَيكُم يا اِبنَ كوزٍ فَإِنَّنا\nوَإِ...,عدد الابيات : 1,بحر الطويل,قافية الألف (ا),قصائد قصيره
4,تُطارِحُهُ الأَنسابُ حَتّى رَدَدنَهُ\nإِلى نَس...,عدد الابيات : 1,بحر الطويل,قافية الباء (ب),قصائد قصيره
...,...,...,...,...,...
75017,تَلومُ جودي لِبُرمَةِ الطَفشيلِ\nوَاِستَهِلّي ...,عدد الابيات : 9,بحر الخفيف,قافية اللام (ل),قصائد حزينه
75018,وَرَدتُ دارَ سَعيدٍ وَهيَ خالِيَةٌ\nوَكانَ أَب...,عدد الابيات : 4,بحر البسيط,قافية اللام (ل),قصائد رومنسيه
75019,أَلا لا أُبالي في العُلى ما أَصابَني\nوَإِن نَ...,عدد الابيات : 3,بحر الطويل,قافية الياء (ي),قصائد قصيره
75020,بَني سَوّارَ إِن رَثَت ثِيابي\nوَكَلَّ عَنِ ال...,عدد الابيات : 9,بحر الوافر,قافية الياء (ي),قصائد عتاب


*8. Processing the columns by removing unwanted values or deleting part of the text in the columns.*

In [None]:
# Remove specific unwanted text from the columns to clean the data
datacleaning['topic'] = datacleaning['topic'].str.replace('قصائد ', '', regex=False)
datacleaning['poem_count'] = datacleaning['poem_count'].str.replace('عدد الابيات :', '', regex=False)
datacleaning['sea'] = datacleaning['sea'].str.replace('بحر', '', regex=False)
datacleaning['rhyme'] = datacleaning['rhyme'].str.replace('قافية', '', regex=False)

# Delete rows that contain "سياسية","هجاء" in the topic column
datacleaning = datacleaning[datacleaning['topic'] != "سياسية"]
datacleaning = datacleaning[datacleaning['topic'] != "هجاء"]

datacleaning


Unnamed: 0,poem_text,poem_count,sea,rhyme,topic
1,يا دارَ عَمرَةَ مِن مُحتَلِّها الجَرَعا\nهاجَت...,60,البسيط,الألف (ا),حزينه
2,وَخانَنا خَوّانٌ في اِرتِباعِنا\nفَاِنفَدَّ لِ...,1,الرجز,الألف (ا),قصيره
3,تَنَحَّ إِلَيكُم يا اِبنَ كوزٍ فَإِنَّنا\nوَإِ...,1,الطويل,الألف (ا),قصيره
4,تُطارِحُهُ الأَنسابُ حَتّى رَدَدنَهُ\nإِلى نَس...,1,الطويل,الباء (ب),قصيره
5,إِن تَنسُبوني تَنسُبوا ذا دَسيعَةٍ\nبَريئاً مِ...,5,الطويل,الألف (ا),مدح
...,...,...,...,...,...
75017,تَلومُ جودي لِبُرمَةِ الطَفشيلِ\nوَاِستَهِلّي ...,9,الخفيف,اللام (ل),حزينه
75018,وَرَدتُ دارَ سَعيدٍ وَهيَ خالِيَةٌ\nوَكانَ أَب...,4,البسيط,اللام (ل),رومنسيه
75019,أَلا لا أُبالي في العُلى ما أَصابَني\nوَإِن نَ...,3,الطويل,الياء (ي),قصيره
75020,بَني سَوّارَ إِن رَثَت ثِيابي\nوَكَلَّ عَنِ ال...,9,الوافر,الياء (ي),عتاب


*9. Filtering the data based on the 16 most famous seas.* *italicized text*

In [None]:
# List of desired seas
desired_seas = ['الوافر', 'البسيط', 'الرجز', 'الطويل', 'المتقارب', 'الكامل',
                'المنسرح', 'السريع', 'الرمل', 'الخفيف', 'الهزج', 'المجتث',
                'المديد', 'المضارع', 'المتدارك', 'المقتضب']

# Remove extra spaces from the sea column
datacleaning['sea'] = datacleaning['sea'].str.strip()

# Filter the data after removing spaces
filtered_data = datacleaning[datacleaning['sea'].isin(desired_seas)]
filtered_data


Unnamed: 0,poem_text,poem_count,sea,rhyme,topic
1,يا دارَ عَمرَةَ مِن مُحتَلِّها الجَرَعا\nهاجَت...,60,البسيط,الألف (ا),حزينه
2,وَخانَنا خَوّانٌ في اِرتِباعِنا\nفَاِنفَدَّ لِ...,1,الرجز,الألف (ا),قصيره
3,تَنَحَّ إِلَيكُم يا اِبنَ كوزٍ فَإِنَّنا\nوَإِ...,1,الطويل,الألف (ا),قصيره
4,تُطارِحُهُ الأَنسابُ حَتّى رَدَدنَهُ\nإِلى نَس...,1,الطويل,الباء (ب),قصيره
5,إِن تَنسُبوني تَنسُبوا ذا دَسيعَةٍ\nبَريئاً مِ...,5,الطويل,الألف (ا),مدح
...,...,...,...,...,...
75017,تَلومُ جودي لِبُرمَةِ الطَفشيلِ\nوَاِستَهِلّي ...,9,الخفيف,اللام (ل),حزينه
75018,وَرَدتُ دارَ سَعيدٍ وَهيَ خالِيَةٌ\nوَكانَ أَب...,4,البسيط,اللام (ل),رومنسيه
75019,أَلا لا أُبالي في العُلى ما أَصابَني\nوَإِن نَ...,3,الطويل,الياء (ي),قصيره
75020,بَني سَوّارَ إِن رَثَت ثِيابي\nوَكَلَّ عَنِ ال...,9,الوافر,الياء (ي),عتاب


**Column 'poem_count' was removed because it is not needed for model training**

In [None]:
# Create a new DataFrame without the poem_count column
data_for_raj = filtered_data.drop(columns=['poem_count'])

# Display the new DataFrame
data_for_raj


Unnamed: 0,poem_text,sea,rhyme,topic
1,يا دارَ عَمرَةَ مِن مُحتَلِّها الجَرَعا\nهاجَت...,البسيط,الألف (ا),حزينه
2,وَخانَنا خَوّانٌ في اِرتِباعِنا\nفَاِنفَدَّ لِ...,الرجز,الألف (ا),قصيره
3,تَنَحَّ إِلَيكُم يا اِبنَ كوزٍ فَإِنَّنا\nوَإِ...,الطويل,الألف (ا),قصيره
4,تُطارِحُهُ الأَنسابُ حَتّى رَدَدنَهُ\nإِلى نَس...,الطويل,الباء (ب),قصيره
5,إِن تَنسُبوني تَنسُبوا ذا دَسيعَةٍ\nبَريئاً مِ...,الطويل,الألف (ا),مدح
...,...,...,...,...
75017,تَلومُ جودي لِبُرمَةِ الطَفشيلِ\nوَاِستَهِلّي ...,الخفيف,اللام (ل),حزينه
75018,وَرَدتُ دارَ سَعيدٍ وَهيَ خالِيَةٌ\nوَكانَ أَب...,البسيط,اللام (ل),رومنسيه
75019,أَلا لا أُبالي في العُلى ما أَصابَني\nوَإِن نَ...,الطويل,الياء (ي),قصيره
75020,بَني سَوّارَ إِن رَثَت ثِيابي\nوَكَلَّ عَنِ ال...,الوافر,الياء (ي),عتاب


**Data used for the RAJ technique has been saved**

In [None]:
output_file_path = '/content/drive/My Drive/Arabic_poetry_raj.csv'  # المسار في Google Drive
data_for_raj.to_csv(output_file_path, index=False, encoding='utf-8-sig')

**Preparing the data for the Prompt Engineer technique.**

In this process, we will arrange the data based on the matching values in the poem's meter, theme, and rhyme to achieve the best training results. The team noticed that training the model by inputting sequential and closely related values in terms of demand yields better outcomes. To accomplish this, we will do the following:

1. Sort the data as mentioned earlier.
2. Select the data with 2 or 4 verses to ensure the input does not exceed the token limits allowed in the Alam model.
3. Delete the rows that have 0 or 1 repetitions of the same values based on the poem's meter, theme, and rhyme.
4. Take a sample, the method of which will be explained later.
5. Prepare a list of requirements that simulates the user input for the poetry request from the model. We will create a function to generate a new column named 'input' and randomly insert the requests.


1. Sort the data as mentioned earlier.

In [None]:
import pandas as pd

# Define the order of seas, rhymes, and topics
sea_order = ['الوافر', 'البسيط', 'الرجز', 'الطويل', 'المتقارب', 'الكامل',
             'المنسرح', 'السريع', 'الرمل', 'الخفيف', 'الهزج', 'المجتث',
             'المديد', 'المضارع', 'المتدارك', 'المقتضب']

rhyme_order = ['الدال (د)', 'الألف (ا)', 'الباء (ب)', 'الراء (ر)', 'الهاء (ه)',
               'اللام (ل)', 'الميم (م)', 'الكاف (ك)', 'الحاء (ح)', 'الهمزة (ء)',
               'الواو (و)', 'العين (ع)', 'القاف (ق)', 'الفاء (ف)', 'النون (ن)',
               'السين (س)', 'الياء (ي)', 'الصاد (ص)', 'ألف الهمزة (أ)',
               'التاء (ت)', 'الضاد (ض)', 'الشين (ش)', 'الجيم (ج)', '(الحاء)',
               '(الياء)', 'الزاى (ز)', 'الطاء (ط)', 'ياء همزة (ئ)', 'الثاء (ث)',
               'الخاء (خ)', '(لام مكسورة)', 'الذال (ذ)', 'الغين (غ)', '(لا)',
               'واو همزة (ؤ)', 'الظاء (ظ)', 'التاء المربوطة (ة)', 'الياء (ى)',
               '(#)', 'الألف (إ)']

topic_order = ['حزينه', 'قصيره', 'مدح', 'حكمة', 'عتاب', 'فراق', 'رومنسيه',
               'رثاء', 'شوق', 'عامه', 'غزل', 'المعلقات', 'جود وكرم', 'ذم',
               'دينية', 'نصيحة', 'صبر', 'وطنيه', 'رحمة', 'ابتهال',
               'عدل', 'الاناشيد', 'اعتذار']

# Clean the data
filtered_data['rhyme'] = filtered_data['rhyme'].str.strip()

# Convert lists to ordered categories
filtered_data['sea'] = pd.Categorical(filtered_data['sea'], categories=sea_order, ordered=True)
filtered_data['rhyme'] = pd.Categorical(filtered_data['rhyme'], categories=rhyme_order, ordered=True)
filtered_data['topic'] = pd.Categorical(filtered_data['topic'], categories=topic_order, ordered=True)

# Sort DataFrame by specified columns
sorted_data = filtered_data.sort_values(by=['sea', 'rhyme', 'topic'])

# Add a new column that counts the equal rows
sorted_data['count_equal'] = sorted_data.groupby(['sea', 'rhyme', 'topic'])['sea'].transform('size')

# Display the sorted data
sorted_data


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_data['rhyme'] = filtered_data['rhyme'].str.strip()
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_data['sea'] = pd.Categorical(filtered_data['sea'], categories=sea_order, ordered=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_data['rhyme'] = pd.Categorical(filtered_

Unnamed: 0,poem_text,poem_count,sea,rhyme,topic,count_equal
7,لَأَن فُجِّعتُ بِالقُرَباءِ مِنّى\nلَقَد مُتِّ...,3,الوافر,الدال (د),حزينه,19
542,وَقَالُوا لَن تَنَألَ الدَّهرَ فَقراً\nإِذَا ش...,3,الوافر,الدال (د),حزينه,19
2486,جَلَبنا الخَيلَ وَالإِبِلَ المَهارى\nإِلى الأَ...,5,الوافر,الدال (د),حزينه,19
3083,يُكِبّونَ العِشارَ لِمَن أَتاهُم \nإِذا لَم تُ...,1,الوافر,الدال (د),حزينه,19
5534,حَنَتني حانِياتُ الدَهرِ حَتّى\nكَأَنّي خاتِلٌ...,3,الوافر,الدال (د),حزينه,19
...,...,...,...,...,...,...
74491,تنطوي على أسفِ\nيا خلي من الدنفِ\nقال للجفونِ ...,4,المقتضب,الفاء (ف),رومنسيه,1
70716,أنبتت صَبابَتُكم\nقرحةً على كبِدي\nبِتُّ من تف...,2,المقتضب,الياء (ي),حزينه,1
70418,عالمٌ بحبيه\nمطرقٌ من التيه\nيوسف الجمالِ وفر\...,7,المقتضب,الياء (ي),رومنسيه,1
34341,نَظرَةٌ أَتَت عَرَضا\nأَورثَتنيَ المَرَضا\nناظ...,9,المقتضب,الضاد (ض),غزل,1


2. Select the data with 2 or 4 verses to ensure the input does not exceed the token limits allowed in the Alam model.

In [None]:
# Convert values in the 'poem_count' column to numbers
sorted_data['poem_count'] = pd.to_numeric(sorted_data['poem_count'], errors='coerce')

# Filter rows based on the conditions: the number of poems greater than 1 and less than or equal to 4
Data_prompt = sorted_data[
    (sorted_data['poem_count'] > 1) &
    (sorted_data['poem_count'] <= 4)
]

# Display the filtered data
Data_prompt


Unnamed: 0,poem_text,poem_count,sea,rhyme,topic,count_equal
7,لَأَن فُجِّعتُ بِالقُرَباءِ مِنّى\nلَقَد مُتِّ...,3,الوافر,الدال (د),حزينه,19
542,وَقَالُوا لَن تَنَألَ الدَّهرَ فَقراً\nإِذَا ش...,3,الوافر,الدال (د),حزينه,19
5534,حَنَتني حانِياتُ الدَهرِ حَتّى\nكَأَنّي خاتِلٌ...,3,الوافر,الدال (د),حزينه,19
71400,وليل في جوانِبِه فُصُولٌ\nمن الأظلام أدهمَ غيه...,2,الوافر,الدال (د),حزينه,19
71667,ولو أني استزدتك فوق ما بي\nمن البلوى لأعوزك ال...,2,الوافر,الدال (د),حزينه,19
...,...,...,...,...,...,...
23928,عجباً بكرت تلوم فتى\nأضناه الحب وأذهله\nوتقول ...,2,المتدارك,اللام (ل),قصيره,2
70470,هَذا عَمرٌو يَستَعفي مِن\nزَيدٍ عِندَ الفَضل ا...,3,المتدارك,الياء (ي),رثاء,1
20186,لا إله إلا الله\nقولُ عارفٍ أوّاه\nأظهرت شهادت...,4,المقتضب,الألف (ا),دينية,1
74491,تنطوي على أسفِ\nيا خلي من الدنفِ\nقال للجفونِ ...,4,المقتضب,الفاء (ف),رومنسيه,1


3. Delete the rows that have 0 or 1 repetitions of the same values based on the poem's meter, theme, and rhyme.

In [None]:

# حذف الصفوف التي تحتوي على عدد القصائد يساوي 0 أو 1
Data_prompt = Data_prompt[~Data_prompt['count_equal'].isin([0, 1])]

# عرض البيانات بعد الحذف
Data_prompt

Unnamed: 0,poem_text,poem_count,sea,rhyme,topic,count_equal
7,لَأَن فُجِّعتُ بِالقُرَباءِ مِنّى\nلَقَد مُتِّ...,3,الوافر,الدال (د),حزينه,19
542,وَقَالُوا لَن تَنَألَ الدَّهرَ فَقراً\nإِذَا ش...,3,الوافر,الدال (د),حزينه,19
5534,حَنَتني حانِياتُ الدَهرِ حَتّى\nكَأَنّي خاتِلٌ...,3,الوافر,الدال (د),حزينه,19
71400,وليل في جوانِبِه فُصُولٌ\nمن الأظلام أدهمَ غيه...,2,الوافر,الدال (د),حزينه,19
71667,ولو أني استزدتك فوق ما بي\nمن البلوى لأعوزك ال...,2,الوافر,الدال (د),حزينه,19
...,...,...,...,...,...,...
32151,بَدا لي عَلى الكَثيبِ\nبِنَعمانَ ما يَروعُ\nرَ...,4,المضارع,العين (ع),قصيره,2
41239,عَقَبَاتُ مُنَكَّب نَاكِبَةٌ\nمَنْ أَقْدَمَ فَ...,2,المتدارك,الباء (ب),قصيره,2
51838,هَمُّ القاضي بَيتٌ يُطرِب\nقالَ القاضي لَمّا ع...,2,المتدارك,الباء (ب),قصيره,2
17723,خُذ في الأشعَارِ عَلَى الخَبَبِ\nفَقُصورُكَ عَ...,2,المتدارك,الباء (ب),عامه,3


4. To get two rows for each unique value in 'count_equal

In [None]:
# Get the unique values in the 'count' column
unique_counts = Data_prompt['count_equal'].unique()

# Display the unique values
unique_counts


array([  19,  196,   51,   15,    2,   34,   12,   10,  113,    7,    9,
          8,    3,   13,   49,   18,   22,    4,  224,   57,   20,   32,
         17,  138,  265,   73,   40,   21,  147,    6,   24,  231,   64,
        161,   11,  223,   47,  169,    5,   36,   16,   82,   54,   65,
         81,   41,   76,  205,   44,   14,  103,   43,   25,  318,   59,
         31,   60,  190,   48,   30,   23,   38,  302,   71,   52,  197,
         50,   29,  336,   94,   28,  203,  564,  152,  106,  349,  315,
         66,  189,  270,   97,  159,   53,  108,   62,   39,   78,   90,
         33,   67,  287,   86,   61,  127,   63,  342,   79,  215,   35,
         70,   55,   27,   37,  587,  198,  158,  390,  124,   46,  716,
        140,  111,  195,  489, 1047,  295,   95,  209,  675,  734,  217,
        128,  506,   45,   56,  625,  219,  118,  474,  101,  160,   96,
        334,   77,   42,   72,  229,  264,  164,  309,   74,  184,  185,
         80,  520,   83,  172,   26,   84,  115,  2

5. Take a sample

In [None]:
# Use groupby to get two rows from each unique value in 'count_equal'
result = Data_prompt.groupby('count_equal').head(2)

# Display the results
result


Unnamed: 0,poem_text,poem_count,sea,rhyme,topic,count_equal
7,لَأَن فُجِّعتُ بِالقُرَباءِ مِنّى\nلَقَد مُتِّ...,3,الوافر,الدال (د),حزينه,19
542,وَقَالُوا لَن تَنَألَ الدَّهرَ فَقراً\nإِذَا ش...,3,الوافر,الدال (د),حزينه,19
492,أَلا فَاِعلَم أَبَيتَ اللَعنَ أَنّا\nعَلى عَمد...,3,الوافر,الدال (د),قصيره,196
2363,أَلَم يَبلُغكُمُ أَنّا جَدَعنا\nلَدى العَبلاءَ...,2,الوافر,الدال (د),قصيره,196
2056,فمن ورِث الغنى فليصطنعه\nصنيعته ويجهد كل جهدِ\...,2,الوافر,الدال (د),مدح,51
...,...,...,...,...,...,...
1683,لَيسَ مِثلي يُخَبِّرُ الناسَ عَن آ\nبائِهِم قُ...,4,الخفيف,اللام (ل),عامه,112
2602,قُل لِعَبدِ العُزّى أَخي وَشَقيقي\nوَبَني هاشِ...,4,الخفيف,النون (ن),عامه,110
11455,مَعقِلُ القَومِ مِن قُرَيشٍ إِذا ما\nفازَ بِال...,2,الخفيف,النون (ن),عامه,110
523,قَد تَقَطَرنَ بالعبيرِ ومَسكٍ\nوَتَكَبَينَ بال...,2,الخفيف,الياء (ي),قصيره,266


*6. Prepare a list of requirements that simulates the user input for the poetry request from the model. We will create a function to generate a new column named 'input' and randomly insert the requests.*

In [None]:
import random
# A diverse list of request templates
request_templates = [
    "اكتب لي قصيدة {topic}، قافيتها {rhyme}، من البحر {sea}",
    "هل يمكنك كتابة قصيدة من البحر {sea} {topic}؟",
    "أريد قصيدة {topic}، من البحر {sea}، قافيتها {rhyme}",
    "صغ لي أبيات {topic}، من البحر {sea}",
    "اكتب لي قصيدة، من البحر {sea}، {topic}",
    "اعطيني قصيدة من البحر {sea}، قافيتها {rhyme}",
    "أريد قصيدة {topic}، قافيتها {rhyme}، من البحر {sea}",
    "هل يمكنك كتابة قصيدة {topic}، من البحر {sea}؟",
    "اكتب لي أبيات {topic}، من البحر {sea}",
    "أريد قصيدة {topic}، قافيتها {rhyme}، بحر {sea}",
    "اعطيني قصيدة {topic}، من البحر {sea}",
    "صغ لي قصيدة {topic}، قافيتها {rhyme}، على وزن البحر {sea}",
    "اكتب لي قصيدة من البحر {sea} {topic}",
    "هل يمكنك كتابة قصيدة {topic}، من البحر {sea}، قافيتها {rhyme}؟",
    "أريد قصيدة {topic}، قافيتها {rhyme}، من البحر {sea}",
    "صغ لي قصيدة {topic}، من البحر {sea}",
    "اكتب لي قصيدة {topic}، قافتها {rhyme}، من البحر {sea}",
    "اعطيني قصيدة {topic}، من البحر {sea}",
    "أريد قصيدة من البحر {sea}",
    "هل يمكنك كتابة قصيدة {topic}، من البحر {sea}، قافيتها {rhyme}؟",
    "اكتب لي قصيدة {topic}، من البحر {sea}، قافيتها {rhyme}",
    "صغ لي قصيدة {topic}، من البحر {sea}",
    "أريد قصيدة من البحر {sea} {topic}",
    "هل يمكنك كتابة قصيدة {topic}، من البحر {sea}، قافيتها {rhyme}؟",
    "اعطيني أبيات {topic}، قافيتها {rhyme}، من البحر {sea}",
    "اكتب لي قصيدة {topic}، من البحر {sea}",
    "أريد قصيدة {topic}، من البحر {sea}، قافيتها {rhyme}",
    "صغ لي قصيدة {topic}، من البحر {sea}، قافيتها {rhyme}",
    "هل يمكنك كتابة قصيدة من البحر {sea}، قافيتها {rhyme}؟"
]


# Create a new column named 'input' and fill it with random requests
input_requests = []

# Fill the input column with random requests that align with the columns
for index, row in result.iterrows():
    # Choose a random template from the requests
    template = random.choice(request_templates)
    # Replace the variables with values from the row
    request = template.format(
        topic=row['topic'],
        rhyme=row['rhyme'],
        sea=row['sea']
    )
    input_requests.append(request)

# Add the column to the DataFrame
result.insert(0, 'input', input_requests)

# Display the DataFrame with the new column
result

Unnamed: 0,input,poem_text,poem_count,sea,rhyme,topic,count_equal
7,أريد قصيدة من البحر الوافر,لَأَن فُجِّعتُ بِالقُرَباءِ مِنّى\nلَقَد مُتِّ...,3,الوافر,الدال (د),حزينه,19
542,هل يمكنك كتابة قصيدة حزينه، من البحر الوافر؟,وَقَالُوا لَن تَنَألَ الدَّهرَ فَقراً\nإِذَا ش...,3,الوافر,الدال (د),حزينه,19
492,صغ لي قصيدة قصيره، من البحر الوافر,أَلا فَاِعلَم أَبَيتَ اللَعنَ أَنّا\nعَلى عَمد...,3,الوافر,الدال (د),قصيره,196
2363,هل يمكنك كتابة قصيدة قصيره، من البحر الوافر؟,أَلَم يَبلُغكُمُ أَنّا جَدَعنا\nلَدى العَبلاءَ...,2,الوافر,الدال (د),قصيره,196
2056,صغ لي قصيدة مدح، من البحر الوافر,فمن ورِث الغنى فليصطنعه\nصنيعته ويجهد كل جهدِ\...,2,الوافر,الدال (د),مدح,51
...,...,...,...,...,...,...,...
1683,صغ لي قصيدة عامه، من البحر الخفيف,لَيسَ مِثلي يُخَبِّرُ الناسَ عَن آ\nبائِهِم قُ...,4,الخفيف,اللام (ل),عامه,112
2602,صغ لي أبيات عامه، من البحر الخفيف,قُل لِعَبدِ العُزّى أَخي وَشَقيقي\nوَبَني هاشِ...,4,الخفيف,النون (ن),عامه,110
11455,أريد قصيدة عامه، قافيتها النون (ن)، بحر الخفيف,مَعقِلُ القَومِ مِن قُرَيشٍ إِذا ما\nفازَ بِال...,2,الخفيف,النون (ن),عامه,110
523,هل يمكنك كتابة قصيدة من البحر الخفيف، قافيتها ...,قَد تَقَطَرنَ بالعبيرِ ومَسكٍ\nوَتَكَبَينَ بال...,2,الخفيف,الياء (ي),قصيره,266


*7. Preparing the final data for prompt engineering*

In [None]:
# Keep only the input column and the poem text
PromptData= result.drop(columns=['poem_count', 'sea','rhyme','topic','count_equal'])
PromptData

Unnamed: 0,input,poem_text
7,أريد قصيدة من البحر الوافر,لَأَن فُجِّعتُ بِالقُرَباءِ مِنّى\nلَقَد مُتِّ...
542,هل يمكنك كتابة قصيدة حزينه، من البحر الوافر؟,وَقَالُوا لَن تَنَألَ الدَّهرَ فَقراً\nإِذَا ش...
492,صغ لي قصيدة قصيره، من البحر الوافر,أَلا فَاِعلَم أَبَيتَ اللَعنَ أَنّا\nعَلى عَمد...
2363,هل يمكنك كتابة قصيدة قصيره، من البحر الوافر؟,أَلَم يَبلُغكُمُ أَنّا جَدَعنا\nلَدى العَبلاءَ...
2056,صغ لي قصيدة مدح، من البحر الوافر,فمن ورِث الغنى فليصطنعه\nصنيعته ويجهد كل جهدِ\...
...,...,...
1683,صغ لي قصيدة عامه، من البحر الخفيف,لَيسَ مِثلي يُخَبِّرُ الناسَ عَن آ\nبائِهِم قُ...
2602,صغ لي أبيات عامه، من البحر الخفيف,قُل لِعَبدِ العُزّى أَخي وَشَقيقي\nوَبَني هاشِ...
11455,أريد قصيدة عامه، قافيتها النون (ن)، بحر الخفيف,مَعقِلُ القَومِ مِن قُرَيشٍ إِذا ما\nفازَ بِال...
523,هل يمكنك كتابة قصيدة من البحر الخفيف، قافيتها ...,قَد تَقَطَرنَ بالعبيرِ ومَسكٍ\nوَتَكَبَينَ بال...


Save the data to a CSV file in Google Drive

In [None]:
# Save the data to a CSV file
output_file_path = '/content/drive/My Drive/Arabic_poetry_PromptData.csv'
PromptData.to_csv(output_file_path, index=False, encoding='utf-8-sig')