# Mount Drive

In [1]:
# Mount Google Drive
from google.colab import drive

drive.mount('/content/drive')

Mounted at /content/drive


# Load the data

In [2]:
import pandas as pd

# Specify the path to your CSV file
file_path = '/content/drive/My Drive/Colab Notebooks/Verso_GP/data.csv'

# Load the CSV file into a DataFrame
df = pd.read_csv(file_path)

# Display the first few rows of the DataFrame
print(df.head())

               Poem Name Sea Type  \
0   لم أكتحل إثمداً ولكن     بسيط   
1    كنت إذا ما أتيت غيا     بسيط   
2  قالوا الدبيثي ذو قواف     بسيط   
3    يا لها نفساً يا لها     بسيط   
4    طول اغتراب وبرح شوق     بسيط   

                                        Poem Content  
0  لم أكتحلْ إثمداً ولكن\nكحلتْ عيني بظلمتينِ\nبظ...  
1  كنت إذا ما أتيت غيّا\nأقول بعد المشيب أرشد\nفص...  
2  قالُوا الدُبَيثِيُّ ذُو قُوافٍ\nمُحكَمَةُ النَ...  
3  يا لَها نَفساً يا لَها\nأَنّى لَها الطُعمُ وَا...  
4  طُول اغترابٍ وبَرح شَوقِ\nلا صَبرَ والله لي عَ...  


# Remove poems with less then 6 lines and more the 30 lines

In [3]:
# Filter poems based on line count (6–30 lines) and divisibility by 2
df = df[df['Poem Content'].apply(lambda poem: 6 <= len(poem.split('\n')) <= 30 and len(poem.split('\n')) % 2 == 0)]

# Display the filtered DataFrame
print(df)


                           Poem Name Sea Type  \
0               لم أكتحل إثمداً ولكن     بسيط   
3                يا لها نفساً يا لها     بسيط   
4                طول اغتراب وبرح شوق     بسيط   
5                خليفة الله أنت حقاً     بسيط   
8              قد ثبت الغي في العباد     بسيط   
...                              ...      ...   
93940       نُفُوسٌ تَحمِلُ الوُدَّا     وافر   
93941    مُجَاهِدُ فُزْتَ يَا أَسَدُ     وافر   
93942  تُرَاضِي النَّاسَ فِي شَأنِكْ     وافر   
93947                أتراني أنا وفرت     وافر   
93950                صغير هواك عذبني     وافر   

                                            Poem Content  
0      لم أكتحلْ إثمداً ولكن\nكحلتْ عيني بظلمتينِ\nبظ...  
3      يا لَها نَفساً يا لَها\nأَنّى لَها الطُعمُ وَا...  
4      طُول اغترابٍ وبَرح شَوقِ\nلا صَبرَ والله لي عَ...  
5      خليفة اللهِ أَنتَ حقاً\nفارقٍ من السّعد خير مر...  
8      قد ثَبَتَ الغَي في العِباد\nطائفةُ الكونِ والف...  
...                                                  ... 

#  Add Line Count to Filtered Poems

In [4]:
# Create a copy of the filtered DataFrame
df = df.copy()

# Now safely add the 'Line Count' column
df['Line Count'] = df['Poem Content'].apply(lambda poem: len(poem.split('\n'))//2)

print(df.head())

               Poem Name Sea Type  \
0   لم أكتحل إثمداً ولكن     بسيط   
3    يا لها نفساً يا لها     بسيط   
4    طول اغتراب وبرح شوق     بسيط   
5    خليفة الله أنت حقاً     بسيط   
8  قد ثبت الغي في العباد     بسيط   

                                        Poem Content  Line Count  
0  لم أكتحلْ إثمداً ولكن\nكحلتْ عيني بظلمتينِ\nبظ...           5  
3  يا لَها نَفساً يا لَها\nأَنّى لَها الطُعمُ وَا...           4  
4  طُول اغترابٍ وبَرح شَوقِ\nلا صَبرَ والله لي عَ...           6  
5  خليفة اللهِ أَنتَ حقاً\nفارقٍ من السّعد خير مر...           7  
8  قد ثَبَتَ الغَي في العِباد\nطائفةُ الكونِ والف...           4  


# Verify the Line Counts

In [5]:
# Group by Line Count and count the number of poems
line_count_summary = df['Line Count'].value_counts().sort_index()

# Display the summary
for line_count, poem_count in line_count_summary.items():
      print(f"{poem_count:>5} poems  -> {line_count:>2} lines")


 9431 poems  ->  3 lines
 8895 poems  ->  4 lines
 5496 poems  ->  5 lines
 3734 poems  ->  6 lines
 3308 poems  ->  7 lines
 2571 poems  ->  8 lines
 2115 poems  ->  9 lines
 2530 poems  -> 10 lines
 1769 poems  -> 11 lines
 1563 poems  -> 12 lines
 1261 poems  -> 13 lines
 1467 poems  -> 14 lines
 1184 poems  -> 15 lines


# Total Number of Unique Sea Types

In [6]:
num_sea_types = df['Sea Type'].nunique()
print(f"Number of unique sea types: {num_sea_types}")


Number of unique sea types: 16


# Group and Count Rows by Sea Type

In [7]:
# Group by the Sea Type column and count rows
sea_type_counts = df['Sea Type'].value_counts()

# Display the counts
print(sea_type_counts)


Sea Type
طويل      9833
كامل      8807
بسيط      7188
وافر      4422
خفيف      4116
سريع      2690
متقارب    2139
رمل       2001
رجز       1456
منسرح     1257
مجتث       757
هزج        313
مديد       266
متدارك      53
مقتضب       17
مضارع        9
Name: count, dtype: int64


# Filter the DataFrame Based on Row Count

In [8]:
# Group by 'Sea_Type' and count the rows
sea_type_counts = df['Sea Type'].value_counts()

# Filter the Sea Types with 5000 or more rows
valid_sea_types = sea_type_counts[sea_type_counts >= 5000].index

# Filter the DataFrame to keep only rows with valid Sea Types
df = df[df['Sea Type'].isin(valid_sea_types)]

# Display the filtered DataFrame and verify
print(df.head())


               Poem Name Sea Type  \
0   لم أكتحل إثمداً ولكن     بسيط   
3    يا لها نفساً يا لها     بسيط   
4    طول اغتراب وبرح شوق     بسيط   
5    خليفة الله أنت حقاً     بسيط   
8  قد ثبت الغي في العباد     بسيط   

                                        Poem Content  Line Count  
0  لم أكتحلْ إثمداً ولكن\nكحلتْ عيني بظلمتينِ\nبظ...           5  
3  يا لَها نَفساً يا لَها\nأَنّى لَها الطُعمُ وَا...           4  
4  طُول اغترابٍ وبَرح شَوقِ\nلا صَبرَ والله لي عَ...           6  
5  خليفة اللهِ أَنتَ حقاً\nفارقٍ من السّعد خير مر...           7  
8  قد ثَبَتَ الغَي في العِباد\nطائفةُ الكونِ والف...           4  


# Verify the Remaining Sea Types

In [9]:
print(df['Sea Type'].value_counts())


Sea Type
طويل    9833
كامل    8807
بسيط    7188
Name: count, dtype: int64


# Check Available Columns

In [10]:
# Display all column names in the DataFrame
print("Available Columns:")
print(df.columns)


Available Columns:
Index(['Poem Name', 'Sea Type', 'Poem Content', 'Line Count'], dtype='object')


# Delete the Line Count Column

In [11]:
# # Delete the 'Line Count' column
# if 'Line Count' in df.columns:
#     df = df.drop(columns=['Line Count'])

# # Confirm the column was removed
# print("\nUpdated Columns After Deleting 'Line Count':")
# print(df.columns)


# Rename Columns

In [12]:
# Rename specific columns
df = df.rename(columns={
    'Poem Name': 'poem_name',
    'Sea Type': 'poem_meter',
    'Poem Content': 'poem_content',
    'Line Count': 'line_count'
})

# Display the updated column names
print(df.columns)


Index(['poem_name', 'poem_meter', 'poem_content', 'line_count'], dtype='object')


#  Check for Missing Values in Each Column

In [13]:
# Check for missing values in each column
missing_values = df.isnull().sum()

print("Missing Values in Each Column:")
print(missing_values)

print()

# Filter rows with missing values
rows_with_missing_values = df[df.isnull().any(axis=1)]

print("Rows with Missing Values:")
print(rows_with_missing_values)

print()

# Drop rows with missing values
df = df.dropna()

# Confirm no missing values remain
print("Missing Values After Dropping Rows:")
print(df.isnull().sum())


Missing Values in Each Column:
poem_name       0
poem_meter      0
poem_content    0
line_count      0
dtype: int64

Rows with Missing Values:
Empty DataFrame
Columns: [poem_name, poem_meter, poem_content, line_count]
Index: []

Missing Values After Dropping Rows:
poem_name       0
poem_meter      0
poem_content    0
line_count      0
dtype: int64


# Only use طويل Meter

In [14]:
# Filter the DataFrame for rows where the 'poem_meter' column is 'طويل'
df = df[df['poem_meter'] == 'طويل']

# Display the filtered DataFrame
print(df)

                              poem_name poem_meter  \
36343              وغادرن نضلة في معركٍ       طويل   
36344                 فإن تك أمي غرابية       طويل   
36346      أو الناطقات الصادقات إذا غدت       طويل   
36348          يموت معي سر الصديق ولحده       طويل   
36349        حمول لأعباء الهوى غير طالع       طويل   
...                                 ...        ...   
57070           أحبتنا إن الغرام أصابني       طويل   
57071   أتت في الدجا كي لا يراها رقيبها       طويل   
57073  سقيتُ بماء الحِبر كُتْبيَ فارتوت       طويل   
57075           دعوتك يا ذخري لعلك ترحم       طويل   
57076    أفي أهل ذا النادي عليمٌ اسائله       طويل   

                                            poem_content  line_count  
36343  وَغادَرنَ نَضلَةَ في مَعرَكٍ\nيَجُرُّ الأَسِنَ...           4  
36344  فَإِن تَكُ أُمّي غُرابيَّةً\nمِنَ ابناءِ حامٍ ...           3  
36346  أو الناطقات الصادقات إذا غدت\nباسقية لم يفرهن ...           3  
36348  يَمُوتُ مَعِي سِرُّ الصَّدِيقِ وَلَحْدُهُ\nضَم...           

#  Final Verification

In [18]:
df = df.sample(n=1000, replace=True, random_state=42)

In [19]:
# Verify Line Count Summary
line_count_summary = df['line_count'].value_counts().sort_index()
print("Line Count Summary:")
for line_count, poem_count in line_count_summary.items():
    print(f"{poem_count:>5} poems  -> {line_count:>2} lines")

# Verify Sea Type Summary
sea_type_summary = df['poem_meter'].value_counts()
print("\nSea Type Summary:")
for sea_type, poem_count in sea_type_summary.items():
    print(f"{poem_count:>5} poems  -> {sea_type}")


Line Count Summary:
  220 poems  ->  3 lines
  180 poems  ->  4 lines
  102 poems  ->  5 lines
   83 poems  ->  6 lines
   64 poems  ->  7 lines
   73 poems  ->  8 lines
   29 poems  ->  9 lines
   64 poems  -> 10 lines
   38 poems  -> 11 lines
   38 poems  -> 12 lines
   38 poems  -> 13 lines
   43 poems  -> 14 lines
   28 poems  -> 15 lines

Sea Type Summary:
 1000 poems  -> طويل


# Save the Filtered Data

In [20]:
df.to_csv('/content/drive/My Drive/Colab Notebooks/Verso_GP/data_filtered.csv', index=False)
print("Filtered data saved to 'data_filtered.csv'")

Filtered data saved to 'data_filtered.csv'


# Save as json


In [21]:
# Save the filtered DataFrame as a JSON file
df.to_json('/content/drive/My Drive/Colab Notebooks/Verso_GP/data_filtered.json', orient='records', force_ascii=False, lines=False)

print("Filtered data saved to 'data_filtered.json'")

Filtered data saved to 'data_filtered.json'
