In [1]:
import torch
import os
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

https://www.kaggle.com/datasets/mohamedkhaledelsafty/best-arabic-poem-comprehensive-dataset

In [2]:
WORK_DIR = os.getcwd()

In [3]:
WORK_DIR

'/home/powerfull/Development/RihalIntern/Poem Classifier'

In [4]:
DATAPATH = WORK_DIR + '/data'

In [5]:
DATAPATH

'/home/powerfull/Development/RihalIntern/Poem Classifier/data'

In [6]:
data = pd.read_csv(DATAPATH + '/data.csv')

In [7]:
data.head()

Unnamed: 0,العصر,الشاعر,الديوان,القافية,البحر,الشطر الايسر,الشطر الايمن,البيت
0,قبل الإسلام,عمرو بنِ قُمَيئَة,الديوان الرئيسي,د,الطويل,وَأَن تَجمَعا شَملي وَتَنتَظِرا غَدا,خَليلَيَّ لا تَستَعجِلا أَن تَزَوَّدا,خَليلَيَّ لا تَستَعجِلا أَن تَزَوَّدا وَأَن...
1,قبل الإسلام,عمرو بنِ قُمَيئَة,الديوان الرئيسي,د,الطويل,وَلا سُرعَتي يَوماً بِسابِقَةِ الرَدى,فَما لَبَثٌ يَوماً بِسابِقٍ مَغنَمٍ,فَما لَبَثٌ يَوماً بِسابِقٍ مَغنَمٍ وَلا سُ...
2,قبل الإسلام,عمرو بنِ قُمَيئَة,الديوان الرئيسي,د,الطويل,وَتَستَوجِبا مَنّاً عَلَيَّ وَتُحمَدا,وَإِن تُنظِراني اليَومَ أَقضِ لُبانَةً,وَإِن تُنظِراني اليَومَ أَقضِ لُبانَةً وَتَ...
3,قبل الإسلام,عمرو بنِ قُمَيئَة,الديوان الرئيسي,د,الطويل,تُؤامِرُني سِرّاً لِأَصرِمَ مَرثَدا,لَعَمرُكَ ما نَفسٌ بِجِدٍ رَشيدَةٍ,لَعَمرُكَ ما نَفسٌ بِجِدٍ رَشيدَةٍ تُؤامِرُ...
4,قبل الإسلام,عمرو بنِ قُمَيئَة,الديوان الرئيسي,د,الطويل,وَأَفرَعَ في لَومي مِراراً وَأَصعَدا,وَإِن ظَهَرَت مِنهُ قَوارِصُ جَمَّةٌ,وَإِن ظَهَرَت مِنهُ قَوارِصُ جَمَّةٌ وَأَفر...


In [8]:
set(data['القافية'])

{'-',
 nan,
 'ء',
 'ؤ',
 'ا',
 'ب',
 'ة',
 'ت',
 'ث',
 'ج',
 'ح',
 'خ',
 'د',
 'ذ',
 'ر',
 'ز',
 'س',
 'ش',
 'ص',
 'ض',
 'ط',
 'طن',
 'ظ',
 'ع',
 'غ',
 'ف',
 'ق',
 'ك',
 'ل',
 'لا',
 'م',
 'ن',
 'ه',
 'هـ',
 'هن',
 'و',
 'ى',
 'ي'}

In [9]:
set(data['البحر'])

{nan,
 'البسيط',
 'الخفيف',
 'الدوبيت',
 'الرجز',
 'الرمل',
 'السريع',
 'السلسلة',
 'الطويل',
 'الكامل',
 'المتدارك',
 'المتقارب',
 'المجتث',
 'المديد',
 'المضارع',
 'المقتضب',
 'المنسرح',
 'المواليا',
 'الهزج',
 'الوافر',
 'شعر التفعيلة',
 'شعر حر',
 'عامي',
 'موشح'}

The target from this model is to know the البحر by giving the الشطر الأيسر & الشطر الأيمن

# Feature Engineering

In [10]:

class ArabicTokenizer:
    def __init__(self):
        self.movable_chars = ['َ','ٌ']
        self.tanween = "ًٌٍ"

    def transform(self, text):
        words = text.split()    
        encoded_words = []
        binary_sequences = []
        
        for word in words:
            encoded_word = ""
            binary_sequence = ""
            for char in word:
                if char in self.movable_chars:
                    encoded_word += char
                    binary_sequence += "1"
                elif char in self.tanween:
                    encoded_word += char
                    binary_sequence += "01" 
                else:
                    encoded_word += char
                    binary_sequence += "0"
            encoded_words.append(encoded_word)
            binary_sequences.append(binary_sequence)
        
        df = pd.DataFrame({'Encoded Text': encoded_words, 'Binary Sequence': binary_sequences})
        return df



In [11]:
tokenizer = ArabicTokenizer()

In [12]:
for text in data['البيت']:
    enc = tokenizer.transform(text = str(text))

In [13]:
text_to_transform = data['البيت']

tokenizer = ArabicTokenizer()

tokenized_text = []

for bait in text_to_transform:
    tokenized_text.append(tokenizer.transform(bait))

 

In [14]:
tokenized_text

[  Encoded Text Binary Sequence
 0    خَليلَيَّ       010001001
 1           لا              00
 2   تَستَعجِلا      0100100100
 3          أَن             010
 4    تَزَوَّدا       010100100
 5        وَأَن           01010
 6      تَجمَعا         0100100
 7        شَملي           01000
 8  وَتَنتَظِرا     01010010100
 9         غَدا            0100,
   Encoded Text Binary Sequence
 0         فَما            0100
 1       لَبَثٌ         0101001
 2       يَوماً         0100001
 3     بِسابِقٍ       010001001
 4      مَغنَمٍ        01001001
 5         وَلا            0100
 6      سُرعَتي         0100100
 7       يَوماً         0100001
 8   بِسابِقَةِ      0100010101
 9       الرَدى          000100,
    Encoded Text Binary Sequence
 0         وَإِن           01010
 1     تُنظِراني       010010000
 2       اليَومَ         0001001
 3         أَقضِ           01001
 4      لُبانَةً       010001001
 5  وَتَستَوجِبا    010100100100
 6        مَنّاً         0100001
 7       عَلَيَّ         01010

In [15]:
len(tokenized_text)

1831770

In [16]:
import re
import nltk