In [1]:
import json
import arabic_string as astring
from tqdm import tqdm
import string

In [2]:
with open("aldiwan_raw.json", "r") as f:
    aldiwan_dict = json.load(f)

# Inspect authors names

In [4]:
astring.printable

'ءابتثجحخدذرزسشصضطظعغفقكلمنهويّأؤئةىآﻻإ0123456789٠١٢٣٤٥٦٧٨٩!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~٬٪٠۰٫،؛:“”–ـ…’«»؟ًٌٍؘَؙُؚِْٜ \t\n\r\x0b\x0c'

In [9]:
def validate_authors_names(aldiwan_dict):
    valid = True
    for author_name, _ in tqdm(aldiwan_dict.items()):
        for c in author_name:
            if c not in astring.printable:
                print(f"{author_name}: ({c})")
                valid = False
    if valid:
        print("All authors names are valid")

In [10]:
validate_authors_names(aldiwan_dict)

100%|█████████████████████████████████████| 936/936 [00:00<00:00, 145010.47it/s]

All authors names are valid





In [11]:
def validate_authors_atts(aldiwan_dict, att):
    valid = True
    for author_name, author_atts in tqdm(aldiwan_dict.items()):
        if type(author_atts[att]) != str:
            raise Exception(f"Error: attribute's '{att}' value is not a string")
        for c in author_atts[att]:
            if c not in astring.printable:
                print(f"{author_name}/{att}/{author_atts[att]}: ({c})")
                valid = False
    if valid:
        print(f"All authors {att} fields are valid")

In [12]:
validate_authors_atts(aldiwan_dict, "name")

100%|█████████████████████████████████████| 936/936 [00:00<00:00, 124020.49it/s]

All authors name fields are valid





# Validate poems attributes

In [13]:
def validate_poems_att(aldiwan_dict, att, verbose=0):
    valid = True
    UKT = {}
    for author_name, author_atts in tqdm(aldiwan_dict.items()):
        for poem_name, poem_atts in author_atts["poems"].items():
            if att not in poem_atts:
                continue
            for c in poem_atts[att]:
                if c not in astring.printable:
                    if c in UKT:
                        UKT[c] += 1
                    else: 
                        UKT[c] = 1
                    valid = False
                    if verbose:
                        if len(poem_atts[att]) > 20:
                            att_repr = f"{poem_atts[att][:20]}..."
                        else:
                            att_repr = poem_atts[att]

                        print("author name:", author_name)
                        print("poem name:", poem_name)
                        print("attribute:", att)
                        print("attribute value:", att_repr)
                        print("unrecognized character:", c)
                        print()
                    
    if valid and verbose:
        print(f"All poems {att} fields are valid")

    return dict(sorted(UKT.items(), key=lambda item: item[1], reverse=True))

In [14]:
validate_poems_att(aldiwan_dict, "genre")

100%|███████████████████████████████████████| 936/936 [00:00<00:00, 7742.60it/s]


{}

In [15]:
validate_poems_att(aldiwan_dict, "type")

100%|██████████████████████████████████████| 936/936 [00:00<00:00, 10821.98it/s]


{}

In [16]:
validate_poems_att(aldiwan_dict, "meter")

100%|███████████████████████████████████████| 936/936 [00:00<00:00, 8218.03it/s]


{}

In [17]:
validate_poems_att(aldiwan_dict, "rhyme")

100%|███████████████████████████████████████| 936/936 [00:00<00:00, 5884.53it/s]


{}

In [18]:
validate_poems_att(aldiwan_dict, "author")

100%|███████████████████████████████████████| 936/936 [00:00<00:00, 7378.08it/s]


{}

In [23]:
validate_poems_att(aldiwan_dict, "author")

100%|███████████████████████████████████████| 936/936 [00:00<00:00, 7390.91it/s]


{}

In [24]:
unknown_chars = validate_poems_att(aldiwan_dict, "text", verbose=1)

  5%|██                                       | 48/936 [00:00<00:03, 232.49it/s]

author name: عبد العزيز المقالح
poem name: العجوز والمقهى
attribute: text
attribute value: (إلى الصديق الشاعر س...
unrecognized character: ٭

author name: عبد العزيز المقالح
poem name: العجوز والمقهى
attribute: text
attribute value: (إلى الصديق الشاعر س...
unrecognized character: ٭

author name: عبد العزيز المقالح
poem name: العجوز والمقهى
attribute: text
attribute value: (إلى الصديق الشاعر س...
unrecognized character: ٭

author name: عبد العزيز المقالح
poem name: العجوز والمقهى
attribute: text
attribute value: (إلى الصديق الشاعر س...
unrecognized character: ٭

author name: عبد العزيز المقالح
poem name: العجوز والمقهى
attribute: text
attribute value: (إلى الصديق الشاعر س...
unrecognized character: ٭

author name: عبد العزيز المقالح
poem name: العجوز والمقهى
attribute: text
attribute value: (إلى الصديق الشاعر س...
unrecognized character: ٭

author name: عبد العزيز المقالح
poem name: العجوز والمقهى
attribute: text
attribute value: (إلى الصديق الشاعر س...
unrecognized character: ٭

author

 12%|████▊                                   | 112/936 [00:00<00:02, 278.33it/s]

author name: مظفر النواب
poem name: فتى إسمه حسن
attribute: text
attribute value: سقط الطل...وطوى رشاش...
unrecognized character:  

author name: مظفر النواب
poem name: فتى إسمه حسن
attribute: text
attribute value: سقط الطل...وطوى رشاش...
unrecognized character:  

author name: مظفر النواب
poem name: فتى إسمه حسن
attribute: text
attribute value: سقط الطل...وطوى رشاش...
unrecognized character:  

author name: مظفر النواب
poem name: فتى إسمه حسن
attribute: text
attribute value: سقط الطل...وطوى رشاش...
unrecognized character:  

author name: مظفر النواب
poem name: فتى إسمه حسن
attribute: text
attribute value: سقط الطل...وطوى رشاش...
unrecognized character:  

author name: مظفر النواب
poem name: فتى إسمه حسن
attribute: text
attribute value: سقط الطل...وطوى رشاش...
unrecognized character:  

author name: مظفر النواب
poem name: فتى إسمه حسن
attribute: text
attribute value: سقط الطل...وطوى رشاش...
unrecognized character:  

author name: مظفر النواب
poem name: فتى إسمه حسن
attribute: text
attr

 26%|██████████▎                             | 241/936 [00:00<00:02, 289.47it/s]

author name: جمال حمدان زيادة
poem name: لست ببائع
attribute: text
attribute value: يَا مَنْ لَهُ فِيْ  ...
unrecognized character:  

author name: جمال حمدان زيادة
poem name: لست ببائع
attribute: text
attribute value: يَا مَنْ لَهُ فِيْ  ...
unrecognized character:  

author name: جمال حمدان زيادة
poem name: لست ببائع
attribute: text
attribute value: يَا مَنْ لَهُ فِيْ  ...
unrecognized character:  

author name: جمال حمدان زيادة
poem name: لست ببائع
attribute: text
attribute value: يَا مَنْ لَهُ فِيْ  ...
unrecognized character:  

author name: جمال حمدان زيادة
poem name: لست ببائع
attribute: text
attribute value: يَا مَنْ لَهُ فِيْ  ...
unrecognized character:  

author name: جمال حمدان زيادة
poem name: لست ببائع
attribute: text
attribute value: يَا مَنْ لَهُ فِيْ  ...
unrecognized character:  

author name: جمال حمدان زيادة
poem name: لست ببائع
attribute: text
attribute value: يَا مَنْ لَهُ فِيْ  ...
unrecognized character:  

author name: جمال حمدان زيادة
poem name: لست ببائع
attr

 35%|██████████████▏                         | 332/936 [00:01<00:02, 244.34it/s]

author name: ابن الزيات
poem name: يا جند مصر لكم فخار
attribute: text
attribute value: يا جندَ مصر لكم فخار...
unrecognized character: 



 38%|███████████████▍                        | 360/936 [00:01<00:03, 169.79it/s]

author name: عبد الغفار الأخرس
poem name: أتراك تعرف علتي وشفائي
attribute: text
attribute value: [RIGHT]أتراكَ تعرفُ ...
unrecognized character: R

author name: عبد الغفار الأخرس
poem name: أتراك تعرف علتي وشفائي
attribute: text
attribute value: [RIGHT]أتراكَ تعرفُ ...
unrecognized character: I

author name: عبد الغفار الأخرس
poem name: أتراك تعرف علتي وشفائي
attribute: text
attribute value: [RIGHT]أتراكَ تعرفُ ...
unrecognized character: G

author name: عبد الغفار الأخرس
poem name: أتراك تعرف علتي وشفائي
attribute: text
attribute value: [RIGHT]أتراكَ تعرفُ ...
unrecognized character: H

author name: عبد الغفار الأخرس
poem name: أتراك تعرف علتي وشفائي
attribute: text
attribute value: [RIGHT]أتراكَ تعرفُ ...
unrecognized character: T

author name: عبد الغفار الأخرس
poem name: أتراك تعرف علتي وشفائي
attribute: text
attribute value: [RIGHT]أتراكَ تعرفُ ...
unrecognized character: P



 45%|█████████████████▊                      | 418/936 [00:02<00:03, 143.77it/s]

author name: ابن قيم الجوزية
poem name: حكم المحبة ثابت الأركان ( نونية)
attribute: text
attribute value: حُكمُ المَحَبَّةِ ثَ...
unrecognized character:  

author name: ابن قيم الجوزية
poem name: حكم المحبة ثابت الأركان ( نونية)
attribute: text
attribute value: حُكمُ المَحَبَّةِ ثَ...
unrecognized character:  

author name: ابن قيم الجوزية
poem name: حكم المحبة ثابت الأركان ( نونية)
attribute: text
attribute value: حُكمُ المَحَبَّةِ ثَ...
unrecognized character:  

author name: ابن قيم الجوزية
poem name: حكم المحبة ثابت الأركان ( نونية)
attribute: text
attribute value: حُكمُ المَحَبَّةِ ثَ...
unrecognized character:  

author name: ابن قيم الجوزية
poem name: حكم المحبة ثابت الأركان ( نونية)
attribute: text
attribute value: حُكمُ المَحَبَّةِ ثَ...
unrecognized character:  

author name: ابن قيم الجوزية
poem name: حكم المحبة ثابت الأركان ( نونية)
attribute: text
attribute value: حُكمُ المَحَبَّةِ ثَ...
unrecognized character:  

author name: ابن قيم الجوزية
poem name: حكم المحبة ثابت ال

 50%|███████████████████▊                    | 464/936 [00:02<00:03, 154.03it/s]

author name: مَحمد اسموني
poem name: لُمْتُ حظي حيث أمسى
attribute: text
attribute value: لُمْتُ حظي حيث أمسى	...
unrecognized character:  

author name: شريف بقنه
poem name: مدن العزلة
attribute: text
attribute value: 1
مُوسيقى تغسلُني في...
unrecognized character: C

author name: شريف بقنه
poem name: مدن العزلة
attribute: text
attribute value: 1
مُوسيقى تغسلُني في...
unrecognized character: r

author name: شريف بقنه
poem name: مدن العزلة
attribute: text
attribute value: 1
مُوسيقى تغسلُني في...
unrecognized character: e

author name: شريف بقنه
poem name: مدن العزلة
attribute: text
attribute value: 1
مُوسيقى تغسلُني في...
unrecognized character: d

author name: شريف بقنه
poem name: مدن العزلة
attribute: text
attribute value: 1
مُوسيقى تغسلُني في...
unrecognized character: o

author name: شريف بقنه
poem name: مدن العزلة
attribute: text
attribute value: 1
مُوسيقى تغسلُني في...
unrecognized character: q

author name: شريف بقنه
poem name: مدن العزلة
attribute: text
attribute value: 1
مُوسي

 53%|█████████████████████▏                  | 497/936 [00:02<00:03, 134.36it/s]

author name: إدريس جمّاع
poem name: والسيف في الغمد
attribute: text
attribute value: و ﺍﻟﺴﻴﻒ ﻓﻲ الغمد ﻻ ﺗ...
unrecognized character: ﺍ

author name: إدريس جمّاع
poem name: والسيف في الغمد
attribute: text
attribute value: و ﺍﻟﺴﻴﻒ ﻓﻲ الغمد ﻻ ﺗ...
unrecognized character: ﻟ

author name: إدريس جمّاع
poem name: والسيف في الغمد
attribute: text
attribute value: و ﺍﻟﺴﻴﻒ ﻓﻲ الغمد ﻻ ﺗ...
unrecognized character: ﺴ

author name: إدريس جمّاع
poem name: والسيف في الغمد
attribute: text
attribute value: و ﺍﻟﺴﻴﻒ ﻓﻲ الغمد ﻻ ﺗ...
unrecognized character: ﻴ

author name: إدريس جمّاع
poem name: والسيف في الغمد
attribute: text
attribute value: و ﺍﻟﺴﻴﻒ ﻓﻲ الغمد ﻻ ﺗ...
unrecognized character: ﻒ

author name: إدريس جمّاع
poem name: والسيف في الغمد
attribute: text
attribute value: و ﺍﻟﺴﻴﻒ ﻓﻲ الغمد ﻻ ﺗ...
unrecognized character: ﻓ

author name: إدريس جمّاع
poem name: والسيف في الغمد
attribute: text
attribute value: و ﺍﻟﺴﻴﻒ ﻓﻲ الغمد ﻻ ﺗ...
unrecognized character: ﻲ

author name: إدريس جمّاع
poem name: والسيف في ال

 56%|██████████████████████▉                  | 524/936 [00:03<00:04, 95.92it/s]

author name: سميح القاسم
poem name: إلهي أنا متأسف
attribute: text
attribute value: إلى الله أرفعُ عين...
unrecognized character: ٕ

author name: سميح القاسم
poem name: إلهي أنا متأسف
attribute: text
attribute value: إلى الله أرفعُ عين...
unrecognized character: ٔ

author name: سميح القاسم
poem name: إلهي أنا متأسف
attribute: text
attribute value: إلى الله أرفعُ عين...
unrecognized character: ٔ

author name: سميح القاسم
poem name: إلهي أنا متأسف
attribute: text
attribute value: إلى الله أرفعُ عين...
unrecognized character: ٔ

author name: سميح القاسم
poem name: إلهي أنا متأسف
attribute: text
attribute value: إلى الله أرفعُ عين...
unrecognized character: ٔ

author name: سميح القاسم
poem name: إلهي أنا متأسف
attribute: text
attribute value: إلى الله أرفعُ عين...
unrecognized character: ٕ

author name: سميح القاسم
poem name: إلهي أنا متأسف
attribute: text
attribute value: إلى الله أرفعُ عين...
unrecognized character: ٔ

author name: سميح القاسم
poem name: إلهي أنا متأسف
attr

 60%|███████████████████████▉                | 561/936 [00:03<00:03, 121.81it/s]

author name: عمر محمد عبدالرحمن
poem name: أیدرك قومي أن بالأرض مغنما
attribute: text
attribute value: أیدرك قومي أن بالأرض...
unrecognized character: ی

author name: عمر محمد عبدالرحمن
poem name: أیدرك قومي أن بالأرض مغنما
attribute: text
attribute value: أیدرك قومي أن بالأرض...
unrecognized character: ی

author name: عمر محمد عبدالرحمن
poem name: أیدرك قومي أن بالأرض مغنما
attribute: text
attribute value: أیدرك قومي أن بالأرض...
unrecognized character: ی

author name: عمر محمد عبدالرحمن
poem name: أیدرك قومي أن بالأرض مغنما
attribute: text
attribute value: أیدرك قومي أن بالأرض...
unrecognized character: ک

author name: عمر محمد عبدالرحمن
poem name: أیدرك قومي أن بالأرض مغنما
attribute: text
attribute value: أیدرك قومي أن بالأرض...
unrecognized character: ی

author name: عمر محمد عبدالرحمن
poem name: أیدرك قومي أن بالأرض مغنما
attribute: text
attribute value: أیدرك قومي أن بالأرض...
unrecognized character: ی

author name: عمر محمد عبدالرحمن
poem name: أیدرك قومي أن بالأرض مغنما
attrib

 64%|█████████████████████████▌              | 597/936 [00:03<00:02, 116.51it/s]

author name: الشريف الرضي
poem name: رأى على الغور وميضا فاشتاق
attribute: text
attribute value: رَأى عَلى الغَورِ وَ...
unrecognized character: C

author name: الشريف الرضي
poem name: رأى على الغور وميضا فاشتاق
attribute: text
attribute value: رَأى عَلى الغَورِ وَ...
unrecognized character: E

author name: الشريف الرضي
poem name: رأى على الغور وميضا فاشتاق
attribute: text
attribute value: رَأى عَلى الغَورِ وَ...
unrecognized character: N

author name: الشريف الرضي
poem name: رأى على الغور وميضا فاشتاق
attribute: text
attribute value: رَأى عَلى الغَورِ وَ...
unrecognized character: T

author name: الشريف الرضي
poem name: رأى على الغور وميضا فاشتاق
attribute: text
attribute value: رَأى عَلى الغَورِ وَ...
unrecognized character: E

author name: الشريف الرضي
poem name: رأى على الغور وميضا فاشتاق
attribute: text
attribute value: رَأى عَلى الغَورِ وَ...
unrecognized character: R

author name: الشريف الرضي
poem name: رأى على الغور وميضا فاشتاق
attribute: text
attribute value: رَأى عَلى الغَو

 65%|██████████████████████████              | 611/936 [00:03<00:03, 101.13it/s]

author name: عبد الرزاق عبد الواحد
poem name: يا بلاد الدموع
attribute: text
attribute value: لِلأسى .. لِلفراقْ
ل...
unrecognized character: •

author name: عبد الرزاق عبد الواحد
poem name: يا بلاد الدموع
attribute: text
attribute value: لِلأسى .. لِلفراقْ
ل...
unrecognized character: •

author name: عبد الرزاق عبد الواحد
poem name: يا بلاد الدموع
attribute: text
attribute value: لِلأسى .. لِلفراقْ
ل...
unrecognized character: •

author name: عبد الرزاق عبد الواحد
poem name: يا بلاد الدموع
attribute: text
attribute value: لِلأسى .. لِلفراقْ
ل...
unrecognized character: •

author name: عمر اليافي
poem name: يا نسيما حلا بحال المرور
attribute: text
attribute value: يا نسيماً حلا بحال ا...
unrecognized character: R

author name: عمر اليافي
poem name: يا نسيما حلا بحال المرور
attribute: text
attribute value: يا نسيماً حلا بحال ا...
unrecognized character: I

author name: عمر اليافي
poem name: يا نسيما حلا بحال المرور
attribute: text
attribute value: يا نسيماً حلا بحال ا...
unrecognized ch

 69%|████████████████████████████             | 642/936 [00:04<00:04, 70.39it/s]

author name: عمارة اليمني
poem name: أفخر فحسبك ما أوتيت من حسب
attribute: text
attribute value: أفخر فحسبك ما أوتيت ...
unrecognized character: M

author name: عمارة اليمني
poem name: أفخر فحسبك ما أوتيت من حسب
attribute: text
attribute value: أفخر فحسبك ما أوتيت ...
unrecognized character: A

author name: عمارة اليمني
poem name: أفخر فحسبك ما أوتيت من حسب
attribute: text
attribute value: أفخر فحسبك ما أوتيت ...
unrecognized character: R

author name: عمارة اليمني
poem name: أفخر فحسبك ما أوتيت من حسب
attribute: text
attribute value: أفخر فحسبك ما أوتيت ...
unrecognized character: Q

author name: عمارة اليمني
poem name: أفخر فحسبك ما أوتيت من حسب
attribute: text
attribute value: أفخر فحسبك ما أوتيت ...
unrecognized character: U

author name: عمارة اليمني
poem name: أفخر فحسبك ما أوتيت من حسب
attribute: text
attribute value: أفخر فحسبك ما أوتيت ...
unrecognized character: E

author name: عمارة اليمني
poem name: أفخر فحسبك ما أوتيت من حسب
attribute: text
attribute value: أفخر فحسبك ما أ

 69%|████████████████████████████▍            | 650/936 [00:04<00:05, 52.79it/s]

author name: ابراهيم ناجي
poem name: طلبت الكتابة يا جنتي
attribute: text
attribute value: طلبت الكتابة يا جنتي...
unrecognized character: R

author name: ابراهيم ناجي
poem name: طلبت الكتابة يا جنتي
attribute: text
attribute value: طلبت الكتابة يا جنتي...
unrecognized character: I

author name: ابراهيم ناجي
poem name: طلبت الكتابة يا جنتي
attribute: text
attribute value: طلبت الكتابة يا جنتي...
unrecognized character: G

author name: ابراهيم ناجي
poem name: طلبت الكتابة يا جنتي
attribute: text
attribute value: طلبت الكتابة يا جنتي...
unrecognized character: H

author name: ابراهيم ناجي
poem name: طلبت الكتابة يا جنتي
attribute: text
attribute value: طلبت الكتابة يا جنتي...
unrecognized character: T

author name: ابراهيم ناجي
poem name: طلبت الكتابة يا جنتي
attribute: text
attribute value: طلبت الكتابة يا جنتي...
unrecognized character: P

author name: ابراهيم ناجي
poem name: طلبت الكتابة يا جنتي
attribute: text
attribute value: طلبت الكتابة يا جنتي...
unrecognized character: R

author

 75%|██████████████████████████████          | 704/936 [00:05<00:02, 100.55it/s]

author name: عبدالله البردوني
poem name: لص تحت الأمطار
attribute: text
attribute value: الليلُ خريفيٌ أرعنْ	...
unrecognized character:  

author name: عبدالله البردوني
poem name: مدينة الغد
attribute: text
attribute value: من دهور… وأنت سحر’ ا...
unrecognized character: ‘

author name: عبدالرحمن العشماوي
poem name: رسالة اعتذار إلى أم المؤمنين خديجة (رضي الله عنها)
attribute: text
attribute value: أخديجة َ الأَمْجَادِ...
unrecognized character: ‘

author name: عبدالرحمن العشماوي
poem name: رسالة اعتذار إلى أم المؤمنين خديجة (رضي الله عنها)
attribute: text
attribute value: أخديجة َ الأَمْجَادِ...
unrecognized character: ‘

author name: عبدالرحمن العشماوي
poem name: رسالة اعتذار إلى أم المؤمنين خديجة (رضي الله عنها)
attribute: text
attribute value: أخديجة َ الأَمْجَادِ...
unrecognized character: ‘

author name: عبدالرحمن العشماوي
poem name: رسالة اعتذار إلى أم المؤمنين خديجة (رضي الله عنها)
attribute: text
attribute value: أخديجة َ الأَمْجَادِ...
unrecognized character: ‘

author name:

 88%|███████████████████████████████████     | 819/936 [00:05<00:00, 280.39it/s]

author name: عمرو بن كلثوم
poem name: إن لله علينا نعم
attribute: text
attribute value: إِنَّ   لِلَّهِ   عَ...
unrecognized character:  

author name: عمرو بن كلثوم
poem name: إن لله علينا نعم
attribute: text
attribute value: إِنَّ   لِلَّهِ   عَ...
unrecognized character:  

author name: عمرو بن كلثوم
poem name: إن لله علينا نعم
attribute: text
attribute value: إِنَّ   لِلَّهِ   عَ...
unrecognized character:  

author name: عمرو بن كلثوم
poem name: إن لله علينا نعم
attribute: text
attribute value: إِنَّ   لِلَّهِ   عَ...
unrecognized character:  

author name: عمرو بن كلثوم
poem name: إن لله علينا نعم
attribute: text
attribute value: إِنَّ   لِلَّهِ   عَ...
unrecognized character:  

author name: عمرو بن كلثوم
poem name: إن لله علينا نعم
attribute: text
attribute value: إِنَّ   لِلَّهِ   عَ...
unrecognized character:  

author name: أوس بن حجر
poem name: وباللات والعزى ومن دان دينها
attribute: text
attribute value: وَبِاللاتِ وَالعُزّى...
unrecognized character:  

author name: أوس ب

100%|████████████████████████████████████████| 936/936 [00:05<00:00, 160.08it/s]

author name: الطفيل الغنوي
poem name: بالعفر دار من جميلة هيجت
attribute: text
attribute value: بِالعُفرِ دارٌ مِن ج...
unrecognized character: o

author name: الراعي النميري
poem name: ضعيف العصا بادي العروق ترى له
attribute: text
attribute value: ضَعيفُ العَصا بادي ا...
unrecognized character: R

author name: الراعي النميري
poem name: ضعيف العصا بادي العروق ترى له
attribute: text
attribute value: ضَعيفُ العَصا بادي ا...
unrecognized character: I

author name: الراعي النميري
poem name: ضعيف العصا بادي العروق ترى له
attribute: text
attribute value: ضَعيفُ العَصا بادي ا...
unrecognized character: G

author name: الراعي النميري
poem name: ضعيف العصا بادي العروق ترى له
attribute: text
attribute value: ضَعيفُ العَصا بادي ا...
unrecognized character: H

author name: الراعي النميري
poem name: ضعيف العصا بادي العروق ترى له
attribute: text
attribute value: ضَعيفُ العَصا بادي ا...
unrecognized character: T

author name: الراعي النميري
poem name: ضعيف العصا بادي العروق ترى له
attribute: text
att




In [25]:
unknown_chars

{'\xa0': 4701,
 '\u200f': 1022,
 'ی': 609,
 '\u202c': 283,
 'ﻲ': 279,
 '\u202e': 279,
 'ﻓ': 253,
 '•': 214,
 'ﻟ': 136,
 'B': 91,
 '—': 77,
 'ٔ': 72,
 'o': 71,
 'ﺎ': 59,
 'ﻢ': 55,
 'E': 52,
 '\u200c': 49,
 '\u200a': 44,
 'گ': 41,
 'ﺍ': 40,
 '\ufeff': 40,
 'T': 38,
 'r': 37,
 'I': 37,
 'P': 36,
 'l': 33,
 'ﺇ': 31,
 'ﻰ': 31,
 'c': 31,
 'ﻭ': 29,
 'ﻬ': 29,
 'ﺑ': 29,
 'R': 29,
 '□': 29,
 'a': 28,
 'F': 27,
 'L': 24,
 'e': 22,
 'i': 22,
 '\x85': 22,
 '\u200d': 21,
 'ﻳ': 21,
 'ﻴ': 21,
 '‘': 20,
 'ٕ': 20,
 '٭': 18,
 'M': 18,
 'ﻣ': 17,
 'ﻤ': 16,
 'ﺮ': 16,
 'ﻥ': 16,
 'n': 15,
 'H': 15,
 'ﺤ': 15,
 'ﺪ': 15,
 'ﺛ': 14,
 'ﺰ': 13,
 'ﻧ': 13,
 't': 13,
 'ﻨ': 12,
 'ﺃ': 12,
 'A': 12,
 's': 11,
 'G': 11,
 '−': 11,
 'چ': 10,
 'ﻮ': 10,
 'ﻦ': 10,
 'ﻗ': 10,
 'Q': 10,
 'U': 10,
 'C': 9,
 'N': 9,
 'ﺒ': 9,
 'ﺣ': 9,
 'd': 8,
 'ک': 7,
 'ﺴ': 7,
 'ﺗ': 7,
 'ﻌ': 7,
 'ﻘ': 7,
 'b': 6,
 'u': 6,
 'ﺼ': 6,
 'ﻛ': 6,
 'ﻜ': 6,
 'ﭐ': 6,
 'W': 5,
 'O': 5,
 'S': 5,
 'ﺡ': 5,
 'ﺘ': 5,
 'ﺖ': 5,
 'ﺀ': 5,
 'ﻖ': 5,
 'ﺻ': 5,
 'ﺄ': 5,
 'ﺔ'

# Map from other Arabic formats to plain Arabic

In [26]:
chars_map = {
    'ﭬ': 'ف',
    'ﺧ': 'خ',
    'ﺊ': 'ئ',
    'ﺷ': 'ش',
    'ﺜ': 'ث',
    'ﺸ': 'ش',
    'ﻀ': 'ض',
    'ﺶ': 'ش',
    'ﻯ': 'ى',
    'ﻉ': 'ع',
    'ﺢ': 'خ',
    'ﻸ': 'لأ',
    'ﻑ': 'ف',
    'ﺺ': 'ص',
    'ﺲ': 'س',
    'ﻫ': 'ه',
    'ﻚ': 'ك',
    'ﻕ': 'ق',
    'ﻡ': 'م',
    'ﺯ': 'ز',
    'ﺿ': 'ض',
    'ﻪ': 'ه',
    'ﻏ': 'غ',
    'ﺩ': 'د',
    'ﭭ': 'ف',
    'ﻩ': 'ه',
    'ﻐ': 'غ',
    'ﺓ': 'ة',
    'ﻔ': 'ف',
    'ﺕ': 'ت',
    'ﺠ': 'ج',
    'ﻒ': 'ف',
    'ﻊ': 'ع',
    'ﻷ': 'لأ',
    'ﺳ': 'س',
    'ﻼ': 'لا',
    'ﻋ': 'ء',
    'ﻞ': 'ل',
    'ﻠ': 'ل',
    'ﺟ': 'ج',
    'ﻃ': 'ط',
    'ﺬ': 'ذ',
    'پ': 'ب',
    'ﭑ': 'آ',
    'ﺭ': 'ر',
    'ﺔ': 'ة',
    'ﺄ': 'أ',
    'ﺻ': 'ص',
    'ﻖ': 'ق',
    'ﺀ': 'ء',
    'ﺖ': 'ت',
    'ﺘ': 'ت',
    'ﺡ': 'ح',
    'ﭐ': 'آ',
    'ﻜ': 'ك',
    'ﻛ': 'ك',
    'ﺼ': 'ص',
    'ﻘ': 'ق',
    'ﻌ': 'ع',
    'ﺗ': 'ت',
    'ﺴ': 'س',
    'ک': 'ك',
    'ﺣ': 'ح',
    'ﺒ': 'ب',
    'ﻗ': 'ق',
    'ﻲ': 'ي',
    'ﻓ': 'ف',
    'ﻟ': 'ل',
    'ﺎ': 'ا',
    'ﻢ': 'م',
    'گ': 'ك',
    'ﺇ' : 'إ',
    'ﻰ': 'ى',
    'ﻭ': 'و',
    'ﻬ': 'ه',
    'ﺑ': 'ب',
    'ﻳ': 'ي',
    'ﻴ': 'ي',
    'ﻣ': 'م',
    'ﻤ': 'م',
    'ﺮ': 'ر',
    'ﻥ': 'ن',
    'ﺤ': 'ح',
    'ﺪ': 'د',
    'ﺛ': 'ث',
    'ﺰ': 'ز',
    'ﻧ': 'ن',
    'ﺃ': 'أ',
    'چ': 'ج',
    'ﻮ': 'و',
    'ﻦ': 'ن',
    'ﻲ': 'ي',
}

In [27]:
def convert_poems_to_arabic(aldiwan_dict, chars_map):
    for author_name, author_atts in tqdm(aldiwan_dict.items()):
        for poem_name, poem_atts in author_atts["poems"].items():
            text_new = ""
            for c in poem_atts["text"]:
                if c in astring.printable:
                    text_new += c
                elif c in chars_map:
                    text_new += chars_map[c]
            aldiwan_dict[author_name]["poems"][poem_name]["text"] = text_new
                    
    return aldiwan_dict

In [28]:
clean_dict = convert_poems_to_arabic(aldiwan_dict, chars_map)

100%|█████████████████████████████████████████| 936/936 [00:10<00:00, 89.74it/s]


In [29]:
unknown_chars = validate_poems_att(clean_dict, "text", verbose=1)

100%|████████████████████████████████████████| 936/936 [00:05<00:00, 164.20it/s]

All poems text fields are valid





In [32]:
with open("aldiwan_clean_0.json", "w") as f:
    json.dump(clean_dict, f, indent=4)