In [2]:
import numpy as np
import pandas as pd
from datasets import *


  from .autonotebook import tqdm as notebook_tqdm


In [3]:
letter_dict = {
    "ا": "ا",
    "أ": "ا",
    "إ": "ا",
    "آ": "ا",
    "ب": "ب",
    "ت": "ب",
    "ث": "ب",
    "ج": "ح",
    "ح": "ح",
    "خ": "ح",
    "د": "د",
    "ذ": "د",
    "ر": "ر",
    "ز": "ر",
    "س": "س",
    "ش": "س",
    "ص": "ص",
    "ض": "ص",
    "ط": "ط",
    "ظ": "ط",
    "ع": "ع",
    "غ": "ع",
    "ف": "ف",
    "ق": "ف",
    "ك": "ك",
    "ل": "ل",
    "م": "م",
    "ن": "ن",
    "و": "و",
    "ؤ": "و",
    "ه": "ه",
    "ة": "ه",
    "ي": "ى",
    "ى": "ى",
    "ئ": "ى",
    " ": "_",
}

In [4]:
def replace(string, char):
    while char+char in string:
        string = string.replace(char+char, char)

    return string


In [5]:
def parse_text(text):
  text = text.strip()

  output_string = ""
  clean_string = ""
  for char in text:
    if char in letter_dict:
      clean_string += char
      output_string += letter_dict[char]
      
  clean_string = replace(clean_string, ' ')
  output_string = replace(output_string, '_')
  
  return(clean_string, output_string)


In [6]:
#Test
sample_text = "الناس - مهما- - - - اختلفت"

clean, output = parse_text(sample_text)

print(clean)
print(output)

الناس مهما اختلفت
الناس_مهما_احبلفب


In [34]:
datasetLoad = load_dataset("oscar", "unshuffled_deduplicated_ar") #cc100 Arabic dataset

In [35]:
datasetLoad.save_to_disk('ar-arrow-datasets')

Saving the dataset (67/67 shards): 100%|██████████| 9006977/9006977 [01:24<00:00, 106144.17 examples/s]


In [36]:
dataset = load_from_disk('ar-arrow-datasets')

In [37]:
print(dataset)

DatasetDict({
    train: Dataset({
        features: ['id', 'text'],
        num_rows: 9006977
    })
})


In [38]:
partialDataset = dataset['train'][slice(None, 10, None)]
full_df = pd.DataFrame(partialDataset)


In [40]:
df = full_df[["text"]]

df["text_clean"] = df["text"].apply(lambda text: parse_text(text)[0])

df["text_dotless"] = df["text"].apply(lambda text: parse_text(text)[1])

#df.drop(["text"], axis=1, inplace=True)

df.head()

Unnamed: 0,text,text_clean,text_dotless
0,مرحبا بك عزيز الزائر نتمنى لك أوقاتاً سعيدة مع...,مرحبا بك عزيز الزائر نتمنى لك أوقاتا سعيدة معن...,مرحبا_بك_عرىر_الراىر_نبمنى_لك_اوفابا_سعىده_معن...
1,ش سورة الفاتحة سورة البقرة سورة آل عمران سورة ...,ش سورة الفاتحة سورة البقرة سورة آل عمران سورة ...,س_سوره_الفابحه_سوره_البفره_سوره_ال_عمران_سوره_...
2,الزلابية من الحلويات الشهية و الذيذة التى يحبو...,الزلابية من الحلويات الشهية و الذيذة التى يحبو...,الرلابىه_من_الحلوىاب_السهىه_و_الدىده_البى_ىحبو...
3,أعلنت منظمة “أطبّاء بلا حدود” غير الحكومية الإ...,أعلنت منظمة أطبا بلا حدود غير الحكومية الإثنين...,اعلنب_منطمه_اطبا_بلا_حدود_عىر_الحكومىه_الابنىن...
4,ملاحظه بالنسبه لزوار انتو شايفين انو مدير المو...,ملاحظه بالنسبه لزوار انتو شايفين انو مدير المو...,ملاحطه_بالنسبه_لروار_انبو_ساىفىن_انو_مدىر_المو...


In [41]:
print(df["text_clean"][1])
print()
print(df["text"][1])
print('Keys:',df.keys())

ش سورة الفاتحة سورة البقرة سورة آل عمران سورة النسا سورةالمائدة سورة الانعام سورة الاعراف سورة الأ نفال سورةالتوبة سورة يونس سورة هود سورة يوسف سورة الرعد سورة أبراهيم سورةالحجر سورةالنحل سورة الاسرا سورةالكهف سورة مريم سورة طه سورة الأنبيا سورة الحج سورة المؤمنون سورة النور سورة الفرقان سورة الشعرا سورة النمل سورة القصص سورة العنكبوت سورة الروم سورة لقمان سورة السجدة سورة الأحزاب سورة سبأ سورة فاطر سورة يس سورة الصافات سورة ص سورة الزمر سورة غافر سورة فصلت سورة الشورى سورة الزخرف سورة الدخان سورة الجاثية سورةالأحقاف سورة محمد سورةالفتح سورةالحجرات سورة ق سورةالذاريات سورةالطور سورةالنجم سورةالقمر سورةالرحمن سورةالواقعة سورةالحديد سورةالمجادلة سورة الحشر سورة الممتحنة سورة الصف سورة الجمعة سورة المنافقون سورة التغابن سورة الطلاق سورة التحريم سورة الملك سورة القلم سورة الحاقة سورة المعارج سورة نوح سورة الجن سورة المزمل سورة المدثر سورة القيامة سورة الإنسان سورةالمرسلات سورة النبإ سورةالنازعات سورة عبس سورة التكوير سورة الانفطار سورة المطففين سورة الانشقاق سورة البروج سورة الطارق سورة ال

In [363]:
#dotlessPartialDataset = Dataset.from_dict(df) # to convert the pandas dataframe to a dataset
#print(dotlessPartialDataset)
