In [5]:
import pandas as pd
import unicodedata
import re

In [6]:
df = pd.read_csv('assets/data-LID/train_Darija_LID.csv')
df.head()

Unnamed: 0,dialect,text,source,label,nwords
0,Jordan,بابا .. بابا .. شوف اديش في عروض على السفر,guymorlan/levanti,other,10
1,Jordan,يييي ما أزنخك,guymorlan/levanti,other,3
2,Jordan,الكل يروح ينام والصباح رباح,guymorlan/levanti,other,5
3,Jordan,الكابتن حابة تشوفك!,guymorlan/levanti,other,3
4,Jordan,تخيل لو عزمت كل الصف ما عداك أنت، شو بيكون شعورك؟,guymorlan/levanti,other,11


In [7]:
ARABIC_DIACRITICS = re.compile(r'[\u0610-\u061A\u064B-\u065F\u06D6-\u06ED\u200f]')
TATWEEL = 'ـ'
EASTERN_AR_NUMS = str.maketrans("۰۱۲۳۴۵۶۷۸۹", "0123456789")

def clean_darija(text):
    text = str(text)
    text = unicodedata.normalize("NFKC", text)             # Normalize Unicode
    text = text.translate(EASTERN_AR_NUMS)                 # Convert Eastern Arabic numerals to 0–9
    text = text.replace(TATWEEL, '')                       # Remove Tatweel
    text = ARABIC_DIACRITICS.sub('', text)                 # Remove diacritics
    text = re.sub(r'[^\u0600-\u06FF\u0750-\u077F\u08A0-\u08FF'
                  r'\uFB50-\uFDFF\uFE70-\uFEFF\n0-9 ]+', '', text)  # Keep Arabic, numbers, space, \n
    text = re.sub(r'[^\S\n]+', ' ', text).strip()          # Normalize spaces, preserve \n
    return text


In [8]:
df = df[df['label'] == 'ary']
corpus = df['text'].apply(clean_darija).tolist()

In [9]:
del df

In [11]:
from utils.BPE import BytePairEncoding

encoder = BytePairEncoding(num_merges=100)

In [12]:
encoder.train(corpus)

Merge 1: ('ا', 'ل')
Merge 2: ('ي', '</w>')
Merge 3: ('ة', '</w>')
Merge 4: ('ا', '</w>')
Merge 5: ('ن', '</w>')
Merge 6: ('د', '</w>')
Merge 7: ('د', 'ي')
Merge 8: ('ش', '</w>')
Merge 9: ('ه', 'ا')
Merge 10: ('ر', '</w>')
Merge 11: ('؟', '</w>')
Merge 12: ('و', '</w>')
Merge 13: ('ت', '</w>')
Merge 14: ('ها', 'د</w>')
Merge 15: ('ك', '</w>')
Merge 16: ('ال', '</w>')
Merge 17: ('ه', '</w>')
Merge 18: ('ا', 'ش</w>')
Merge 19: ('ر', 'ا')
Merge 20: ('ف', '</w>')
Merge 21: ('،', '</w>')
Merge 22: ('ل', 'ي')
Merge 23: ('ش', 'ي</w>')
Merge 24: ('ل', '</w>')
Merge 25: ('ب', '</w>')
Merge 26: ('ال', 'م')
Merge 27: ('م', '</w>')
Merge 28: ('دي', 'ال</w>')
Merge 29: ('ن', 'ي</w>')
Merge 30: ('ف', 'ي')
Merge 31: ('ك', 'ي')
Merge 32: ('خ', 'ا')
Merge 33: ('د', 'ا')
Merge 34: ('ى', '</w>')
Merge 35: ('ع', 'ل')
Merge 36: ('ك', 'ت')
Merge 37: ('ب', 'ا')
Merge 38: ('ك', 'ا')
Merge 39: ('خا', 'ص')
Merge 40: ('ال', 'ل')
Merge 41: ('ي', 'ا')
Merge 42: ('ن', 'ا</w>')
Merge 43: ('م', 'ا')
Merge 44: ('و', 'ا

{'ال والي</w>': 27,
 'دا ر</w>': 1233,
 'خ ط ا ب</w>': 32,
 'م ه م</w>': 208,
 'البا ر ح</w>': 535,
 'خاصني</w>': 7669,
 'نت ق ا ت ل</w>': 24,
 'على</w>': 11269,
 'هاد</w>': 32920,
 'البي ر م ي</w>': 49,
 'با غي</w>': 740,
 'نت عل م</w>': 1002,
 'ل ون ك لي</w>': 6,
 'باش</w>': 12417,
 'ن خ د م</w>': 344,
 'م ع</w>': 2505,
 'الش ر كا ت</w>': 99,
 'ال دو لية</w>': 11,
 'أ نا</w>': 1360,
 'ط الب</w>': 39,
 'في</w>': 9453,
 'الج ا م ع ة</w>': 107,
 'خ ص ني</w>': 1326,
 'ن ر ت اش</w>': 1,
 'من</w>': 9265,
 'دا با</w>': 2119,
 'نق د ر</w>': 1606,
 'ن و ص ل</w>': 243,
 'لل ش ه ر</w>': 6,
 'الج ا ي</w>': 158,
 'واش</w>': 16305,
 'كت عر ف</w>': 1124,
 'شي</w>': 19038,
 'ديال</w>': 22665,
 'اللي</w>': 6566,
 'م و ث و ق ة؟</w>': 6,
 'أ ش ن و</w>': 157,
 'وا ق ع ؟</w>': 82,
 'ك ل</w>': 1406,
 'وا ح د</w>': 3525,
 'ر ز ق ه</w>': 3,
 'م كت و ب</w>': 34,
 'نت لا ق ا و</w>': 138,
 'فالس ا ع ة</w>': 17,
 'خاص نا</w>': 4635,
 'ن ص ل ح و</w>': 118,
 'ال علا ق ة</w>': 24,
 'بين</w>': 323,
 'الش ع ب</w>': 

In [13]:
encoder.save("assets/models/BPE.pkl")

BPE model saved to assets/models/BPE.pkl


In [14]:
bpe = BytePairEncoding()
bpe.load("assets/models/BPE.pkl") 

tokens = bpe.encode("خاصني نتعلم باش نخدم")
print(tokens)

BPE model loaded from assets/models/BPE.pkl
['خاصني</w>', 'نت', 'عل', 'م</w>', 'ب', 'اش</w>', 'ن', 'خ', 'د', 'م</w>']
