In [1]:
# Append the parent directory to the system pathimport os
import os
import sys

parent_dir = os.path.dirname(os.getcwd())
sys.path.append(parent_dir)

In [2]:
from tqdm.notebook import tqdm

In [3]:
from data.corpus_builder import CorpusBuilder


In [4]:
corpus = CorpusBuilder('khaleej')

reading corpus from: /media/omar/4F4D444715DFE705/workplace/arabic-experiments/data/Khaleej-2004/


Reading corpus files:   0%|          | 0/5690 [00:00<?, ?it/s]

Corpus size: 5690
Corpus data example:
   عمان تستضيف ندوة حسن الاداء في المؤسسات المالية والتجارية   افتتحت بسلطنة عمان أمس ندوة حول حسن الاداء في المؤسسات المالية والتجارية الذي تنظمه الهيئة العامة لسوق المال والمجمع العربي للمحاسبين القانونيين بالتعاون مع مجموعة طلال ابو غزالة   وتهدف الندوة الى دعوة المهتمين للحوار وتأسيس ملتقى لتطوير مباديء عامة لحسن الاداء على مستوى العالم العربي حيث تولي الهيئة هذا الموضوع جل اهتمامها وتسعى للقيام بواجباتها نحو ترسيخ اسس التعامل السليم والامثل لضمان حسن سير العمل ايمانا منها باهمية الارتقاء بمستوى النظم الادارية المتبعة لتوفير الحماية اللازمة للشركات كما تستهدف الندوة البنوك المركزية والبنوك التجارية والمؤسسات المالية وشركات المساهمة وغرف التجارة والصناعة وجمعيات رجال الاعمال والبورصات واسواق المال واجهزة الرقابة على المصارف ومراقبي الشركات ومكاتب التدقيق وقال الرئيس التنفيذي لهيئة سوق المال يحيي بن سعيد الجابري في كلمة القاها في بداية الندوة ان هذا اللقاء يعتبر متميزا نسلط فيه الضوء على أهم جوانب تحسين الاداء في المؤسسات المالية والتجارية واوضح

Pre-tokenizing corpus:   0%|          | 0/5690 [00:00<?, ?it/s]

Number of pre-tokens: 2467267
Number of unique tokens: 122513
Pre-tokenized corpus data example:
عمان
most frequently used tokens: ['في', 'من', 'على', 'ان', 'التي', 'الى', 'أن', 'إلى', 'عن', 'البحرين']
least frequently used tokens: ['والتعتيم', 'الحؤول', 'بوعكة', 'المتاحية', 'ويستفيدون', 'لاتلعب', 'وبنان', 'بالأقل', 'وللتعرف', 'وتتضاعف']


In [5]:
corpus.derived_tokens = corpus.get_derived_tokens()

Checking derived tokens:   0%|          | 0/122513 [00:00<?, ?it/s]

Number of derived tokens: 82563


In [6]:
corpus.derived_tokens[:10]

['التي',
 'البحرين',
 'الذي',
 'خلال',
 'وقال',
 'الشيخ',
 'العام',
 'العمل',
 'المجلس',
 'العربية']

In [7]:
import re

In [10]:
def substitute_main_chars(token):
    sub_token = re.sub(r'[^سألتمونيها]', '_', token)
    return sub_token

In [11]:
substitute_main_chars('قارب')

'_ا__'

In [12]:
templates = [substitute_main_chars(token) for token in corpus.derived_tokens]

In [13]:
templates[:10]

['التي',
 'ال___ين',
 'ال_ي',
 '_لال',
 'و_ال',
 'ال_ي_',
 'ال_ام',
 'ال_مل',
 'الم_لس',
 'ال___ي_']

In [14]:
len(templates)

82563

In [16]:
templates = list(set(templates))
len(templates)

42301

In [17]:
def parse_on_template(template, token):
    token_template = substitute_main_chars(token)
    if template == token_template:
        return True
    return False

In [20]:
token = 'سارق'
template = '_ا__'
parse_on_template(template, token)

False

In [40]:
substitute_main_chars('باحث')

'_ا__'

In [32]:
templates_freq = {}
templates_freq_2 = {}
for token, freq in tqdm(corpus.pre_tokens_with_freq.items(), desc="Counting templates"):
    for template in templates:
        if parse_on_template(template, token):
            if template not in templates_freq:
                templates_freq[template] = 0
                templates_freq_2[template] = 0
            templates_freq[template] += freq
            templates_freq_2[template] += 1
            break

Counting templates:   0%|          | 0/122513 [00:00<?, ?it/s]

In [41]:
def get_template_freq(template):
    return templates_freq_2.get(template, 0)

In [42]:
templates = sorted(templates, key=get_template_freq, reverse=True)

In [43]:
templates[:40]

['ال___',
 '__ا_',
 '_ا__',
 '__ا__',
 'ال__ا_',
 '___ا',
 '_ال___',
 '___ا_',
 'وال___',
 'ال_ا__',
 '_ا___',
 'ال__ي_',
 'ال__ا__',
 'الم___',
 'ال____',
 'ال_ا___',
 'ا___',
 'ال__و_',
 '___ها',
 'الم____',
 'الت__ي_',
 'ا__ا_',
 'ال__ي__',
 'الا__ا_',
 'و_ا__',
 'م___ا',
 '_ا__ا',
 '___وا',
 '___نا',
 'م_ا__',
 'وال__ا__',
 'الم_ا__',
 'وال__ا_',
 'ال___ي',
 'ا_ت_ا_',
 'ال___ا_',
 '___ا__',
 'ال___ي_',
 'و__ا_',
 '__ي_ا']

In [37]:
# pickle templates, templates_freq, templates_freq_2
import pickle
# pickle data
with open('../data/templates.pkl', 'wb') as f:
    pickle.dump(templates, f)
with open('../data/templates_freq.pkl', 'wb') as f:
    pickle.dump(templates_freq, f)
with open('../data/templates_freq_2.pkl', 'wb') as f:
    pickle.dump(templates_freq_2, f)