# Functions Explorer

The purpose of this notebook is to check and validate the functions in the NLMs training pipeline

Keep in mind, to properly run this noteobook, set the root folder to be the root of this repository at the same level as dotless_arabic.
To set this in jupyter vscode:

go to setting > search for Notebook File Root > change its value from `${fileDirname}` to `${workspaceFolder}`

In [1]:
import tkseem as tk
from dotless_arabic.processing import process
from dotless_arabic.experiments.nlms.src.utils import get_tokenizer
from dotless_arabic.experiments.nlms.quran_dataset.collect import collect_dataset as collect_quran_dataset

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
dataset = collect_quran_dataset()
len(dataset)

################################################################################
Number of samples:
6236
################################################################################


6236

In [3]:
tok = get_tokenizer(
    vocab_size=10_000,
    train_dataset=list(map(process,dataset)),
    tokenizer_class=tk.FarasaMorphologicalTokenizer,
)

Training FarasaMorphologicalTokenizer...


In [4]:
# source: https://ar.wikipedia.org/wiki/%D8%A7%D9%84%D9%82%D8%B1%D8%A2%D9%86
sample_text = process("""
ويعود الفضل في توحيد اللغة العربية إلى نزول القرآن الكريم، حيث لم تكن موحدة قبل هذا العهد رغم أنها كانت ذات غنى ومرونة، إلى أن نزل القرآن الكريم وتحدى الجموع ببيانه، وأعطى اللغة العربية سيلا من حسن السبك وعذوبة السجع ومن البلاغة والبيان ما عجز عنه بلغاء العرب. وقد وحد القرآن الكريم اللغة العربية توحيدا كاملا وحفظها من التلاشي والانقراض، كما حدث مع العديد من اللغات السامية الأخرى، التي أضحت لغات بائدة واندثرت مع الزمن، أو لغات طالها الضعف والانحطاط، وبالتالي عدم القدرة على مسايرة التغييرات والتجاذبات التي تعرفها الحضارة وشعوب العالم القديم والحديث
""")
sample_text

'ويعود الفضل في توحيد اللغة العربية الى نزول القران الكريم حيث لم تكن موحدة قبل هذا العهد رغم انها كانت ذات غنى ومرونة الى ان نزل القران الكريم وتحدى الجموع ببيانه واعطى اللغة العربية سيلا من حسن السبك وعذوبة السجع ومن البلاغة والبيان ما عجز عنه بلغاء العرب وقد وحد القران الكريم اللغة العربية توحيدا كاملا وحفظها من التلاشي والانقراض كما حدث مع العديد من اللغات السامية الاخرى التي اضحت لغات باىدة واندثرت مع الزمن او لغات طالها الضعف والانحطاط وبالتالي عدم القدرة على مسايرة التغييرات والتجاذبات التي تعرفها الحضارة وشعوب العالم القديم والحديث'

In [8]:
# tokenization using tkseem _base tokenize method
print([-1 if item == '<UNK>' else item for item in tok.tokenize(sample_text)])

[-1, 'الف', '##ضل', 'في', -1, -1, 'ال', '##عربي', '##ة', 'الى', -1, 'الق', '##ر', '##ان', 'ال', '##كريم', 'حيث', 'لم', 'تكن', -1, 'قبل', 'هذا', 'ال', '##عهد', -1, 'انها', 'كان', '##ت', 'ذات', -1, 'و', '##مرو', '##ن', '##ة', 'الى', 'ان', 'نزل', 'الق', '##ر', '##ان', 'ال', '##كريم', -1, -1, 'ب', '##بيان', '##ه', -1, -1, 'ال', '##عربي', '##ة', 'سيل', '##ا', 'من', 'حسن', 'ال', '##س', '##بك', -1, -1, 'ومن', 'ال', '##بلاغ', '##ة', 'وال', '##بيان', 'ما', -1, 'عن', '##ه', -1, -1, -1, 'وحد', 'الق', '##ر', '##ان', 'ال', '##كريم', -1, 'ال', '##عربي', '##ة', -1, 'كامل', '##ا', 'و', '##حفظ', '##ها', 'من', -1, -1, 'كما', -1, 'مع', -1, 'من', -1, 'ال', '##س', '##امي', '##ة', -1, 'التي', -1, 'لغ', '##ات', -1, -1, 'مع', 'الزم', '##ن', 'او', 'لغ', '##ات', 'طال', '##ها', 'ال', '##ضعف', -1, 'و', '##ب', '##ال', '##تالي', -1, -1, 'على', 'مس', '##اي', '##ر', '##ة', 'ال', '##ت', '##غي', '##ي', '##ر', '##ات', -1, 'التي', 'تعرف', '##ها', -1, -1, 'ال', '##عالم', -1, 'وال', '##حديث']


In [5]:
# tokenization using tkseem farasa_morphological_tokenizer tokenize method
print([-1 if item == '<UNK>' else item for item in tok.tokenize(sample_text)])

['و', -1, 'ال', '##فضل', 'في', -1, 'ال', -1, '##ة', 'ال', '##عربي', '##ة', 'الى', -1, 'ال', '##قران', 'ال', '##كريم', 'حيث', 'لم', 'تكن', -1, '##ة', 'قبل', 'هذا', 'ال', '##عهد', -1, 'ان', '##ها', 'كان', '##ت', 'ذات', -1, 'و', -1, '##ة', 'الى', 'ان', 'نزل', 'ال', '##قران', 'ال', '##كريم', 'و', -1, 'ال', -1, 'ب', '##بيان', '##ه', 'و', '##أعطى', 'ال', -1, '##ة', 'ال', '##عربي', '##ة', 'سيل', '##ا', 'من', 'حسن', 'ال', -1, 'و', -1, '##ة', 'ال', -1, 'و', '##من', 'ال', '##بلاغ', '##ة', 'و', '##ال', '##بيان', 'ما', -1, 'عن', '##ه', -1, 'ال', -1, 'و', '##قد', 'وحد', 'ال', '##قران', 'ال', '##كريم', 'ال', -1, '##ة', 'ال', '##عربي', '##ة', -1, '##ا', 'كامل', '##ا', 'و', '##حفظ', '##ها', 'من', 'ال', -1, 'و', '##ال', -1, 'كما', -1, 'مع', 'ال', -1, 'من', 'ال', -1, '##ات', 'ال', -1, '##ة', 'ال', '##أخرى', 'التي', -1, '##ت', 'لغ', '##ات', 'ب', -1, '##ة', 'و', -1, '##ت', 'مع', 'ال', -1, 'أو', 'لغ', '##ات', 'طال', '##ها', 'ال', '##ضعف', 'و', '##ال', -1, 'و', '##ب', '##ال', '##تالي', -1, 'ال', '##قدر', '#

In [10]:
from farasa.segmenter import FarasaSegmenter
seg = FarasaSegmenter()

In [12]:
print(seg.segment(sample_text).replace('+',' ##').split())

['و', '##يعود', 'ال', '##فضل', 'في', 'توحيد', 'ال', '##لغ', '##ة', 'ال', '##عربي', '##ة', 'الى', 'نزول', 'ال', '##قران', 'ال', '##كريم', 'حيث', 'لم', 'تكن', 'موحد', '##ة', 'قبل', 'هذا', 'ال', '##عهد', 'رغم', 'ان', '##ها', 'كان', '##ت', 'ذات', 'غنى', 'و', '##مرون', '##ة', 'الى', 'ان', 'نزل', 'ال', '##قران', 'ال', '##كريم', 'و', '##تحدى', 'ال', '##جموع', 'ب', '##بيان', '##ه', 'و', '##أعطى', 'ال', '##لغ', '##ة', 'ال', '##عربي', '##ة', 'سيل', '##ا', 'من', 'حسن', 'ال', '##سبك', 'و', '##عذوب', '##ة', 'ال', '##سجع', 'و', '##من', 'ال', '##بلاغ', '##ة', 'و', '##ال', '##بيان', 'ما', 'عجز', 'عن', '##ه', 'بلغاء', 'ال', '##عرب', 'و', '##قد', 'وحد', 'ال', '##قران', 'ال', '##كريم', 'ال', '##لغ', '##ة', 'ال', '##عربي', '##ة', 'توحيد', '##ا', 'كامل', '##ا', 'و', '##حفظ', '##ها', 'من', 'ال', '##تلاشي', 'و', '##ال', '##انقراض', 'كما', 'حدث', 'مع', 'ال', '##عديد', 'من', 'ال', '##لغ', '##ات', 'ال', '##سامي', '##ة', 'ال', '##أخرى', 'التي', 'اضح', '##ت', 'لغ', '##ات', 'ب', '##اىد', '##ة', 'و', '##اندثر', '##