# This notebook will contain the preprocessing steps for the model

In [1]:
#import advpreadv and test it
from ArbPreAdv import ArabicAdvancedPreprocessor


# Initialize the advanced preprocessor with desired settings
preprocessor = ArabicAdvancedPreprocessor(
    split_enclitics={'PRON'},
    keep_definite_article=True,
    keep_particles=True,
    use_lemmatization=False,
    use_basic_preprocessing=True
)

# Sample text for testing
sample_text = "كتابهم جميل والمعلمون يدرسون في المدرسة"

# Preprocess the sample text
processed_text = preprocessor.preprocess(sample_text)

print(f"Original: {sample_text}")
print(f"Processed: {processed_text}")

Original: كتابهم جميل والمعلمون يدرسون في المدرسة
Processed: كتابهم جميل و+ المعلمون يدرسون في المدرسة


## Comprehensive Preprocessing Tests

This section tests all preprocessing features with complex Arabic examples:
1. **Basic preprocessing**: character normalization, diacritic removal
2. **Proclitic segmentation**: conjunction (و), prepositions (ب، ل، ك)
3. **Enclitic segmentation**: pronouns (ه، هم، ها، ك)
4. **Definite article handling**: keeping/splitting ال
5. **Light stemming vs lemmatization**

In [2]:
from ArbPreAdv import ArabicAdvancedPreprocessor
from ArbPreBasic import ArabicBasicPreprocessor

# Test sentences with various morphological features
test_cases = {
    "Proclitics (و، ف، ب، ل، ك)": "وبالكتاب فللمعلم كالطالب",
    "Enclitics (pronouns)": "كتابهم ومدرستها ومعلموهم وأقلامك",
    "Definite articles": "الكتاب والمدرسة والمعلمون والطلاب",
    "Complex with all": "وبكتابهم فللمعلمين كالطالبات ومدرستها",
    "Diacritics & variants": "كِتَابٌ وَمَدْرَسَةٌ وَٱلْمُعَلِّمُونَ أَوْ إِنَّ",
    "Multiple clitics": "وبمدرستهم فسيدرسونها كالمعلمين"
}

print("="*80)
print("TEST 1: Basic Preprocessing Only")
print("="*80)
basic_preprocessor = ArabicBasicPreprocessor()
for description, text in test_cases.items():
    result = basic_preprocessor.preprocess(text)
    print(f"\n{description}:")
    print(f"  Input:  {text}")
    print(f"  Output: {result}")

TEST 1: Basic Preprocessing Only

Proclitics (و، ف، ب، ل، ك):
  Input:  وبالكتاب فللمعلم كالطالب
  Output: وبالكتاب فللمعلم كالطالب

Enclitics (pronouns):
  Input:  كتابهم ومدرستها ومعلموهم وأقلامك
  Output: كتابهم ومدرستها ومعلموهم واقلامك

Definite articles:
  Input:  الكتاب والمدرسة والمعلمون والطلاب
  Output: الكتاب والمدرسة والمعلمون والطلاب

Complex with all:
  Input:  وبكتابهم فللمعلمين كالطالبات ومدرستها
  Output: وبكتابهم فللمعلمين كالطالبات ومدرستها

Diacritics & variants:
  Input:  كِتَابٌ وَمَدْرَسَةٌ وَٱلْمُعَلِّمُونَ أَوْ إِنَّ
  Output: كتاب ومدرسة والمعلمون او ان

Multiple clitics:
  Input:  وبمدرستهم فسيدرسونها كالمعلمين
  Output: وبمدرستهم فسيدرسونها كالمعلمين


In [3]:
print("\n" + "="*80)
print("TEST 2: Advanced with Selective Proclitic/Enclitic Segmentation")
print("="*80)
adv_selective = ArabicAdvancedPreprocessor(
    split_proclitics={'CONJ', 'PREP'},  # Split و، ف، ب، ل، ك
    split_enclitics={'PRON'},  # Split pronoun suffixes
    keep_definite_article=True,  # Keep ال attached
    keep_particles=True,
    use_lemmatization=False,
    use_basic_preprocessing=True
)

for description, text in test_cases.items():
    result = adv_selective.preprocess(text)
    print(f"\n{description}:")
    print(f"  Input:  {text}")
    print(f"  Output: {result}")
    print(f"  Tokens: {result.split()}")


TEST 2: Advanced with Selective Proclitic/Enclitic Segmentation

Proclitics (و، ف، ب، ل، ك):
  Input:  وبالكتاب فللمعلم كالطالب
  Output: و+ ب+ الكتاب ف+ ل+ لمعلم ك+ الطالب
  Tokens: ['و+', 'ب+', 'الكتاب', 'ف+', 'ل+', 'لمعلم', 'ك+', 'الطالب']

Enclitics (pronouns):
  Input:  كتابهم ومدرستها ومعلموهم وأقلامك
  Output: كتابهم و+ مدرستها و+ معلموهم و+ أقلامك
  Tokens: ['كتابهم', 'و+', 'مدرستها', 'و+', 'معلموهم', 'و+', 'أقلامك']

Definite articles:
  Input:  الكتاب والمدرسة والمعلمون والطلاب
  Output: الكتاب و+ المدرسة و+ المعلمون و+ الطلاب
  Tokens: ['الكتاب', 'و+', 'المدرسة', 'و+', 'المعلمون', 'و+', 'الطلاب']

Complex with all:
  Input:  وبكتابهم فللمعلمين كالطالبات ومدرستها
  Output: و+ ب+ كتابهم ف+ ل+ لمعلمين ك+ الطالبات و+ مدرستها
  Tokens: ['و+', 'ب+', 'كتابهم', 'ف+', 'ل+', 'لمعلمين', 'ك+', 'الطالبات', 'و+', 'مدرستها']

Diacritics & variants:
  Input:  كِتَابٌ وَمَدْرَسَةٌ وَٱلْمُعَلِّمُونَ أَوْ إِنَّ
  Output: كتاب و+ مدرسة و+ المعلمون أو أن
  Tokens: ['كتاب', 'و+', 'مدرسة', 'و+', 

In [4]:
print("\n" + "="*80)
print("TEST 3: With Lemmatization")
print("="*80)
adv_lemma = ArabicAdvancedPreprocessor(
    split_proclitics={'CONJ', 'PREP'},
    split_enclitics={'PRON'},
    keep_definite_article=True,
    keep_particles=True,
    use_lemmatization=True,  # Convert to lemma (dictionary form)
    use_basic_preprocessing=True
)

lemma_tests = {
    "Verbs (past/present)": "كتب يكتب كتبوا يكتبون",
    "Nouns (singular/plural)": "معلم معلمون طالب طالبات",
    "With pronouns": "كتابه كتبهم مدرستها"
}

for description, text in lemma_tests.items():
    result = adv_lemma.preprocess(text)
    print(f"\n{description}:")
    print(f"  Input:  {text}")
    print(f"  Output: {result}")
    print(f"  Note: Words converted to base/dictionary form")


TEST 3: With Lemmatization

Verbs (past/present):
  Input:  كتب يكتب كتبوا يكتبون
  Output: كِتاب أَكْتَب كَتَب كَتَب
  Note: Words converted to base/dictionary form

Nouns (singular/plural):
  Input:  معلم معلمون طالب طالبات
  Output: مَعْلَم مُعَلِّم طالِب طالِب
  Note: Words converted to base/dictionary form

With pronouns:
  Input:  كتابه كتبهم مدرستها
  Output: كُتّاب كِتاب مُدَرِّس
  Note: Words converted to base/dictionary form


In [5]:
print("\n" + "="*80)
print("TEST 4: With Light Stemming")
print("="*80)
adv_stem = ArabicAdvancedPreprocessor(
    split_proclitics={'CONJ', 'PREP'},
    split_enclitics={'PRON'},
    keep_definite_article=True,
    keep_particles=True,
    use_light_stemming=True,  # Remove inflections but keep root+pattern
    use_basic_preprocessing=True
)

for description, text in lemma_tests.items():
    result = adv_stem.preprocess(text)
    print(f"\n{description}:")
    print(f"  Input:  {text}")
    print(f"  Output: {result}")
    print(f"  Note: Light stemming removes inflectional affixes")


TEST 4: With Light Stemming

Verbs (past/present):
  Input:  كتب يكتب كتبوا يكتبون
  Output: كُتُب كْتِب كُتِب كْتُب
  Note: Light stemming removes inflectional affixes

Nouns (singular/plural):
  Input:  معلم معلمون طالب طالبات
  Output: مَعْلَم مُعَلِّم طالِب طالِب
  Note: Light stemming removes inflectional affixes

With pronouns:
  Input:  كتابه كتبهم مدرستها
  Output: كُتّاب كُتُب مُدَرِّس
  Note: Light stemming removes inflectional affixes


In [6]:
print("\n" + "="*80)
print("TEST 5: Comparison - No Preprocessing vs Basic vs Advanced")
print("="*80)

complex_sentence = "وبكتابهم المدرسي فسيدرسونها للطلاب كالمعلمين"
print(f"\nComplex sentence: {complex_sentence}")
print("(Translation: And with their school book, they will teach it to students like the teachers)")

# No preprocessing
print(f"\n1. No preprocessing:")
print(f"   {complex_sentence}")

# Basic only
basic_result = basic_preprocessor.preprocess(complex_sentence)
print(f"\n2. Basic preprocessing (normalization, diacritics removal):")
print(f"   {basic_result}")

# Advanced - selective segmentation
adv_result = adv_selective.preprocess(complex_sentence)
print(f"\n3. Advanced - selective clitic segmentation:")
print(f"   {adv_result}")
print(f"   Tokens: {adv_result.split()}")

# Advanced - with lemmatization
lemma_result = adv_lemma.preprocess(complex_sentence)
print(f"\n4. Advanced - with lemmatization:")
print(f"   {lemma_result}")
print(f"   Tokens: {lemma_result.split()}")


TEST 5: Comparison - No Preprocessing vs Basic vs Advanced

Complex sentence: وبكتابهم المدرسي فسيدرسونها للطلاب كالمعلمين
(Translation: And with their school book, they will teach it to students like the teachers)

1. No preprocessing:
   وبكتابهم المدرسي فسيدرسونها للطلاب كالمعلمين

2. Basic preprocessing (normalization, diacritics removal):
   وبكتابهم المدرسي فسيدرسونها للطلاب كالمعلمين

3. Advanced - selective clitic segmentation:
   و+ ب+ كتابهم المدرسي ف+ س+ يدرسونها ل+ لطلاب ك+ المعلمين
   Tokens: ['و+', 'ب+', 'كتابهم', 'المدرسي', 'ف+', 'س+', 'يدرسونها', 'ل+', 'لطلاب', 'ك+', 'المعلمين']

4. Advanced - with lemmatization:
   و+ ب+ كُتّاب مَدْرَسِيّ ف+ س+ دَرَس ل+ طالِب ك+ مَعْلَم
   Tokens: ['و+', 'ب+', 'كُتّاب', 'مَدْرَسِيّ', 'ف+', 'س+', 'دَرَس', 'ل+', 'طالِب', 'ك+', 'مَعْلَم']


In [7]:
print("\n" + "="*80)
print("TEST 6: Morphological Features Extraction")
print("="*80)

# Force reload the module to get latest changes
import importlib
import sys
if 'ArbPreAdv' in sys.modules:
    del sys.modules['ArbPreAdv']
from ArbPreAdv import ArabicAdvancedPreprocessor

# Recreate preprocessor with latest code
adv_features = ArabicAdvancedPreprocessor(
    split_proclitics={'CONJ', 'PREP'},
    split_enclitics={'PRON'},
    keep_definite_article=True,
    keep_particles=True,
    use_lemmatization=False,
    use_basic_preprocessing=True
)

# Get detailed morphological features
test_sentence = "كتابهم جميل والمعلمون"
print(f"\nAnalyzing sentence: '{test_sentence}'")
print("(Translation: their book is beautiful and the teachers)")

features = adv_features.get_morphological_features(test_sentence)
print(f"\nMorphological breakdown ({len(features)} tokens):")
for i, feat in enumerate(features):
    token_text = test_sentence.split()[i]
    print(f"\n{i+1}. Token: '{token_text}'")
    print(f"   POS: {feat.get('pos', 'N/A')}")
    print(f"   Lemma: {feat.get('lex', 'N/A')}")
    print(f"   Root: {feat.get('root', 'N/A')}")
    print(f"   Gender: {feat.get('gen', 'N/A')}")
    print(f"   Number: {feat.get('num', 'N/A')}")
    print(f"   Gloss: {feat.get('gloss', 'N/A')[:50]}...")  # Truncate long glosses


TEST 6: Morphological Features Extraction

Analyzing sentence: 'كتابهم جميل والمعلمون'
(Translation: their book is beautiful and the teachers)

Morphological breakdown (3 tokens):

1. Token: 'كتابهم'
   POS: noun
   Lemma: كِتاب
   Root: ك.ت.ب
   Gender: m
   Number: s
   Gloss: book+their...

2. Token: 'جميل'
   POS: noun_prop
   Lemma: جَمِيل
   Root: ج.م.ل
   Gender: m
   Number: s
   Gloss: Jameel;Jamil;Gameel...

3. Token: 'والمعلمون'
   POS: noun
   Lemma: مُعَلِّم
   Root: ع.ل.م
   Gender: m
   Number: p
   Gloss: [part.]_+_the+teacher+[masc.pl.]...


## Summary of Preprocessing Features Tested

### 1. **Basic Preprocessing** (ArabicBasicPreprocessor)
- ✅ Character normalization (ا، أ، إ، آ → ا)
- ✅ Hamza variants (ؤ، ئ → ء)
- ✅ Ya variants (ى، ی → ي)
- ✅ Diacritic removal (َ ُ ِ ً ٌ ٍ ّ ْ)
- ✅ Tatweel removal (_)

### 2. **Advanced Morphological Preprocessing** (ArabicAdvancedPreprocessor)
- ✅ Selective proclitic segmentation (و، ف، ب، ل، ك)
- ✅ Selective enclitic segmentation (pronouns: ه، هم، ها، هن، ك، كم، etc.)
- ✅ Definite article handling (keep or split ال)
- ✅ Particle handling (keep or split)
- ✅ Light stemming (remove inflections)
- ✅ Lemmatization (convert to dictionary form)
- ✅ Morphological feature extraction (POS, root, pattern, gender, number)

### 3. **Use Cases**
- **NLP Classification**: Use selective segmentation to preserve meaning while splitting function words
- **Information Retrieval**: Use lemmatization for better search/matching
- **Text Normalization**: Use basic preprocessing for cleaning noisy text
- **Linguistic Analysis**: Extract morphological features for deeper analysis