# Basic Preprocessing Pipeline for merged Arabic Dataset and translated english dataset

This notebook loads the Arabic training data, and the eng to arb data, merges them, and applies basic preprocessing (character normalization, diacritic removal), and saves the cleaned dataset.

In [1]:
import pandas as pd
import sys
import os

# Add parent directory to path to import preprocessing module
sys.path.insert(0, os.path.abspath('..'))

from ArbPreBasic import ArabicBasicPreprocessor

print("✓ Libraries imported successfully")

✓ Libraries imported successfully


In [2]:
# Load the Arabic training dataset
train_path = '../train/arb.csv'
df = pd.read_csv(train_path)

print(f"✓ Dataset loaded from: {train_path}")
print(f"  Shape: {df.shape}")
print(f"  Columns: {list(df.columns)}")
print(f"\nFirst few rows:")
df.head()

✓ Dataset loaded from: ../train/arb.csv
  Shape: (3380, 3)
  Columns: ['id', 'text', 'polarization']

First few rows:


Unnamed: 0,id,text,polarization
0,arb_a2a60c8b4af3389e842d8ec31afb0eea,احلام انتي ونعالي ومنو انتي حتى تقيمين الفناني...,1
1,arb_6723e56a672674a6c1d9b28b213c4a05,وره الكواليس تنيجج من وره بعير صطناعي على فكرة...,1
2,arb_b0365d606edeee38ae6c025b1ca33e96,.خخخخ الملكه احلام فيها شذوذ شنو هل بوس والدلع...,1
3,arb_858c0ee684049ba6f416a6cecb0b0761,الله يخزي احلام هي والبرنامج الخايس الي كله مصخره,1
4,arb_bdafc73afd0bc2cd2badae2a089446b9,كس ام احلام الي ماربتها وش ملكه هههه متستاهل م...,1


In [3]:
#Load the translated English to Arabic dataset
eng2arb_path = '../train/eng2arb.csv'
df_eng2arb = pd.read_csv(eng2arb_path)

print(f"✓ Dataset loaded from: {eng2arb_path}")
print(f"  Shape: {df_eng2arb.shape}")
print(f"  Columns: {list(df_eng2arb.columns)}")
print(f"\nFirst few rows:")
df_eng2arb.head()

✓ Dataset loaded from: ../train/eng2arb.csv
  Shape: (2676, 6)
  Columns: ['id', 'text', 'polarization', 'dialect_code', 'dialect_name', 'translated_text']

First few rows:


Unnamed: 0,id,text,polarization,dialect_code,dialect_name,translated_text
0,eng_973938b90b0ff5d87d35a582f83f5c89,is defending imperialism in the dnd chat,0,apc,North Levantine Arabic,عم يدافع عن الإمبريالية في شات دي إن دي
1,eng_07dfd4600426caca6e2c5883fcbea9ea,Still playing with this. I am now following Ra...,0,ary,Maghrebi Arabic,ما زال نلعب بهذا. دابا تابعا راشيل مادّي من ms...
2,eng_f14519ff2302b6cd47712073f13bc461,.senate.gov Theres 3 groups out there Republic...,0,acw,Hejazi Arabic,.gov.senate في بريطانيا؟ في ثلاث مجموعات: الجم...
3,eng_e48b7e7542faafa544ac57b64bc80daf,"""ABC MD, David Anderson, said the additional f...",0,afb,Gulf Arabic,قال ديفيد أندرسون، المدير الطبي في ABC، إن الأ...
4,eng_7c581fb77bce8033aeba3d6dbd6273eb,"""bad people"" I have some conservative values s...",0,arz,Egyptian Arabic,"""ناس وحشة"" عندي قيم محافظة فهل ده بيخليني واحد..."


In [4]:
# Keep only the required columns from eng2arb dataset
df_eng2arb = df_eng2arb[['id', 'polarization', 'translated_text']]

print(f"✓ Columns filtered")
print(f"  Shape: {df_eng2arb.shape}")
print(f"  Columns: {list(df_eng2arb.columns)}")
print(f"\nFirst few rows:")
df_eng2arb.head()

✓ Columns filtered
  Shape: (2676, 3)
  Columns: ['id', 'polarization', 'translated_text']

First few rows:


Unnamed: 0,id,polarization,translated_text
0,eng_973938b90b0ff5d87d35a582f83f5c89,0,عم يدافع عن الإمبريالية في شات دي إن دي
1,eng_07dfd4600426caca6e2c5883fcbea9ea,0,ما زال نلعب بهذا. دابا تابعا راشيل مادّي من ms...
2,eng_f14519ff2302b6cd47712073f13bc461,0,.gov.senate في بريطانيا؟ في ثلاث مجموعات: الجم...
3,eng_e48b7e7542faafa544ac57b64bc80daf,0,قال ديفيد أندرسون، المدير الطبي في ABC، إن الأ...
4,eng_7c581fb77bce8033aeba3d6dbd6273eb,0,"""ناس وحشة"" عندي قيم محافظة فهل ده بيخليني واحد..."


In [5]:
# Rename 'translated_text' to 'text' to match the Arabic dataset column
df_eng2arb = df_eng2arb.rename(columns={'translated_text': 'text'})

# Merge both datasets
df_merged = pd.concat([df, df_eng2arb], ignore_index=True)

print(f"✓ Datasets merged successfully")
print(f"  Arabic dataset shape: {df.shape}")
print(f"  English to Arabic dataset shape: {df_eng2arb.shape}")
print(f"  Merged dataset shape: {df_merged.shape}")
print(f"\nMerged dataset info:")
print(f"  Columns: {list(df_merged.columns)}")
print(f"  Total rows: {len(df_merged)}")
print(f"\nFirst few rows:")
df_merged.head()

✓ Datasets merged successfully
  Arabic dataset shape: (3380, 3)
  English to Arabic dataset shape: (2676, 3)
  Merged dataset shape: (6056, 3)

Merged dataset info:
  Columns: ['id', 'text', 'polarization']
  Total rows: 6056

First few rows:


Unnamed: 0,id,text,polarization
0,arb_a2a60c8b4af3389e842d8ec31afb0eea,احلام انتي ونعالي ومنو انتي حتى تقيمين الفناني...,1
1,arb_6723e56a672674a6c1d9b28b213c4a05,وره الكواليس تنيجج من وره بعير صطناعي على فكرة...,1
2,arb_b0365d606edeee38ae6c025b1ca33e96,.خخخخ الملكه احلام فيها شذوذ شنو هل بوس والدلع...,1
3,arb_858c0ee684049ba6f416a6cecb0b0761,الله يخزي احلام هي والبرنامج الخايس الي كله مصخره,1
4,arb_bdafc73afd0bc2cd2badae2a089446b9,كس ام احلام الي ماربتها وش ملكه هههه متستاهل م...,1


In [6]:
# Check merged dataset info
print("=" * 50)
print("MERGED DATASET INFORMATION")
print("=" * 50)
print(f"  Total records: {len(df_merged)}")
print(f"\nNull values:")
print(df_merged.isnull().sum())
print(f"\nPolarization distribution:")
print(df_merged['polarization'].value_counts().sort_index())
print(f"\nPolarization percentages:")
print(df_merged['polarization'].value_counts(normalize=True).sort_index() * 100)

MERGED DATASET INFORMATION
  Total records: 6056

Null values:
id              0
text            0
polarization    0
dtype: int64

Polarization distribution:
polarization
0    3542
1    2514
Name: count, dtype: int64

Polarization percentages:
polarization
0    58.48745
1    41.51255
Name: proportion, dtype: float64


In [7]:
# Initialize the basic preprocessor
preprocessor = ArabicBasicPreprocessor()

print("✓ Basic preprocessor initialized")
print("\nPreprocessor features:")
print("  • Character normalization (Alef, Hamza, Ya variants)")
print("  • Diacritic removal")
print("  • Tatweel removal")

# Test on a sample
sample = df_merged['text'].iloc[0]
print(f"\n{'='*80}")
print("Sample preprocessing:")
print(f"{'='*80}")
print(f"Original:\n{sample[:100]}...")
print(f"\nPreprocessed:\n{preprocessor.preprocess(sample)[:100]}...")

✓ Basic preprocessor initialized

Preprocessor features:
  • Character normalization (Alef, Hamza, Ya variants)
  • Diacritic removal
  • Tatweel removal

Sample preprocessing:
Original:
احلام انتي ونعالي ومنو انتي حتى تقيمين الفنانين الملكه احلام هههههههه البقره احلام بابا عوفي الفن لا...

Preprocessed:
احلام انتي ونعالي ومنو انتي حتي تقيمين الفنانين الملكه احلام هههههههه البقره احلام بابا عوفي الفن لا...


In [8]:
# Apply preprocessing to all texts
print(f"Preprocessing {len(df_merged)} texts...")

df_merged['text_clean'] = df_merged['text'].apply(lambda x: preprocessor.preprocess(x) if pd.notna(x) else x)

print(f"✓ Preprocessing complete!")
print(f"\nDataset shape: {df_merged.shape}")
print(f"Columns: {list(df_merged.columns)}")

Preprocessing 6056 texts...
✓ Preprocessing complete!

Dataset shape: (6056, 4)
Columns: ['id', 'text', 'polarization', 'text_clean']


In [9]:
# Compare original vs preprocessed
print("Comparison: Original vs Preprocessed\n")
print("="*100)

for i in range(3):
    print(f"\nExample {i+1}:")
    print(f"  Original:  {df_merged['text'].iloc[i][:80]}...")
    print(f"  Clean:     {df_merged['text_clean'].iloc[i][:80]}...")
    print(f"  Label:     {df_merged['polarization'].iloc[i]}")
    print("-"*100)

# Statistics
orig_len = df_merged['text'].str.len().mean()
clean_len = df_merged['text_clean'].str.len().mean()
print(f"\nText Length Statistics:")
print(f"  Original average:     {orig_len:.2f} chars")
print(f"  Preprocessed average: {clean_len:.2f} chars")
print(f"  Reduction:            {(orig_len - clean_len) / orig_len * 100:.2f}%")

Comparison: Original vs Preprocessed


Example 1:
  Original:  احلام انتي ونعالي ومنو انتي حتى تقيمين الفنانين الملكه احلام هههههههه البقره احل...
  Clean:     احلام انتي ونعالي ومنو انتي حتي تقيمين الفنانين الملكه احلام هههههههه البقره احل...
  Label:     1
----------------------------------------------------------------------------------------------------

Example 2:
  Original:  وره الكواليس تنيجج من وره بعير صطناعي على فكرة احﻻم رجل مو مره لهن تخيل على البن...
  Clean:     وره الكواليس تنيجج من وره بعير صطناعي علي فكرة احﻻم رجل مو مره لهن تخيل علي البن...
  Label:     1
----------------------------------------------------------------------------------------------------

Example 3:
  Original:  .خخخخ الملكه احلام فيها شذوذ شنو هل بوس والدلع مع شذا والله عيب اطلعت بويه احلام...
  Clean:     .خخخخ الملكه احلام فيها شذوذ شنو هل بوس والدلع مع شذا والله عيب اطلعت بويه احلام...
  Label:     1
-------------------------------------------------------------------------------------------------

In [10]:
# Also create a clean version with only the preprocessed text
df_clean = df_merged[['id', 'text_clean', 'polarization']].copy()
df_clean.rename(columns={'text_clean': 'text'}, inplace=True)

clean_output_path = '../train/arb_eng2arb_clean_basic.csv'
df_clean.to_csv(clean_output_path, index=False)

print(f"\n✓ Clean version saved!")
print(f"  Location: {clean_output_path}")
print(f"  Shape: {df_clean.shape}")
print(f"\n{'='*80}")
print("SUMMARY")
print(f"{'='*80}")
print(f"Processed {len(df_merged)} records")
print(f"Arabic records: {len(df)}")
print(f"Translated English records: {len(df_eng2arb)}")


✓ Clean version saved!
  Location: ../train/arb_eng2arb_clean_basic.csv
  Shape: (6056, 3)

SUMMARY
Processed 6056 records
Arabic records: 3380
Translated English records: 2676
