In [13]:
import pandas as pd
import re
import emoji
from pyarabic import araby, normalize

In [14]:
df = pd.read_csv("../../data/row/unbalanced_brad.csv")
if "Unnamed: 0" in df.columns:
    df = df.drop(columns=["Unnamed: 0"])

In [15]:
ARABIC_RANGE = r"\u0600-\u06FF"
non_arabic_pattern   = re.compile(fr"[^{ARABIC_RANGE}\s.!?,؛،؟]+")
elongation_pattern   = re.compile(r"(.)\1{2,}")          # روووعة -> رووعه
repeated_punct_pattern = re.compile(r"([.!?,؛،؟])\1+")

In [16]:
def remove_emojis(text: str) -> str:
    """Remove all emojis from text"""
    return emoji.replace_emoji(text, "")


def normalize_arabic(text: str) -> str:
    """
    Safely normalize Arabic text:
    - remove diacritics (tashkeel)
    - remove tatweel
    - lightly normalize alif variants
    WITHOUT touching ة or hamza positions
    (better for Arabic BERT vocabularies).[web:207][web:215]
    """
    # Remove tashkeel (all diacritics)
    text = araby.strip_tashkeel(text)
    
    # Remove tatweel (ـ)
    text = araby.strip_tatweel(text)
    
    # Light alif normalization (keep hamza attached)
    text = text.replace("إ", "ا").replace("أ", "ا").replace("آ", "ا").replace("ٱ", "ا")
    
    # IMPORTANT: do NOT change ة -> ه and ى -> ي here
    # so words like "رواية" و "عيسى" تبقى مقروءة جيداً لنماذج BERT[web:154]
    return text


def clean_review(text: str) -> str:
    """Clean and normalize Arabic review text"""
    if not isinstance(text, str):
        return ""
    
    # 1) Remove basic noise: URLs, emails, HTML, digits, mentions, hashtags
    text = re.sub(r"<.*?>", " ", text)
    text = re.sub(r"http[s]?://\S+|www\.\S+", " ", text)
    text = re.sub(r"\S+@\S+", " ", text)
    text = re.sub(r"@[A-Za-z0-9_]+", " ", text)
    text = re.sub(r"#[^\s]+", " ", text)
    text = re.sub(r"\d+", " ", text)
    
    # 2) Remove emojis
    text = remove_emojis(text)
    
    # 3) Arabic normalization + remove tashkeel
    text = normalize_arabic(text)
    
    # 4) Keep only Arabic + basic punctuation
    text = non_arabic_pattern.sub(" ", text)
    
    # 5) Collapse elongated letters: روووووعة -> رووعة
    text = elongation_pattern.sub(r"\1\1", text)
    
    # 6) Normalize punctuation and spaces
    text = repeated_punct_pattern.sub(r"\1", text)
    text = re.sub(r"\s+", " ", text).strip()
    
    return text


In [17]:
# -------- apply + filter --------
df["review_clean"] = df["review"].astype(str).apply(clean_review)

In [18]:
MIN_CHARS = 10
before = len(df)
df = df[df["review_clean"].str.len() >= MIN_CHARS].reset_index(drop=True)
after = len(df)
print(f"Removed {before - after} very short reviews (< {MIN_CHARS} chars).")

Removed 7083 very short reviews (< 10 chars).


In [19]:
print(df[["review", "review_clean"]].tail())

                                                   review  \
503511  إننا لا نرى جيداً إلا بالقلب، فالجوهر مختفٍ عن...   
503512                اصلا به قوت قلعه ح?وانات ن?ست؛ اصلا   
503513  اذا رغبت في شيء فان العالم كله سيطاوعك في تحقي...   
503514  لكتاب بلحق يعقدit’s genious meme si فيه قريب 5...   
503515  من اروع الرويات التي قرأتها .. حيث تحوي على كل...   

                                             review_clean  
503511  اننا لا نرى جيدا الا بالقلب، فالجوهر مختف عن ا...  
503512                اصلا به قوت قلعه ح?وانات ن?ست؛ اصلا  
503513  اذا رغبت في شيء فان العالم كله سيطاوعك في تحقي...  
503514  لكتاب بلحق يعقد فيه قريب صفحة قريتو في نهارو م...  
503515  من اروع الرويات التي قراتها . حيث تحوي على كل ...  


In [20]:
df.to_csv("../../data/processed/brad_reviews_preprocessed.csv", index=False)
print("Saved: brad_reviews_preprocessed_advanced.csv")

Saved: brad_reviews_preprocessed_advanced.csv
