In [1]:
# ==================================================
# ุงููุณุฎุฉ ุงููุญุณููุฉ ูู ุฎูุงุฑุฒููุฉ ISRI Stemmer (NLP Project)
# ==================================================

#!pip install nltk arabic_reshaper python-bidi -q

import re
import pandas as pd
from nltk.stem.isri import ISRIStemmer

# -------------------------------
# 1๏ธโฃ ุชูุธูู ุงููุต ุงูุนุฑุจู
# -------------------------------
def normalize_arabic(text):
    """ุฅุฒุงูุฉ ุงูุชุดูููุ ุงูููุฒุงุชุ ูุงูุฑููุฒ ุบูุฑ ุงูุนุฑุจูุฉ"""
    text = re.sub(r'[ููููููููู]', '', text)               # ุฅุฒุงูุฉ ุงูุชุดููู
    text = re.sub(r'[ุฅุฃุขุง]', 'ุง', text)                  # ุชูุญูุฏ ุงูุฃูู
    text = re.sub(r'[ุคุฆ]', 'ุก', text)                    # ุชูุญูุฏ ุงูููุฒุงุช
    text = re.sub(r'[^ุก-ู\s]', '', text)                 # ุฅุฒุงูุฉ ุงูุฑููุฒ ูุงูุฃุฑูุงู
    text = re.sub(r'\s+', ' ', text).strip()             # ุฅุฒุงูุฉ ุงููุฑุงุบุงุช ุงูุฒุงุฆุฏุฉ
    return text


# -------------------------------
# 2๏ธโฃ ุชุทุจูู ISRI Stemmer ุงููุญุณูู
# -------------------------------
def improved_isri_stem(text, verbose=False):
    """ุชุทุจูู ุฎูุงุฑุฒููุฉ ISRI ุจุนุฏ ุชูุธูู ุงููุต"""
    st = ISRIStemmer()
    clean_text = normalize_arabic(text)
    words = clean_text.split()
    
    results = []
    
    for w in words:
        root = st.stem(w)
        results.append((w, root))
        if verbose:
            print(f"๐ ุงููููุฉ ุงูุฃุตููุฉ: {w}\n๐น ุงูุฌุฐุฑ ุงููุณุชุฎุฑุฌ: {root}\n{'-'*40}")
    
    df = pd.DataFrame(results, columns=["ุงููููุฉ ุงูุฃุตููุฉ", "ุงูุฌุฐุฑ ุงููุณุชุฎุฑุฌ"])
    return df


# -------------------------------
# 3๏ธโฃ ุงุฎุชุจุงุฑ ุนููู ุนูู ููุฑุฉ ุนุฑุจูุฉ
# -------------------------------
text = """
ูุงู ุงูุทูุงุจ ููุชุจูู ุงูุฏุฑูุณ ูู ุฏูุงุชุฑูู ูู ุตุจุงุญุ ูููุฑุคูู ุงููุตุต ุงููุตูุฑุฉ ูู ุงูููุชุจุฉ.
ุชุญุจ ุงููุนููุฉ ุฃู ูุฑู ุงูุทูุงุจ ุชูุฏููู ูู ุงููุชุงุจุฉ ูุงููุฑุงุกุฉ. ุงููุฏุงุฑุณ ุชูุชู ุจุชุทููุฑ ููุงุฑุงุช ุงูุทูุงุจ ุงููุบููุฉ.
"""

print("๐น ุชุทุจูู ุนููู ูุฎูุงุฑุฒููุฉ ISRI Stemmer โ ุงููุณุฎุฉ ุงููุญุณููุฉ ๐น\n")

df_results = improved_isri_stem(text, verbose=True)

print("\n๐ ุฌุฏูู ูุฎุชุตุฑ ูููุชุงุฆุฌ:\n")
print(df_results.head(15))


๐น ุชุทุจูู ุนููู ูุฎูุงุฑุฒููุฉ ISRI Stemmer โ ุงููุณุฎุฉ ุงููุญุณููุฉ ๐น

๐ ุงููููุฉ ุงูุฃุตููุฉ: ูุงู
๐น ุงูุฌุฐุฑ ุงููุณุชุฎุฑุฌ: ูุงู
----------------------------------------
๐ ุงููููุฉ ุงูุฃุตููุฉ: ุงูุทูุงุจ
๐น ุงูุฌุฐุฑ ุงููุณุชุฎุฑุฌ: ุทูุจ
----------------------------------------
๐ ุงููููุฉ ุงูุฃุตููุฉ: ููุชุจูู
๐น ุงูุฌุฐุฑ ุงููุณุชุฎุฑุฌ: ูุชุจ
----------------------------------------
๐ ุงููููุฉ ุงูุฃุตููุฉ: ุงูุฏุฑูุณ
๐น ุงูุฌุฐุฑ ุงููุณุชุฎุฑุฌ: ุฏุฑุณ
----------------------------------------
๐ ุงููููุฉ ุงูุฃุตููุฉ: ูู
๐น ุงูุฌุฐุฑ ุงููุณุชุฎุฑุฌ: ูู
----------------------------------------
๐ ุงููููุฉ ุงูุฃุตููุฉ: ุฏูุงุชุฑูู
๐น ุงูุฌุฐุฑ ุงููุณุชุฎุฑุฌ: ุฏูุชุฑ
----------------------------------------
๐ ุงููููุฉ ุงูุฃุตููุฉ: ูู
๐น ุงูุฌุฐุฑ ุงููุณุชุฎุฑุฌ: ูู
----------------------------------------
๐ ุงููููุฉ ุงู