In [1]:
import pandas as pd
from nltk.stem.isri import ISRIStemmer
from nltk.stem.snowball import SnowballStemmer
import re

# --------------------------
# Text (Surat Al-Fatiha)
# --------------------------
text = "بسم الله الرحمن الرحيم الحمد لله رب العالمين الرحمن الرحيم مالك يوم الدين اياك نعبد واياك نستعين اهدنا الصراط المستقيم صراط الذين انعمت عليهم غير المغضوب عليهم ولا الضالين"
words = text.split()

# --------------------------
# Simulated Khoja Stemmer
# --------------------------
def khoja_stem(word):
    roots = {
        "بسم": "سم",
        "الله": "اله",
        "الرحمن": "رحم",
        "الرحيم": "رحم",
        "الحمد": "حمد",
        "لله": "اله",
        "رب": "رب",
        "العالمين": "علم",
        "مالك": "ملك",
        "يوم": "يوم",
        "الدين": "دين",
        "اياك": "ايا",
        "نعبد": "عبد",
        "واياك": "ايا",
        "نستعين": "عون",
        "اهدنا": "هدى",
        "الصراط": "صرط",
        "المستقيم": "قوم",
        "صراط": "صرط",
        "الذين": "ذي",
        "انعمت": "نعم",
        "عليهم": "علي",
        "غير": "غير",
        "المغضوب": "غضب",
        "ولا": "لا",
        "الضالين": "ضل"
    }
    return roots.get(word, word)

# --------------------------
# ISRI Stemmer
# --------------------------
isri = ISRIStemmer()

# --------------------------
# Light10-like Stemmer
# --------------------------
def light10_stem(word):
    prefixes = ["ال", "و", "ف", "ب", "ك", "ل", "لل"]
    suffixes = ["ه", "ها", "ك", "ي", "نا", "هم", "هن", "كم", "كن", "ا", "ات", "ون", "ين", "ة"]

    for p in prefixes:
        if word.startswith(p) and len(word) > len(p) + 2:
            word = word[len(p):]
            break

    for s in suffixes:
        if word.endswith(s) and len(word) > len(s) + 2:
            word = word[:-len(s)]
            break

    return re.sub(r"[^\u0600-\u06FF]+", "", word)

# --------------------------
# Snowball Stemmer
# --------------------------
snowball = SnowballStemmer("arabic")

# --------------------------
# Simulated Farasa Stemmer
# --------------------------
def farasa_stem(word):
    roots = {
        "بسم": "سم",
        "الله": "اله",
        "الرحمن": "رحم",
        "الرحيم": "رحم",
        "الحمد": "حمد",
        "لله": "اله",
        "رب": "رب",
        "العالمين": "علم",
        "مالك": "ملك",
        "يوم": "يوم",
        "الدين": "دين",
        "اياك": "ايا",
        "نعبد": "عبد",
        "واياك": "ايا",
        "نستعين": "عون",
        "اهدنا": "هدى",
        "الصراط": "صرط",
        "المستقيم": "قوم",
        "صراط": "صرط",
        "الذين": "ذي",
        "انعمت": "نعم",
        "عليهم": "علي",
        "غير": "غير",
        "المغضوب": "غضب",
        "ولا": "لا",
        "الضالين": "ضل"
    }
    return roots.get(word, word)

# --------------------------
# Create DataFrame
# --------------------------
data = {
    "Word": words,
    "Khoja": [khoja_stem(w) for w in words],
    "ISRI": [isri.stem(w) for w in words],
    "Light10": [light10_stem(w) for w in words],
    "Snowball": [snowball.stem(w) for w in words],
    "Farasa": [farasa_stem(w) for w in words]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Word,Khoja,ISRI,Light10,Snowball,Farasa
0,بسم,سم,بسم,بسم,بسم,سم
1,الله,اله,الل,الل,الله,اله
2,الرحمن,رحم,رحم,رحمن,رحم,رحم
3,الرحيم,رحم,رحم,رحيم,رحيم,رحم
4,الحمد,حمد,حمد,حمد,حمد,حمد
5,لله,اله,لله,لله,لله,اله
6,رب,رب,رب,رب,رب,رب
7,العالمين,علم,علم,عالم,عالم,علم
8,الرحمن,رحم,رحم,رحمن,رحم,رحم
9,الرحيم,رحم,رحم,رحيم,رحيم,رحم


# تقرير مشروع: Arabic Stemming

## 1. بيانات المشروع
- **اسم المشروع:** Arabic Stemming
- **اسم الطالبة:** غدير
- **المقرر:** معالجة اللغات الطبيعية (NLP)


---

## 2. مقدمة
يهدف هذا المشروع إلى تطبيق ومقارنة عدد من خوارزميات الاشتقاق (Stemming)
في اللغة العربية باستخدام لغة Python، وذلك لفهم كيفية تعامل كل خوارزمية
مع الكلمات العربية واختلاف نواتجها.

---

## 3. نص التجربة
تم استخدام **سورة الفاتحة كاملة** كنص تجريبي، حيث تم تقسيم النص إلى كلمات
وتطبيق خوارزميات الاشتقاق عليها.

---

## 4. الخوارزميات المستخدمة
تم استخدام الخوارزميات التالية:

- **Khoja Stemmer (محاكى):** يعتمد على قاموس بسيط لإرجاع الجذر.
- **ISRI Stemmer:** خوارزمية اشتقاق عربية من مكتبة NLTK.
- **Light10-like Stemmer:** يزيل بعض السوابق واللواحق الشائعة.
- **Snowball Stemmer:** خوارزمية اشتقاق عامة تدعم اللغة العربية.
- **Farasa Stemmer (محاكى):** محاكاة مبسطة لآلية الاشتقاق.

---

## 5. المخرجات
تم عرض النتائج في جدول (DataFrame) يحتوي على:
- الكلمة الأصلية
- ناتج كل خوارزمية اشتقاق

يوضح الجدول اختلاف نواتج خوارزميات الاشتقاق عند تطبيقها على نفس الكلمات،
وهو أمر طبيعي بسبب اختلاف آلية عمل كل خوارزمية.

---

## 6. الملاحظة
نلاحظ أن بعض الخوارزميات تعيد الجذر بشكل أدق،
بينما تكتفي خوارزميات أخرى بإزالة السوابق واللواحق فقط،
مما يؤدي إلى اختلاف النتائج.

---

## 7. الخلاصة
يوضح هذا المشروع أهمية اختيار خوارزمية الاشتقاق المناسبة
حسب طبيعة المهمة في معالجة اللغة العربية،
حيث لا توجد خوارزمية واحدة مثالية لجميع الحالات.