In [149]:
#ٍStart with Apply modified Khoja algorithm to stem Arabic words
import re

def remove_diacritics(word):
    return re.sub('[\u064b-\u0652]', '', word)

def remove_prefix(word, prefixes):
    for prefix in prefixes:
        if word.startswith(prefix):
            return word[len(prefix):]
    return word

def remove_suffix(word, suffixes):
    for suffix in suffixes:
        if word.endswith(suffix):
            return word[:-len(suffix)]
    return word

def pattern_encoder(word):
    mapping = {'ا': '1', 'و': '2', 'ي': '3', 'م': '4'}
    encoded_word = ''.join(mapping.get(letter, '0') for letter in word)
    if not encoded_word.startswith('4'):
        encoded_word = encoded_word.replace('4', '0', 1)
    return encoded_word



def stem(word):
    prefixes = ['ال', 'و', 'ب', 'ف', 'ل', 'ك', 'ي', 'س', 'ت', 'ن', 'أ', 'م', 'إ', 'ع', 'ح', 'ر', 'ز', 'ص', 'غ', 'ض', 'ذ', 'ش', 'ظ', 'ث', 'خ', 'ج']
    suffixes = ['ا','ات','ان','انا','اني','ي','ة','ت','تا','تان','تما','تن','ته','تها','تهم','تهما','تهن','تي','تين','ك','كم','كما','م','ما','ون','ن','نا','ني','ه','ها','هم','هما','هن','وا','ونا','وني','يا','يت','يتان','ين','ينا','يني']
    patterns = ['تفعيل','فاعل', 'فعال', 'فعيل', 'مفعول', 'مفعل', 'مفعيل', 'مفعلة', 'مفاعيل', 'مفاعلة']

    encoded_patterns = []
    for pattern in patterns:
        encoded_patterns.append(pattern_encoder(pattern))

    word = remove_diacritics(word)
    if pattern_encoder(word) in encoded_patterns:
            return word
    
    temp = ''
    while len(word) > 4 and temp != word:
        temp = word

        word = remove_suffix(word, suffixes) 
        if pattern_encoder(word) in encoded_patterns:
            return word
        #print('suf ',word)
        
        word = remove_prefix(word, prefixes)
        if pattern_encoder(word) in encoded_patterns:
            return word 
        #print('pre ',word)
        
    
    return word

In [150]:
words = ['المقاولين','المصدرين','المجالات','الرؤوس','المتناقض','المدرسون','التعاونيات','الاستقلالية','أفتكاتبانني','المركزية','تعليمات','مشاريع','احترافية','أفتضاربانني']
for word in words:
    print(stem(word))


قاول
مصدر
مجال
رؤوس
ناقض
مدرس
عاون
استقلال
كاتب
مركز
تعليم
مشاريع
احتراف
ضارب


In [151]:
from tashaphyne.stemming import ArabicLightStemmer
ArListem = ArabicLightStemmer()
for word in words:
    stem = ArListem.light_stem(word)
    print (ArListem.get_stem())
    #print (ArListem.get_root())


مقاول
مصدر
مجال
رؤوس
متناقض
مدرس
تعاون
استقلال
كاتب
مركز
تعليم
مشاريع
احتراف
ضارب
