In [4]:
import json


def preprocess(text):
    """ Simple Arabic tokenizer and sentencizer. It is a space-based tokenizer. I use some rules to handle
    tokenition exception like words containing the preposition 'و'. For example 'ووالدته' is tokenized to 'و والدته'
    :param text: Arabic text to handle
    :return: tokenized sentences
    """
    try:
        text = text.decode('utf-8')
    except(UnicodeDecodeError, AttributeError):
        pass
    text = text.strip()
    tokenizer_exceptions = ["وظف", "وضعها", "وضعه", "وقفنا", "وصفوها", "وجهوا", "والدته", "والده", "وادي", "وضعية",
                            "واجهات", "وفرتها", "وقاية", "وفا", "وزيرنا", "وزارتي", "وجهاها", "واردة", "وضعته",
                            "وضعتها", "وجاهة", "وهمية", "واجهة", "واضعاً", "واقعي", "ودائع", "واعدا", "واع", "واسعا",
                            "ورائها", "وحدها", "وزارتي", "وزارتي", "والدة", "وزرائها", "وسطاء", "وليامز", "وافق",
                            "والدها", "وسم", "وافق", "وجهها", "واسعة", "واسع", "وزنها", "وزنه",
                            "وصلوا", "والدها", "وصولاً", "وضوحاً", "وجّهته", "وضعته", "ويكيليكس", "وحدها", "وزيراً",
                            "وقفات", "وعر", "واقيًا", "وقوف", "وصولهم", "وارسو", "واجهت", "وقائية", "وضعهم",
                            "وسطاء", "وظيفته", "ورائه", "واسع", "ورط", "وظفت", "وقوف", "وافقت", "وفدًا", "وصلتها",
                            "وثائقي", "ويليان", "وساط", "وُقّع", "وَقّع", "وخيمة", "ويست", "والتر", "وهران", "ولاعة",
                            "ولايت", "والي", "واجب", "وظيفتها", "ولايات", "واشنطن", "واصف",
                            "وقح", "وعد", "وقود", "وزن", "وقوع", "ورشة", "وقائع", "وتيرة", "وساطة", "وفود", "وفات",
                            "وصاية", "وشيك", "وثائق", "وطنية", "وجهات", "وجهت", "وعود", "وضعهم", "وون", "وسعها", "وسعه",
                            "ولاية", "واصفاً", "واصلت", "وليان", "وجدتها", "وجدته", "وديتي", "وطأت", "وطأ", "وعودها",
                            "وجوه", "وضوح", "وجيز", "ورثنا", "ورث", "واقع", "وهم", "واسعاً", "وراثية", "وراثي", "والاس",
                            "واجهنا", "وابل", "ويكيميديا", "واضحا", "واضح", "وصفته", "واتساب", "وحدات", "ون",
                            "وورلد", "والد", "وكلاء", "وتر", "وثيق", "وكالة", "وكالات", "و احدة", "واحد", "وصيته",
                            "وصيه", "ويلمينغتون", "ولد", "وزر", "وعي", "وفد", "وصول", "وقف", "وفاة", "ووتش", "وسط",
                            "وزراء", "وزارة", "ودي", "وصيف", "ويمبلدون", "وست", "وهج", "والد", "وليد", "وثار",
                            "وجد", "وجه", "وقت", "ويلز", "وجود", "وجيه", "وحد", "وحيد", "ودا", "وداد", "ودرو",
                            "ودى", "وديع", "وراء", "ورانس", "ورث", "ورَّث", "ورد", "وردة", "ورق", "ورم", "وزير",
                            "وسام", "وسائل", "وستون", "وسط", "وسن", "وسيط", "وسيلة", "وسيم", "وصاف", "وصف", "وصْفَ",
                            "وصل", "وضع", "وطن", "وعاء", "وفاء", "وفق", "وفيق", "وقت", "وقع", "وكال", "وكيل",
                            "ولاء", "ولف", "وهب", "وباء", "ونستون", "وضح", "وجب", "وقّع", "ولنغتون", "وحش",
                            "وفر", "ولادة", "ولي", "وفيات", "وزار", "وجّه", "وهماً", "وجَّه", "وظيفة", "وظائف", "وقائي"]

    sentence_splitter_exceptions = ["د.", "كي.", "في.", "آر.", "بى.", "جى.", "دى.", "جيه.", "ان.", "ال.", "سى.", "اس.",
                                    "اتش.", "اف."]

    sentence_splitters = ['.', '!', '؟', '\n']
    text = text.replace('،', ' ، ')
    text = text.replace('*', ' * ')
    text = text.replace('’', ' ’ ')
    text = text.replace('‘', ' ‘ ')
    text = text.replace(',', ' , ')
    text = text.replace('(', ' ( ')
    text = text.replace(')', ' ) ')
    text = text.replace('/', ' / ')
    text = text.replace('[', ' [ ')
    text = text.replace(']', ' ] ')
    text = text.replace('|', ' | ')
    text = text.replace('؛', ' ؛ ')
    text = text.replace('«', ' « ')
    text = text.replace('»', ' » ')
    text = text.replace('!', ' ! ')
    text = text.replace('-', ' - ')
    text = text.replace('“', ' “ ')
    text = text.replace('”', ' ” ')
    text = text.replace('"', ' " ')
    text = text.replace('؟', ' ؟ ')
    text = text.replace(':', ' : ')
    text = text.replace('…', ' … ')
    text = text.replace('..', ' .. ')
    text = text.replace('...', ' ... ')
    text = text.replace('\'', ' \' ')
    text = text.replace('\n', ' \n ')
    text = text.replace('  ', ' ')
    tokens = text.split()
    for i, token in enumerate(tokens):
        if token[-1] in sentence_splitters:
            is_exceptions = token in sentence_splitter_exceptions
            if not is_exceptions:
                tokens[i] = token[:-1] + ' ' + token[-1] + 'SENT_SPLITTER'
    tokens = ' '.join(tokens).split()
    for i, token in enumerate(tokens):
        if token.startswith('و'):
            is_exceptions = [token.startswith(exception) and len(token) <= len(exception) + 1 for exception in
                             tokenizer_exceptions]
            if True not in is_exceptions:
                tokens[i] = token[0] + ' ' + token[1:]
    text = (' '.join(tokens))
    text = text.replace(' وال', ' و ال')
    text = text.replace(' لل', ' ل ل')
    text = text.replace(' لإ', ' ل إ')
    text = text.replace(' بالأ', ' ب الأ')
    text = text.replace('وفقا ل', 'وفقا ل ')
    text = text.replace('نسبة ل', 'نسبة ل ')

#add by me 
    text = text.replace(' بال', ' ب ال')
    text = text.replace(' بب', ' ب ب')


    #sentences = text.split('SENT_SPLITTER')
   # return sentences
    return text

#clean word from dump chars:

dump_chars = '!"#$%&\'()*+,-./:;<=>?@[\]^_`{|}~’،ـ؟؛«» '
def clean_word(word):
    word = word.translate(str.maketrans({key: None for key in dump_chars})) 
    #remove tashkeel
    p_tashkeel = re.compile(r'[\u0617-\u061A\u064B-\u0652]')
    word = re.sub(p_tashkeel,"", word)
    
    return word


In [5]:
# from sklearn.svm import LinearSVC
# from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer,TfidfVectorizer
import pickle
import pandas as pd
import re

# load the model from disk
modelfilename = r'C:\my lap\Graduation proj\ArabicNER\Predication\lsvm.sav'
loaded_model = pickle.load(open(modelfilename, 'rb'))

# load the vectorizer from disk
vectorizerfilename = r'C:\my lap\Graduation proj\ArabicNER\Predication\vectorizer.pickle'
loaded_vectorizer = pickle.load(open(vectorizerfilename, 'rb'))

# load the tfidf from disk
tfidffilename = r'C:\my lap\Graduation proj\ArabicNER\Predication\tfidf.pickle'
loaded_tfidf = pickle.load(open(tfidffilename, 'rb'))


# --------------------------------------------------------

def RunNER(phrase):
    phrase=preprocess(phrase)
    arr = phrase.split()
    y = []
    token = []
    for x in arr:
        x=clean_word(x)
        x = [x]
        test_str = loaded_vectorizer.transform(x)
        test_tfstr = loaded_tfidf.transform(test_str)
        test_tfstr.shape
        token.append(x)
        y.append(loaded_model.predict(test_tfstr.toarray())[0])
    return token, y


# --------------------------------------------------------
f = open(r"C:\my lap\Graduation proj\ArabicNER\Predication\Abo.txt", 'r', encoding='utf8')
phrase = str(f.read())
token, y = RunNER(phrase)


# for phrase in read_file:
#     arr=phrase.split()
# phrase="هو مؤسس التقويم الهجري، وفي عهده بلغ الإسلام مبلغًا عظيمًا، وتوسع نطاق الدولة الإسلامية حتى شمل كامل العراق ومصر وليبيا والشام وفارس وخراسان وشرق الأناضول وجنوب أرمينية وسجستان،"


# print Results
l = set()
m = set()
for i in range(0, len(token)):
    if (y[i] == "B-LOC"):
        l.add(token[i][0])
        print(token[i][0], y[i])
    elif(y[i] == "M"):
        m.add(token[i][0])
        print(token[i][0], y[i])
print("locations : ",l,"manners : ", m)


# df=pd.DataFrame(list(zip(token,y)),columns=['token','entity_type'])
# df=pd.DataFrame(list(zip(token,y)),columns=['الكلمه ','نوعها '])












جده B-LOC
التواضع M
الحياء M
العامل B-LOC
الحبشة B-LOC
الشام B-LOC
التواضع M
رحابة M
رحابة M
الشام B-LOC
الروم B-LOC
الشام B-LOC
الفرات B-LOC
آسيا B-LOC
الشام B-LOC
الأردن B-LOC
بيسان B-LOC
locations :  {'العامل', 'الروم', 'الحبشة', 'بيسان', 'آسيا', 'الشام', 'الأردن', 'الفرات', 'جده'} manners :  {'رحابة', 'الحياء', 'التواضع'}


In [70]:
print(preprocess( '''  فبلغ ا
شرقا وآسيا الصغرى شمالا  قدم أمير المؤمنين عمر الشام فتلقاه ، ويقال إنه من مهاجرى الحبشة ، شهد بدرا فتح أبوعبيدة بن الجراح بالشام كان وفاة أبو عبيدة بن الجراح وهو ابن ثمان وخمسين  سنة بالأردن  وقُبر ببيسان  '''))

فبلغ ا شرقا و آسيا الصغرى شمالا قدم أمير المؤمنين عمر الشام فتلقاه ، و يقال إنه من مهاجرى الحبشة ، شهد بدرا فتح أبوعبيدة بن الجراح ب الشام كان وفاة أبو عبيدة بن الجراح و هو ابن ثمان و خمسين سنة ب الأردن و قُبر ب بيسان
