# Use Farasa to Lemmatize Arabic of the Qur'an
The returned results constitute root words - which will make comparison more useful.

Check out the Farasa website here for more details: https://farasa.qcri.org/lemmatization/

In [2]:
from farasa.stemmer import FarasaStemmer

Creator of FarasaStemmer python library suggests using interactive mode when dealing with small texts (for example in a loop). More information can be found here: https://github.com/MagedSaeed/farasapy

In [3]:
stemmer = FarasaStemmer (interactive=True)



In [50]:
# [2:282] longest aya in the Quran
sample = 'يا أيها الذين آمنوا إذا تداينتم بدين إلى أجل مسمى فاكتبوه وليكتب بينكم كاتب بالعدل ولا يأب كاتب أن يكتب كما علمه الله فليكتب وليملل الذي عليه الحق وليتق الله ربه ولا يبخس منه شيئا فإن كان الذي عليه الحق سفيها أو ضعيفا أو لا يستطيع أن يمل هو فليملل وليه بالعدل واستشهدوا شهيدين من رجالكم فإن لم يكونا رجلين فرجل وامرأتان ممن ترضون من الشهداء أن تضل إحداهما فتذكر إحداهما الأخرى ولا يأب الشهداء إذا ما دعوا ولا تسأموا أن تكتبوه صغيرا أو كبيرا إلى أجله ذلكم أقسط عند الله وأقوم للشهادة وأدنى ألا ترتابوا إلا أن تكون تجارة حاضرة تديرونها بينكم فليس عليكم جناح ألا تكتبوها وأشهدوا إذا تبايعتم ولا يضار كاتب ولا شهيد وإن تفعلوا فإنه فسوق بكم واتقوا الله ويعلمكم الله والله بكل شيء عليم'

In [62]:
# [96:4]
sample = 'ٱلَّذِى عَلَّمَ بِٱلْقَلَمِ'

In [58]:
stemmed_text = stemmer.stem (sample)
stemmed_text

'الذي علم قلم'

## Arabic Stopwords
nltk library of stopwords is smaller but it would be faster to apply it

In [14]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/jawadshuaib/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [17]:
nltk_arab_stopwords = set(nltk.corpus.stopwords.words("arabic"))
len(nltk_arab_stopwords)

701

In [84]:
nltk_arab_stopwords

{'ء',
 'ءَ',
 'آ',
 'آب',
 'آذار',
 'آض',
 'آمينَ',
 'آناء',
 'آنفا',
 'آه',
 'آها',
 'آهاً',
 'آهٍ',
 'آهِ',
 'آي',
 'أ',
 'أبدا',
 'أبريل',
 'أبو',
 'أبٌ',
 'أجل',
 'أجمع',
 'أحد',
 'أخبر',
 'أخذ',
 'أخو',
 'أخٌ',
 'أربع',
 'أربعاء',
 'أربعة',
 'أربعمئة',
 'أربعمائة',
 'أرى',
 'أسكن',
 'أصبح',
 'أصلا',
 'أضحى',
 'أطعم',
 'أعطى',
 'أعلم',
 'أغسطس',
 'أف',
 'أفريل',
 'أفعل به',
 'أفٍّ',
 'أقبل',
 'أقل',
 'أكتوبر',
 'أكثر',
 'أل',
 'ألا',
 'ألف',
 'ألفى',
 'أم',
 'أما',
 'أمام',
 'أمامك',
 'أمامكَ',
 'أمد',
 'أمس',
 'أمسى',
 'أمّا',
 'أن',
 'أنا',
 'أنبأ',
 'أنت',
 'أنتم',
 'أنتما',
 'أنتن',
 'أنتِ',
 'أنشأ',
 'أنى',
 'أنًّ',
 'أنّى',
 'أهلا',
 'أو',
 'أوت',
 'أوشك',
 'أول',
 'أولئك',
 'أولاء',
 'أولالك',
 'أوه',
 'أوّهْ',
 'أى',
 'أي',
 'أيا',
 'أيار',
 'أيضا',
 'أيلول',
 'أين',
 'أينما',
 'أيها',
 'أيّ',
 'أيّان',
 'أُفٍّ',
 'ؤ',
 'إحدى',
 'إذ',
 'إذا',
 'إذاً',
 'إذما',
 'إذن',
 'إزاء',
 'إلا',
 'إلى',
 'إليك',
 'إليكم',
 'إليكما',
 'إليكن',
 'إليكنّ',
 'إليكَ',
 'إلَيْكَ',
 'إلّا',


In [18]:
import arabicstopwords.arabicstopwords as stp

In [26]:
stp_arab_stopwords = set (stp.stopwords_list())

In [27]:
len(stp_arab_stopwords)

13629

## Methods for removing stop words

In [41]:
from nltk.tokenize import word_tokenize

In [93]:
def nltk_remove_stop_words (text, tokenizeIt=False):    
    if (tokenizeIt):
        text = word_tokenize (text)    
    return (" ").join([word for word in text if not word in nltk_arab_stopwords])

In [94]:
def stp_remove_stop_words (text, tokenizeIt=False):    
    if (tokenizeIt):
        text = word_tokenize (text)
    return (" ").join([word for word in text if not word in stp_arab_stopwords])

remove_stop_words () method decides which of the above stop words library to use based on whether they return any results or not

In [115]:
def remove_stop_words (text):
    text_tokenized = word_tokenize (text)
    
    # If there are no words left after lemmatizing, then just return the text itself
    if (len (text_tokenized) == 0):
        return text
    
    # nltk is first choice
    text_without_stop_words = nltk_remove_stop_words (text_tokenized)

    # If after lemmatizing using nltk, there are no words left, then try using stp
    if (len (text_without_stop_words) == 0):
        
        text_without_stop_words = stp_remove_stop_words (text_tokenized)
        
        # If stp also yields no words, then just return the text
        if (len (text_without_stop_words) == 0):
            return text
        
    return text_without_stop_words.strip()

## Remove stop words from sample text

Tokenize every word in the sentence (i.e. turn it into a list)

In [44]:
# Example
nltk.word_tokenize(stemmed_text)

['سأل',
 'عن',
 'خمر',
 'ميسر',
 'قال',
 'في',
 'إثم',
 'كبير',
 'منفعة',
 'ناس',
 'إثم',
 'أكبر',
 'من',
 'نفع',
 'سأل',
 'ماذا',
 'أنفق',
 'قال',
 'عفو',
 'ذلك',
 'بين',
 'الله',
 'ل',
 'آية',
 'لعل',
 'تتفكرون']

In [90]:
nltk_remove_stop_words (stemmed_text, True)

'قلم'

In [91]:
stp_remove_stop_words (stemmed_text, True)

'علم قلم'

Notice, in the case below both words are stop words but since this would have returned an empty string, we have created a function to return the original string. Better to have something rather than nothing.

In [101]:
remove_stop_words ('الذي من')

'الذي من'

In [61]:
# Original stemmed text for comparison
stemmed_text

'الذي علم قلم'

In [55]:
len (nltk_remove_stop_words (stemmed_text))

335

In [56]:
len (stp_remove_stop_words (stemmed_text))

343

It seems the stp_remove_stop_words is more accurate. But it also removes words like "rab". Also, it would be difficult to control the number of words removed by stp so maybe it is better to just use nltk

## Update MySQL record for tbl_quran

In [2]:
import mysql.connector
from sqlalchemy import create_engine

In [3]:
import connection.config

In [5]:
# Create SQLAlchemy engine to connect to MySQL Database
engine = create_engine("mysql+pymysql://{user}:{passwd}@{host}/{db}".format(**connection.config.config))

In [6]:
import pymysql

In [7]:
connection = pymysql.connect(**connection.config.config)

In [120]:
def handler ():
    
    cur = connection.cursor()
    cur.execute("SELECT surah_number, aya_number, text_minimal FROM tbl_quran")
    for row in cur.fetchall():
        surah_number = row[0]
        aya_number = row[1]
        text_minimal = row[2]
        
        # Stem arabic text to reduce it to its root words
        text_farasa_lemmatized = stemmer.stem (text_minimal)
        # Remove stop words (i.e. such as من)
        # Primary method is nltk
        text_farasa_lemmatized_without_stop_words = remove_stop_words (text_farasa_lemmatized)        
#         print("-lemmatized- {3} -without stop words- {4}" .format(surah_number, aya_number, text_minimal, text_farasa_lemmatized, text_farasa_lemmatized_without_stop_words))
        
        cur.execute("UPDATE tbl_quran SET text_arabic_lemmatized = '{2}', text_arabic_lemmatized_without_stop_words = '{3}' WHERE surah_number = {0} AND aya_number = {1}".format(surah_number, aya_number, text_farasa_lemmatized, text_farasa_lemmatized_without_stop_words))

handler()


In [121]:
connection.close()