In [1]:
#install the Arabic stop words library
!pip install Arabic-Stopwords
#we need to import the following libraries.
import pandas as pd
#to display the full text on the notebook without truncation
pd.set_option('display.max_colwidth', 150)
import numpy as np
import re
from snowballstemmer import stemmer
from tqdm import tqdm
import arabicstopwords.arabicstopwords as stp



In [2]:
stopWords= set(stp.stopwords_list())
stopWords

{'بأسفلها',
 'وعاد',
 'فذاك',
 'ألازلت',
 'ولجنوب',
 'وتجاهكما',
 'أمهما',
 'ولمنهم',
 'ماانفك',
 'فيهم',
 'ألكأنكما',
 'وبذوينا',
 'أبذواتي',
 'أكثر',
 'ليلها',
 'فلأيتهن',
 'ولكل',
 'ومعهم',
 'وهنالك',
 'وكأولئك',
 'ولذويكم',
 'أولذانك',
 'وعننا',
 'فضحوة',
 'فبغروبكم',
 'لشبههما',
 'أفوقي',
 'ألخلفكما',
 'لحظتهم',
 'فلأقلهما',
 'فبزمانكم',
 'أبسواهما',
 'وبذاتهن',
 'مرة',
 'فأنا',
 'وكحسبي',
 'كشرقي',
 'أولديك',
 'وسبحانكن',
 'أكأجمعي',
 'فكجنبه',
 'فكأكثرنا',
 'فبتلقائه',
 'أوبعيننا',
 'وليتهم',
 'كأولاء',
 'ومابرحن',
 'وكاللذين',
 'وبأننا',
 'أعنهم',
 'أأجمع',
 'وابننا',
 'أكبعضنا',
 'أمامهم',
 'لسوانا',
 'وبكلهما',
 'أولازلن',
 'فسواكن',
 'وأيضا',
 'فكنفسنا',
 'أجميعهم',
 'ألست',
 'ولأصبح',
 'بأي',
 'فبعينكن',
 'أوراءنا',
 'اللائي',
 'ولمثلهن',
 'أوكسواه',
 'أفشمالي',
 'ألشبهك',
 'وبعدهما',
 'بحميها',
 'وتلقاءكم',
 'وفيهن',
 'لهؤلاء',
 'غروبهما',
 'فحسبي',
 'فللتي',
 'أفكعينكم',
 'ولوراءكما',
 'أولشماله',
 'فبليلهن',
 'بذه',
 'أفأمامهن',
 'فبشبهي',
 'فهكذا',
 'لشهري',
 'فلإليكما'

In [3]:
print('the number of stop words in this library" : ', len(stopWords))

# add more words as needed based on the dataset used

stopWords.add("هاشتاق")
print('the number of stop words in this library" : ', len(stopWords))

the number of stop words in this library" :  13465
the number of stop words in this library" :  13466


In [4]:
######################### removing Stop Words function ####################################

def remove_stop_words(sentence):
    terms=[]
    stopWords= set(stp.stopwords_list())
    for term in sentence.split() :
        if term not in stopWords :
           terms.append(term)
    return " ".join(terms)

############################# normalize function ###########################################

def normalize(text):
    text = re.sub("[إأٱآا]", "ا", text)
    text = re.sub("ى", "ي", text)
    text = re.sub("ؤ", "ء", text)
    text = re.sub("ئ", "ء", text)
    text = re.sub("ة", "ه", text)
    return(text)

############################# stemming function ############################################

ar_stemmer = stemmer("arabic")
def stem(sentence):
    return " ".join([ar_stemmer.stemWord(i) for i in sentence.split()])


############################# perform all preprocessing steps ###############################


def preprocess(sentence):
  sentence =remove_stop_words(sentence)
  sentence =normalize(sentence)
  sentence =stem(sentence)
  return sentence

In [5]:
data=pd.DataFrame()
data=pd.read_csv("https://raw.githubusercontent.com/telsayed/IR-in-Arabic/master/Summer2021/data/EveTAR/tweets/evetar-q-01.txt", sep='\t')
data

Unnamed: 0,tweetID,tweetText
0,549679192804061184,"الاعدام لعامل مطعم قتل زميله طعناً في ""البيادر"" أيدت محكمة التمييز الحكم الصادر عن محكمة الجنايات الكبرى والقاضي... http://t.co/H0txdjv3Kn"
1,549699343666532352,#الأخبار ▪ تأجيل محاكمة 7 إرهابيين بسبب غياب الدفاع: أجلت محكمة الجنايات بالعاصمة إلى تاريخ لاحق محاكمة سبعة إ... http://t.co/GM4jmpAWbR
2,549711593487888387,@helale9999 عشآن أعطيتك وحده صميم صرت ترمي أعذار ...حقق العالميةة و أرجع كلمني يَ الأياب الانتحاري
3,549719610459967488,#النهدي ثمانية قتلى في تفجير انتحاري بسيارة مفخخة أمام معملين للغاز في ريف حمص - شبكة الصين http://t.co/r5zFEuzAPu
4,549720880717508608,البحرين: ضبط مطلوبين متورطين في التفجير بالعكر الشرقي بقية الموضوع اضغط هنا http://t.co/t4A5bNrqyh
...,...,...
4995,551574113324920832,«بوكو حرام »تخطف 40 شابا في شمال شرق نيجيريا - الرياض - الرياض «بوكو حرام »تخطف 40 شابا في شمال شرق نيجيريا... http://t.co/44YL32E037
4996,551574871797272576,قصيدة مهداة إلى الشيخ/ ضيف الله بن سمار كلمات/ سلطان حامد بن سمار اداء/ عمر الشلآحي http://t.co/pQ8p6r4n0D
4997,551574876092256256,العفو عند المقبرة!!
4998,551575878141222912,#للمرة الأولى منذ 92 عاما.. تركيا تسمح ببناء كنيسة جديدة - مجلة الرسائل http://t.co/0bUDDDtD8u


In [6]:
data['Clean_Text']=data['tweetText'].apply(preprocess)
data

Unnamed: 0,tweetID,tweetText,Clean_Text
0,549679192804061184,"الاعدام لعامل مطعم قتل زميله طعناً في ""البيادر"" أيدت محكمة التمييز الحكم الصادر عن محكمة الجنايات الكبرى والقاضي... http://t.co/H0txdjv3Kn","اعدام لعامل مطعم قتل زميل طعنا ""البيادر"" ايد محكم تمييز حكم صادر محكم جنا كبر والقاضي... http://t.co/H0txdjv3Kn"
1,549699343666532352,#الأخبار ▪ تأجيل محاكمة 7 إرهابيين بسبب غياب الدفاع: أجلت محكمة الجنايات بالعاصمة إلى تاريخ لاحق محاكمة سبعة إ... http://t.co/GM4jmpAWbR,#الاخبار ▪ تاجيل محا 7 ارهابي سبب غياب دفاع: اجل محكم جنا عاصمه تاريخ لاحق محا سبع ا... http://t.co/GM4jmpAWbR
2,549711593487888387,@helale9999 عشآن أعطيتك وحده صميم صرت ترمي أعذار ...حقق العالميةة و أرجع كلمني يَ الأياب الانتحاري,@helale9999 عشان اعطي وحد صميم صرت ترم اعذار ...حقق عالميهه ارجع كلم ي اياب انتحار
3,549719610459967488,#النهدي ثمانية قتلى في تفجير انتحاري بسيارة مفخخة أمام معملين للغاز في ريف حمص - شبكة الصين http://t.co/r5zFEuzAPu,#النهد ثما قتل تفجير انتحار سيار مفخخ معمل غاز ريف حمص - شبك صين http://t.co/r5zFEuzAPu
4,549720880717508608,البحرين: ضبط مطلوبين متورطين في التفجير بالعكر الشرقي بقية الموضوع اضغط هنا http://t.co/t4A5bNrqyh,بحرين: ضبط مطلوب متورط تفجير عكر شرق بقي موضوع اضغط http://t.co/t4A5bNrqyh
...,...,...,...
4995,551574113324920832,«بوكو حرام »تخطف 40 شابا في شمال شرق نيجيريا - الرياض - الرياض «بوكو حرام »تخطف 40 شابا في شمال شرق نيجيريا... http://t.co/44YL32E037,«بوك حرام »تخطف 40 شاب نيجيري - رياض - رياض «بوك حرام »تخطف 40 شاب نيجيريا... http://t.co/44YL32E037
4996,551574871797272576,قصيدة مهداة إلى الشيخ/ ضيف الله بن سمار كلمات/ سلطان حامد بن سمار اداء/ عمر الشلآحي http://t.co/pQ8p6r4n0D,قصيد مهد شيخ/ ضيف الله سمار كلمات/ سلطان حامد سمار اداء/ عمر شلاح http://t.co/pQ8p6r4n0D
4997,551574876092256256,العفو عند المقبرة!!,عفو مقبره!!
4998,551575878141222912,#للمرة الأولى منذ 92 عاما.. تركيا تسمح ببناء كنيسة جديدة - مجلة الرسائل http://t.co/0bUDDDtD8u,#للمر اول 92 عاما.. تركي تسمح بناء كنيس جديد - مجل رساءل http://t.co/0bUDDDtD8u


In [7]:
def normalize_tweets(text):
   if text is np.nan:
    return ""
   else:
    text = re.sub(r"http\S+", " ", text) # remove urls
    text = re.sub(r"RT ", " ", text) # remove rt
    text = re.sub(r"@[\w]*", " ", text) # remove handles
    text = re.sub(r"[\.\,\#_\|\:\?\?\/\=]", " ", text) # remove special characters
    text = re.sub(r'\t', ' ', text) # remove tabs
    text = re.sub(r'\n', ' ', text) # remove line jump
    text = re.sub(r"\s+", " ", text) # remove extra white space
    accents = re.compile(r'[\u064b-\u0652\u0640]') # harakaat and tatweel (kashida) to remove

    arabic_punc= re.compile(r'[\u0621-\u063A\u0641-\u064A\d+]+') # Keep only Arabic letters/do not remove numbers
    text=' '.join(arabic_punc.findall(accents.sub('',text)))
    text = text.strip()
    return text


def preprocess(sentence):
  sentence =remove_stop_words(sentence)
  sentence =normalize_tweets(sentence)
  sentence =stem(sentence)
  return sentence


data['Clean2_Text']=data['tweetText'].apply(preprocess)
data

Unnamed: 0,tweetID,tweetText,Clean_Text,Clean2_Text
0,549679192804061184,"الاعدام لعامل مطعم قتل زميله طعناً في ""البيادر"" أيدت محكمة التمييز الحكم الصادر عن محكمة الجنايات الكبرى والقاضي... http://t.co/H0txdjv3Kn","اعدام لعامل مطعم قتل زميل طعنا ""البيادر"" ايد محكم تمييز حكم صادر محكم جنا كبر والقاضي... http://t.co/H0txdjv3Kn",اعدام لعامل مطعم قتل زميل طعنا بيادر ايد محكم تمييز حكم صادر محكم جنا كبري والقاض
1,549699343666532352,#الأخبار ▪ تأجيل محاكمة 7 إرهابيين بسبب غياب الدفاع: أجلت محكمة الجنايات بالعاصمة إلى تاريخ لاحق محاكمة سبعة إ... http://t.co/GM4jmpAWbR,#الاخبار ▪ تاجيل محا 7 ارهابي سبب غياب دفاع: اجل محكم جنا عاصمه تاريخ لاحق محا سبع ا... http://t.co/GM4jmpAWbR,اخبار تاجيل محاكم 7 ارهابي سبب غياب دفاع اجل محكم جنا عاصم تاريخ لاحق محاكم سبع ء
2,549711593487888387,@helale9999 عشآن أعطيتك وحده صميم صرت ترمي أعذار ...حقق العالميةة و أرجع كلمني يَ الأياب الانتحاري,@helale9999 عشان اعطي وحد صميم صرت ترم اعذار ...حقق عالميهه ارجع كلم ي اياب انتحار,عشء اعطي وحد صميم صرت ترم اعذار حقق عالمية ارجع كلم ي اياب انتحار
3,549719610459967488,#النهدي ثمانية قتلى في تفجير انتحاري بسيارة مفخخة أمام معملين للغاز في ريف حمص - شبكة الصين http://t.co/r5zFEuzAPu,#النهد ثما قتل تفجير انتحار سيار مفخخ معمل غاز ريف حمص - شبك صين http://t.co/r5zFEuzAPu,نهد ثمان قتلي تفجير انتحار سيار مفخخ معمل غاز ريف حمص شبك صين
4,549720880717508608,البحرين: ضبط مطلوبين متورطين في التفجير بالعكر الشرقي بقية الموضوع اضغط هنا http://t.co/t4A5bNrqyh,بحرين: ضبط مطلوب متورط تفجير عكر شرق بقي موضوع اضغط http://t.co/t4A5bNrqyh,بحر ضبط مطلوب متورط تفجير عكر شرق بق موضوع اضغط
...,...,...,...,...
4995,551574113324920832,«بوكو حرام »تخطف 40 شابا في شمال شرق نيجيريا - الرياض - الرياض «بوكو حرام »تخطف 40 شابا في شمال شرق نيجيريا... http://t.co/44YL32E037,«بوك حرام »تخطف 40 شاب نيجيري - رياض - رياض «بوك حرام »تخطف 40 شاب نيجيريا... http://t.co/44YL32E037,وكو حرام تخطف 40 شاب نيجيري رياض رياض وكو حرام تخطف 40 شاب نيجيري
4996,551574871797272576,قصيدة مهداة إلى الشيخ/ ضيف الله بن سمار كلمات/ سلطان حامد بن سمار اداء/ عمر الشلآحي http://t.co/pQ8p6r4n0D,قصيد مهد شيخ/ ضيف الله سمار كلمات/ سلطان حامد سمار اداء/ عمر شلاح http://t.co/pQ8p6r4n0D,قصيد مهدا شيخ ضيف الله سمار كلما سلطان حامد سمار اداء عمر شلاح
4997,551574876092256256,العفو عند المقبرة!!,عفو مقبره!!,عفو مقبر
4998,551575878141222912,#للمرة الأولى منذ 92 عاما.. تركيا تسمح ببناء كنيسة جديدة - مجلة الرسائل http://t.co/0bUDDDtD8u,#للمر اول 92 عاما.. تركي تسمح بناء كنيس جديد - مجل رساءل http://t.co/0bUDDDtD8u,للمر اولي 92 عام تركي تسمح بناء كنيس جديد مجل رسايل


In [8]:
!pip install qalsadi

import qalsadi.lemmatizer
lemmer = qalsadi.lemmatizer.Lemmatizer()


def arabic_lemmatize(text):
    r = lemmer.lemmatize_text(text)
    lemmatized_text = ' '.join(r)
    return lemmatized_text

# Example Arabic text for lemmatization
text = 'يُشار إلى أن اللغة العربية'

# Lemmatize the Arabic text
lemmatized_text = arabic_lemmatize(text)

print("Original Arabic Text:", text)
print("Lemmatized Arabic Text:", lemmatized_text)

Original Arabic Text: يُشار إلى أن اللغة العربية
Lemmatized Arabic Text: شار إلى أن لغة عرب


In [10]:
def preprocess2(sentence):
  sentence =remove_stop_words(sentence)
  sentence =normalize_tweets(sentence)
  sentence =arabic_lemmatize(sentence)
  return sentence


data['Clean3_Text']=data['tweetText'].apply(preprocess2)
data

Unnamed: 0,tweetID,tweetText,Clean_Text,Clean2_Text,Clean3_Text
0,549679192804061184,"الاعدام لعامل مطعم قتل زميله طعناً في ""البيادر"" أيدت محكمة التمييز الحكم الصادر عن محكمة الجنايات الكبرى والقاضي... http://t.co/H0txdjv3Kn","اعدام لعامل مطعم قتل زميل طعنا ""البيادر"" ايد محكم تمييز حكم صادر محكم جنا كبر والقاضي... http://t.co/H0txdjv3Kn",اعدام لعامل مطعم قتل زميل طعنا بيادر ايد محكم تمييز حكم صادر محكم جنا كبري والقاض,الاعدام عامل مطعم قتل زميل طعن بيادر أيد محكم تمييز حكم صادر محكم جناية كبرى قاضي
1,549699343666532352,#الأخبار ▪ تأجيل محاكمة 7 إرهابيين بسبب غياب الدفاع: أجلت محكمة الجنايات بالعاصمة إلى تاريخ لاحق محاكمة سبعة إ... http://t.co/GM4jmpAWbR,#الاخبار ▪ تاجيل محا 7 ارهابي سبب غياب دفاع: اجل محكم جنا عاصمه تاريخ لاحق محا سبع ا... http://t.co/GM4jmpAWbR,اخبار تاجيل محاكم 7 ارهابي سبب غياب دفاع اجل محكم جنا عاصم تاريخ لاحق محاكم سبع ء,أخبار تأجيل محاكم 7 إرهابي سبب غياب دفاع أجل محكم جناية عاصم تاريخ لاحق محاكم سبع إ
2,549711593487888387,@helale9999 عشآن أعطيتك وحده صميم صرت ترمي أعذار ...حقق العالميةة و أرجع كلمني يَ الأياب الانتحاري,@helale9999 عشان اعطي وحد صميم صرت ترم اعذار ...حقق عالميهه ارجع كلم ي اياب انتحار,عشء اعطي وحد صميم صرت ترم اعذار حقق عالمية ارجع كلم ي اياب انتحار,عشآن أعطية وحد صميم صار أرمى أعذار حقق العالميةة رجع كلم ي الأياب انتحار
3,549719610459967488,#النهدي ثمانية قتلى في تفجير انتحاري بسيارة مفخخة أمام معملين للغاز في ريف حمص - شبكة الصين http://t.co/r5zFEuzAPu,#النهد ثما قتل تفجير انتحار سيار مفخخ معمل غاز ريف حمص - شبك صين http://t.co/r5zFEuzAPu,نهد ثمان قتلي تفجير انتحار سيار مفخخ معمل غاز ريف حمص شبك صين,نهد ثماني قتلى تفجير انتحار سيار مفخخ معمل غاز ريف حمص شبكة لصى
4,549720880717508608,البحرين: ضبط مطلوبين متورطين في التفجير بالعكر الشرقي بقية الموضوع اضغط هنا http://t.co/t4A5bNrqyh,بحرين: ضبط مطلوب متورط تفجير عكر شرق بقي موضوع اضغط http://t.co/t4A5bNrqyh,بحر ضبط مطلوب متورط تفجير عكر شرق بق موضوع اضغط,بحر ضبط مطلوب متورط تفجير عكر شرق بق موضوع ضغط
...,...,...,...,...,...
4995,551574113324920832,«بوكو حرام »تخطف 40 شابا في شمال شرق نيجيريا - الرياض - الرياض «بوكو حرام »تخطف 40 شابا في شمال شرق نيجيريا... http://t.co/44YL32E037,«بوك حرام »تخطف 40 شاب نيجيري - رياض - رياض «بوك حرام »تخطف 40 شاب نيجيريا... http://t.co/44YL32E037,وكو حرام تخطف 40 شاب نيجيري رياض رياض وكو حرام تخطف 40 شاب نيجيري,بوكو حرام تخطف 40 شاب نيجيري الرياض الرياض بوكو حرام تخطف 40 شاب نيجيري
4996,551574871797272576,قصيدة مهداة إلى الشيخ/ ضيف الله بن سمار كلمات/ سلطان حامد بن سمار اداء/ عمر الشلآحي http://t.co/pQ8p6r4n0D,قصيد مهد شيخ/ ضيف الله سمار كلمات/ سلطان حامد سمار اداء/ عمر شلاح http://t.co/pQ8p6r4n0D,قصيد مهدا شيخ ضيف الله سمار كلما سلطان حامد سمار اداء عمر شلاح,قصيد مهداة شيخ ضيف الله سمار لمة سلط حامد سمار اداء عمر الشلآحي
4997,551574876092256256,العفو عند المقبرة!!,عفو مقبره!!,عفو مقبر,عفو مقبر
4998,551575878141222912,#للمرة الأولى منذ 92 عاما.. تركيا تسمح ببناء كنيسة جديدة - مجلة الرسائل http://t.co/0bUDDDtD8u,#للمر اول 92 عاما.. تركي تسمح بناء كنيس جديد - مجل رساءل http://t.co/0bUDDDtD8u,للمر اولي 92 عام تركي تسمح بناء كنيس جديد مجل رسايل,مر أولى 92 عام ترك سمح بناء كنيس جديد مجلة رسائل
