### Data Cleaning:

In [77]:
#importing pandas
import pandas as pd

#importing the pyarabic library
import pyarabic.araby as araby

#importing the negative tweets dataset
neg_tweets = pd.read_csv("train_Arabic_tweets_negative_20190413.tsv", sep = "\t")
#renaming the columns
neg_tweets.columns = ["Class", "Tweet"]
#Showing the first five rows.
neg_tweets.head()

Unnamed: 0,Class,Tweet
0,neg,توقعت اذا جات داريا بشوفهم كاملين بس لي للحين ...
1,neg,#الاهلي_الهلال اكتب توقعك لنتيجة لقاء الهلال و...
2,neg,نعمة المضادات الحيوية . تضع قطرة💧مضاد بنسلين ع...
3,neg,الدودو جايه تكمل علي 💔
4,neg,أحببته حتى أقنعنى إن ما فات من العمر كان إنتظا...


In [78]:
#importing the positive tweets dataset
pos_tweets = pd.read_csv("train_Arabic_tweets_positive_20190413.tsv", sep = "\t")
pos_tweets.columns = ["Class", "Tweet"]
pos_tweets.head()

Unnamed: 0,Class,Tweet
0,pos,وفي النهاية لن يبقىٰ معك آحدإلا من رأىٰ الجمال...
1,pos,من الخير نفسه 💛
2,pos,#زلزل_الملعب_نصرنا_بيلعب كن عالي الهمه ولا ترض...
3,pos,الشيء الوحيد الذي وصلوا فيه للعالمية هو : المس...
4,pos,#الاتحاد_النصر لاتحسبونا نسينا يالطواقي ولانبي...


In [79]:
#joining the two datasets on top of each other
tweets = pd.concat([neg_tweets, pos_tweets], axis = 0)
tweets.head()

Unnamed: 0,Class,Tweet
0,neg,توقعت اذا جات داريا بشوفهم كاملين بس لي للحين ...
1,neg,#الاهلي_الهلال اكتب توقعك لنتيجة لقاء الهلال و...
2,neg,نعمة المضادات الحيوية . تضع قطرة💧مضاد بنسلين ع...
3,neg,الدودو جايه تكمل علي 💔
4,neg,أحببته حتى أقنعنى إن ما فات من العمر كان إنتظا...


In [80]:
#A quick check to see if there are any null values
missing = pd.DataFrame({'missing': tweets.isnull().sum()})
missing

Unnamed: 0,missing
Class,0
Tweet,0


In [81]:
(tweets==-1).sum()

Class    0
Tweet    0
dtype: int64

In [82]:
#shuffling the rows
tweets = tweets.sample(frac=1)
sample_tweets = tweets.sample(n=1000)
sample_tweets = sample_tweets.reset_index(drop=True)
sample_tweets.head()

Unnamed: 0,Class,Tweet
0,neg,#الوتر_جنة_القلوب سبحانك آللهم و بحمدك أشهد أن...
1,pos,الإبداع في عالم المستديرة لا يقتصر فقط على الم...
2,neg,على اساس ان القرار بيد الشرعيه 😂😂 ما وراء الست...
3,pos,📸 المطرقة الوردية متواجده لدعم الفتيات في كوتش...
4,pos,عرفت المكان 😂


In [83]:
#converting the tweet column values to string
tweets_text = sample_tweets["Tweet"].astype(str)
tweets_text.head()

0    #الوتر_جنة_القلوب سبحانك آللهم و بحمدك أشهد أن...
1    الإبداع في عالم المستديرة لا يقتصر فقط على الم...
2    على اساس ان القرار بيد الشرعيه 😂😂 ما وراء الست...
3    📸 المطرقة الوردية متواجده لدعم الفتيات في كوتش...
4                                        عرفت المكان 😂
Name: Tweet, dtype: object

In [84]:
#writing the tweets to a text file
tweet_file = open("tweets_txt.txt", "a", encoding="utf-8")
for i in tweets_text:
    tweet_file.write("\n" + str(i).replace("\n", ""))
tweet_file.close()

In [85]:
#opening the tweets text file to remove mentions
import re
tweet_file = open("tweets_txt.txt", "r", encoding="utf-8")
tweets_wo_mentions = []
#looping thru the file and replacing the mentions (that we found them using regular expressions) with empty string
for i in tweet_file:
    if re.search("@[A-Za-z0-9_-]*", i):
        mention = re.findall("@[A-Za-z0-9_-]*", i)
        for j in mention:
            i = i.replace(j, "")
            #storing the tweets into a list, after removing the mentions
        tweets_wo_mentions.append(i)
    else:
        tweets_wo_mentions.append(i)
print(tweets_wo_mentions)
print(len(tweets_wo_mentions))

['\n', '#الوتر_جنة_القلوب سبحانك آللهم و بحمدك أشهد أن لآ إله إلآ أنت أستغفرك و أتوب إليك #كفاره_المجلس 💭✨ .…\n', 'الإبداع في عالم المستديرة لا يقتصر فقط على المهارات الفنية و كيفية تسجيل الأهداف ، بل هناك من يبدع في إحتفاله بالأه…\n', 'على اساس ان القرار بيد الشرعيه 😂😂 ما وراء الستار امور لا تعلمها 😏 كلنا ثقه برجال…\n', '📸 المطرقة الوردية متواجده لدعم الفتيات في كوتشيلا 💗 - ابريل ، #BLACKPINKXCOACHELLA_D1\n', 'عرفت المكان 😂\n', 'يردوني ابتعد عنك وأعوفك :(\n', 'في مباراة العربية غوميز استفز وتلفظ على المدافع الشاب عبدالباسط هندي حينها جهلة المدرج و الإعلام الجاهل ضحكوا وتن…\n', 'شكرا،وصباح الننور 🎻\n', 'ايوا لاكن انا احيانن يحزني اقول انا دحين قاعد فبيتي ومحمي من المطر تحت سقف متواضع لاكن في ناس دحين تموت من…\n', 'اللهم اميين :(\n', '😂 😂 😂 اكتشاف خطير الصراحه يجربه\n', '#النصر_الاتحاد توقع نتيجة مباراه #النصر_الاتحاد الجائزه ريال 💵 لصاحب التوقع الصحيح 🔴 شروط المسابقه ✅ متابعه ا…\n', 'ياليتني من بين الحظور اه 💔\n', 'رغم اني اعرف حظي سيء لكن راح اشارك واشارك 😳 تم ✅✅\n', 'من ارض سيدي جابر

In [86]:
#repeating the same steps, but this time the loop will remove URLs
tweets_wo_urls = []
for i in tweets_wo_mentions:
    if re.search("http[^ ]*", i):
            URL = re.findall("http[^ ]*", i)
            for j in URL:
                i = i.replace(j, "")
            tweets_wo_urls.append(i)
    else:
        tweets_wo_urls.append(i)
print(tweets_wo_urls)
print(len(tweets_wo_urls))

['\n', '#الوتر_جنة_القلوب سبحانك آللهم و بحمدك أشهد أن لآ إله إلآ أنت أستغفرك و أتوب إليك #كفاره_المجلس 💭✨ .…\n', 'الإبداع في عالم المستديرة لا يقتصر فقط على المهارات الفنية و كيفية تسجيل الأهداف ، بل هناك من يبدع في إحتفاله بالأه…\n', 'على اساس ان القرار بيد الشرعيه 😂😂 ما وراء الستار امور لا تعلمها 😏 كلنا ثقه برجال…\n', '📸 المطرقة الوردية متواجده لدعم الفتيات في كوتشيلا 💗 - ابريل ، #BLACKPINKXCOACHELLA_D1\n', 'عرفت المكان 😂\n', 'يردوني ابتعد عنك وأعوفك :(\n', 'في مباراة العربية غوميز استفز وتلفظ على المدافع الشاب عبدالباسط هندي حينها جهلة المدرج و الإعلام الجاهل ضحكوا وتن…\n', 'شكرا،وصباح الننور 🎻\n', 'ايوا لاكن انا احيانن يحزني اقول انا دحين قاعد فبيتي ومحمي من المطر تحت سقف متواضع لاكن في ناس دحين تموت من…\n', 'اللهم اميين :(\n', '😂 😂 😂 اكتشاف خطير الصراحه يجربه\n', '#النصر_الاتحاد توقع نتيجة مباراه #النصر_الاتحاد الجائزه ريال 💵 لصاحب التوقع الصحيح 🔴 شروط المسابقه ✅ متابعه ا…\n', 'ياليتني من بين الحظور اه 💔\n', 'رغم اني اعرف حظي سيء لكن راح اشارك واشارك 😳 تم ✅✅\n', 'من ارض سيدي جابر

In [87]:
#importing stop words
from nltk.corpus import stopwords
stop_words = set(stopwords.words('arabic'))
print(stop_words)


{'اللذان', 'وجد', 'فيها', 'اللتين', 'هما', 'أوّهْ', 'كليهما', 'نَخْ', 'لعمر', 'مئتان', 'هي', 'زاي', 'إنما', 'قام', 'أكثر', 'إنه', 'هكذا', 'عاشر', 'سبعمئة', 'هن', 'كيفما', 'مئة', 'خمسون', 'خلف', 'لي', 'فيه', 'أنتم', 'أعطى', 'هيهات', 'إياك', 'تفعلان', 'بَسْ', 'انبرى', 'هَذِه', 'يناير', 'مايو', 'سبعين', 'جلل', 'سبت', 'ستين', 'غين', 'إلّا', 'طفق', 'ذال', 'ولا', 'معاذ', 'الألى', 'أوه', 'قاف', 'هذه', 'لدى', 'إحدى', 'درهم', 'تينك', 'ثاء', 'ل', 'لبيك', 'ثماني', 'أبدا', 'هاتي', 'إياه', 'أبريل', 'أخذ', 'غدا', 'لسن', 'هاته', 'كانون', 'أيار', 'نيف', 'شباط', 'أهلا', 'مازال', 'هذي', 'سوف', 'ر', 'يمين', 'هنا', 'نوفمبر', 'ذواتا', 'ثلاثة', 'ي', 'عشرين', 'دينار', 'إى', 'أيّان', 'آه', 'فوق', 'لاسيما', 'آض', 'اتخذ', 'ليستا', 'يفعلون', 'ليس', 'خميس', 'خبَّر', 'هيا', 'سبتمبر', 'ثالث', 'هلم', 'أطعم', 'هَاتِه', 'فمن', 'ا', 'عند', 'إيانا', 'ذا', 'تفعلين', 'أنا', 'ليست', 'بعد', 'رأى', 'لكنَّ', 'ما انفك', 'لسنا', 'إياكم', 'إليكن', 'كما', 'ؤ', 'أبٌ', 'بغتة', 'كأن', 'ثلاثمئة', 'مكانَك', 'سحقا', 'ممن', 'تموز', 'لكن

In [88]:
#removing stop words
for tweet in tweets_wo_urls:
    tweet_list = tweet.split()
    for stop_word in stop_words:
        for word in  tweet_list:
            if stop_word == word:
                tweet_list.remove(word)

                
print(tweets_wo_urls)
            

['\n', '#الوتر_جنة_القلوب سبحانك آللهم و بحمدك أشهد أن لآ إله إلآ أنت أستغفرك و أتوب إليك #كفاره_المجلس 💭✨ .…\n', 'الإبداع في عالم المستديرة لا يقتصر فقط على المهارات الفنية و كيفية تسجيل الأهداف ، بل هناك من يبدع في إحتفاله بالأه…\n', 'على اساس ان القرار بيد الشرعيه 😂😂 ما وراء الستار امور لا تعلمها 😏 كلنا ثقه برجال…\n', '📸 المطرقة الوردية متواجده لدعم الفتيات في كوتشيلا 💗 - ابريل ، #BLACKPINKXCOACHELLA_D1\n', 'عرفت المكان 😂\n', 'يردوني ابتعد عنك وأعوفك :(\n', 'في مباراة العربية غوميز استفز وتلفظ على المدافع الشاب عبدالباسط هندي حينها جهلة المدرج و الإعلام الجاهل ضحكوا وتن…\n', 'شكرا،وصباح الننور 🎻\n', 'ايوا لاكن انا احيانن يحزني اقول انا دحين قاعد فبيتي ومحمي من المطر تحت سقف متواضع لاكن في ناس دحين تموت من…\n', 'اللهم اميين :(\n', '😂 😂 😂 اكتشاف خطير الصراحه يجربه\n', '#النصر_الاتحاد توقع نتيجة مباراه #النصر_الاتحاد الجائزه ريال 💵 لصاحب التوقع الصحيح 🔴 شروط المسابقه ✅ متابعه ا…\n', 'ياليتني من بين الحظور اه 💔\n', 'رغم اني اعرف حظي سيء لكن راح اشارك واشارك 😳 تم ✅✅\n', 'من ارض سيدي جابر

In [89]:
#removing tashkeel, hamza differences, tatweel and number
cleaned_tweets = []

for tweet in tweets_wo_urls:
    tweet = araby.strip_diacritics(tweet)
    tweet = araby.normalize_hamza(tweet)
    tweet = araby.strip_tatweel(tweet)
    tweet = re.sub("[0-9]", "", tweet)
    cleaned_tweets.append(tweet)

print(cleaned_tweets, len(cleaned_tweets))

['\n', '#الوتر_جنة_القلوب سبحانك ءءللهم و بحمدك ءشهد ءن لءء ءله ءلءء ءنت ءستغفرك و ءتوب ءليك #كفاره_المجلس 💭✨ .…\n', 'الءبداع في عالم المستديرة لا يقتصر فقط على المهارات الفنية و كيفية تسجيل الءهداف ، بل هناك من يبدع في ءحتفاله بالءه…\n', 'على اساس ان القرار بيد الشرعيه 😂😂 ما وراء الستار امور لا تعلمها 😏 كلنا ثقه برجال…\n', '📸 المطرقة الوردية متواجده لدعم الفتيات في كوتشيلا 💗 - ابريل ، #BLACKPINKXCOACHELLA_D\n', 'عرفت المكان 😂\n', 'يردوني ابتعد عنك وءعوفك :(\n', 'في مباراة العربية غوميز استفز وتلفظ على المدافع الشاب عبدالباسط هندي حينها جهلة المدرج و الءعلام الجاهل ضحكوا وتن…\n', 'شكرا،وصباح الننور 🎻\n', 'ايوا لاكن انا احيانن يحزني اقول انا دحين قاعد فبيتي ومحمي من المطر تحت سقف متواضع لاكن في ناس دحين تموت من…\n', 'اللهم اميين :(\n', '😂 😂 😂 اكتشاف خطير الصراحه يجربه\n', '#النصر_الاتحاد توقع نتيجة مباراه #النصر_الاتحاد الجاءزه ريال 💵 لصاحب التوقع الصحيح 🔴 شروط المسابقه ✅ متابعه ا…\n', 'ياليتني من بين الحظور اه 💔\n', 'رغم اني اعرف حظي سيء لكن راح اشارك واشارك 😳 تم ✅✅\n', 'من ارض سيدي جا

In [90]:
#Getting emoji unicode patterns
emoji_pattern = re.compile("["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
        u"\U0001F1F2-\U0001F1F4"  # Macau flag
        u"\U0001F1E6-\U0001F1FF"  # flags
        u"\U0001F600-\U0001F64F"
        u"\U00002702-\U000027B0"
        u"\U000024C2-\U0001F251"
        u"\U0001f926-\U0001f937"
        u"\U0001F1F2"
        u"\U0001F1F4"
        u"\U0001F620"
        u"\u200d"
        u"\u2640-\u2642"
        "]+", flags=re.UNICODE)

#writing the lines to a new file after removing emojis
cleaned_tweets_file = open("cleaned_tweets.txt", "a", encoding="utf-8")
for i in cleaned_tweets:
    one_line = i.replace("\n", "")
    text = emoji_pattern.sub(r'', one_line)
    cleaned_tweets_file.write("\n" + text)
print("Done!!!")

tweet_file.close()
cleaned_tweets_file.close()

Done!!!


In [91]:
#importing the dictionary that has the sentiment scores
dictionary = pd.read_csv('dictionary_arabic.csv')
dictionary

Unnamed: 0,word,number
0,مهجور,-2
1,الهجر,-2
2,خطف,-2
3,اختطاف,-2
4,عمليات الاختطاف,-2
...,...,...
2471,مقزز,-2
2472,لذيذ,3
2473,متعصب,-2
2474,المتعصبين,-2


In [92]:
#converting the words in the dictionary to a string
dictionary['word'] = dictionary['word'].astype(str)
print(dictionary['word'])

0                 مهجور
1                 الهجر
2                   خطف
3                اختطاف
4       عمليات الاختطاف
             ...       
2471               مقزز
2472               لذيذ
2473              متعصب
2474          المتعصبين
2475              متحمس
Name: word, Length: 2476, dtype: object


In [93]:
#converting the sentiment scores to integers
dictionary['number'] = dictionary['number'].astype(int)
print(dictionary['number'])

0      -2
1      -2
2      -2
3      -2
4      -2
       ..
2471   -2
2472    3
2473   -2
2474   -2
2475    2
Name: number, Length: 2476, dtype: int32


In [94]:
#converting the dictionary to a list
dict_list = dictionary.values.tolist()
print(dict_list[2])

['خطف', -2]


In [95]:
for element in dict_list:
    element[0] = araby.normalize_hamza(element[0])

print(dict_list)

[['مهجور', -2], ['الهجر', -2], ['خطف', -2], ['اختطاف', -2], ['عمليات الاختطاف', -2], ['يبغض', -3], ['مكروه', -3], ['مقيت', -3], ['يمقت', -3], ['قدرات', 2], ['قدرة', 2], ['على متن سفينة', 1], ['متغيب عن العمل', -1], ['الغاءبين', -1], ['يعفي', 2], ['غفران', 2], ['يعفي', 2], ['الغفران', 2], ['يمتص', 1], ['تعاطي', -3], ['سوء المعاملة', -3], ['التجاوزات', -3], ['تَعَسُّفيّ', -3], ['قبول', 1], ['وافقت', 1], ['القبول', 1], ['يقبل', 1], ['حادثة', -2], ['عرضي', -2], ['بطريق الخطء', -2], ['الحوادث', -2], ['ينجز', 2], ['مُتَفَوِّق', 2], ['ينجز', 2], ['الاتهام', -2], ['اتهامات', -2], ['اتهم', -2], ['المتهم', -2], ['يتهم', -2], ['يتهم', -2], ['وجع', -2], ['قابل للتحقيق', 1], ['وجع', -2], ['تبرء', 2], ['يبرء', 2], ['تبرءت', 2], ['البراءة', 2], ['لاذع', -3], ['نشيط', 1], ['مناسب', 1], ['معجب', 3], ['معجب', 3], ['معجب', 3], ['الءعجاب', 3], ['يعترف', -1], ['يعترف', -1], ['اعترف', -1], ['عتاب', -2], ['حذر', -2], ['يتبنى', 1], ['يتبنى', 1], ['بديع', 3], ['ءعشق', 3], ['محبوب', 3], ['يعشق', 3], ['المتقدمة'

### Evaluating The Tweets for The First Time:


 Here we open the cleaned tweets file, then we use a for loop to check every word in the dictionar, if the word exists in the
line we add it's sentiment score to the line_score value, then we append the line_score values to a list



In [96]:

cleaned_tweets_read = open("cleaned_tweets.txt", "r", encoding="utf-8")
line_score = 0
score_list = []
for line in cleaned_tweets_read:
    for i in dict_list:
        if i[0] in line:
            line_score = line_score + i[1]       
    score_list.append(line_score)
    line_score = 0
print(score_list)
cleaned_tweets_read.close()
        

[0, 0, -2, 0, -3, 1, -2, 0, -6, -5, -13, 1, -4, 0, 3, 1, 0, 0, 8, 3, 6, -4, -10, 0, 2, 0, 28, 0, 0, 1, -8, 1, 2, 0, 4, 2, -4, 0, 3, -4, -5, -7, -3, 6, -5, -2, 3, -2, 0, 13, -4, 0, -8, 7, 0, 5, -2, -1, 0, 0, 7, 2, -1, -4, 1, -2, -6, 2, 6, 1, 1, -3, -2, -5, 0, 5, 0, -3, 1, 0, -2, 17, -1, 3, 7, 5, 4, -5, 4, 0, -4, 7, -2, 0, 0, -9, 2, 0, 3, 7, 0, 0, 0, 0, 7, -5, -1, -6, 4, 0, 0, 3, 7, -11, -1, 3, 1, 0, 0, 1, 0, -12, 3, -7, 1, 1, 0, 0, 0, 1, 2, 0, 0, -5, -1, -2, 5, -2, 3, 0, 1, -3, 2, 0, -2, -5, 0, 0, 3, -9, -10, 17, 8, 4, -2, 0, -4, 5, -4, -7, 0, -4, -4, -2, 0, 5, 0, 7, 1, 14, 9, -8, 0, 2, 8, 5, -2, 0, 9, -7, 2, 0, -1, 0, 6, -2, 1, -5, 0, 0, 0, 7, 0, 4, 2, 0, 6, -2, 0, -5, -2, 0, -6, 2, -7, -1, 0, 0, 0, 3, -2, -2, 0, 3, -1, 0, -6, -19, 0, 0, -2, -7, -24, 0, -3, 1, 0, -5, -3, 0, 0, -7, 3, 0, -6, 0, 0, -1, 0, 0, -3, -2, 4, 0, -2, 6, 0, -2, 0, -6, 1, 7, 3, -4, 1, 1, -1, -2, -1, 1, 2, -2, 2, -3, 0, 0, 0, 0, -2, -4, 7, 3, 1, -1, 1, 0, 0, 0, 0, -3, -10, -1, -9, -1, 1, 6, 0, 0, -13, -2, 0, 8, 0, 

In [97]:
print(len(score_list))

1002


### Evaluating The Tweets for The Second Time:

Here, we extract the data from the dictionary file, then we create a Python dictionary where keys are the tweets and values are the sentiment scores, taken straight from the "cleand_tweets.txt" file that we generated earlier, then we check every line to append the words that are not in the dictionary file in a list (unknown_words).

In [98]:

cleaned_tweets_read = open("cleaned_tweets.txt", "r", encoding="utf-8")

only_words = dictionary["word"].values.tolist()

lines = []
unknown_words = []
unknwon_word_scores_list = []
for line in cleaned_tweets_read:
    lines.append(line)

evaluated_lines = dict(zip(lines, score_list))
for key,value in evaluated_lines.items():
    for word in key.split():
        if word not in dict_list and word not in unknown_words:
            unknown_words.append(word)

print(unknown_words)
        
                    
                    

['#الوتر_جنة_القلوب', 'سبحانك', 'ءءللهم', 'و', 'بحمدك', 'ءشهد', 'ءن', 'لءء', 'ءله', 'ءلءء', 'ءنت', 'ءستغفرك', 'ءتوب', 'ءليك', '#كفاره_المجلس', '.…', 'الءبداع', 'في', 'عالم', 'المستديرة', 'لا', 'يقتصر', 'فقط', 'على', 'المهارات', 'الفنية', 'كيفية', 'تسجيل', 'الءهداف', '،', 'بل', 'هناك', 'من', 'يبدع', 'ءحتفاله', 'بالءه…', 'اساس', 'ان', 'القرار', 'بيد', 'الشرعيه', 'ما', 'وراء', 'الستار', 'امور', 'تعلمها', 'كلنا', 'ثقه', 'برجال…', 'المطرقة', 'الوردية', 'متواجده', 'لدعم', 'الفتيات', 'كوتشيلا', '-', 'ابريل', '#BLACKPINKXCOACHELLA_D', 'عرفت', 'المكان', 'يردوني', 'ابتعد', 'عنك', 'وءعوفك', ':(', 'مباراة', 'العربية', 'غوميز', 'استفز', 'وتلفظ', 'المدافع', 'الشاب', 'عبدالباسط', 'هندي', 'حينها', 'جهلة', 'المدرج', 'الءعلام', 'الجاهل', 'ضحكوا', 'وتن…', 'شكرا،وصباح', 'الننور', 'ايوا', 'لاكن', 'انا', 'احيانن', 'يحزني', 'اقول', 'دحين', 'قاعد', 'فبيتي', 'ومحمي', 'المطر', 'تحت', 'سقف', 'متواضع', 'ناس', 'تموت', 'من…', 'اللهم', 'اميين', 'اكتشاف', 'خطير', 'الصراحه', 'يجربه', '#النصر_الاتحاد', 'توقع', 'نتيجة',

In [99]:
#only 79 words exist in the dictionary!!
print(len(unknown_words))


5917


To get the scores for words that do not appear in the dictionary, we check the sentiment score for every line the word appeared in, then we subtract 1 if the sentiment score is negative, and vice versa, but there is a limit, the sentiment scores for these words must fall in this range (-8, 8).

In [100]:
unknwon_word_score = 0
unknwon_scores_list = []

for word in unknown_words:
    for key,value in evaluated_lines.items():
        if word in key:
            if value < 0:
                unknwon_word_score = unknwon_word_score - 1
            elif value > 0:
                unknwon_word_score = unknwon_word_score + 1
                
            if unknwon_word_score < -8:
                unknwon_word_score = -8
            elif unknwon_word_score > 8:
                unknwon_word_score = 8
                
    unknwon_scores_list.append(unknwon_word_score)
   
    unknwon_word_score = 0

print(unknwon_scores_list)
            
            
    

[-1, -2, -2, 3, -1, -1, -8, 1, 0, -2, -2, -1, 0, -3, -1, -2, 1, -3, -7, 0, -3, 0, 0, -4, 0, -1, 0, 0, 0, -7, 4, 1, -1, 0, 0, 0, -1, -6, -1, -1, -1, -1, -2, -1, 0, -1, -1, -1, -1, 1, 1, 1, 3, 1, 1, 5, 1, 1, -2, -1, 0, -1, 1, 0, 4, -1, -1, -2, -1, -1, -1, -2, -2, -2, -1, -1, -1, -2, -1, -1, -1, -1, -1, -1, -1, -8, -1, -1, 3, -1, -1, -1, -1, -2, -3, -1, -2, -5, -2, -3, 8, 0, -1, -1, 0, -1, 0, 0, 1, 0, 0, 2, -1, 0, 0, -2, 0, 0, 0, 1, -1, 1, -7, 1, 2, 0, 1, -4, 5, 7, 0, 1, 5, -4, 0, 0, 0, 0, 5, -1, 2, 0, 0, 0, 2, 0, 0, 0, -2, 5, 0, 1, 0, 1, 1, 0, -4, -2, 1, -8, 1, -2, 2, 1, 2, 6, 3, 1, 0, 1, 2, 1, 2, 1, 2, 1, -3, 1, 0, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, -2, -2, -1, -1, 0, -7, -2, -2, -1, -1, -1, -1, 0, 1, -5, 0, -1, -1, -1, -2, -1, 2, -1, 0, -1, -1, 0, -1, -1, -1, -1, 0, -2, 0, 0, 1, 1, 0, 1, 1, 0, 1, -1, 1, -1, 2, 1, 0, 0, 4, 2, -1, -1, -1, 1, 0, 2, 3, 1, 0, -2, 0, -6, 0, 1, 1, -8, 0, -1, 0, 0, -1, 2, -4, 0, 0, 1, 2, 2, 2, 0, 1, 2, -4, 1, 3, 3, 1, 1, 1, 1, -1, -1, 0, -1, -3, -3, -2, 1, 1, 1, -1

In [101]:
print(len(unknwon_scores_list))


5917


In [102]:
cleaned_tweets_read.close()

In [103]:
dictionary_part_2 = list(map(list,zip(unknown_words,unknwon_scores_list)))
print(dictionary_part_2)

[['#الوتر_جنة_القلوب', -1], ['سبحانك', -2], ['ءءللهم', -2], ['و', 3], ['بحمدك', -1], ['ءشهد', -1], ['ءن', -8], ['لءء', 1], ['ءله', 0], ['ءلءء', -2], ['ءنت', -2], ['ءستغفرك', -1], ['ءتوب', 0], ['ءليك', -3], ['#كفاره_المجلس', -1], ['.…', -2], ['الءبداع', 1], ['في', -3], ['عالم', -7], ['المستديرة', 0], ['لا', -3], ['يقتصر', 0], ['فقط', 0], ['على', -4], ['المهارات', 0], ['الفنية', -1], ['كيفية', 0], ['تسجيل', 0], ['الءهداف', 0], ['،', -7], ['بل', 4], ['هناك', 1], ['من', -1], ['يبدع', 0], ['ءحتفاله', 0], ['بالءه…', 0], ['اساس', -1], ['ان', -6], ['القرار', -1], ['بيد', -1], ['الشرعيه', -1], ['ما', -1], ['وراء', -2], ['الستار', -1], ['امور', 0], ['تعلمها', -1], ['كلنا', -1], ['ثقه', -1], ['برجال…', -1], ['المطرقة', 1], ['الوردية', 1], ['متواجده', 1], ['لدعم', 3], ['الفتيات', 1], ['كوتشيلا', 1], ['-', 5], ['ابريل', 1], ['#BLACKPINKXCOACHELLA_D', 1], ['عرفت', -2], ['المكان', -1], ['يردوني', 0], ['ابتعد', -1], ['عنك', 1], ['وءعوفك', 0], [':(', 4], ['مباراة', -1], ['العربية', -1], ['غوميز', -2], 

In [104]:
final_dictionary = dict_list + dictionary_part_2
print(final_dictionary )

[['مهجور', -2], ['الهجر', -2], ['خطف', -2], ['اختطاف', -2], ['عمليات الاختطاف', -2], ['يبغض', -3], ['مكروه', -3], ['مقيت', -3], ['يمقت', -3], ['قدرات', 2], ['قدرة', 2], ['على متن سفينة', 1], ['متغيب عن العمل', -1], ['الغاءبين', -1], ['يعفي', 2], ['غفران', 2], ['يعفي', 2], ['الغفران', 2], ['يمتص', 1], ['تعاطي', -3], ['سوء المعاملة', -3], ['التجاوزات', -3], ['تَعَسُّفيّ', -3], ['قبول', 1], ['وافقت', 1], ['القبول', 1], ['يقبل', 1], ['حادثة', -2], ['عرضي', -2], ['بطريق الخطء', -2], ['الحوادث', -2], ['ينجز', 2], ['مُتَفَوِّق', 2], ['ينجز', 2], ['الاتهام', -2], ['اتهامات', -2], ['اتهم', -2], ['المتهم', -2], ['يتهم', -2], ['يتهم', -2], ['وجع', -2], ['قابل للتحقيق', 1], ['وجع', -2], ['تبرء', 2], ['يبرء', 2], ['تبرءت', 2], ['البراءة', 2], ['لاذع', -3], ['نشيط', 1], ['مناسب', 1], ['معجب', 3], ['معجب', 3], ['معجب', 3], ['الءعجاب', 3], ['يعترف', -1], ['يعترف', -1], ['اعترف', -1], ['عتاب', -2], ['حذر', -2], ['يتبنى', 1], ['يتبنى', 1], ['بديع', 3], ['ءعشق', 3], ['محبوب', 3], ['يعشق', 3], ['المتقدمة'

This is the chunk of code that analyses the tweets for the second time, but this time it takes into consideration the words that do not appear in the dictionary file.

In [105]:
cleaned_tweets_read = open("cleaned_tweets.txt", "r", encoding="utf-8")
new_line_score = 0
new_score_list = []
for line in cleaned_tweets_read:
    for i in final_dictionary:
        if i[0] in line.split():
            new_line_score = new_line_score + i[1]       
    new_score_list.append(new_line_score)
    new_line_score = 0
print(new_score_list)
cleaned_tweets_read.close()

[0, 0, -22, -17, -25, 5, -3, 4, -25, -2, -35, 12, -5, 0, -7, 15, -5, 8, 16, 3, 11, -14, -17, 1, 5, -3, 12, -10, -13, 17, -18, 6, 11, -8, 3, 29, -19, 15, 9, -25, -21, -13, -35, 43, -2, -7, 17, -13, -4, 17, -18, -5, -35, -2, -8, 10, -13, -25, 0, 5, 25, 4, -1, -13, 17, -3, -34, 7, 18, 2, 4, -11, -4, -13, 0, -13, 1, -29, -1, -5, -4, 4, -22, -1, 16, -6, -6, -8, 8, -9, -34, -2, -3, 0, -4, -6, 9, -6, 19, 11, 0, -10, -11, -5, -5, -21, 4, -42, 12, -2, -6, 13, 3, -3, -2, 46, 13, 4, 0, 6, 0, -12, 15, -12, 14, 0, 1, -7, 10, 16, 4, 2, -7, -7, -5, -5, 7, 2, 11, 4, 9, -11, -1, -2, -15, -29, 1, 2, -11, -11, -10, 4, 4, 6, -22, 5, -20, 13, -18, -6, 0, -23, -23, -22, -5, 6, 11, 24, 18, 26, 16, -4, -1, 11, 20, 26, -2, -7, 2, -13, 11, 1, -7, 0, 4, -22, -9, -31, -5, -5, -11, 16, -1, 4, 9, -6, 3, -28, 3, 6, -21, -29, -36, -9, -29, -7, 1, -1, 0, 23, -32, -17, 1, -7, -15, -6, -2, -30, -24, -2, -26, -34, -25, -1, -11, 0, -6, -20, -18, 0, 1, -7, 11, -6, -14, 1, -3, 4, -5, -6, -2, -40, -4, 1, -10, 13, 0, -20, 3, 

In [106]:
print(len(new_score_list))

1002


In [107]:
evaluated_lines = dict(zip(lines, new_score_list))
for key, value in evaluated_lines.items():
    print(key, value)


 0
#الوتر_جنة_القلوب سبحانك ءءللهم و بحمدك ءشهد ءن لءء ءله ءلءء ءنت ءستغفرك و ءتوب ءليك #كفاره_المجلس  .…
 -22
الءبداع في عالم المستديرة لا يقتصر فقط على المهارات الفنية و كيفية تسجيل الءهداف ، بل هناك من يبدع في ءحتفاله بالءه…
 -17
على اساس ان القرار بيد الشرعيه  ما وراء الستار امور لا تعلمها  كلنا ثقه برجال…
 -25
 المطرقة الوردية متواجده لدعم الفتيات في كوتشيلا  - ابريل ، #BLACKPINKXCOACHELLA_D
 5
عرفت المكان 
 -3
يردوني ابتعد عنك وءعوفك :(
 4
في مباراة العربية غوميز استفز وتلفظ على المدافع الشاب عبدالباسط هندي حينها جهلة المدرج و الءعلام الجاهل ضحكوا وتن…
 -25
شكرا،وصباح الننور 
 -2
ايوا لاكن انا احيانن يحزني اقول انا دحين قاعد فبيتي ومحمي من المطر تحت سقف متواضع لاكن في ناس دحين تموت من…
 -35
اللهم اميين :(
 12
   اكتشاف خطير الصراحه يجربه
 -5
#النصر_الاتحاد توقع نتيجة مباراه #النصر_الاتحاد الجاءزه ريال  لصاحب التوقع الصحيح  شروط المسابقه  متابعه ا…
 0
ياليتني من بين الحظور اه 
 -7
رغم اني اعرف حظي سيء لكن راح اشارك واشارك  تم 
 15
من ارض سيدي جابر  #افريقيا_يا_صن_داونز #صن_داونز


 -3
اللهم صل وسلم وبارك على نبينا محمد صباح الورد 
 29
: الءم ما بصير تطلب ءصلا : لو الءم من هاد النوع مش حلوة ترفض العروس : العريس ءمعة :)
 5
حدثوني عن الاشتياق احدثكم عن روح دفنت تحت التراب ولم تفارق روحي 
 -6
#الهلال_الاهلي #الاتحاد_النصر يالهلال ءنت مكانك في الصداره انت الءول دايم وغيرك يهيم تدري وش جمهورك الوافي شعاره…
 -15
شهور و يوم تعال خذ الزرقاء من فريق التماسيح
 -3
في ناس انتهى حتى طاريهم 
 -4
شو ذي الحاله كل يووم يطلعولنا شي وتنشير حتى الءطفال صاار يقلدو 
 -1
شفتوا ياعيال .. ءنا بسوي نفسي ماشفت التغريدة ذي وءنتم سووا حفلة تخرج بعد الامتياز مافيه مانع 
 -5
((معارض قطرى يكشف: الدوحة ءعطت حوثى الجنسية القطرية)) اتوقع بكره يجونا تجار .. ترا عادي اولاد عم عبدالملك الحو…
 -19
المذاكرة مخليتني اتابع فيديوهات جن واقرا قصص جنن واو 
 19
ذكرتني بءمي الله يخليج ويحفظج يايمه ابشرك موجودات والدنيا بخير 
 22
ღ . . ءسلى مع طيفك الين ءنتعشتك عشان مااحس بغيابك على طول ياجعلها في ذمتك ماوحشتك  #تصميمي…
 -10
فيهم كمية غباء ماهي طبيعية  يادلخ ءكيد بءكون مسيار لنادي الاتحاد لانه من صالحنا تعطل ا

In [108]:
# create a dataframe from the dictionary
evaluated_lines_df = pd.DataFrame.from_dict(evaluated_lines, orient='index', columns=['Class'])

# add a column for the keys
evaluated_lines_df['Tweet'] = evaluated_lines_df.index

# reset the index
evaluated_lines_df = evaluated_lines_df.reset_index(drop=True)

# reorder the columns
evaluated_lines_df = evaluated_lines_df[['Tweet', 'Class']]

# replace values based on their sign
evaluated_lines_df['Class'] = evaluated_lines_df['Class'].apply(lambda x: 'neg' if x < 0 else 'pos' if x > 0 else 'neutral')

# drop the first row
evaluated_lines_df = evaluated_lines_df.drop(index=0, axis=0)


# print the resulting dataframe
evaluated_lines_df.head()

Unnamed: 0,Tweet,Class
1,#الوتر_جنة_القلوب سبحانك ءءللهم و بحمدك ءشهد ء...,neg
2,الءبداع في عالم المستديرة لا يقتصر فقط على الم...,neg
3,على اساس ان القرار بيد الشرعيه ما وراء الستار...,neg
4,المطرقة الوردية متواجده لدعم الفتيات في كوتشي...,pos
5,عرفت المكان \n,neg


In [109]:
#exporting the result in csv file.
evaluated_lines_df.to_csv('evaluated_tweets.csv', index=False)

In [110]:
sample_tweets.to_csv('sample_tweets.csv', index=False)

In [111]:
#getting the number of each target class before assigning them manually.
evaluated_lines_df["Class"].value_counts()

neg        538
pos        333
neutral     42
Name: Class, dtype: int64

In [112]:
sample_tweets["Class"].value_counts()

neg    501
pos    499
Name: Class, dtype: int64

In [116]:
cleaned_tweets = cleaned_tweets + [cleaned_tweets[-1]] * 47

sample_tweets["Tweet"] = cleaned_tweets
# Merge the two datasets on all columns
merged = pd.merge(sample_tweets, evaluated_lines_df, how='inner')

# Count the number of rows in the merged dataset
num_similar_rows = len(merged)

# Print the number of similar rows
print(f'There are {num_similar_rows} rows that are identical between the two datasets.')
merged.head()

There are 96 rows that are identical between the two datasets.


Unnamed: 0,Class,Tweet
0,neg,الءبداع في عالم المستديرة لا يقتصر فقط على الم...
1,neg,الءبداع في عالم المستديرة لا يقتصر فقط على الم...
2,pos,يردوني ابتعد عنك وءعوفك :(\n
3,neg,ايوا لاكن انا احيانن يحزني اقول انا دحين قاعد ...
4,pos,اللهم اميين :(\n
