## STEP 1: Import the required Libraries

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import string
import re
from nltk.corpus import stopwords
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix,accuracy_score, classification_report

## STEP 2: Import the arabic Dataset

In [12]:
data = pd.read_excel(r"data.xlsx")
#print(data.head(5))

## STEP 3: Data Preprocessing

In [13]:
#def lower_case (text):
#    text = text.lower()
#    return text
data['Comment'] = data['Comment'].str.lower()
#print(data.head(10))

In [14]:
data['Comment'][0]

'بربي مقداد قداش من مرة تجيبوه افهمونا راهو ماسط و الشعب ما يحبوش'

In [15]:
#def remove_links (text):
 #   text = re.sub(r'http\S+', '', text)
  #  return text
data['Comment'] = data['Comment'].str.replace(r'http\S+', '')
#print(data.head(10))

In [16]:
df_list = data["Comment"].values.tolist()
print(df_list[0])

بربي مقداد قداش من مرة تجيبوه افهمونا راهو ماسط و الشعب ما يحبوش


In [17]:
from collections import Counter
 
def remove_duplicates(input):
 
    # split input string separated by space
    input = input.split(" ")
 
    # joins two adjacent elements in iterable way
    for i in range(0, len(input)):
        input[i] = "".join(input[i])
 
    # now create dictionary using counter method
    # which will have strings as key and their
    # frequencies as value
    UniqW = Counter(input)
 
    # joins two adjacent elements in iterable way
    s = " ".join(UniqW.keys())
    return (s)

In [18]:
print(remove_duplicates(df_list[0]))

بربي مقداد قداش من مرة تجيبوه افهمونا راهو ماسط و الشعب ما يحبوش


In [19]:
lis=[]
for i in range(len(df_list)):
    #print(i)
    sen=remove_duplicates(df_list[i])
    #print(sen)
    lis.append(sen)
#print(lis)

In [20]:
from pandas import DataFrame
data["Comment"] = DataFrame (lis,columns=['Comment'])

In [21]:
data

Unnamed: 0,Comment,Sentiment
0,بربي مقداد قداش من مرة تجيبوه افهمونا راهو ماس...,sad
1,karim il gharbi masit i sitcom ma3jibnich,sad
2,mabldou,sad
3,الهالكا مختصة في قناة الزيتونة فقط وغير محايدة...,sad
4,إتحاد الخراب والدمار ،بعدما خرب بلادنا يريدون ...,sad
5,سلب لفلوسهم خاطر التوانسة فاقو بسرقتهم,sad
6,و المؤسسات الخاصة المصانع لا يشملهم الاضراب,sad
7,اش مدخل المقروض في الاضراب يامعلم,sad
8,والخاصة طز فيهم اخاطر يخلصو في زوز فرنك علي ال...,angry
9,اتحاد الخراب لن ينجح,angry


In [22]:
print(data.head(10))

                                             Comment Sentiment
0  بربي مقداد قداش من مرة تجيبوه افهمونا راهو ماس...       sad
1          karim il gharbi masit i sitcom ma3jibnich       sad
2                                            mabldou       sad
3  الهالكا مختصة في قناة الزيتونة فقط وغير محايدة...       sad
4  إتحاد الخراب والدمار ،بعدما خرب بلادنا يريدون ...       sad
5             سلب لفلوسهم خاطر التوانسة فاقو بسرقتهم       sad
6        و المؤسسات الخاصة المصانع لا يشملهم الاضراب       sad
7                  اش مدخل المقروض في الاضراب يامعلم       sad
8  والخاصة طز فيهم اخاطر يخلصو في زوز فرنك علي ال...     angry
9                               اتحاد الخراب لن ينجح     angry


In [23]:
def clean_diacritics (text):
    arabic_diacritics = re.compile("""
                             ّ    | # Shadda
                             َ    | # Fatha
                             ً    | # Tanwin Fath
                             ُ    | # Damma
                             ٌ    | # Tanwin Damm
                             ِ    | # Kasra
                             ٍ    | # Tanwin Kasr
                             ْ    | # Sukun
                             ـ     # Tatwil/Kashida
                         """, re.VERBOSE)
    text = re.sub(arabic_diacritics, '', text)
    return text
data['Comment'] = data['Comment'].apply(clean_diacritics)
#print(data.head(10))

In [24]:
def clean_text(text):
    text = re.sub('[^\w]+|_', ' ', text, flags=re.U)
    text = re.sub('x005F', '', text)
    text = re.sub('x005D', '', text)
    text = re.sub('x000D', '', text)
    #" ".join([word for word in text if word not in string.punctuation])
    #text = remove_emoji(text)
    #text = remove_diacritics(text)
    #tokens = word_tokenize(text)
    #text = ' '.join([word for word in tokens if word not in stop_words])
    return text
data['Comment'] = data['Comment'].apply(clean_text)
print(data.head(10))

                                             Comment Sentiment
0  بربي مقداد قداش من مرة تجيبوه افهمونا راهو ماس...       sad
1          karim il gharbi masit i sitcom ma3jibnich       sad
2                                            mabldou       sad
3  الهالكا مختصة في قناة الزيتونة فقط وغير محايدة...       sad
4  إتحاد الخراب والدمار بعدما خرب بلادنا يريدون إ...       sad
5             سلب لفلوسهم خاطر التوانسة فاقو بسرقتهم       sad
6        و المؤسسات الخاصة المصانع لا يشملهم الاضراب       sad
7                  اش مدخل المقروض في الاضراب يامعلم       sad
8  والخاصة طز فيهم اخاطر يخلصو في زوز فرنك علي ال...     angry
9                               اتحاد الخراب لن ينجح     angry


In [25]:
def remove_emoji(text):
    regrex_pattern = re.compile(pattern = "["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           "]+", flags = re.UNICODE)
    return regrex_pattern.sub(r' ',text)

def clean_text(text):
    text = re.sub('[^\w]+|_', ' ', text, flags=re.U)
    text = remove_emoji(text)
    return text
def preprocess(text):
    text = clean_text(text)
    text=remove_emoji(text)
    text = re.sub("[إأآا]", "ا", text)
    text = re.sub("ى", "ي", text)
    text = re.sub("ؤ", "ء", text)
    text = re.sub("ئ", "ء", text)
    text = re.sub("ة", "ه", text)
    text = re.sub("گ", "ك", text)

    return text
  
data['Comment'] = data['Comment'].apply(preprocess)
print(data['Comment'][0])

بربي مقداد قداش من مره تجيبوه افهمونا راهو ماسط و الشعب ما يحبوش


In [26]:
#Eliminer les stops words selon la liste disponible
with open("StopWords.txt", "r", encoding="utf8") as f:
    mylist = f.read().splitlines() 
f.close()
data['Comment'] = data['Comment'].str.split(' ').apply(lambda x: ' '.join(k for k in x if k not in mylist))
#print(data)

In [27]:
uniqueValues = data.Sentiment.unique()
uniqueValues

array(['sad', 'angry', 'happy', 'neutre'], dtype=object)

In [28]:
uniqueValues1 = data['Sentiment'].value_counts()
uniqueValues1

sad       2628
angry     2598
neutre    2598
happy     2570
Name: Sentiment, dtype: int64

In [29]:
data['Sentiment'] = data['Sentiment'].factorize()[0]
data.sample(100)

Unnamed: 0,Comment,Sentiment
1423,خير شاء فرحت اسغيراتك,2
2911,جينرال وحشه,0
84,افففف جبالي,0
9951,lzem y7ki biha yt3lmha,3
107,ماسط لاسط,0
5369,انسان رخيص,1
4138,وخياني الكلب الحيوان الديوث نشدوا,1
9032,ههههه ولدي يكسرها لحظه اختصاصو,3
8684,liya 9edech 3adit m3akom commande ltw wsolnii,3
3140,عملتولنا العار شوهتم طبايع التونسي الاصيل تفوه...,1


In [30]:
above_35 = data[data["Sentiment"] == 1]
above_35

Unnamed: 0,Comment,Sentiment
8,والخاصه طز اخاطر يخلصو زوز فرنك السميك,1
9,اتحاد الخراب ينجح,1
10,اطمع يهز للهاويه بلاد شافه الافلاس والاتحاد هو...,1
12,تشخر زادت بوف يهلك التحاد الخراب,1
21,akhmaj etayaran tunisair nul,1
22,marra tisma33 7kaya jdida bled 7arfaa ken lmsa...,1
23,يهلكوو ماصيرو يتشد ماعندو هارب,1
26,walah te7chmou,1
31,الاتحاد غربان وجراد شءم,1
34,اتحاد الخراب والفساد تربحهم,1


In [31]:
data.sample(5)

Unnamed: 0,Comment,Sentiment
8424,bravooooo twensa baldia chnwa ynajmo ya3mlo,2
6642,جيناهاش تقوللهم التونسيه تهز الطحين لترويكا يق...,1
10263,ken ma3andkomch techri chaweya kenoun f7am 9ar...,3
4691,tbarakkah 3la southa,2
4565,tbarkallah wini lamis,2


In [32]:
print("Number of null elements in train set: \n{}".format(data["Comment"].isna().sum()))

Number of null elements in train set: 
0


In [33]:
dd=data["Comment"].tolist()
#dd

In [34]:
len(dd)

10394

In [35]:
for el in dd:
    if el=='':
        dd.remove(el)
len(dd)

10386

In [36]:
data1 = data["Comment"] != " "
dfNew = data[data1]

In [37]:
print(dfNew[dfNew['Comment'] == ' '].index)

Int64Index([], dtype='int64')


In [38]:
dfNew.loc[284]

Comment      ماسططططططططط
Sentiment               0
Name: 284, dtype: object

In [39]:
print("Number of null elements in train set: \n{}".format(dfNew.isna().sum()))

Number of null elements in train set: 
Comment      0
Sentiment    0
dtype: int64


In [40]:
# create excel writer object
writer = pd.ExcelWriter('output.xlsx')
# write dataframe to excel
dfNew.to_excel(writer)
# save the excel
writer.save()
print('DataFrame is written successfully to Excel File.')
data=dfNew

DataFrame is written successfully to Excel File.


In [41]:
data1 = pd.read_excel(r"output.xlsx")
print(data1.head(5))

   Unnamed: 0                                            Comment  Sentiment
0           0     مقداد قداش مره تجيبوه افهمونا ماسط الشعب يحبوش          0
1           1             karim gharbi masit i sitcom ma3jibnich          0
2           2                                            mabldou          0
3           3  الهالكا مختصه قناه الزيتونه محايده وانتهت مهمت...          0
4           4  اتحاد الخراب والدمار خرب بلادنا يريدون افريقيا...          0


In [42]:
#data1.drop('Unnamed: 0', axis='columns', inplace=True)
data1

Unnamed: 0.1,Unnamed: 0,Comment,Sentiment
0,0,مقداد قداش مره تجيبوه افهمونا ماسط الشعب يحبوش,0
1,1,karim gharbi masit i sitcom ma3jibnich,0
2,2,mabldou,0
3,3,الهالكا مختصه قناه الزيتونه محايده وانتهت مهمت...,0
4,4,اتحاد الخراب والدمار خرب بلادنا يريدون افريقيا...,0
5,5,سلب لفلوسهم خاطر التوانسه فاقو بسرقتهم,0
6,6,المءسسات الخاصه المصانع يشملهم الاضراب,0
7,7,مدخل المقروض الاضراب يامعلم,0
8,8,والخاصه طز اخاطر يخلصو زوز فرنك السميك,1
9,9,اتحاد الخراب ينجح,1
