In [26]:
# coding=utf-8
import re
import string
import sys
import argparse

arabic_punctuations = '''`÷×؛<>_()*&^%][ـ،/:"؟.,'{}~¦+|!”…“–ـ'''
english_punctuations = string.punctuation
punctuations_list = arabic_punctuations + english_punctuations

arabic_diacritics = re.compile("""
                             ّ    | # Tashdid
                             َ    | # Fatha
                             ً    | # Tanwin Fath
                             ُ    | # Damma
                             ٌ    | # Tanwin Damm
                             ِ    | # Kasra
                             ٍ    | # Tanwin Kasr
                             ْ    | # Sukun
                             ـ     # Tatwil/Kashida
                         """, re.VERBOSE)


def normalize_arabic(text):
    text = re.sub("[إأآا]", "ا", text) # the second char is the one used
    text = re.sub("ى", "ي", text) #the first char is the one that will be used
    text = re.sub("ؤ", "ء", text)
    #text = re.sub("ئ", "ء", text)
    text = re.sub("ة", "ه", text)
    text = re.sub("گ", "ك", text)
    return text


def remove_diacritics(text):
    text = re.sub(arabic_diacritics, '', text)
    return text


def remove_punctuations(text):
    translator = str.maketrans('', '', punctuations_list)
    return text.translate(translator)


def remove_repeating_char(text):
    return re.sub(r'(.)\1{2,}', r'\1', text) #added {2,} to avoid taking double words out

In [27]:
def clean(text):
    return remove_diacritics(normalize_arabic(remove_repeating_char(remove_punctuations(text))))
    

In [1]:
import os
DATA_HOME = os.chdir('C:\\Users\\sadan\\OneDrive\\surrey\\sentiment_proj\\datasets')

# Cleaning the Arabic side

In [2]:
import pandas as pd
data = pd.read_excel('gr150_with_correct_Trans.xlsx')  

In [3]:
data.head()

Unnamed: 0,rating,ar,correct
0,4,من أمتع ما قرأت من روايات بلا شك. وحول الشك ت...,Undoubtedly one of the most interesting novels...
1,4,هذا هو الأدب . هذه هي الرواية !,This is literature. This is the novel!
2,5,عزازيل لكل منا عزازيل يحاوره يساوره هو شماعة ...,"Azazel is all of us, each one of us has his ow..."
3,2,انا كان عندى شغف قوى جدا لاقرأه وبعد ان تعمقت...,I had a very strong passion to read and after ...
4,4,- هذا الكتاب هو منجز روائي هائل بالمعلومات و ...,This book is a great achievment which is full ...


In [7]:
text = '''  راااااااااائع  اروووووووووووووووووووووووووووووووووووووع رهيبه رهيبة أستاذ لا يَأْتِيهِ الْبَاطِلُ مِنْ بَيْنِ يَدَيْهِ وَلا مِنْ خَلْفِهِ تَنزِيلٌ مِنْ حَكِيمٍ حَمِيدٍ  `÷×؛<>_()*&^%][ـ،/:"؟.,'{ '''

In [8]:
remove_repeating_char(text)

' رائع اروع رهيبه رهيبة أستاذ لا يَأْتِيهِ الْبَاطِلُ مِنْ بَيْنِ يَدَيْهِ وَلا مِنْ خَلْفِهِ تَنزِيلٌ مِنْ حَكِيمٍ حَمِيدٍ `÷×؛<>_()*&^%][ـ،/:"؟.,\'{ '

In [9]:
text

'  راااااااااائع  اروووووووووووووووووووووووووووووووووووووع رهيبه رهيبة أستاذ لا يَأْتِيهِ الْبَاطِلُ مِنْ بَيْنِ يَدَيْهِ وَلا مِنْ خَلْفِهِ تَنزِيلٌ مِنْ حَكِيمٍ حَمِيدٍ  `÷×؛<>_()*&^%][ـ،/:"؟.,\'{ '

In [25]:
normalize_arabic('آستاذ')

'استاذ'

In [10]:
clean(text)

' رائع اروع رهيبه رهيبه استاذ لا ياتيه الباطل من بين يديه ولا من خلفه تنزيل من حكيم حميد '

In [20]:
re.sub(r'(.)\1{2,}', r'\1', 'قصص')

'قصص'

In [12]:
clean(text)

' رائع اروع رهيبه رهيبه استاذ لا ياتيه الباطل من بين يديه ولا من خلفه تنزيل من حكيم حميد '

In [13]:
t2 ='''"لا يَأْتِيهِ الْبَاطِلُ مِنْ بَيْنِ يَدَيْهِ وَلا مِنْ خَلْفِهِ تَنزِيلٌ مِنْ حَكِيمٍ حَمِيدٍ " '''

In [14]:
remove_punctuations(t2)

'لا يَأْتِيهِ الْبَاطِلُ مِنْ بَيْنِ يَدَيْهِ وَلا مِنْ خَلْفِهِ تَنزِيلٌ مِنْ حَكِيمٍ حَمِيدٍ  '

In [28]:
data['ar']= data['ar'].astype(str).apply(clean)

In [53]:
for row in data['ar']:
    if 'عاجبني قووووووووي' in row:
        print('1')

In [29]:
data['ar']

0         من امتع ما قرات من روايات بلا شك وحول الشك تد...
1                            هذا هو الادب  هذه هي الروايه 
2         عزازيل لكل منا عزازيل يحاوره يساوره هو شماعه ...
3         انا كان عندي شغف قوي جدا لاقراه وبعد ان تعمقت...
4          هذا الكتاب هو منجز روائي هائل بالمعلومات و ق...
5         الرق التاسع والعشرون اصابني بشده  القضيه ان ه...
6         اول روايه عربيه قراتها اروع ما قرات احببت من ...
7                                                     تحفه
8         اول روايه عربيه قراتها اروع ما قرات احببت من ...
9         بدات هذا الكتاب حتي منتصفه لم انهييه ليس لدي ...
10        لم تحلو لي احداثها الا في المنتصف  اما النهاي...
11        الروايه عندما تكتب من باحث متمكن لابد وان تحت...
12               اجمل الروايات اللتي قراتها باللغه العربيه
13        ابهرني المءلف بذكائه في تحويل قضيه مثيره للجد...
14        روايه جميله تضيف لك الكثير من المعلومات عن نظ...
15        تعرفت اكثر علي الديانه المسيحيه  وعشت فيلم كن...
16        من احلي الروايات التي قراتها  روايه خياليه با.

In [30]:
data.shape

(29152, 3)

In [31]:
data.isna().sum()

rating      0
ar          0
correct    13
dtype: int64

In [32]:
data = data.dropna()

In [33]:
data.isna().sum()

rating     0
ar         0
correct    0
dtype: int64

In [41]:
#data.to_csv('clean_gr150.csv',  encoding='utf-8', index=None) needs to be imported by data

In [34]:
data.to_csv('clean_gr150.csv',  encoding='utf-8-sig', index=None)

In [45]:
clean('قووووووووي')

'قوي'

# Cleaning the English side

In [60]:
eng_side = pd.read_csv('clean_gr150.csv', encoding='utf8')

In [61]:
eng_side.shape

(29139, 3)

In [62]:
eng_side.head()

Unnamed: 0,rating,ar,correct
0,4,من امتع ما قرات من روايات بلا شك وحول الشك تد...,Undoubtedly one of the most interesting novels...
1,4,هذا هو الادب هذه هي الروايه,This is literature. This is the novel!
2,5,عزازيل لكل منا عزازيل يحاوره يساوره هو شماعه ...,"Azazel is all of us, each one of us has his ow..."
3,2,انا كان عندي شغف قوي جدا لاقراه وبعد ان تعمقت...,I had a very strong passion to read and after ...
4,4,هذا الكتاب هو منجز روائي هائل بالمعلومات و قد...,This book is a great achievment which is full ...


In [14]:
eng_side.isna().sum()

rating     0
ar         0
correct    0
dtype: int64

In [15]:
eng_side[eng_side.isnull().any(axis=1)] # checking the rows that has NAN

Unnamed: 0,rating,ar,correct


In [39]:
eng_side['correct']= eng_side['correct'].astype(str).apply(clean2)

In [18]:
s = "string. With. Punctuation?#):"

In [19]:
s.translate(str.maketrans('', '', string.punctuation))

'string With Punctuation'

In [57]:
def remove_punctuations(text):
    translator = str.maketrans('', '', string.punctuation)
    return text.translate(translator).lower()
# def remove_repeating_char(text):
#     return re.sub(r'(.)\1', r'\1', text)

def remove_repeating_char(text):
    return re.sub("((.)\\2{2})\\2+","$1",text)
def clean2(text):
    return remove_punctuations(remove_repeating_char(text))
 


In [58]:
clean2("string. With. cool Puunctuaaaaaaaaaaation?#):")

'string with cool puunctu1tion'

In [40]:
eng_side.to_csv('clean_gr1502.csv',  encoding='utf-8-sig', index=None)

In [52]:
def remove_repeating_char(text):
    return re.sub("((.)\\2{2})\\2+","$1",text)

In [59]:
clean("string. With. cool Puunctuaaaaaaaaaaation?#):")

'string with cool puunctu1tion'

In [63]:
eng_side['correct']= eng_side['correct'].astype(str).apply(clean2)

In [65]:
eng_side.to_csv('clean_gr1502.csv',  encoding='utf-8-sig', index=None)