Importing the dataset into a dataframe

In [2]:
import pandas as pd
import numpy as np

In [9]:
!pip install pyarabic
!pip install langdetect
!pip install nltk

from langdetect import detect
import pyarabic.araby as araby
import nltk
nltk.download("all")


[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Package abc is already up-to-date!
[nltk_data]    | Downloading package alpino to /root/nltk_data...
[nltk_data]    |   Package alpino is already up-to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Package averaged_perceptron_tagger is already up-
[nltk_data]    |       to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Package averaged_perceptron_tagger_ru is already
[nltk_data]    |       up-to-date!
[nltk_data]    | Downloading package basque_grammars to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Package basque_grammars is already up-to-date!
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Pac

True

In [29]:
df = pd.read_csv('ar_reviews_100k.csv')
print(df)

       label  ...                                       stemmed_text
0          1  ...              متز نوع ما . نظف وقع جهز شاطيء . طعم 
1          1  ...  احد سبب نجح امر ان كل شخص في هذه دول عشق ترب ....
2          1  ...  هدف .. وقي . نقل من صخب شرع قهر الى هدء جبل شي...
3          1  ...  خلص .. بدئ الل مست بهر زي فيل زرق ميقراش حسن.....
4          1  ...  ياس جلر جزء لا جزأ من دبي . ندق كامل خدم ريح ن...
...      ...  ...                                                ...
99994     -1  ...  عرفش ليه كنت عاز كمل وهي مش عجب من بداية..القص...
99995     -1  ...  لا سحق ان يكون في كنق لنه سيئ . لا شي . لا وجد...
99996     -1  ...  كتب ضعف جدا ولم متع به . فى كل قصه سرد لحل او ...
99997     -1  ...  ملة جدا . حمد حسن علو فنن كلمات، وصف عند دقق و...
99998     -1  ...  لن رجع اله مرة خرى . قرب من بحر . كان قدم ولا ...

[99999 rows x 3 columns]


Replacing the label positive with 1, mixed with 0 and negative with -1

In [None]:
df["label"]=df["label"].str.replace("Positive","1")
df["label"]=df["label"].str.replace("Mixed","0")
df["label"]=df["label"].str.replace("Negative","-1")
print(df)

Detecting the language of the text and replacing it with -1 if it is not Arabic

In [None]:

df_copy=df.copy()
for index,row in df_copy.iterrows():
    try:
        language = detect(row[1])
        if language != 'ar':
          row["text"]="-1"
    except:
        language = "error"
        print("This row throws an error:", index, row[1])
        row["text"]="-1"
        print(row["text"])

df_copy = df_copy[df_copy['text']!="-1"] #remove non-arabic text
df_copy.info()

This row throws an error: 3539 . ...... .. . . . .... . . . .. ؟ .....
-1
This row throws an error: 51456 . . . . . . .
-1


#Now, we start stemming

In [None]:
from nltk.stem.isri import ISRIStemmer
from nltk import word_tokenize
st = ISRIStemmer()

# for a in word_tokenize(w):
#   print(st.stem(a))
df_copy=df.copy()
df_copy["stemmed_text"]=""
print("-----original-----\n")

print(df_copy)
print("-----stemmed-----\n")
for indx, row in df_copy.iterrows():
  sentence=row["text"]
  stemmed_sentence=""
  for a in word_tokenize(sentence):
    stemmed=st.stem(a)
    stemmed_sentence+=(stemmed+" ")
  df_copy["stemmed_text"][indx]=stemmed_sentence

df_copy.head()["stemmed_text"]

-----original-----

      label                                               text stemmed_text
0         1  ممتاز نوعا ما . النظافة والموقع والتجهيز والشا...             
1         1  أحد أسباب نجاح الإمارات أن كل شخص في هذه الدول...             
2         1  هادفة .. وقوية. تنقلك من صخب شوارع القاهرة الى...             
3         1  خلصنا .. مبدئيا اللي مستني ابهار زي الفيل الاز...             
4         1  ياسات جلوريا جزء لا يتجزأ من دبي . فندق متكامل...             
...     ...                                                ...          ...
99994    -1  معرفش ليه كنت عاوزة أكملها وهي مش عاجباني من ا...             
99995    -1  لا يستحق ان يكون في بوكنق لانه سيئ . لا شي. لا...             
99996    -1  كتاب ضعيف جدا ولم استمتع به. فى كل قصه سرد لحا...             
99997    -1  مملة جدا. محمد حسن علوان فنان بالكلمات، والوصف...             
99998    -1  لن ارجع إليه مرة اخرى . قربه من البحر. المكان ...             

[99999 rows x 3 columns]
-----stemmed-----



0                متز نوع ما . نظف وقع جهز شاطيء . طعم 
1    احد سبب نجح امر ان كل شخص في هذه دول عشق ترب ....
2    هدف .. وقي . نقل من صخب شرع قهر الى هدء جبل شي...
3    خلص .. بدئ الل مست بهر زي فيل زرق ميقراش حسن.....
4    ياس جلر جزء لا جزأ من دبي . ندق كامل خدم ريح ن...
Name: stemmed_text, dtype: object

In [30]:

df_copy=df.copy()
df_copy["normalized"]= df_copy["stemmed_text"].apply(araby.strip_tashkeel)
df_copy["normalized"]= df_copy["stemmed_text"].apply(araby.strip_tatweel)
df_copy["normalized"]= df_copy["stemmed_text"].apply(araby.normalize_hamza)

# df_copy.head()

   label  ...                                       stemmed_text
0      1  ...              متز نوع ما . نظف وقع جهز شاطيء . طعم 
1      1  ...  احد سبب نجح امر ان كل شخص في هذه دول عشق ترب ....
2      1  ...  هدف .. وقي . نقل من صخب شرع قهر الى هدء جبل شي...
3      1  ...  خلص .. بدئ الل مست بهر زي فيل زرق ميقراش حسن.....
4      1  ...  ياس جلر جزء لا جزأ من دبي . ندق كامل خدم ريح ن...

[5 rows x 3 columns]
------------


Unnamed: 0,label,text,stemmed_text,normalized
0,1,ممتاز نوعا ما . النظافة والموقع والتجهيز والشا...,متز نوع ما . نظف وقع جهز شاطيء . طعم,متز نوع ما . نظف وقع جهز شاطيء . طعم
1,1,أحد أسباب نجاح الإمارات أن كل شخص في هذه الدول...,احد سبب نجح امر ان كل شخص في هذه دول عشق ترب ....,احد سبب نجح امر ان كل شخص في هذه دول عشق ترب ....
2,1,هادفة .. وقوية. تنقلك من صخب شوارع القاهرة الى...,هدف .. وقي . نقل من صخب شرع قهر الى هدء جبل شي...,هدف .. وقي . نقل من صخب شرع قهر الى هدء جبل شي...
3,1,خلصنا .. مبدئيا اللي مستني ابهار زي الفيل الاز...,خلص .. بدئ الل مست بهر زي فيل زرق ميقراش حسن.....,خلص .. بدء الل مست بهر زي فيل زرق ميقراش حسن.....
4,1,ياسات جلوريا جزء لا يتجزأ من دبي . فندق متكامل...,ياس جلر جزء لا جزأ من دبي . ندق كامل خدم ريح ن...,ياس جلر جزء لا جزء من دبي . ندق كامل خدم ريح ن...


# Freq Encoding
------

In [32]:


def get_unique(df,colname):
  sentences_arr=df[colname].to_numpy() #convert df to np array
  words=' '.join(sentences_arr).split(' ') # join all strings into one string then splitting to get the words
  words=np.array(words) #convert to np array
  unique,counts = np.unique(words,return_counts=True)
  return unique, counts

def get_unique_dict(unique,counts):
  unique_dict=dict(zip(unique,counts))
  unique_dict=dict(sorted(unique_dict.items(), key=lambda item: item[1],reverse=True))
  return unique_dict


In [6]:
def remove_redundant_words(unique_dict):
  stop_words=['من','على','عن','في','فى','و','ان','هذا','او','كتب','...','.','','الى','فيه','انه','قبل','//','..','،',':',"؟",'/']
  for k, v in list(unique_dict.items()):
      if(unique_dict[k]<100 or k in stop_words):
        del unique_dict[k]

  return unique_dict




In [34]:
  unique,counts=get_unique(df_copy,"normalized")
  unique_dict=get_unique_dict(unique,counts)
  unique_dict=remove_redundant_words(unique_dict)
  

In [35]:
from nltk import word_tokenize

def remove_useless_words(sentence):
  res=[]
  for word in word_tokenize(sentence):
    if word in unique_dict:
      res.append(word)
  return res


In [None]:
  df_copy["clean_text"]=df_copy["normalized"].apply(remove_useless_words)
  df_copy

In [37]:
def get_freq(words):
  freq=dict()
  for word in words:
      if word in freq:
        freq[word]+=1
      else:
        freq[word]=1
  return freq

In [None]:
df_copy["freq"]=df_copy["clean_text"].apply(get_freq)


In [40]:
df_copy

Unnamed: 0,label,text,stemmed_text,normalized,clean_text,freq
0,1,ممتاز نوعا ما . النظافة والموقع والتجهيز والشا...,متز نوع ما . نظف وقع جهز شاطيء . طعم,متز نوع ما . نظف وقع جهز شاطيء . طعم,"[متز, نوع, ما, نظف, وقع, جهز, شاطيء, طعم]","{'متز': 1, 'نوع': 1, 'ما': 1, 'نظف': 1, 'وقع':..."
1,1,أحد أسباب نجاح الإمارات أن كل شخص في هذه الدول...,احد سبب نجح امر ان كل شخص في هذه دول عشق ترب ....,احد سبب نجح امر ان كل شخص في هذه دول عشق ترب ....,"[احد, سبب, نجح, امر, كل, شخص, هذه, دول, عشق, ت...","{'احد': 1, 'سبب': 1, 'نجح': 1, 'امر': 2, 'كل':..."
2,1,هادفة .. وقوية. تنقلك من صخب شوارع القاهرة الى...,هدف .. وقي . نقل من صخب شرع قهر الى هدء جبل شي...,هدف .. وقي . نقل من صخب شرع قهر الى هدء جبل شي...,"[هدف, نقل, صخب, شرع, قهر, هدء, جبل, شيش, عرف, ...","{'هدف': 1, 'نقل': 1, 'صخب': 1, 'شرع': 1, 'قهر'..."
3,1,خلصنا .. مبدئيا اللي مستني ابهار زي الفيل الاز...,خلص .. بدئ الل مست بهر زي فيل زرق ميقراش حسن.....,خلص .. بدء الل مست بهر زي فيل زرق ميقراش حسن.....,"[خلص, بدء, الل, بهر, زي, فيل, زرق, حمد, راد, خ...","{'خلص': 3, 'بدء': 1, 'الل': 1, 'بهر': 1, 'زي':..."
4,1,ياسات جلوريا جزء لا يتجزأ من دبي . فندق متكامل...,ياس جلر جزء لا جزأ من دبي . ندق كامل خدم ريح ن...,ياس جلر جزء لا جزء من دبي . ندق كامل خدم ريح ن...,"[ياس, جزء, لا, جزء, دبي, ندق, كامل, خدم, ريح, ...","{'ياس': 1, 'جزء': 2, 'لا': 2, 'دبي': 1, 'ندق':..."
...,...,...,...,...,...,...
99994,-1,معرفش ليه كنت عاوزة أكملها وهي مش عاجباني من ا...,عرفش ليه كنت عاز كمل وهي مش عجب من بداية..القص...,عرفش ليه كنت عاز كمل وهي مش عجب من بداية..القص...,"[عرفش, ليه, كنت, كمل, وهي, مش, عجب, حدث, بطء, ...","{'عرفش': 1, 'ليه': 1, 'كنت': 1, 'كمل': 1, 'وهي..."
99995,-1,لا يستحق ان يكون في بوكنق لانه سيئ . لا شي. لا...,لا سحق ان يكون في كنق لنه سيئ . لا شي . لا وجد...,لا سحق ان يكون في كنق لنه سيء . لا شي . لا وجد...,"[لا, سحق, يكون, كنق, لنه, سيء, لا, شي, لا, وجد...","{'لا': 3, 'سحق': 1, 'يكون': 1, 'كنق': 1, 'لنه'..."
99996,-1,كتاب ضعيف جدا ولم استمتع به. فى كل قصه سرد لحا...,كتب ضعف جدا ولم متع به . فى كل قصه سرد لحل او ...,كتب ضعف جدا ولم متع به . فى كل قصه سرد لحل او ...,"[ضعف, جدا, ولم, متع, به, كل, قصه, سرد, لحل, شه...","{'ضعف': 1, 'جدا': 1, 'ولم': 1, 'متع': 1, 'به':..."
99997,-1,مملة جدا. محمد حسن علوان فنان بالكلمات، والوصف...,ملة جدا . حمد حسن علو فنن كلمات، وصف عند دقق و...,ملة جدا . حمد حسن علو فنن كلمات، وصف عند دقق و...,"[ملة, جدا, حمد, حسن, علو, فنن, وصف, عند, دقق, ...","{'ملة': 1, 'جدا': 1, 'حمد': 1, 'حسن': 1, 'علو'..."


In [41]:
from google.colab import files

df_copy.to_csv('freqEncoded.csv', encoding = 'utf-8-sig',index=False) 
files.download('freqEncoded.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>