We use a Hotel review dataset

In [None]:
!wget https://raw.githubusercontent.com/hadyelsahar/large-arabic-sentiment-analysis-resouces/master/datasets/HTL.csv

## Imports

In [7]:
import tensorflow as tf
import re
import numpy as np
import pandas as pd 
from tensorflow.keras.layers import GRU, Embedding, Dense, Input, Dropout, Bidirectional
from tensorflow.keras.models import Sequential
from keras.preprocessing.text import Tokenizer, text_to_word_sequence
from keras.preprocessing.sequence import pad_sequences


## Read the Dataset

preprocess a review by removing special characters and long spaces

In [9]:
def process_review(review):
    out = re.sub(r"[^\w\s]", '', review)
    out = re.sub(r"[a-zA-Z]", '', out)
    out = re.sub(r"\n", '', out)
    out = re.sub(r"\s+", ' ', out)
    return out.strip()

In [12]:
df = pd.read_csv('HTL.csv')
df.head()

Unnamed: 0,text,polarity
0,المكان الذي يمكنك فيه مراجعة الذات والتفكر هو ...,1
1,موقع رائع وحديقة رائعة ويستحق نجمةّ إضافية \r...,0
2,أسوأ فندق أقمت فيه على الإطلاق \r\nيستغرق تسج...,-1
3,بدون روح كأنه فندق ثلاثة نجوم \r\nبدون إدارة ...,0
4,فندق جميل مع سوء الإدارة والخدمات. \r\nمن الخ...,-1


In [13]:
df.text = df.text.apply(process_review)
df.head()

Unnamed: 0,text,polarity
0,المكان الذي يمكنك فيه مراجعة الذات والتفكر هو ...,1
1,موقع رائع وحديقة رائعة ويستحق نجمة إضافية على ...,0
2,أسوأ فندق أقمت فيه على الإطلاق يستغرق تسجيل ال...,-1
3,بدون روح كأنه فندق ثلاثة نجوم بدون إدارة احترا...,0
4,فندق جميل مع سوء الإدارة والخدمات من الخارج بد...,-1


## Create Sequences
Create sequences by using the most repeated 500 words

In [14]:
tknzr = Tokenizer(lower=True, split=" ")
tknzr.fit_on_texts(df.text)

#making sequences:
X = tknzr.texts_to_sequences(df.text)
X = pad_sequences(X, padding='post', value=0)

## Create Numpy Arrays

In [15]:
X = np.array(X)
y = np.array(df.polarity)

print(X.shape)

(15572, 1117)


## Create the model

In [16]:
model = Sequential()
model.add(Embedding(len(tknzr.word_index), 32))
model.add(Bidirectional(GRU(units = 32)))
model.add(Dense(32, activation = 'tanh'))
model.add(Dropout(0.3))
model.add(Dense(1, activation = 'softmax'))
model.compile(optimizer = 'adam', loss = 'categorical_crossentropy', metrics = ['accuracy'])

In [17]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, None, 32)          3182496   
                                                                 
 bidirectional (Bidirectiona  (None, 64)               12672     
 l)                                                              
                                                                 
 dense (Dense)               (None, 32)                2080      
                                                                 
 dropout (Dropout)           (None, 32)                0         
                                                                 
 dense_1 (Dense)             (None, 1)                 33        
                                                                 
Total params: 3,197,281
Trainable params: 3,197,281
Non-trainable params: 0
______________________________________________

## Train the model

In [18]:
model.fit(X, y, validation_split = 0.2, epochs = 7, batch_size= 128, shuffle = True)

Epoch 1/7

KeyboardInterrupt: 

## Tests

In [None]:
class_names = ['سلبي' , 'إيجابي']
def classify(sentence):
    sentence = process_review(sentence)
    sequence = [tknzr.word_index[word] for word in sentence.split(' ')]
    sequence = pad_sequences([sequence], maxlen = X.shape[1], padding='post', value=0)
    #print(sequence.dtype)
    #print(sequence)
    pred = model.predict(sequence)[0][0]
    print(class_names[np.round(pred).astype('int')], pred)
  

In [None]:
classify("جميل")

إيجابي 0.545708


In [None]:
classify("السلعة كانت جيدة")

إيجابي 0.85597116


In [None]:
classify("سيء")

سلبي 0.03726467


In [None]:
classify("لا بأس بها")

سلبي 0.03799555


In [None]:
classify("تفاجأت بجودة المنتج")

سلبي 0.1514895
