# Import Libraries

In [108]:
import os
import re

import numpy as np
import pandas as pd

from sklearn.preprocessing import LabelEncoder
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, SimpleRNN, Dense, Dropout
from tensorflow.keras.preprocessing.sequence import pad_sequences


# Load corpus

### Load Positives

In [48]:
train_tweets, train_labels = [], []

pos = os.getcwd() + '/corpus/arabic_tweets/pos/'  # Replace with the actual directory path

# Iterate over each file in the directory
for filename in os.listdir(pos):
    if filename.endswith('.txt'):  # Select only text files
        file_path = os.path.join(pos, filename)
        with open(file_path, 'r', encoding='utf-8-sig') as file:
            file_content = file.read()
            train_tweets.append(file_content)
            train_labels.append("positive")

### Load Negatives

In [49]:
# Get the txt file negative tweet
pos = os.getcwd() + '/corpus/arabic_tweets/neg/'  # Replace with the actual directory path

# Iterate over each file in the directory
for filename in os.listdir(pos):
    if filename.endswith('.txt'):  # Select only text files
        file_path = os.path.join(pos, filename)
        with open(file_path, 'r', encoding='utf-8-sig') as file:
            file_content = file.read()
            train_tweets.append(file_content)
            train_labels.append("negative")

### Build a dataframe

In [50]:
train_dic = {
    'Tweets' : train_tweets,
    'Labels' : train_labels
}

train_corpus = pd.DataFrame(train_dic)
train_corpus.head()

Unnamed: 0,Tweets,Labels
0,نحن الذين يتحول كل ما نود أن نقوله إلى دعاء لل...,positive
1,وفي النهاية لن يبقىٰ معك آحدإلا من رأىٰ الجمال...,positive
2,نمش ننوم ما دا ديل ولادنا 💚\n,positive
3,تعدل النت وشفتها ✌\n,positive
4,"🎥 المهمة الأولى في ""جدة"" ✔💪🏼 💙 #الهلال #فيديو_...",positive


# EDA

##### Explore your dataset

In [51]:
train_corpus

Unnamed: 0,Tweets,Labels
0,نحن الذين يتحول كل ما نود أن نقوله إلى دعاء لل...,positive
1,وفي النهاية لن يبقىٰ معك آحدإلا من رأىٰ الجمال...,positive
2,نمش ننوم ما دا ديل ولادنا 💚\n,positive
3,تعدل النت وشفتها ✌\n,positive
4,"🎥 المهمة الأولى في ""جدة"" ✔💪🏼 💙 #الهلال #فيديو_...",positive
...,...,...
58746,#أمي فقيدتي وأن مرت الأيام.. وبدأ الجميع بنسيا...,negative
58747,مره في السنه ما كل اسبوع عاد 😢\n,negative
58748,#يوم_الجمعه اسال الله عز وجل في هذا اليوم الفض...,negative
58749,يعني الغاء العقود الاولي كانت تسكيته لنا شسالف...,negative


In [52]:
train_corpus.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58751 entries, 0 to 58750
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Tweets  58751 non-null  object
 1   Labels  58751 non-null  object
dtypes: object(2)
memory usage: 918.1+ KB


In [53]:
train_corpus.describe()

Unnamed: 0,Tweets,Labels
count,58751,58751
unique,36723,2
top,بمناسبة فوز الهلال .. 💙 سحب على آيفون XR📱 رتوي...,positive
freq,479,29849


# Data Preprocessing

### Shuffle all rows

In [54]:
train_corpus = train_corpus.sample(frac = 1)
train_corpus

Unnamed: 0,Tweets,Labels
16875,☀ اللهم ابعد عن احبتي البلاء والعناء وارفع شأن...,positive
20838,والله ودنا بالطيب بس الدهر جحاد طيب 😂\n,positive
1234,وأجمل من يجي 💗\n,positive
57139,. #صفه_لا_تعجبك_بالشخص ولعلك تنام الليلة على أ...,negative
5910,تبرق وترعد في ضلوعي ، محبتك وتمطر حروفي في وصو...,positive
...,...,...
55470,#وش_يقول_الليل نسمة هوى جابت مع الليل ذكراك 💔\n,negative
3824,عادي حنا نسوي الاشياء عشان نسحب عليها ✅\n,positive
4714,#الغانم_العيسى_للمقاولات #دمشق_الرياض #جدة 💚تن...,positive
27755,يوم كان غوميز يهايط على الشاب الصغير عبدالباسط...,positive


### Data cleaning

**Hint: remove URLs, Hashtags, alphanumeric characters, punctuation marks, stop words, extra spaces**

In [55]:
URL_pattern = r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+"
hashtag_pattern = r"#\w+"
mention_pattern = r"@\w+"
alphanumeric_pattern = r"\w*\d\w*"
punctuation_pattern = r"[^\w\s]"
retweet_pattern = r"^RT[\s]+"

In [196]:
def load_stopwords(file_path):
    with open(file_path, 'r', encoding="utf-8") as f:
        stopwords = f.readlines()
        stop_set = set(m.strip() for m in stopwords)
    return frozenset(stop_set)

def process_text(text, stop_words):
    # Remove URLs
    text = re.sub(URL_pattern, '', text)
    
    # Remove hashtags
    text = re.sub(hashtag_pattern, '', text)
    
    # Remove mention
    text = re.sub(mention_pattern, '', text)

    # Remove alphanumeric characters
    text = re.sub(alphanumeric_pattern, '', text)

    # Remove punctuation marks
    text = re.sub(punctuation_pattern, '', text)
    
    # Remove Retweet marks
    text = re.sub(retweet_pattern, '', text)

    # Remove stop words using the provided set
    text = ' '.join([word for word in text.split() if word.lower() not in stop_words])
    text = ' '.join(text.split())
    return text

#### Now Clean your text using above function or implement it from scrach

In [197]:
stop = load_stopwords('corpus/Stop_Words.txt')

In [198]:
for i in range(train_corpus.shape[0]):
    train_corpus.loc[i,'Tweets'] = process_text(train_corpus.loc[i,'Tweets'],stop)

In [199]:
train_corpus.reset_index(inplace=True,drop=True)
train_corpus

Unnamed: 0,Tweets,Labels
0,اللهم ابعد احبتي البلاء والعناء وارفع شأنهم عا...,positive
1,والله ودنا بالطيب بس الدهر جحاد طيب,positive
2,وأجمل يجي,positive
3,ولعلك تنام الليلة أمر يئست منه ليوقظك الله فرح...,negative
4,تبرق وترعد ضلوعي محبتك وتمطر حروفي وصوفك قصايد...,positive
...,...,...
58746,نسمة هوى جابت الليل ذكراك,negative
58747,عادي حنا نسوي الاشياء عشان نسحب,positive
58748,تنفيذ المظلات المشبات الشويات الافران هناجر مس...,positive
58749,غوميز يهايط الشاب الصغير عبدالباسط الوضع فله و...,positive


In [200]:
train_corpus.loc[:,'Tweets']

0        اللهم ابعد احبتي البلاء والعناء وارفع شأنهم عا...
1                      والله ودنا بالطيب بس الدهر جحاد طيب
2                                                وأجمل يجي
3        ولعلك تنام الليلة أمر يئست منه ليوقظك الله فرح...
4        تبرق وترعد ضلوعي محبتك وتمطر حروفي وصوفك قصايد...
                               ...                        
58746                            نسمة هوى جابت الليل ذكراك
58747                      عادي حنا نسوي الاشياء عشان نسحب
58748    تنفيذ المظلات المشبات الشويات الافران هناجر مس...
58749    غوميز يهايط الشاب الصغير عبدالباسط الوضع فله و...
58750                                         الجزء الثانى
Name: Tweets, Length: 58751, dtype: object

#### Extra: you could do stemming or lemmatization before training

# Split data to train and test

In [201]:
split_ratio = 0.8 # 80% for the train
split_index = int(split_ratio * len(train_corpus))
x_train, y_train = train_corpus.loc[:split_index,'Tweets'], train_corpus.loc[:split_index,'Labels']
x_test, y_test = train_corpus.loc[split_index:,'Tweets'], train_corpus.loc[split_index:,'Labels']

# Tokenizer

In [202]:
token = Tokenizer(oov_token='<OOV>')
token.fit_on_texts(x_train)
word_index = token.word_index

# Text to sequence

In [203]:
sequ = token.texts_to_sequences(x_train)

# Pad sequence

In [204]:
max_sequ = max(len(seq) for seq in sequ)
paded = pad_sequences(sequ,maxlen=max_sequ,padding='post')

In [205]:
label_encoder = LabelEncoder()
y_train = label_encoder.fit_transform(y_train)

# RNN Model

In [206]:
model = Sequential()
model.add(Embedding(input_dim=len(token.word_index) + 1, output_dim=100, input_length=max_sequ))
model.add(SimpleRNN(units=100))
model.add(Dense(units=1, activation='sigmoid'))

In [207]:
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

In [208]:
model.fit(paded,y_train, epochs=1 ,batch_size=128)



<keras.callbacks.History at 0x3d44d2e0>

# LSTM Model

In [209]:
mmodel = Sequential()
mmodel.add(Embedding(input_dim=len(token.word_index) + 1, output_dim=100, input_length=max_sequ))
mmodel.add(LSTM(units=100))
mmodel.add(Dense(units=1, activation='sigmoid'))

In [210]:
mmodel.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

In [211]:
mmodel.fit(paded,y_train, epochs=1 ,batch_size=128)



<keras.callbacks.History at 0x386d3ca0>

# Evaulation and Comparsion

In [212]:
token = Tokenizer(oov_token='<OOV>')
token.fit_on_texts(x_test)
word_index = token.word_index

sequ = token.texts_to_sequences(x_test)

paded = pad_sequences(sequ,maxlen=max_sequ,padding='post')



In [213]:
label_encoder = LabelEncoder()
y_test = label_encoder.fit_transform(y_test)

In [214]:
model.evaluate(x=paded,y=y_test)



[0.7439728379249573, 0.5208918452262878]

In [215]:
mmodel.evaluate(paded,y_test)



[0.8676882982254028, 0.5259977579116821]