# Import Libraries

In [318]:
import os
import re

import numpy as np
import pandas as pd

import nltk 

import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, SimpleRNN, Dense, Dropout
from tensorflow.keras.preprocessing.sequence import pad_sequences
from keras.layers import Conv2D,MaxPool2D,GlobalAveragePooling2D,AveragePooling2D


# Load corpus

### Load Positives

In [299]:
train_tweets, train_labels = [], []

pos = os.getcwd() + '/corpus/arabic_tweets/pos/'  # Replace with the actual directory path

# Iterate over each file in the directory
for filename in os.listdir(pos):
    if filename.endswith('.txt'):  # Select only text files
        file_path = os.path.join(pos, filename)
        with open(file_path, 'r', encoding='utf-8-sig') as file:
            file_content = file.read()
            train_tweets.append(file_content)
            train_labels.append("positive")

### Load Negatives

In [300]:
# Get the txt file negative tweet
pos = os.getcwd() + '/corpus/arabic_tweets/neg/'  # Replace with the actual directory path

# Iterate over each file in the directory
for filename in os.listdir(pos):
    if filename.endswith('.txt'):  # Select only text files
        file_path = os.path.join(pos, filename)
        with open(file_path, 'r', encoding='utf-8-sig') as file:
            file_content = file.read()
            train_tweets.append(file_content)
            train_labels.append("negative")

### Build a dataframe

In [301]:
train_dic = {
    'Tweets' : train_tweets,
    'Labels' : train_labels
}

train_corpus = pd.DataFrame(train_dic)
train_corpus.head(10)

Unnamed: 0,Tweets,Labels
0,نحن الذين يتحول كل ما نود أن نقوله إلى دعاء لل...,positive
1,وفي النهاية لن يبقىٰ معك آحدإلا من رأىٰ الجمال...,positive
2,نمش ننوم ما دا ديل ولادنا 💚\n,positive
3,تعدل النت وشفتها ✌\n,positive
4,"🎥 المهمة الأولى في ""جدة"" ✔💪🏼 💙 #الهلال #فيديو_...",positive
5,اللهم صيبآ نافعآ 🌹\n,positive
6,وضع الدوري هالسنه 😁\n,positive
7,بمناسبة فوز الهلال .. 💙 سحب على آيفون XR📱 رتوي...,positive
8,مفيش غيرك انتى و هو و عمالين نلف حوالين بعض 😂\n,positive
9,الله يخليكك مبحبش اكدب انا 😂 😂\n,positive


# EDA

##### Explore your dataset

In [302]:
train_corpus.shape

(58751, 2)

In [303]:
train_corpus['Tweets'].duplicated().sum()

22028

In [304]:
train_corpus.drop_duplicates(subset='Tweets', keep="first", inplace=True)

In [305]:
train_corpus['Tweets'].duplicated().sum()

0

In [306]:
train_corpus.shape

(36723, 2)

In [307]:
train_corpus.head()

Unnamed: 0,Tweets,Labels
0,نحن الذين يتحول كل ما نود أن نقوله إلى دعاء لل...,positive
1,وفي النهاية لن يبقىٰ معك آحدإلا من رأىٰ الجمال...,positive
2,نمش ننوم ما دا ديل ولادنا 💚\n,positive
3,تعدل النت وشفتها ✌\n,positive
4,"🎥 المهمة الأولى في ""جدة"" ✔💪🏼 💙 #الهلال #فيديو_...",positive


# Data Preprocessing

### Shuffle all rows

In [308]:
train_corpus = train_corpus.sample(frac=1, random_state=42)
train_corpus.head()

Unnamed: 0,Tweets,Labels
41740,سويت لك لايكات رديها لاهنتي 😥\n,negative
39945,🤔 اول شي مو داش مكتبه عشان اطلع لك الارشيف وثا...,negative
10234,✍🏻 ● ♪ ° أريدڪ وأرفضڪ في آن وآحد ..! أتجآهلڪ و...,positive
15441,صباح الخير أيها الكوكب 😍 اليوم بتبدا سنتي وتجر...,positive
39638,اقولكم جيبولنا ناس يدرسوا الحجازيين كيف يردوا ...,negative


### Data cleaning

**Hint: remove URLs, Hashtags, alphanumeric characters, punctuation marks, stop words, extra spaces**

In [309]:
URL_pattern = r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+"
hashtag_pattern = r"#\w+"
mention_pattern = r"@\w+"
alphanumeric_pattern = r"\w*\d\w*"
punctuation_pattern = r"[^\w\s]"
retweet_pattern = r"^RT[\s]+"

In [310]:
def load_stopwords(file_path):
    with open(file_path, 'r', encoding="utf-8") as f:
        stopwords = f.readlines()
        stop_set = set(m.strip() for m in stopwords)
    return frozenset(stop_set)

def process_text(text, stop_words):
    text = re.sub(URL_pattern, '', text)
    text = re.sub(hashtag_pattern, '', text)    
    text = re.sub(mention_pattern, '', text)
    text = re.sub(alphanumeric_pattern, '', text)
    text = re.sub(punctuation_pattern, '', text)    
    text = re.sub(retweet_pattern, '', text)

    text = ' '.join([word for word in text.split() if word.lower() not in stop_words])
    text = ' '.join(text.split())
    return text

#### Now Clean your text using above function or implement it from scrach

In [311]:
stop_words = load_stopwords('C:\\Users\\rifal\\Desktop\\RNN_Lab1\\corpus\\Stop_Words.txt')


tweets=pd.Series(train_corpus['Tweets'])

def clean_text(text):
    return process_text(text, stop_words)

ctweets = tweets.apply(clean_text)
ctweets

41740                          سويت لك لايكات رديها لاهنتي
39945    شي مو داش مكتبه عشان اطلع لك الارشيف وثانيا ان...
10234    أريدڪ وأرفضڪ آن وآحد أتجآهلڪ وڪل قلبي منتبه ال...
15441    الخير أيها الكوكب بتبدا سنتي وتجربتي الجديدة ب...
39638    اقولكم جيبولنا ناس يدرسوا الحجازيين كيف يردوا ...
                               ...                        
27451    إذا سئمت الوجود لبرهة فاجعل الواو الكئيبة سينا...
8555     ليس عليك أن تكون قويا دائما مر بلحظات الضعف ول...
16950    شنو ال اتفه الشغلات الي توسوس منهاا امتنع الرد...
966      واخيرا وبعد طول انتظار لطيف بس مرضتش اقول يخلص بس
25392    ويبقى لك سماء صدري أجمل أرشيف غبت وهب النسيم أ...
Name: Tweets, Length: 36723, dtype: object

#### Extra: you could do stemming or lemmatization before training

In [312]:
train_corpus['CleanedTweets'] = ctweets
train_corpus

Unnamed: 0,Tweets,Labels,CleanedTweets
41740,سويت لك لايكات رديها لاهنتي 😥\n,negative,سويت لك لايكات رديها لاهنتي
39945,🤔 اول شي مو داش مكتبه عشان اطلع لك الارشيف وثا...,negative,شي مو داش مكتبه عشان اطلع لك الارشيف وثانيا ان...
10234,✍🏻 ● ♪ ° أريدڪ وأرفضڪ في آن وآحد ..! أتجآهلڪ و...,positive,أريدڪ وأرفضڪ آن وآحد أتجآهلڪ وڪل قلبي منتبه ال...
15441,صباح الخير أيها الكوكب 😍 اليوم بتبدا سنتي وتجر...,positive,الخير أيها الكوكب بتبدا سنتي وتجربتي الجديدة ب...
39638,اقولكم جيبولنا ناس يدرسوا الحجازيين كيف يردوا ...,negative,اقولكم جيبولنا ناس يدرسوا الحجازيين كيف يردوا ...
...,...,...,...
27451,🍁 « و إذا سئمت من ( الوجود ) لبرهة فاجعل من ال...,positive,إذا سئمت الوجود لبرهة فاجعل الواو الكئيبة سينا...
8555,ليس عليك أن تكون قويا دائما مر بلحظات الضعف ول...,positive,ليس عليك أن تكون قويا دائما مر بلحظات الضعف ول...
16950,شنو ال ( اتفه الشغلات ) الي توسوس منهاا 😂😂 — ا...,positive,شنو ال اتفه الشغلات الي توسوس منهاا امتنع الرد...
966,واخيرا وبعد طول انتظار كان يوم لطيف بس مرضتش ا...,positive,واخيرا وبعد طول انتظار لطيف بس مرضتش اقول يخلص بس


# Tokenizer

# Text to sequence

# Pad sequence

# Split data to train and test

In [314]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

epochs = 50
batch_size = 64

X = train_corpus['CleanedTweets']
y = train_corpus['Labels']

tokenizer = Tokenizer()
tokenizer.fit_on_texts(X)
sequences = tokenizer.texts_to_sequences(X)

max_sequence_length = 100
padded_sequences = pad_sequences(sequences, maxlen=max_sequence_length)


y = y.replace({'positive': 1, 'negative': 0})

X_train, X_test, y_train, y_test = train_test_split(padded_sequences, y, test_size=0.2, random_state=42)
y_train = np.asarray(y_train).astype('float32').reshape((-1,1))
y_test = np.asarray(y_test).astype('float32').reshape((-1,1))
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((29378, 100), (7345, 100), (29378, 1), (7345, 1))

# RNN Model

In [None]:
model = Sequential()
model.add(Embedding(input_dim=num_classes, output_dim=100, input_length=max_sequence_length))
model.add(LSTM(units=128))
model.add(Dense(units=num_classes, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

model.fit(y_train, epochs=epoch, batch_size=batch_size)

In [None]:
model.summary()

# LSTM Model

In [None]:
model.add(LSTM(units=128))

# Evaulation and Comparsion