<a href="https://colab.research.google.com/github/elaaatif/NLP-Creation-of-BERT-LSTM-BILSTM-for-Arabic-news-Dataset/blob/master/BI_LSTM_V_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import os
import json
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import nltk
from nltk.corpus import stopwords
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import seaborn as sns
import re
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, SpatialDropout1D
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from keras.layers import Bidirectional
import sklearn

* READING DATA FRAMES

In [None]:
# Read the dataset
df1 = pd.read_csv("/kaggle/input/labeledarticles/labeled_data.csv")

In [None]:
df1.drop_duplicates(subset=['title','text'], inplace=True)

In [None]:
df1.describe()

Unnamed: 0,title,text,publishing_date,source_num,label
count,373515,373515,373515,373515,373515
unique,363736,362821,285062,103,2
top,نصاف بن علية تتلقّى الجرعة الأولى من لقاح فايزر,احترام خصوصيتك هو أولويتنا\n\nنحن نستخدم ملفات...,2021-05-19T00:00:00,source_65,credible
freq,6,797,845,33706,207018


In [None]:
# Show the head of the DataFrame
print(df1.head())

                                               title  \
0  المنتخب الوطني المغربي لأقل من 20 سنة يخوض تجم...   
1  وزير النقل اعمارة:السرعة عامل مسبب لحوادث السي...   
2    ميسي يؤكد أن الفوز بكأس اسبانيا كان "نقطة تحول"   
3  دبلوماسي مغربي سابق بإسبانيا لـ2M.ma: خطأ مدري...   
4  شركتان، فرنسية وبريطانية تعلنان عن نتائج إيجاب...   

                                                text      publishing_date  \
0  يخوض المنتخب الوطني المغربي لكرة القدم لأقل من...  2021-05-23T00:00:00   
1  ترأس عبد القادر اعمارة، وزير التجهيز و النقل و...  2021-05-22T00:00:00   
2  أكد النجم الارجنتيني ليونيل ميسي أن فوز فريقه ...  2021-05-22T00:00:00   
3  أكّد الدبلوماسي المغربي السابق بإسبانيا، عبد ا...  2021-05-22T00:00:00   
4  أعلنت شركتا سانوفي الفرنسية العملاقة في تصنيع ...  2021-05-17T00:00:00   

  source_num     label  
0   source_1  credible  
1   source_1  credible  
2   source_1  credible  
3   source_1  credible  
4   source_1  credible  


In [None]:
#label
distinct_label = df1['label'].unique()
print("Distinct label:", distinct_label)

Distinct label: ['credible' 'not credible']


In [None]:
#preps for merg
df1['label'] = df1['label'].map({'credible': 'real', 'not credible': 'fake'})

In [None]:
# Read Arabic stop words from text file
with open("/kaggle/input/arabic/Arabic stop words .txt", encoding="utf-8") as file:
    arabic_stopwords = set(file.read().splitlines())

In [None]:
"""
# Getting the Arabic stopwords from NLTK
stop_words = set(stopwords.words('arabic'))
"""

" \n# Getting the Arabic stopwords from NLTK\nstop_words = set(stopwords.words('arabic'))\n"

In [None]:
# Function to clean the text
def clean_text(text):
    # Remove links
    text = re.sub(r'http\S+', '', text)

    # Remove emojis and punctuations
    text = re.sub(r'[^\w\s]', '', text)

    # Remove HTML tags
    text = re.sub(r'<[^>]+>', '', text)

    # Remove specific patterns like ":\n\n1"
    text = re.sub(r':\n\n\d+', '', text)

    # Remove empty spaces
    text = text.strip()

    return text

# Clean the text column
df1['cleaned_text'] = df1['text'].apply(clean_text)


# Function to remove Arabic stop words
def remove_stopwords(text):
    words = text.split()
    filtered_words = [word for word in words if word not in arabic_stopwords]
    return ' '.join(filtered_words)

# Remove Arabic stop words
df1['cleaned_text'] = df1['cleaned_text'].apply(remove_stopwords)

# Show the head of the DataFrame with cleaned text
print(df1[['text', 'cleaned_text']].head())


                                                text  \
0  يخوض المنتخب الوطني المغربي لكرة القدم لأقل من...   
1  ترأس عبد القادر اعمارة، وزير التجهيز و النقل و...   
2  أكد النجم الارجنتيني ليونيل ميسي أن فوز فريقه ...   
3  أكّد الدبلوماسي المغربي السابق بإسبانيا، عبد ا...   
4  أعلنت شركتا سانوفي الفرنسية العملاقة في تصنيع ...   

                                        cleaned_text  
0  يخوض المنتخب الوطني المغربي لكرة القدم لأقل 20...  
1  ترأس عبد القادر اعمارة وزير التجهيز النقل اللو...  
2  أكد النجم الارجنتيني ليونيل ميسي فوز فريقه برش...  
3  أكد الدبلوماسي المغربي بإسبانيا عبد الخالق أطر...  
4  أعلنت شركتا سانوفي الفرنسية العملاقة تصنيع الأ...  


In [None]:
# Show the head of the DataFrame
print(df1.head())
#pd.set_option('display.max_colwidth', None)

                                               title  \
0  المنتخب الوطني المغربي لأقل من 20 سنة يخوض تجم...   
1  وزير النقل اعمارة:السرعة عامل مسبب لحوادث السي...   
2    ميسي يؤكد أن الفوز بكأس اسبانيا كان "نقطة تحول"   
3  دبلوماسي مغربي سابق بإسبانيا لـ2M.ma: خطأ مدري...   
4  شركتان، فرنسية وبريطانية تعلنان عن نتائج إيجاب...   

                                                text      publishing_date  \
0  يخوض المنتخب الوطني المغربي لكرة القدم لأقل من...  2021-05-23T00:00:00   
1  ترأس عبد القادر اعمارة، وزير التجهيز و النقل و...  2021-05-22T00:00:00   
2  أكد النجم الارجنتيني ليونيل ميسي أن فوز فريقه ...  2021-05-22T00:00:00   
3  أكّد الدبلوماسي المغربي السابق بإسبانيا، عبد ا...  2021-05-22T00:00:00   
4  أعلنت شركتا سانوفي الفرنسية العملاقة في تصنيع ...  2021-05-17T00:00:00   

  source_num label                                       cleaned_text  
0   source_1  real  يخوض المنتخب الوطني المغربي لكرة القدم لأقل 20...  
1   source_1  real  ترأس عبد القادر اعمارة وزير التجهيز 

In [None]:
df1.describe()

Unnamed: 0,title,text,publishing_date,source_num,label,cleaned_text
count,373515,373515,373515,373515,373515,373515
unique,363736,362821,285062,103,2,360433
top,نصاف بن علية تتلقّى الجرعة الأولى من لقاح فايزر,احترام خصوصيتك هو أولويتنا\n\nنحن نستخدم ملفات...,2021-05-19T00:00:00,source_65,real,احترام خصوصيتك أولويتنا نستخدم ملفات تعريف الا...
freq,6,797,845,33706,207018,797


In [None]:
df2 = pd.read_csv("/kaggle/input/arabic/cleaned_merged_data.csv")

In [None]:
df2.head()

Unnamed: 0,Title,Label,Topic,Origine,Article_date,Article_content,Article_correction,Article_content_cleaned,Article_correction_cleaned
0,54 عاما في القضاء.. نهاية حزينة لمعركة مقدسي ح...,real,politics,df1,,القدس المحتلة- لن يتمكن المقدسي سامي درويش في ...,,القدس المحتلة- لن يتمكن المقدسي سامي درويش في ...,
1,خبراء إيرانيون يشرحون لماذا لا تستعجل طهران با...,real,politics,df1,,طهران- منذ الهجوم الإسرائيلي على القنصلية الإي...,,طهران- منذ الهجوم الإسرائيلي على القنصلية الإي...,
2,فلسطيني يقود فريق خبراء بإيطاليا لبناء قضية إب...,real,politics,df1,,غادر المحامي الفلسطيني راجي صوراني قطاع غزة رف...,,غادر المحامي الفلسطيني راجي صوراني قطاع غزة رف...,
3,مستوطنون يهاجمون قرى نابلس بحماية من جنود الاح...,real,politics,df1,,نابلس- لليوم الثاني على التوالي، تتعرض قرية دو...,,نابلس- لليوم الثاني على التوالي، تتعرض قرية دو...,
4,جدل قانوني حول ترشح جاكوب زوما لانتخابات جنوب ...,real,politics,df1,,بريتوريا- تقدمت اللجنة المستقلة للانتخابات في ...,,بريتوريا- تقدمت اللجنة المستقلة للانتخابات في ...,


In [None]:
df2.describe()

Unnamed: 0,Title,Label,Topic,Origine,Article_date,Article_content,Article_correction,Article_content_cleaned,Article_correction_cleaned
count,5734,5735,938,5735,5568,5735,2225,5735,2225
unique,5734,2,10,2,2927,5717,2225,5717,2225
top,هذا المقطع يصور طقوسًا دينية في الهند، وليس حر...,fake,sport,df1,"May. 19, 2021",['الإدعاء'],نشرت إحدى حسابات فيسبوك الادعاء بتاريخ 4 يناير...,['الإدعاء'],نشرت إحدى حسابات فيسبوك الادعاء بتاريخ 4 يناير...
freq,1,3115,336,5721,22,11,1,11,1


In [None]:
df2.drop_duplicates(subset=['Title','Article_content'], inplace=True)

In [None]:
df2.describe()

Unnamed: 0,Title,Label,Topic,Origine,Article_date,Article_content,Article_correction,Article_content_cleaned,Article_correction_cleaned
count,5734,5735,938,5735,5568,5735,2225,5735,2225
unique,5734,2,10,2,2927,5717,2225,5717,2225
top,هذا المقطع يصور طقوسًا دينية في الهند، وليس حر...,fake,sport,df1,"May. 19, 2021",['الإدعاء'],نشرت إحدى حسابات فيسبوك الادعاء بتاريخ 4 يناير...,['الإدعاء'],نشرت إحدى حسابات فيسبوك الادعاء بتاريخ 4 يناير...
freq,1,3115,336,5721,22,11,1,11,1


* MERGING THE DATAFRAMES

In [None]:
# Merge the dataframes on their titles
merged_df = pd.merge(df1, df2, left_on='title', right_on='Title', how='left')

# Select the required columns
final_df = merged_df[['cleaned_text', 'label', 'Article_correction_cleaned']]

# Rename the columns for consistency
final_df.columns = ['text', 'label', 'correction']

In [None]:
# Display the final dataframe
final_df.head()

Unnamed: 0,text,label,correction
0,يخوض المنتخب الوطني المغربي لكرة القدم لأقل 20...,real,
1,ترأس عبد القادر اعمارة وزير التجهيز النقل اللو...,real,
2,أكد النجم الارجنتيني ليونيل ميسي فوز فريقه برش...,real,
3,أكد الدبلوماسي المغربي بإسبانيا عبد الخالق أطر...,real,
4,أعلنت شركتا سانوفي الفرنسية العملاقة تصنيع الأ...,real,


In [None]:
final_df_shuffled = final_df.sample(frac=1).reset_index(drop=True)

In [None]:
final_df_shuffled.head()

Unnamed: 0,text,label,correction
0,حصل رئيس الحكومة الإيطالي الجديد ماريو دراغي ا...,real,
1,فلادمير بوتين يتحادث ايمانويل ماكرون موسكو 24 ...,real,
2,زاكروس عربية أربيل أعلنت التربية الاتحادية الا...,real,
3,عمان 23 رجب 1442 هـ الموافق 07 2021 واسأعلنت و...,real,
4,المستقلةأحمد عبدالله أعلن المستشار الإعلامي لل...,fake,


In [None]:
final_df_shuffled=final_df_shuffled.iloc[:30000]

In [None]:
# 'label' column contains the labels in the DataFrame
final_df_shuffled['label'] = final_df_shuffled['label'].map({'fake': 0, 'real': 1})

In [None]:
# Replace empty strings with NaN
final_df_shuffled['label'].replace('', np.nan, inplace=True)

# Drop rows with NaN in the 'label' column
final_df_shuffled.dropna(subset=['label'], inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  final_df_shuffled['label'].replace('', np.nan, inplace=True)


In [None]:
final_df_shuffled.drop(columns=['correction'], inplace=True)


In [None]:
final_df_shuffled.head()

Unnamed: 0,text,label
0,حصل رئيس الحكومة الإيطالي الجديد ماريو دراغي ا...,1
1,فلادمير بوتين يتحادث ايمانويل ماكرون موسكو 24 ...,1
2,زاكروس عربية أربيل أعلنت التربية الاتحادية الا...,1
3,عمان 23 رجب 1442 هـ الموافق 07 2021 واسأعلنت و...,1
4,المستقلةأحمد عبدالله أعلن المستشار الإعلامي لل...,0


In [None]:
final_df_shuffled=final_df_shuffled.iloc[:30000]

# MAKING THE BI-LSTM MODEL

In [None]:
# Data Preparation
X = merged_df['text']
y = merged_df['label']

In [None]:
"""
# Remove Arabic stopwords
X = X.apply(lambda text: ' '.join([word for word in text.split() if word not in stop_words]))
"""

"\n# Remove Arabic stopwords\nX = X.apply(lambda text: ' '.join([word for word in text.split() if word not in stop_words]))\n"

In [None]:
# Use LabelEncoder to convert labels to numerical format
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)

In [None]:
# Split into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)

In [None]:
# Tokenization and Padding
max_vocab = 10000
tokenizer = Tokenizer(num_words=max_vocab)
tokenizer.fit_on_texts(X_train)

In [None]:
X_train_sequences = tokenizer.texts_to_sequences(X_train)
X_test_sequences = tokenizer.texts_to_sequences(X_test)

In [None]:
max_sequence_length = 128   # Set an appropriate value
X_train_padded = pad_sequences(X_train_sequences, maxlen=max_sequence_length, padding='post')
X_test_padded = pad_sequences(X_test_sequences, maxlen=max_sequence_length, padding='post')

In [None]:
 """
# LSTM Model
model = Sequential()
model.add(Embedding(input_dim=len(tokenizer.word_index) + 1, output_dim=100, input_length=max_sequence_length))
model.add(SpatialDropout1D(0.2))  # Dropout layer for regularization
model.add(LSTM(units=64, return_sequences=True))
model.add(LSTM(units=64))
model.add(Dense(units=len(np.unique(y_encoded)), activation='softmax'))
 """

SyntaxError: incomplete input (2898325610.py, line 9)

In [None]:

# BiLSTM Model
model = Sequential()
model.add(Embedding(input_dim=len(tokenizer.word_index) + 1, output_dim=100, input_length=max_sequence_length))
model.add(SpatialDropout1D(0.2))

# Adding Bidirectional LSTM layers
for _ in range(8):
    model.add(Bidirectional(LSTM(units=64, return_sequences=True)))

model.add(Bidirectional(LSTM(units=64)))
model.add(Dense(units=len(np.unique(y_encoded)), activation='softmax'))


In [None]:
# Compile the Model
model.compile(loss='sparse_categorical_crossentropy',
              optimizer=tf.keras.optimizers.Adam(1e-4),
              metrics=['accuracy'])

In [None]:
# Print the Model Summary
model.summary()

In [None]:

# Check if GPU is available
if tf.test.gpu_device_name():
    print('Default GPU Device: {}'.format(tf.test.gpu_device_name()))
else:
    print("GPU not found. Training on CPU.")

# Train the Model
early_stop = tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=2, restore_best_weights=True)

# Ensure the model is using the GPU if available
with tf.device('/device:GPU:0'):
    model.fit(X_train_padded, y_train, epochs=10, validation_split=0.2, batch_size=128, shuffle=True, callbacks=[early_stop])


Default GPU Device: /device:GPU:0
Epoch 1/10
[1m1868/1868[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m380s[0m 192ms/step - accuracy: 0.6667 - loss: 0.5731 - val_accuracy: 0.7530 - val_loss: 0.4554
Epoch 2/10
[1m1868/1868[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m357s[0m 191ms/step - accuracy: 0.7702 - loss: 0.4343 - val_accuracy: 0.7667 - val_loss: 0.4352
Epoch 3/10
[1m1868/1868[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m356s[0m 191ms/step - accuracy: 0.7880 - loss: 0.4084 - val_accuracy: 0.7739 - val_loss: 0.4256
Epoch 4/10
[1m1868/1868[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m357s[0m 191ms/step - accuracy: 0.8004 - loss: 0.3881 - val_accuracy: 0.7726 - val_loss: 0.4234
Epoch 5/10
[1m1868/1868[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m356s[0m 191ms/step - accuracy: 0.8134 - loss: 0.3665 - val_accuracy: 0.7742 - val_loss: 0.4231
Epoch 6/10
[1m1868/1868[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m356s[0m 191ms/step - accuracy: 0.8249 - loss: 0.3493 

In [None]:
"""
# Custom metrics functions
#precision_m = tf.keras.metrics.Precision()
#recall_m = tf.keras.metrics.Recall()
#f1_m = tf.keras.metrics.F1Score(average='weighted')

# Check if GPU is available
if tf.test.gpu_device_name():
    print('Default GPU Device: {}'.format(tf.test.gpu_device_name()))
else:
    print("GPU not found. Training on CPU.")

# Train the Model
early_stop = tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=2, restore_best_weights=True)

# Ensure the model is using the GPU if available
with tf.device('/device:GPU:0'):
    model.compile(loss='categorical_crossentropy', optimizer='adam',
                  metrics=['accuracy', precision_m, recall_m, f1_m])
    model.fit(X_train_padded, y_train, epochs=10, validation_split=0.2, batch_size=128, shuffle=True, callbacks=[early_stop])
    """


Default GPU Device: /device:GPU:0
Epoch 1/10


ValueError: Arguments `target` and `output` must have the same rank (ndim). Received: target.shape=(None,), output.shape=(None, 2)

In [None]:
"""
# Train the Model
early_stop = tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=2, restore_best_weights=True)

model.fit(X_train_padded, y_train, epochs=10, validation_split=0.2, batch_size=64, shuffle=True, callbacks=[early_stop])
"""

In [None]:
# Evaluate the Model
y_pred_probs = model.predict(X_test_padded)
y_pred = np.argmax(y_pred_probs, axis=1)

accuracy = accuracy_score(y_test, y_pred)
print(f"Test Accuracy: {accuracy:.4f}")

In [None]:
# Evaluate other metrics
print(classification_report(y_test, y_pred))

In [None]:
# Confusion Matrix
conf_matrix = confusion_matrix(y_test, y_pred)

# Plot Confusion Matrix
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', xticklabels=label_encoder.classes_, yticklabels=label_encoder.classes_)
plt.xlabel('Predicted Labels')
plt.ylabel('True Labels')
plt.title('Confusion Matrix')
plt.show()