In [2]:
import numpy as np
import pandas as pd

In [3]:
news_df = pd.read_csv("merged_cleaned.csv")

In [4]:
news_df.head(3)

Unnamed: 0,Id,date,platform,title,News content,Label
0,1,2023-01-11 00:00:00,Aljazeera,الضفة الغربية.. الاحتلال يهدم 17 منزلا تاريخيا...,هدمت قوات الاحتلال الإسرائيلي -اليوم الأربعاء-...,real
1,2,2023-01-11 00:00:00,Aljazeera,مظاهرات بمدن أوروبية تضامنا مع غزة وحشود أمام ...,خرجت مظاهرات في عدد من المدن الأوروبية مساء ال...,real
2,3,2023-01-11 00:00:00,Aljazeera,شهداء في جنين وطولكرم وإضراب عام بالضفة الغربي...,استشهد 4 فلسطينيين واعتقل عشرات آخرون -اليوم ا...,real


In [5]:
news_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5352 entries, 0 to 5351
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Id            5352 non-null   int64 
 1   date          5352 non-null   object
 2   platform      5352 non-null   object
 3   title         5352 non-null   object
 4   News content  5352 non-null   object
 5   Label         5352 non-null   object
dtypes: int64(1), object(5)
memory usage: 251.0+ KB


## data preparing and cleaning

In [6]:
news_df = news_df.drop("Id", axis=1)

In [7]:
news_df['date'] = pd.to_datetime(news_df['date'])

In [8]:
news_df['Label'].value_counts()

Label
real    3913
fake    1439
Name: count, dtype: int64

In [9]:
news_df.isnull().sum()

date            0
platform        0
title           0
News content    0
Label           0
dtype: int64

In [10]:
def check_duplicate(col):
    duplicate_count = news_df[col].duplicated().sum()
    return f"{col}: Duplicated entries = {duplicate_count}"

# Check for duplicates in all columns
cols_dp = [check_duplicate(col) for col in news_df[["title", "News content"]]]
cols_dp

['title: Duplicated entries = 301', 'News content: Duplicated entries = 23']

In [11]:
news_df = news_df.drop_duplicates(subset=['News content'])
news_df = news_df.drop_duplicates(subset=['title'])

In [12]:
news_df

Unnamed: 0,date,platform,title,News content,Label
0,2023-01-11,Aljazeera,الضفة الغربية.. الاحتلال يهدم 17 منزلا تاريخيا...,هدمت قوات الاحتلال الإسرائيلي -اليوم الأربعاء-...,real
1,2023-01-11,Aljazeera,مظاهرات بمدن أوروبية تضامنا مع غزة وحشود أمام ...,خرجت مظاهرات في عدد من المدن الأوروبية مساء ال...,real
2,2023-01-11,Aljazeera,شهداء في جنين وطولكرم وإضراب عام بالضفة الغربي...,استشهد 4 فلسطينيين واعتقل عشرات آخرون -اليوم ا...,real
3,2023-02-11,Aljazeera,أبو عبيدة: خسائر العدو أكبر بكثير مما يعلن وسن...,أكد الناطق باسمكتائب الشهيد عز الدين القسام-ال...,real
4,2023-03-11,Aljazeera,9 شهداء بالضفة والاحتلال يشن حملة اعتقالات,استشهد 9 فلسطينيين في مواجهات اندلعت مع قوات ا...,real
...,...,...,...,...,...
5347,2025-05-30,Aljazeera,"الحرب على غزة مباشر.. مجازر إسرائيلية بمراكز ""...",في اليوم الـ77 من استئناف حرب الإبادة على غزة،...,real
5348,2025-05-30,Misbar,الصورة ليست لجندي مغربي سقط في كمين للمقاومة ا...,تتداول حسابات على موقع التواصل الاجتماعي إكس، ...,fake
5349,2025-05-30,Aljazeera,مظاهرات بإسرائيل تطالب بإكمال الصفقة وجدل حول ...,تظاهر محتجون وسط تل أبيب ليل الاثنين وأضرموا ا...,real
5350,2025-05-30,Aljazeera,"زكريا الزبيدي حرا.. ""التنين"" الفلسطيني الذي هز...",لم يكن في مخيلة وزير الأمن القومي الإسرائيلي ا...,real


In [13]:
import pandas as pd
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk import FreqDist

import nltk
nltk.download('punkt')
nltk.download('stopwords')
from nltk.corpus import stopwords
import pandas as pd

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Walid\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Walid\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [14]:
from nltk.corpus import stopwords

arabic_stopwords = set(stopwords.words('arabic'))
print(sorted(arabic_stopwords))


['ء', 'ءَ', 'آ', 'آب', 'آذار', 'آض', 'آمينَ', 'آناء', 'آنفا', 'آه', 'آها', 'آهاً', 'آهٍ', 'آهِ', 'آي', 'أ', 'أبدا', 'أبريل', 'أبو', 'أبٌ', 'أجل', 'أجمع', 'أحد', 'أخبر', 'أخذ', 'أخو', 'أخٌ', 'أربع', 'أربعاء', 'أربعة', 'أربعمئة', 'أربعمائة', 'أرى', 'أسكن', 'أصبح', 'أصلا', 'أضحى', 'أطعم', 'أعطى', 'أعلم', 'أغسطس', 'أف', 'أفريل', 'أفعل به', 'أفٍّ', 'أقبل', 'أقل', 'أكتوبر', 'أكثر', 'أل', 'ألا', 'ألف', 'ألفى', 'أم', 'أما', 'أمام', 'أمامك', 'أمامكَ', 'أمد', 'أمس', 'أمسى', 'أمّا', 'أن', 'أنا', 'أنبأ', 'أنت', 'أنتم', 'أنتما', 'أنتن', 'أنتِ', 'أنشأ', 'أنى', 'أنًّ', 'أنّى', 'أهلا', 'أو', 'أوت', 'أوشك', 'أول', 'أولئك', 'أولاء', 'أولالك', 'أوه', 'أوّهْ', 'أى', 'أي', 'أيا', 'أيار', 'أيضا', 'أيلول', 'أين', 'أينما', 'أيها', 'أيّ', 'أيّان', 'أُفٍّ', 'ؤ', 'إحدى', 'إذ', 'إذا', 'إذاً', 'إذما', 'إذن', 'إزاء', 'إلا', 'إلى', 'إليك', 'إليكم', 'إليكما', 'إليكن', 'إليكنّ', 'إليكَ', 'إلَيْكَ', 'إلّا', 'إما', 'إمّا', 'إن', 'إنا', 'إنما', 'إنه', 'إنَّ', 'إى', 'إي', 'إياك', 'إياكم', 'إياكما', 'إياكن', 'إيانا', 'إياه

In [15]:
len(arabic_stopwords)

701

In [16]:
from arabicstopwords.arabicstopwords import stopwords_list

stopwords = set(stopwords_list())

def remove_stopwords(text):
    return ' '.join([word for word in text.split() if word not in stopwords])

In [17]:
print(sorted(stopwords))

['ء', 'آ', 'آض', 'آمين', 'آنئذ', 'آناء', 'آنذاك', 'آنفا', 'آه', 'آها', 'أ', 'أأجمع', 'أأجمعك', 'أأجمعكم', 'أأجمعكما', 'أأجمعكن', 'أأجمعنا', 'أأجمعه', 'أأجمعها', 'أأجمعهم', 'أأجمعهما', 'أأجمعهن', 'أأجمعي', 'أأمام', 'أأمامك', 'أأمامكم', 'أأمامكما', 'أأمامكن', 'أأمامنا', 'أأمامه', 'أأمامها', 'أأمامهم', 'أأمامهما', 'أأمامهن', 'أأمامي', 'أأنا', 'أأناك', 'أأناكم', 'أأناكما', 'أأناكن', 'أأنانا', 'أأناه', 'أأناها', 'أأناهم', 'أأناهما', 'أأناهن', 'أأناي', 'أأنت', 'أأنتم', 'أأنتما', 'أأنتن', 'أأولئك', 'أأولئكم', 'أأولاء', 'أأولالك', 'أإلى', 'أإلي', 'أإليك', 'أإليكم', 'أإليكما', 'أإليكن', 'أإلينا', 'أإليه', 'أإليها', 'أإليهم', 'أإليهما', 'أإليهن', 'أإن', 'أإنا', 'أإنك', 'أإنكم', 'أإنكما', 'أإنكن', 'أإننا', 'أإنه', 'أإنها', 'أإنهم', 'أإنهما', 'أإنهن', 'أإني', 'أب', 'أبأجمع', 'أبأجمعك', 'أبأجمعكم', 'أبأجمعكما', 'أبأجمعكن', 'أبأجمعنا', 'أبأجمعه', 'أبأجمعها', 'أبأجمعهم', 'أبأجمعهما', 'أبأجمعهن', 'أبأجمعي', 'أبأولئك', 'أبأولئكم', 'أبأولاء', 'أبأولالك', 'أبا', 'أباك', 'أباكم', 'أباكما', 'أباكن', 'أبانا

In [18]:
len(stopwords)

13465

In [19]:
news_df['text'] = news_df['title'] + ' ' + news_df['News content']

In [20]:
# data_cleaner.py
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

class ArabicTextCleaner:
    def __init__(self):
        self.stop_words = set(stopwords.words('arabic'))

    def remove_diacritics(self, text):
        return re.sub(r'[\u0617-\u061A\u064B-\u0652]', '', text)

    def normalize(self, text):
        text = re.sub(r"[إأآا]", "ا", text)
        text = re.sub(r"ى", "ي", text)
        text = re.sub(r"ؤ", "و", text)
        text = re.sub(r"ئ", "ي", text)
        text = re.sub(r"ة", "ه", text)
        return text

    def clean_text(self, text):
        text = str(text)
        text = self.remove_diacritics(text)
        text = self.normalize(text)
        text = re.sub(r'\d+', '', text)
        text = re.sub(r'[^\u0600-\u06FF\s]', '', text)  # Arabic chars only
        tokens = word_tokenize(text)
        tokens = [word for word in tokens if word not in self.stop_words]
        return ' '.join(tokens)

In [21]:
#from data_cleaner import ArabicTextCleaner

cleaner = ArabicTextCleaner()
news_df['text'] = news_df['text'].apply(cleaner.clean_text)


In [22]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.tree import DecisionTreeClassifier
from xgboost import XGBClassifier
from sklearn.metrics import classification_report
from scipy.sparse import hstack

#from data_cleaner import ArabicTextCleaner

In [23]:
# 4. Encode platform (LabelEncoder, since we're using tree models)
platform_counts = news_df['platform'].value_counts()
threshold = 10
news_df['platform'] = news_df['platform'].apply(
    lambda x: x if platform_counts[x] >= threshold else 'Other'
)
le_platform = LabelEncoder()
news_df['platform'] = le_platform.fit_transform(news_df['platform'])

In [24]:
# 5. Encode label
le_label = LabelEncoder()
y = le_label.fit_transform(news_df['Label'])  # 'real' -> 0, 'fake' -> 1

In [25]:
# 6. TF-IDF on clean text
vectorizer = TfidfVectorizer(max_features=5000, ngram_range=(1, 2))
X_text = vectorizer.fit_transform(news_df['text'])

In [27]:
# 7. Combine text and platform features
X = hstack([X_text, news_df[['platform']].values])

In [28]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)

In [29]:
# 9. Define models
models = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "Random Forest": RandomForestClassifier(n_estimators=100, random_state=42),
    "Decision Tree": DecisionTreeClassifier(random_state=42),
    "XGBoost": XGBClassifier(eval_metric='logloss', random_state=42),
    "Gradient Boosting": GradientBoostingClassifier(n_estimators=100, random_state=42)
}

# 10. Train and evaluate
for name, model in models.items():
    print(f"\n🧠 Training: {name}")
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print(classification_report(y_test, y_pred, target_names=le_label.classes_))



🧠 Training: Logistic Regression
              precision    recall  f1-score   support

        fake       0.82      0.84      0.83       280
        real       0.94      0.93      0.93       731

    accuracy                           0.91      1011
   macro avg       0.88      0.89      0.88      1011
weighted avg       0.91      0.91      0.91      1011


🧠 Training: Random Forest
              precision    recall  f1-score   support

        fake       0.82      0.92      0.87       280
        real       0.97      0.92      0.94       731

    accuracy                           0.92      1011
   macro avg       0.89      0.92      0.90      1011
weighted avg       0.93      0.92      0.92      1011


🧠 Training: Decision Tree
              precision    recall  f1-score   support

        fake       0.83      0.85      0.84       280
        real       0.94      0.93      0.94       731

    accuracy                           0.91      1011
   macro avg       0.89      0.89      0.