### Fake News Detector

#### Import Necessary Libraries

In [2]:
import pandas as pd
import numpy as np
import nltk
import re
from farasa.segmenter import FarasaSegmenter
from farasa.stemmer import FarasaStemmer
from farasa.pos import FarasaPOSTagger
from farasa.ner import FarasaNamedEntityRecognizer
from tqdm import tqdm
from joblib import Parallel, delayed
tqdm.pandas()
# Initialize Farasa tools
segmenter = FarasaSegmenter()
pos_tagger = FarasaPOSTagger()
stemmer = FarasaStemmer()
ner = FarasaNamedEntityRecognizer()

#### Load Data Set

In [2]:
# put the path for the data set here
path = '../data_set/train_set.csv'
path_2 = '../data_set/algerian_dialect_news.csv'
df = pd.read_csv(path, encoding='utf-8', skiprows=range(1, 3001))
df = df.dropna(subset=['text'])  # Drop rows where 'text' is NaN

In [3]:
df.shape

(5069, 3)

In [4]:
df.head()

Unnamed: 0,label,source,text
0,1,youtube,توفى ولا لبارح بصح غير الخبر مزال ماتنشر
1,1,paraphrased,متحديًا تحذيرات السكان لين يرفضون مغادرة المبا...
2,0,translated,وقالت الصين بلي الدبلوماسية لازما باش شبه الج...
3,1,manual,لاقتصاد تع الصين بدا يكبر فلقرن لعشرين
4,0,translated,الصين عطات مليار مساعدات عسكرية مجانية لأفريقيا


In [5]:
df.columns

Index(['label', 'source', 'text'], dtype='object')

In [6]:
# Count null rows
null_rows_count = df.isnull().sum().sum()
print(f"Number of null rows: {null_rows_count}")

# Count duplicated rows
duplicated_rows_count = df.duplicated().sum()
print(f"Number of duplicated rows: {duplicated_rows_count}")

Number of null rows: 0
Number of duplicated rows: 0


## NLP Processing

#### Text Cleaning

In [7]:
# -------------------------
# Arabic Text Normalization
def normalize_arabic(text):
    # Remove URLs
    text = re.sub(r"http\S+|www\S+|https\S+", "", text)  # Remove URLs
    # Remove HTML tags
    text = re.sub(r"<.*?>", "", text)                   # Remove HTML tags
    # Remove emojis
    text = re.sub(r"[^\w\s,]", "", text, flags=re.UNICODE)  # Remove emojis
    # Normalize Arabic text
    text = re.sub(r"[إأآٱ]", "ا", text)
    text = re.sub("ى", "ي", text)
    text = re.sub("ة", "ه", text)
    text = re.sub("[ًٌٍَُِّْ]", "", text)  # Remove diacritics
    text = re.sub(r"[^\w\s]", "", text)   # Remove punctuation
    return text.strip()

# Load custom Arabic stopwords
with open("../data_set/algerian_arabic_stopwords.txt", "r", encoding="utf-8") as f:
    custom_stopwords = set(word.strip() for word in f.readlines())
# -------------------------
# Text Segmentation (Sentence Splitting)
def segment_text(text):
    # Farasa returns segmented text with morphological boundaries marked
    segmented = segmenter.segment(text)
    # Return as is or with your custom separator
    return segmented

# -------------------------
# Lemmatization (Root Extraction)
def lemmatize_text(text):
    return " ".join(stemmer.stem(text))

# -------------------------
# POS Tagging
def pos_tag_text(text):
    return " ".join(pos_tagger.tag(text))

# -------------------------
# -------------------------
# Stopword Removal
def remove_stopwords(text):
    words = text.split()
    return " ".join([word for word in words if word not in custom_stopwords])

# -------------------------
# Text Segmentation using Farasa
def segment_text(text):
    segmented = segmenter.segment(text)
    return segmented

# -------------------------
# Lemmatization using Farasa
def lemmatize_text(text):
    stemmed = stemmer.stem(text)
    return stemmed

# -------------------------
# POS Tagging using Farasa
def pos_tag_text(text):
    tagged = pos_tagger.tag(text)
    return tagged
# -----------------------

# Apply stopword removal
tqdm.pandas(desc="🛑 Removing Stopwords")
df["cleaned_text"] = df["text"].progress_apply(remove_stopwords)

# Apply normalization
tqdm.pandas(desc="🔤 Normalizing")
df["normalized_text"] = df["cleaned_text"].progress_apply(normalize_arabic)

# Apply segmentation
tqdm.pandas(desc="📌 Segmenting")
df["segmented_text"] = df["normalized_text"].progress_apply(segment_text)

# Apply stemming/lemmatization and convert to token list
tqdm.pandas(desc="🌱 Stemming")
df["stemmed_tokens"] = df["normalized_text"].progress_apply(lambda text: stemmer.stem(text))
df["stemmed_tokens"] = df["stemmed_tokens"].apply(lambda text: text.split())

# Apply POS tagging and convert to token list
tqdm.pandas(desc="📌 POS Tagging")
df["pos_tags"] = df["normalized_text"].progress_apply(lambda text: pos_tagger.tag(text))
df["pos_tags"] = df["pos_tags"].apply(lambda text: text.split())

# Save the processed dataset
df.to_csv("cleaned_dataset.csv", index=False, encoding="utf-8-sig")
print("✅ NLP Preprocessing Complete! Ready for AraBERT tokenizer.")

🛑 Removing Stopwords: 100%|██████████| 5069/5069 [00:00<00:00, 234282.77it/s]
🔤 Normalizing: 100%|██████████| 5069/5069 [00:00<00:00, 77290.82it/s]
📌 Segmenting: 100%|██████████| 5069/5069 [4:00:17<00:00,  2.84s/it]  
🌱 Stemming: 100%|██████████| 5069/5069 [3:59:39<00:00,  2.84s/it]  
📌 POS Tagging: 100%|██████████| 5069/5069 [13:08:05<00:00,  9.33s/it]  

✅ NLP Preprocessing Complete! Ready for AraBERT tokenizer.





In [6]:
df_2 = pd.read_csv('./clean_dataset_v2.csv', encoding='utf-8')
df_2.head()

Unnamed: 0,label,source,text,cleaned_text,normalized_text,segmented_text,stemmed_tokens,pos_tags
0,1,translated,شى بوتين يوافق علا التعامل بشكل مناسب معا تجرب...,شى بوتين يوافق علا التعامل بشكل مناسب معا تجرب...,شي بوتين يوافق علا التعامل بشكل مناسب معا تجرب...,شي بوتين يوافق علا ال+تعامل ب+شكل مناسب مع+ا ت...,"['شي', 'بوتين', 'وافق', 'علا', 'تعامل', 'شكل',...","['S/S', 'شي/V', 'بوتين/NOUN-MS', 'يوافق/V', 'ع..."
1,0,youtube,لكذب فوجه بنادم بركاو من لكذب,لكذب فوجه بنادم بركاو لكذب,لكذب فوجه بنادم بركاو لكذب,ل+كذب فوج+ه ب+نادم ب+ركاو ل+كذب,"['كذب', 'فوج', 'نادم', 'ركاو', 'كذب']","['S/S', 'ل+/PREP', 'كذب/NOUN-MS', 'فوج/NOUN-MS..."
2,0,youtube,الحمدالله رب العالمين بسم الله مشاءالله و لا ح...,الحمدالله رب العالمين بسم الله مشاءالله حولا ق...,الحمدالله رب العالمين بسم الله مشاءالله حولا ق...,ال+حمدالله رب ال+عالم+ين بسم الله مشاءالله حول...,"['حمدالله', 'رب', 'عالم', 'بسم', 'الله', 'مشاء...","['S/S', 'ال+', 'حمدالله/DET+NOUN-MS', 'رب/NOUN..."
3,0,translated,حلفاء جباجبو وراء الهجمات على وزير داخلية ساحل...,حلفاء جباجبو وراء الهجمات وزير داخلية ساحل العاج,حلفاء جباجبو وراء الهجمات وزير داخليه ساحل العاج,حلفاء جباجبو وراء ال+هجم+ات وزير داخلي+ه ساحل ...,"['حليف', 'جباجبو', 'وراء', 'هجمة', 'وزير', 'دا...","['S/S', 'حلفاء/NOUN-MP', 'جباجبو/NOUN-MS', 'ور..."
4,0,translated,السيطرة على المعلومات تغير طريقها فالفترة الي ...,السيطرة المعلومات تغير طريقها فالفترة تسبق انت...,السيطره المعلومات تغير طريقها فالفتره تسبق انت...,ال+سيطره ال+معلوم+ات تغير طريق+ها ف+ال+فتره تس...,"['سيطره', 'معلومة', 'تغير', 'طريق', 'فتره', 'س...","['S/S', 'ال+', 'سيطره/DET+NOUN-MS', 'ال+', 'مع..."
