In [1]:
import re
import pandas as pd
import numpy as np
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import nltk
from datasets import load_dataset
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ACER\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ACER\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
base_model ="UBC-NLP/AraT5v2-base-1024"

In [4]:
dataset = load_dataset("FahdSeddik/AGS-Corpus")
dataset

DatasetDict({
    train: Dataset({
        features: ['id', 'text', 'summary'],
        num_rows: 141467
    })
})

In [5]:
dataset.shape

{'train': (141467, 3)}

In [6]:
df = pd.DataFrame({
        'text': dataset['train']['text'],
        'summary': dataset['train']['summary']
    })
df.sample(5)

Unnamed: 0,text,summary
88629,وقال إن المسألة في هذه الأمور معقدة تماماً وتر...,قال المتحدث إن جرائم القتل في المنازل معقدة وي...
106255,وقال شهود عيان، منهم محمد فريد عامل بالصيدلية ...,تعرض الضابط المسئول عن ملف جماعات الأمن الوطني...
137179,وتناقش هذه الدورة التي تحضرها العاصمة الرياض ب...,يناقش المكتب الدائم لمنظمة المدن العربية في ال...
113706,وأضاف أن الحديقة الدولية، استعدت بشكل خاص لاست...,أُعِدَّت الحديقة الدولية لشم النسيم، مع إضافة ...
4664,وأعلن الهلال أن دول سيتولى مهمته في تدريب الفر...,تعاقد الهلال مع المدرب توماس دول لتدريب الفريق...


In [7]:
print( df['text'][0] )
print(len(df["text"][0]))

يمكن تصور السلوكيات المُهَدِدة باعتبارها ثمرة لعدم القدرة على التأقلم مع الدافع الطبيعي التنافسي المتعلق بعلاقات الهيمنة المتبادلة التي تلاحظ عامة بين الحيوانات. بدلاً من ذلك، قد ينتج الترهيب في مجتمع من نوع يكون أفراده اجتماعيين، فالبشر بشكل عام يترددون في الدخول في مواجهة أو تهديد عنيف.وهو سلوك مثله مثل جميع السمات السلوكية يظهر بشكل أزيد أو أقل في كل فرد مع مرور الزمن، ولكنه قد يكون «سلوك تعويضي» ذو أهمية كبيرة بالنسبة للبعض مقارنة بالآخرين. فإن المنظرين السلوكيين كثيراً ما يرون أن السلوكيات المُهَدِدة هي نتيجة لتعرض القائمين بها للتهديد من قبل الآخرين، بما في ذلك الآباء، ورموز السلطة، والرفاق والأشقاء. «استخدام القوة مبرر عندما يعتقد الشخص بشكل منطقي أنها ضرورية للدفاع عن النفس أو الآخرين تجاه الاستخدام الفوري لقوة غير شرعية».و قد يتم استخدام الترهيب بوعي أو بغير وعي، ونسبة من الأشخاص الذين يستخدمونه بوعي ربما يفعلون ذلك نتيجة أفكار مستوعبة بأنانية عن تخصيصه لغرض، أو لفائدة أو للتمكين الذاتي. الترهيب المتصل بالتحامل والتمييز يمكن أن يشمل السلوك «الذي يزعج، يهدد، يرهب، وينذر، أو يضع

In [8]:
print( df['summary'][0] )
print(len(df["summary"][0]))

السلوكيات المهددة يمكن أن تكون نتيجة عدم القدرة على التأقلم مع العلاقات الهيمنة التنافسية المتبادلة بين الحيوانات. قد ينتج الترهيب في مجتمع من النوع الاجتماعي. الترهيب يتم استخدامه بوعي أو بغير وعي، ونسبة الأشخاص الذين يستخدمونه بوعي ربما يفعلون ذلك بسبب أفكار أنانية. الترهيب يمكن أن يشمل الاحتكاك البدني، أو التلاعب بالمشاعر، أو الإساءة اللفظية، أو الإحراج المتعمد و/أو الاعتداء الجسدي. قد يشكل تهديد العنف جريمة جنائية.
422


In [9]:
arabic_stopwords = set(stopwords.words('arabic')) 
arabic_stopwords

{'ء',
 'ءَ',
 'آ',
 'آب',
 'آذار',
 'آض',
 'آمينَ',
 'آناء',
 'آنفا',
 'آه',
 'آها',
 'آهاً',
 'آهٍ',
 'آهِ',
 'آي',
 'أ',
 'أبدا',
 'أبريل',
 'أبو',
 'أبٌ',
 'أجل',
 'أجمع',
 'أحد',
 'أخبر',
 'أخذ',
 'أخو',
 'أخٌ',
 'أربع',
 'أربعاء',
 'أربعة',
 'أربعمئة',
 'أربعمائة',
 'أرى',
 'أسكن',
 'أصبح',
 'أصلا',
 'أضحى',
 'أطعم',
 'أعطى',
 'أعلم',
 'أغسطس',
 'أف',
 'أفريل',
 'أفعل به',
 'أفٍّ',
 'أقبل',
 'أقل',
 'أكتوبر',
 'أكثر',
 'أل',
 'ألا',
 'ألف',
 'ألفى',
 'أم',
 'أما',
 'أمام',
 'أمامك',
 'أمامكَ',
 'أمد',
 'أمس',
 'أمسى',
 'أمّا',
 'أن',
 'أنا',
 'أنبأ',
 'أنت',
 'أنتم',
 'أنتما',
 'أنتن',
 'أنتِ',
 'أنشأ',
 'أنى',
 'أنًّ',
 'أنّى',
 'أهلا',
 'أو',
 'أوت',
 'أوشك',
 'أول',
 'أولئك',
 'أولاء',
 'أولالك',
 'أوه',
 'أوّهْ',
 'أى',
 'أي',
 'أيا',
 'أيار',
 'أيضا',
 'أيلول',
 'أين',
 'أينما',
 'أيها',
 'أيّ',
 'أيّان',
 'أُفٍّ',
 'ؤ',
 'إحدى',
 'إذ',
 'إذا',
 'إذاً',
 'إذما',
 'إذن',
 'إزاء',
 'إلا',
 'إلى',
 'إليك',
 'إليكم',
 'إليكما',
 'إليكن',
 'إليكنّ',
 'إليكَ',
 'إلَيْكَ',
 'إلّا',


In [10]:
arabic_patterns = {
            # Remove diacritics
            r'[\u064B-\u065F\u0670]': '',
            # Normalize Arabic characters
            r'[إأآا]': 'ا',
            r'ى': 'ي',
            r'ة': 'ه'
        }

In [11]:
def normalize_arabic(text):
        for pattern, replacement in arabic_patterns.items():
            text = re.sub(pattern, replacement, text)
        return text

In [12]:
def clean_stopwords(stopwords_set):
    cleaned_stopwords = set()
    for word in stopwords_set:
        # normalize them 
        word = normalize_arabic(word)
        cleaned_stopwords.add(word)
    return cleaned_stopwords

# cleaned set 
arabic_stopwords = clean_stopwords(arabic_stopwords)

In [None]:
def clean_text(text):
        # remove whitespace
        text = re.sub(r'\s+', ' ', text)
        # remove  urls
        text = re.sub(r'http\S+|www.\S+', '', text)
        # remove emails
        text = re.sub(r'\S+@\S+', '', text)
        return text.strip()

In [14]:
def remove_punctuation(text):
        arabic_punctuation = '،؛؟'
        # remove other punctuation 
        punctuation = '!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'
        
        punctuation_to_remove = ''.join(ch for ch in punctuation if ch not in arabic_punctuation)
        return text.translate(str.maketrans('', '', punctuation_to_remove))

In [15]:
def ara_tokenizer(text):
        text = normalize_arabic(text)
        tokens = re.findall(r'\w+', text)
        return [token for token in tokens if token not in arabic_stopwords]

In [16]:
def extract_features(text):
    if not isinstance(text, str) or not text.strip():
        return {
            'length': 0,
            'word_count': 0,
            'avg_word_length': 0,
            'lexical_diversity': 0
        }
    
    text = normalize_arabic(text)  
    tokens = ara_tokenizer(text)

    features = {
        'length': len(text),
        'word_count': len(tokens),
        'avg_word_length': sum(len(word) for word in tokens) / max(1, len(tokens)),
        'lexical_diversity': len(set(tokens)) / max(1, len(tokens))
    }
    
    return features

In [17]:
def preprocess_text(text):
        # check if its a text 
        if not isinstance(text, str):
            return ""
            
        text = str(text).strip()
        
        text = clean_text(text)
        text = remove_punctuation(text)
        text = normalize_arabic(text)
            
        return text

In [18]:
tfidf_vectorizer = TfidfVectorizer(
            max_features=500, 
            ngram_range=(1, 2),
            tokenizer= lambda text: ara_tokenizer(text),
            stop_words=None
        )

In [19]:
# implementing to df text and summary 
df['text'] = df['text'].apply(preprocess_text) 
df['summary'] = df['summary'].apply(preprocess_text)  
df['text'][0]

'يمكن تصور السلوكيات المهدده باعتبارها ثمره لعدم القدره علي التاقلم مع الدافع الطبيعي التنافسي المتعلق بعلاقات الهيمنه المتبادله التي تلاحظ عامه بين الحيوانات بدلا من ذلك، قد ينتج الترهيب في مجتمع من نوع يكون افراده اجتماعيين، فالبشر بشكل عام يترددون في الدخول في مواجهه او تهديد عنيفوهو سلوك مثله مثل جميع السمات السلوكيه يظهر بشكل ازيد او اقل في كل فرد مع مرور الزمن، ولكنه قد يكون «سلوك تعويضي» ذو اهميه كبيره بالنسبه للبعض مقارنه بالاخرين فان المنظرين السلوكيين كثيرا ما يرون ان السلوكيات المهدده هي نتيجه لتعرض القائمين بها للتهديد من قبل الاخرين، بما في ذلك الاباء، ورموز السلطه، والرفاق والاشقاء «استخدام القوه مبرر عندما يعتقد الشخص بشكل منطقي انها ضروريه للدفاع عن النفس او الاخرين تجاه الاستخدام الفوري لقوه غير شرعيه»و قد يتم استخدام الترهيب بوعي او بغير وعي، ونسبه من الاشخاص الذين يستخدمونه بوعي ربما يفعلون ذلك نتيجه افكار مستوعبه بانانيه عن تخصيصه لغرض، او لفائده او للتمكين الذاتي الترهيب المتصل بالتحامل والتمييز يمكن ان يشمل السلوك «الذي يزعج، يهدد، يرهب، وينذر، او يضع الشخص في حال

In [20]:
df['summary'][0]

'السلوكيات المهدده يمكن ان تكون نتيجه عدم القدره علي التاقلم مع العلاقات الهيمنه التنافسيه المتبادله بين الحيوانات قد ينتج الترهيب في مجتمع من النوع الاجتماعي الترهيب يتم استخدامه بوعي او بغير وعي، ونسبه الاشخاص الذين يستخدمونه بوعي ربما يفعلون ذلك بسبب افكار انانيه الترهيب يمكن ان يشمل الاحتكاك البدني، او التلاعب بالمشاعر، او الاساءه اللفظيه، او الاحراج المتعمد واو الاعتداء الجسدي قد يشكل تهديد العنف جريمه جنائيه'

In [21]:
# comparison
before="السلوكيات المهددة يمكن أن تكون نتيجة عدم القدرة على التأقلم مع العلاقات الهيمنة التنافسية المتبادلة بين الحيوانات. قد ينتج الترهيب في مجتمع من النوع الاجتماعي. الترهيب يتم استخدامه بوعي أو بغير وعي، ونسبة الأشخاص الذين يستخدمونه بوعي ربما يفعلون ذلك بسبب أفكار أنانية. الترهيب يمكن أن يشمل الاحتكاك البدني، أو التلاعب بالمشاعر، أو الإساءة اللفظية، أو الإحراج المتعمد و/أو الاعتداء الجسدي. قد يشكل تهديد العنف جريمة جنائية"
after ="السلوكيات المهدده يمكن ان تكون نتيجه عدم القدره علي التاقلم مع العلاقات الهيمنه التنافسيه المتبادله بين الحيوانات قد ينتج الترهيب في مجتمع من النوع الاجتماعي الترهيب يتم استخدامه بوعي او بغير وعي، ونسبه الاشخاص الذين يستخدمونه بوعي ربما يفعلون ذلك بسبب افكار انانيه الترهيب يمكن ان يشمل الاحتكاك البدني، او التلاعب بالمشاعر، او الاساءه اللفظيه، او الاحراج المتعمد واو الاعتداء الجسدي قد يشكل تهديد العنف جريمه جنائيه"

In [22]:
# extract the features
text_features = pd.DataFrame(df['text'].apply(extract_features).tolist())
text_features.columns = [f'text_{col}' for col in text_features.columns]

summary_features = pd.DataFrame(df['summary'].apply(extract_features).tolist())
summary_features.columns = [f'summary_{col}' for col in summary_features.columns]


text_tfidf = tfidf_vectorizer.fit_transform(df['text'])
summary_tfidf = tfidf_vectorizer.transform(df['summary'])


text_tfidf_df = pd.DataFrame(text_tfidf.toarray(), 
                             columns=[f'text_tfidf_{i}' for i in range(text_tfidf.shape[1])])
summary_tfidf_df = pd.DataFrame(summary_tfidf.toarray(), 
                                columns=[f'summary_tfidf_{i}' for i in range(summary_tfidf.shape[1])])

# combine the data with the extracted features by column
df = pd.concat([df, text_features, summary_features, text_tfidf_df, summary_tfidf_df], axis=1)





In [23]:
df.head()

Unnamed: 0,text,summary,text_length,text_word_count,text_avg_word_length,text_lexical_diversity,summary_length,summary_word_count,summary_avg_word_length,summary_lexical_diversity,...,summary_tfidf_490,summary_tfidf_491,summary_tfidf_492,summary_tfidf_493,summary_tfidf_494,summary_tfidf_495,summary_tfidf_496,summary_tfidf_497,summary_tfidf_498,summary_tfidf_499
0,يمكن تصور السلوكيات المهدده باعتبارها ثمره لعد...,السلوكيات المهدده يمكن ان تكون نتيجه عدم القدر...,1850,220,5.663636,0.877273,416,50,6.02,0.92,...,0.0,0.256492,0.0,0.0,0.0,0.0,0.0,0.0,0.520962,0.0
1,يقدر المؤرخون مجموع عدد الرقيق خلال الفتره الم...,يقدر عدد الرقيق خلال الفتره الممتده من 650 الي...,1679,206,5.626214,0.84466,487,60,5.683333,0.95,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,الرياض قامت صباح امس السبت بجوله في سوق السبت ...,قامت الرياض صباح امس السبت بجوله في سوق السبت ...,965,120,5.366667,0.783333,281,36,5.75,0.972222,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,كان السميلودون اخر اجناس السنوريات سيفيه الاني...,السميلودون هو اخر اجناس السنوريات سيفيه الانيا...,1549,187,6.363636,0.716578,421,49,6.795918,0.918367,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,وقال سموه في كلمه له بمناسبه اليوم الوطني ان ك...,لم يكن اليوم الوطني يعتبر تحقيقا لولا مسيره ال...,847,113,5.433628,0.734513,361,49,5.714286,0.897959,...,0.0,0.0,0.0,0.0,0.0,0.0,0.235463,0.0,0.0,0.0


In [24]:
# Shuffle the dataframe
df = df.sample(frac=1, random_state=42).reset_index(drop=True)

train_size = int(len(df) * 0.8)  
val_size = int(len(df) * 0.1)    
test_size = len(df) - (train_size + val_size)  

# Split the dataframe
train_df = df[:train_size]
val_df = df[train_size:train_size + val_size]
test_df = df[train_size + val_size:]

print(len(train_df) , len(val_df) ,len(test_df) )


113173 14146 14148


In [None]:
df.info()
print("\n\n")
df_with_features.info()

**Save them in CSV files**

create directory for Data before

In [27]:
data = "data"
train_df.to_csv(f'{data}/train.csv', index=False)
val_df.to_csv(f'{data}/val.csv', index=False)
test_df.to_csv(f'{data}/test.csv', index=False)

In [26]:
import torch
from transformers import (
    AutoTokenizer, 
    AutoModelForSeq2SeqLM, 
    Seq2SeqTrainingArguments, 
    Seq2SeqTrainer
)
import evaluate
from sklearn.metrics.pairwise import cosine_similarity