# Read the important libraries

In [71]:
import json # for dealing with Json files
import pandas as pd # for dealing with dataset
import csv # used to wirte the data in CVS file
from nltk.corpus import stopwords # used to remove stopwords from the dataset
from nltk.tokenize import word_tokenize # to split the text into list of words
from simpletransformers.seq2seq import Seq2SeqModel, Seq2SeqArgs # Use the Seq2Seq model to apply text summarization


# Convert Json data to CVS file

In [73]:
# The pass to the Json dataset (old)
input_file = 'labeled_validation_dataset.jsonl'
# The pass to the CSV dataset (new)
output_file = 'labeled_validation_dataset.csv'

# Read from the Json file and write in the CSV file
with open(input_file, 'r', encoding='utf-8') as input, open(output_file, 'w', encoding='utf-8', newline='') as output:
    # Write the rows in csv
    writer = csv.writer(output)
    # Create column names
    writer.writerow(['input_text', 'target_text']) 
    
    # Loop on the input file and copy his content into output file
    for line in input:
        # Load the lines from Json data
        data = json.loads(line)
        # Copy the data
        paragraph = data['paragraph']
        summary = data['summary']
        
        # Write the extracted data to the output file
        writer.writerow([paragraph, summary])


# Show the new dataset

In [74]:
# Read the new dataset that we was created in the above
dataset = pd.read_csv('labeled_validation_dataset.csv')
# display the dataset
dataset

Unnamed: 0,input_text,target_text
0,وتحت عنوان من الكارثة إلى التحدى يبدأ الكاتب ع...,يبدأ الكاتب عرض الكتاب الرابع تحت عنوان من الك...
1,ولم يعترف دبلوماسيو هاتين الدولتين بالعريضة ال...,دبلوماسيو الدولتين لم يعترفوا بالعريضة التي قا...
2,قامت ولاية حلب بعد اعلان الجنرال الفرنسي هنري ...,أعلن غورو الانتداب الفرنسي على سوريا لكي يعاقب...
3,دولة مصر العربيه هي ليست اي دوله وليست اي شعب ...,مصر هي أم البلاد، وقائدة العرب؛ فهي أرض بلاد ا...
4,السوريون يصرون على استقلال بلادهم : و مثلما رف...,الشعب السوري يصر على استقلال بلدهم من السيطرة ...
...,...,...
149,حزب الوفد سيحتفل بمئوية ثورة 1919 يوم 9 مارس ا...,احتفال مئوية ثورة 1919 كان من منطلق وطني ليس ح...
150,حيث أعلن مجلس قيادة الثورة في 18 يونيه 1953 قي...,مجلس قيادة الثورة أعلن عن قيام الجمهورية المصر...
151,وبرغم أن عبد الرحمن فهمي كان يضم في ذلك الجهاز...,ضم عبد الرحمن فهمي في الجهاز السري عدد كبير من...
152,ولم تقتصر مقومات بورسعيد كمدينة عالمية منذ نشأ...,امتدت بورسعيد لكي تشمل الطابع الثقافي للمدينة،...


# Some pre-processing techniques

In [75]:
# Read the Arabic stopwords 
stop_words = set(stopwords.words('arabic'))

# Create pre-processing function to apply it in Arabic dataset
def preprocess_arabic_text(text):
    
    # Tokenize the text into list of words
    tokens = word_tokenize(text)

    # Remove all non-alphabetic characters
    tokens = [token for token in tokens if token.isalpha()]

    # Remove stopwords
    tokens = [token for token in tokens if token.lower() not in stop_words]

    # Join the tokens  
    preprocessed_text = ' '.join(tokens)

    return preprocessed_text


# Apply the pre-processing function on the dataset

In [76]:
# Apply text preprocessing on paragraph column
dataset['input_text'] = dataset['input_text'].apply(preprocess_arabic_text)

# Apply text preprocessing on summary column
dataset['target_text'] = dataset['target_text'].apply(preprocess_arabic_text)

dataset

Unnamed: 0,input_text,target_text
0,وتحت عنوان الكارثة التحدى يبدأ الكاتب عرض الكت...,يبدأ الكاتب عرض الكتاب الرابع عنوان الكارثة يو...
1,ولم يعترف دبلوماسيو الدولتين بالعريضة وقعها ال...,دبلوماسيو الدولتين يعترفوا بالعريضة الأعيان بت...
2,قامت ولاية حلب اعلان الجنرال الفرنسي هنري غورو...,أعلن غورو الانتداب الفرنسي سوريا يعاقب السوريي...
3,دولة مصر العربيه اي دوله وليست اي شعب لابل انه...,مصر وقائدة فهي أرض بلاد النيل وأرض الحضارات فق...
4,السوريون يصرون استقلال بلادهم مثلما رفض السوري...,الشعب السوري يصر استقلال بلدهم السيطرة الفرنسي...
...,...,...
149,حزب الوفد سيحتفل بمئوية ثورة يوم القادم والتي ...,احتفال مئوية ثورة منطلق وطني وخرج الناس استقلا...
150,أعلن مجلس قيادة الثورة يونيه قيام الجمهورية ال...,مجلس قيادة الثورة أعلن قيام الجمهورية والرئيس ...
151,وبرغم عبد الرحمن فهمي يضم الجهاز السري عددا كب...,ضم عبد الرحمن فهمي الجهاز السري عدد كبير وعلى ...
152,ولم تقتصر مقومات بورسعيد كمدينة عالمية نشأتها ...,امتدت بورسعيد تشمل الطابع الثقافي وقامت بورسعي...


In [77]:
# Initialize the model and arguments
model_args = Seq2SeqArgs()

#  An epoch refers to a complete iteration over the entire training dataset.
model_args.num_train_epochs = 8

# This enables the evaluation of generated text (during training).
model_args.evaluate_generated_text = True

# Initializes the Seq2Seq model with the specified configuration.
model = Seq2SeqModel(
# define the model that we need to use
encoder_decoder_type='bart',
# define the version of the model
encoder_decoder_name='facebook/bart-large',
# take the argments 
args=model_args, 
# False for using GPU -> only use CPU
use_cuda=False
)

In [78]:
# Train the model
model.train_model(dataset)

100%|██████████| 154/154 [00:06<00:00, 23.25it/s]

[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
Epochs 1/8. Running Loss:    2.0098: 100%|██████████| 20/20 [03:44<00:00, 11.25s/it]

[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
Epochs 2/8. Running Loss:    1.9114: 100%|██████████| 20/20 [03:35<00:00, 10.75s/it]

[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
Epochs 3/8. Running Loss:    1.8952: 100%|██████████| 20/20 [03:39<00:00, 10.96s/it]

[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
[A
Epochs 4/8. Running Loss:    1.4289: 100%|█████████

(160, 1.773026966303587)

In [79]:
import joblib
joblib.dump(model , 'Model.pkl')

['Model.pkl']

In [80]:
Model = joblib.load('Model.pkl')

In [81]:
# Evaluate the model
results = model.eval_model(dataset)

100%|██████████| 154/154 [00:13<00:00, 11.72it/s]
Running Evaluation: 100%|██████████| 20/20 [01:03<00:00,  3.19s/it]
Generating outputs: 100%|██████████| 20/20 [01:07<00:00,  3.39s/it]


In [82]:
results

{'eval_loss': 1.445215904712677}

In [83]:
dataset['input_text'][0]

'وتحت عنوان الكارثة التحدى يبدأ الكاتب عرض الكتاب الرابع يوضح كانت إسرائيل فرحة بنصرها عام وأنها ارتاحت لاعتقادها بأن وقتا طويلا وطويلا جدا يفيق العرب صدمة وكيف القوات الجوية للجمهورية العربية المتحدة فاجأتها شهر نهاية حرب بهجوم جوى عنيف مواقعها فى سيناء وكان إعلانا بداية حرب نوع جديد هى حرب الاستنزاف التى استمرت تم وقف إطلاق النار الطرفين فى وفاة عبدالناصر وتولى أنور السادات حكم مصر واستعداده للحرب ويتعرض الكاتب وبصورة سريعة لفلسطين والأردن وسوريا ينتقل الكتاب الخامس حرب يعرض الخطط والاستعدادات المصرية الاستعدادات الإسرائيلية يبدأ بعرض وقائع الحرب بداية الضربة الجوية وانهيار خط بارليف واختراقه ويتوقف الكاتب يوم ويقول اليوم اسوأ هزيمة فى تاريخ الجيش الإسرائيلى ينتقل المؤلف الجبهة السورية يعود ثانية يوميات الحرب يعرض للثغرة عرف بعملية المزرعة الصينية يوم والمساعدات الأمريكية الضخمة لإسرائيل بداية الضغوط السياسية الرئيس أنور السادات ينتقل الكاتب للأحداث التى جرت وإعفاء الفريق الشاذلى منصبه كرئيس لأركان القوات المسلحة المصرية وتولى الفريق الجمسى بدلا الاتجاه الموافقة طلب وقف إطلاق النار و

In [92]:
# Use the model for prediction
predictions = Model.predict(['وتحت عنوان الكارثة التحدى يبدأ الكاتب عرض الكتاب الرابع يوضح كانت إسرائيل فرحة بنصرها عام وأنها ارتاحت لاعتقادها بأن وقتا طويلا وطويلا جدا يفيق العرب صدمة وكيف القوات الجوية للجمهورية العربية المتحدة فاجأتها شهر نهاية حرب بهجوم جوى عنيف مواقعها فى سيناء وكان إعلانا بداية حرب نوع جديد هى حرب الاستنزاف التى استمرت تم وقف إطلاق النار الطرفين فى وفاة عبدالناصر وتولى أنور السادات حكم مصر واستعداده للحرب ويتعرض الكاتب وبصورة سريعة لفلسطين والأردن وسوريا ينتقل الكتاب الخامس حرب يعرض الخطط والاستعدادات المصرية الاستعدادات الإسرائيلية يبدأ بعرض وقائع الحرب بداية الضربة الجوية وانهيار خط بارليف واختراقه ويتوقف الكاتب يوم ويقول اليوم اسوأ هزيمة فى تاريخ الجيش الإسرائيلى ينتقل المؤلف الجبهة السورية يعود ثانية يوميات الحرب يعرض للثغرة عرف بعملية المزرعة الصينية يوم والمساعدات الأمريكية الضخمة لإسرائيل بداية الضغوط السياسية الرئيس أنور السادات ينتقل الكاتب للأحداث التى جرت وإعفاء الفريق الشاذلى منصبه كرئيس لأركان القوات المسلحة المصرية وتولى الفريق الجمسى بدلا الاتجاه الموافقة طلب وقف إطلاق النار والخلاف سوريا بشأن الأمر بداية الهجوم الإسرائيلى الضفة الغربية لقناة السويس والعمليات النهائية فى سوريا وكيف الملك حسين قرر دخول الحرب ضد إسرائيل يوم يعرض الكاتب المعركة الخاصة بالاستيلاء مدينة السويس تطورات المعركة وكيف أنه حلول يوم السابع والعشرين الإسرائيليون أسروا آلاف فرد القوات المصرية أغلبهم وحدات الإمداد والتموين'])



Generating outputs: 100%|██████████| 1/1 [00:01<00:00,  1.31s/it]


In [93]:
print(predictions)

['حدى يبدأ الكاتب']
