## Abstractive Arabic Text Summarization Based on Deep Learning
**Paper Link:** https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8767398/#B9

**Datasets:**

1. The Arabic Headline Summary (AHS) (https://osf.io/btcnd/)
2. The Arabic Mogalad_Ndeef (AMN)    (https://drive.google.com/file/d/12Lqej0BcPelRQ81ewYrqkIl2xzfQald8/view)

In [1]:
!pip install AraBert

Collecting AraBert
  Downloading arabert-1.0.1-py3-none-any.whl (179 kB)
     ------------------------------------ 179.3/179.3 kB 541.8 kB/s eta 0:00:00
Collecting emoji==1.4.2
  Downloading emoji-1.4.2.tar.gz (184 kB)
     ------------------------------------ 185.0/185.0 kB 373.4 kB/s eta 0:00:00
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting PyArabic
  Downloading PyArabic-0.6.15-py3-none-any.whl (126 kB)
     ------------------------------------ 126.4/126.4 kB 675.2 kB/s eta 0:00:00
Collecting farasapy
  Downloading farasapy-0.0.14-py3-none-any.whl (11 kB)
Building wheels for collected packages: emoji
  Building wheel for emoji (setup.py): started
  Building wheel for emoji (setup.py): finished with status 'done'
  Created wheel for emoji: filename=emoji-1.4.2-py3-none-any.whl size=186484 sha256=8d3ed4750de46917127033d04b7dab23e1aa8296731430ac941f981b18eced6d
  Stored in directory: c:\users\mohamed\appdata\local\pip\c

In [29]:
!pip install transformers



In [12]:
!pip install farasapy



In [12]:
import numpy as np
import pandas as pd
import os
import arabert

## Arabic Headline Summary (AHS) Dataset

In [13]:
data1_path = r'Datasets\Arabic Headline Summary (AHS)'
data1_folder = os.listdir(data1_path)
data1_folder

['articles introductions.txt', 'articles titles.txt']

In [14]:
articles_introductions = open(data1_path+'\\'+data1_folder[0])
articles_titles = open(data1_path+'\\'+data1_folder[1])

In [15]:
articles_introductions.seek(0)
articles_introductions.readlines()   # each line represents one doc.

['و هو يعتبر متحف جديد العهد ، يقدم مجموعة من العروض الفنية و التشكيلية المتنوعة ، يظهر فنانين عرب معاصرين و تبرز إبداعاتهم الفريدة ، كما أنه يبرز الرؤية العربية عن الفن المعاصر و الفن الحديث العالمي ، و لذلك يعد من أبرز المتاحف في العالم ؛ حيث يجذب المتحف الكثير من السياح المحليين و العالميين ، و هذا يؤهله لأن يكون معلما سياحيا وثقافيا مهما و من الطراز الأول ، و تعتبر زيارته ضرورية لكل السياح الموجودين في مدينة الدوحة ! \n',
 'يعتبر فيلاجيو مول من أهم المجمعات التجارية و أشدها جمالا في العالم العربي ، و ذلك لأنه تم بناؤه و تصميمه على هيئة مدينة البندقية الموجودة في إيطاليا ، و هذا ما جعله أمر شيق لكل أفراد العائلة ، و للسياح الذين يحبون شراء أهم الماركات العالمية فيما يخص تصميم الأزياء ، يشمل فيلاجيو مول على أماكن تسمح بركوب قوارب الجندول الرائعة ، و استخدامها للتنقل إلى كامل المول من خلال النهر الذي يجري في وسطه ، و في نهاية المطاف ينصح بالذهاب إلى أحد المطاعم العالمية و الرائعة الموجودة فيه . \n',
 'هو المنطقة البحرية الممتدة على مجموعة كيلومترات بشكل طولي على خليج الدوحة ؛ حيث تطل 

In [16]:
articles_titles.seek(0)
articles_titles.readlines()   

['المتحف العربي للفن الحديث\n',
 'فيلاجيو مول\n',
 'كورنيش الدوحة\n',
 'منتجع شاطئ سيلين\n',
 'منتجع الغارية\n',
 'جزيرة النخل\n',
 'مملكة علاء الدين\n',
 'شواطيء الخور و فويرط\n',
 'الجغرافيا و المناخ\n',
 'عدد و تركيبة السكان\n',
 'المغرب الموحدة\n',
 'معلومات عن قطر\n',
 'التاريخ و التسمية\n',
 'التقسيم الإداري و الثقافة\n',
 'سكان الدوحة\n',
 'أين تذهب في قطر ؟ \n',
 'جغرافية مملكة البحرين\n',
 'مناخ مملكة البحرين\n',
 'الجزر البحرينية\n',
 'منتجع جزيرة البنانا\n',
 'تطوير منتجع جزيرة البنانا\n',
 'رحلات منتجع جزيرة البنانا\n',
 'اقتصاد اليابان\n',
 'الصناعة اليابانية\n',
 'الإسلام في اليابان\n',
 'دخول الإسلام إلى اليابان\n',
 'القرآن الكريم\n',
 'التعليم الإسلامي\n',
 'الجمعيات الإسلامية\n',
 'علم دولة فلسطين\n',
 'حدودها الجغرافية\n',
 'كيفية تحضير الحناء\n',
 'التخلص من الحناء على الشعر\n',
 'وقت الزيارة\n',
 'متحف الفن الإسلامي\n',
 'البيتزا مارغريتا\n',
 'اكتشاف شخصية الرجل\n',
 'شخصية الرجل من طريقة حلاقة شعره\n',
 'شخصية الرجل من شكل لحيته\n',
 'شخصية الرجل من طريقة اختيار 

In [17]:
articles_introductions.seek(0)
print(f'Articles= {len(articles_introductions.readlines())}') 

articles_titles.seek(0)
print(f'Titles= {len(articles_titles.readlines())}')

Articles= 294839
Titles= 294839


In [18]:
articles_introductions.seek(0)
data1_articles = articles_introductions.readlines()

articles_titles.seek(0)
data1_titles = articles_titles.readlines()

print(data1_articles[0])
print(data1_titles[0])

و هو يعتبر متحف جديد العهد ، يقدم مجموعة من العروض الفنية و التشكيلية المتنوعة ، يظهر فنانين عرب معاصرين و تبرز إبداعاتهم الفريدة ، كما أنه يبرز الرؤية العربية عن الفن المعاصر و الفن الحديث العالمي ، و لذلك يعد من أبرز المتاحف في العالم ؛ حيث يجذب المتحف الكثير من السياح المحليين و العالميين ، و هذا يؤهله لأن يكون معلما سياحيا وثقافيا مهما و من الطراز الأول ، و تعتبر زيارته ضرورية لكل السياح الموجودين في مدينة الدوحة ! 

المتحف العربي للفن الحديث



#### Remove Nulls or NANs
note that the type of nan values is float

In [19]:
dataset1 = list(zip(data1_articles, data1_titles))
dataset1[0]

('و هو يعتبر متحف جديد العهد ، يقدم مجموعة من العروض الفنية و التشكيلية المتنوعة ، يظهر فنانين عرب معاصرين و تبرز إبداعاتهم الفريدة ، كما أنه يبرز الرؤية العربية عن الفن المعاصر و الفن الحديث العالمي ، و لذلك يعد من أبرز المتاحف في العالم ؛ حيث يجذب المتحف الكثير من السياح المحليين و العالميين ، و هذا يؤهله لأن يكون معلما سياحيا وثقافيا مهما و من الطراز الأول ، و تعتبر زيارته ضرورية لكل السياح الموجودين في مدينة الدوحة ! \n',
 'المتحف العربي للفن الحديث\n')

In [20]:
datatypes = set()

for i in dataset1:
    datatypes.add(type(i[0]))
    datatypes.add(type(i[1]))

datatypes

{str}

the data does not contain nan values.

so, check for empty strings.

In [21]:
for i in dataset1:
    if len(i[0])==0 or len(i[1])==0:
        print(i)

#### Remove Duplicates

In [22]:
# print(f'Before= {len(dataset1)}')

# dataset1 = set(dataset1)

# print(f'After= {len(dataset1)}')

In [23]:
data1_articles , data1_titles = zip(*dataset1)
list(data1_articles)
list(data1_titles)

['المتحف العربي للفن الحديث\n',
 'فيلاجيو مول\n',
 'كورنيش الدوحة\n',
 'منتجع شاطئ سيلين\n',
 'منتجع الغارية\n',
 'جزيرة النخل\n',
 'مملكة علاء الدين\n',
 'شواطيء الخور و فويرط\n',
 'الجغرافيا و المناخ\n',
 'عدد و تركيبة السكان\n',
 'المغرب الموحدة\n',
 'معلومات عن قطر\n',
 'التاريخ و التسمية\n',
 'التقسيم الإداري و الثقافة\n',
 'سكان الدوحة\n',
 'أين تذهب في قطر ؟ \n',
 'جغرافية مملكة البحرين\n',
 'مناخ مملكة البحرين\n',
 'الجزر البحرينية\n',
 'منتجع جزيرة البنانا\n',
 'تطوير منتجع جزيرة البنانا\n',
 'رحلات منتجع جزيرة البنانا\n',
 'اقتصاد اليابان\n',
 'الصناعة اليابانية\n',
 'الإسلام في اليابان\n',
 'دخول الإسلام إلى اليابان\n',
 'القرآن الكريم\n',
 'التعليم الإسلامي\n',
 'الجمعيات الإسلامية\n',
 'علم دولة فلسطين\n',
 'حدودها الجغرافية\n',
 'كيفية تحضير الحناء\n',
 'التخلص من الحناء على الشعر\n',
 'وقت الزيارة\n',
 'متحف الفن الإسلامي\n',
 'البيتزا مارغريتا\n',
 'اكتشاف شخصية الرجل\n',
 'شخصية الرجل من طريقة حلاقة شعره\n',
 'شخصية الرجل من شكل لحيته\n',
 'شخصية الرجل من طريقة اختيار 

In [24]:
len(data1_articles) , len(data1_titles)

(294839, 294839)

## Arabic Mogalad_Ndeef (AMN) Dataset

In [25]:
data2 = pd.read_csv(r'Datasets\ArabicMogalad_Ndeef.csv')

In [26]:
data2

Unnamed: 0.1,Unnamed: 0,Text,Summary
0,0,تقدم لكم موقع الدستور الالكتروني بثا مباشرا ل...,بث مباشر بدون تقطيع لمباراه مانشستر يونايتد و...
1,1,بعثه المنتخب المغربي تحل ب مالابو بلاعبين فقط...,بعثه المنتخب المغربي تحل ب مالابو بلاعبين فقط...
2,2,رقم المشاركه تساعد الملوخيه علي تهدئه الاعصاب...,الملوخيه لذيذه وصحيه
3,3,شرح محمد ابراهيم مدرب عام فريق بتروجيت الوسيل...,مدرب بتروجيت يشرح لالدستور كيف حافظ فريقه علي...
4,4,و السؤال كيف يضع ابليس عرشه علي الماء شاهد ال...,هل تعلم اين يعيش ابليس و ما هي علاقته بمثلث ب...
...,...,...,...
265471,265471,نجران شو ال ه المو افق اغسطس م و اس اكد مدير ...,عام مدير تعليم نجران انطلاق الدراسه في منطقه ...
265472,265472,الرياض شو ال ه المو افق اغسطس م و اس استقبل ص...,عام الامير فيصل بن بندر يستقبل رئيس الندوه ال...
265473,265473,جده شو ال ه المو افق اغسطس م و اس عقد مديرو ا...,عام مديرو السجون في المملكه يعقدون اجتماعهم ا...
265474,265474,القطيف شو ال ه المو افق اغسطس م و اس عقد المج...,عام بلدي القطيف يعقد جلسته العاديه الثامنه و ...


In [27]:
data2.shape

(265476, 3)

In [28]:
list(data2.iloc[:1,:]['Text'])

[' تقدم لكم موقع الدستور الالكتروني بثا مباشرا لمباراه مانشستر يونايتد امام ستوك سيتي المقرر لها بعد قليل علي ملعب او لد ترافورد ضمن منافسات الجو له السابعه من بطو له الدوري الانجليزي الممتاز البريميرليج للمشاهده اضغط هنا ']

In [29]:
list(data2.iloc[:1,:]['Summary'])

[' بث مباشر بدون تقطيع لمباراه مانشستر يونايتد وستوك سيتي في البريميرليج ']

In [30]:
data2_texts = data2['Text'].to_list()
data2_summaries = data2['Summary'].to_list()

In [31]:
data2_texts[999]

' الزراعه بيع قطعتين من اراضي الدو له المسترده بمبلغ مليون جنيها صباحا كتب شيماء منصور قال حامد عبد الباقي المتحدث باسم وزاره الزراعه ان لجنه استرداد اراضي الدو له المنهوبه تقوم بمجهود جبار لاتمام عملها علي اكمل وجه و اضاف عبد الباقي خلال مداخله هاتفيه ببرنامج انفراد المذاع عبر فضائيه العاصمه انه كان يوجد مزاد صباح اليوم لبيع قطعه ارض و اكد انه تم بيع قطعتين ارض في منطقه المراشده بمحافظه قنا بمبلغ مليون جنيها مشيرا الي انه اثناء المزاد حصل نوعا من الهرج و المرج وتم ايقاف المزاد وسيتم استئنافه صباح اليوم لاستكمال البيع موضوعات ذات صله '

In [32]:
data2_summaries[999]

' الزراعه بيع قطعتين من اراضي الدو له المسترده بمبلغ مليون جنيها '

#### Remove Nulls or NANs
note that the type of nan values is float

In [33]:
dataset2 = list(zip(data2_texts, data2_summaries))
dataset2[0]

(' تقدم لكم موقع الدستور الالكتروني بثا مباشرا لمباراه مانشستر يونايتد امام ستوك سيتي المقرر لها بعد قليل علي ملعب او لد ترافورد ضمن منافسات الجو له السابعه من بطو له الدوري الانجليزي الممتاز البريميرليج للمشاهده اضغط هنا ',
 ' بث مباشر بدون تقطيع لمباراه مانشستر يونايتد وستوك سيتي في البريميرليج ')

In [34]:
datatypes = set()

for i in dataset2:
    datatypes.add(type(i[0]))
    datatypes.add(type(i[1]))

datatypes

{float, str}

In [35]:
print(f'Before= {len(dataset2)}')

for i in dataset2:
    if type(i[0])==float or type(i[1])==float:
        dataset2.remove(i)

print(f'After= {len(dataset2)}')

Before= 265476
After= 264828


#### Remove Duplicates

In [36]:
# print(f'Before= {len(dataset2)}')

# dataset2 = set(dataset2)

# print(f'After= {len(dataset2)}')

In [37]:
data2_texts , data2_summaries = zip(*dataset2)
list(data2_texts)
list(data2_summaries)

[' بث مباشر بدون تقطيع لمباراه مانشستر يونايتد وستوك سيتي في البريميرليج ',
 ' بعثه المنتخب المغربي تحل ب مالابو بلاعبين فقط في انتظار المحترفين ',
 ' الملوخيه لذيذه وصحيه ',
 ' مدرب بتروجيت يشرح لالدستور كيف حافظ فريقه علي مستو اه رغم قله الصفقات ',
 ' هل تعلم اين يعيش ابليس و ما هي علاقته بمثلث برمودا ',
 ' وكيل السياحه بالالنو اب وصو ل او ل وفد الماني بدايه جيده لعوده السياحه ',
 ' ناعومي كامبل المصممون يفتقدون الالهام الحقيقي ',
 ' تعرفي علي اسباب الافرازات البنيه ',
 ' جو لي تلزم براد بيت باختبار مخدرات لرؤيه ابنائه ',
 ' بوغبا يهدر فرصه بغرابه شديده فيديو ',
 ' تموين الاسكندريه احباط تهريب طن دقيق مدعم وتحرير محضرا ',
 ' توقيع مذكره تفاهم بين الاثار و الاغاخان للنهوض بالعمل الاثري الاثنين ',
 ' اصابه اشخاص في تصادم اتوبيس و مقطوره وملاكي بطريق اسكندريه الزراعي ',
 ' تقرير شهيدا فلسطينيا علي ايدي قو ات الاحتلال خلال سبتمبر الماضي ',
 ' الزمالك في مازق مهدد بخساره نهائي دوري الابطال لهذا السبب ',
 ' هزيمه الاسماعيلي امام النصر القاهري ',
 ' حجز بائع بتهمه الشروع في قتل طليقته بالعج

In [38]:
len(data2_texts) , len(data2_summaries)

(264828, 264828)

## Validation Data

In [63]:
from json import loads
val_paragraphs = []
val_summaries = []

with open(r'Datasets/labeled_validation_dataset.jsonl') as file:
  for line in file:
    entry = loads(line)
    val_paragraphs.append(entry['paragraph'])
    val_summaries.append(entry['summary'])

In [65]:
val_paragraphs[0]

'وتحت عنوان من الكارثة إلى التحدى يبدأ الكاتب عرض الكتاب الرابع ، حيث يوضح كيف كانت إسرائيل فرحة بنصرها عام 67 وأنها ارتاحت لاعتقادها بأن هناك وقتا طويلا وطويلا جدا قبل أن يفيق العرب من صدمة 67، وكيف أن القوات الجوية للجمهورية العربية المتحدة قد فاجأتها بعد شهر واحد من نهاية حرب 67 بهجوم جوى عنيف على مواقعها فى سيناء وكان هذا إعلانا عن بداية حرب من نوع جديد هى حرب الاستنزاف التى استمرت حتى تم وقف إطلاق النار بين الطرفين فى 8 أغسطس 1970، ثم وفاة عبدالناصر وتولى أنور السادات حكم مصر واستعداده للحرب . ويتعرض الكاتب أيضا وبصورة سريعة لفلسطين والأردن وسوريا قبل أن ينتقل إلى الكتاب الخامس عن حرب أكتوبر ، حيث يعرض الخطط والاستعدادات المصرية ثم الاستعدادات الإسرائيلية ثم يبدأ بعرض وقائع الحرب بداية من الضربة الجوية وانهيار خط بارليف واختراقه ، ويتوقف الكاتب عند يوم 8 أكتوبر ، ويقول : إن هذا اليوم كان اسوأ هزيمة فى تاريخ الجيش الإسرائيلى ثم ينتقل بنا المؤلف إلى الجبهة السورية ثم يعود ثانية إلى يوميات الحرب حتى 7 9 أكتوبر إلى 9 13 أكتوبر ثم 14 أكتوبر ، ثم يعرض للثغرة أو ما عرف بعملية المزرعة الص

In [66]:
val_summaries[0]

'يبدأ الكاتب عرض الكتاب الرابع تحت عنوان من الكارثة إلى التحدى؛ حيث يوضح كيف كانت إسرائيل فرحة بنصرها عام 67، وكيف بدأت حرب الاستنزاف، ثم يتكلم عن وفاة عبدالناصر، وتولى أنور السادات حكم مصر، ويعرض الكاتب للخطط والاستعدادات المصرية، ثم الاستعدادات الإسرائيلية، ثم يبدأ بعرض وقائع الحرب، ويتوقف الكاتب عند يوم 8 أكتوبر، ويقول: إن هذا اليوم كان أسوأ هزيمة فى تاريخ الجيش الإسرائيلى، ثم ينتقل بنا إلى الجبهة السورية، ثم يعود ثانية إلى يوميات الحرب من  9 أكتوبر إلى 13 و 14 أكتوبر، والعمليات النهائية فى سوريا 14 إلى 23 أكتوبر، ثم يعرض الكاتب المعركة الخاصة بالاستيلاء على مدينة السويس من 23 أكتوبر إلى 25 أكتوبر، ثم تطورات هذه المعركة. '

In [64]:
len(val_paragraphs) , len(val_summaries)

(154, 154)

## Merge All Training Data

In [39]:
data = data1_articles + data2_texts
summaries = data1_titles + data2_summaries

In [40]:
len(data) , len(summaries)

(559667, 559667)

## Preprocessing + Model

In [78]:
from transformers import BertTokenizer , AutoTokenizer , AutoModelForSeq2SeqLM , AutoModel, pipeline 
from arabert.preprocess import ArabertPreprocessor

model_name="malmarjeh/mbert2mbert-arabic-text-summarization"
preprocessor = ArabertPreprocessor(model_name="")

tokenizer = BertTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
pipeline = pipeline("text2text-generation",model=model,tokenizer=tokenizer)

The following encoder weights were not tied to the decoder ['bert/pooler']
The following encoder weights were not tied to the decoder ['bert/pooler']


Example 1.

In [42]:
text = "شهدت مدينة طرابلس، مساء أمس الأربعاء، احتجاجات شعبية وأعمال شغب لليوم الثالث على التوالي، وذلك بسبب تردي الوضع المعيشي والاقتصادي. واندلعت مواجهات عنيفة وعمليات كر وفر ما بين الجيش اللبناني والمحتجين استمرت لساعات، إثر محاولة فتح الطرقات المقطوعة، ما أدى إلى إصابة العشرات من الطرفين."
text = preprocessor.preprocess(text)

result = pipeline(text,
            pad_token_id=tokenizer.eos_token_id,
            num_beams=3,
            repetition_penalty=3.0,
            max_length=200,
            length_penalty=1.0,
            no_repeat_ngram_size = 3)[0]['generated_text']

In [43]:
print(result)

احتجاجات في طرابلس على خلفية مواجهات عنيفة بين الجيش اللبناني والمحتجين


Example 2.

In [44]:
text2 = ' الزراعه بيع قطعتين من اراضي الدوله المسترده بمبلغ مليون جنيها صباحا كتب شيماء منصور قال حامد عبد الباقي المتحدث باسم وزاره الزراعه ان لجنه استرداد اراضي الدوله المنهوبه تقوم بمجهود جبار لاتمام عملها علي اكمل وجه و اضاف عبد الباقي خلال مداخله هاتفيه ببرنامج انفراد المذاع عبر فضائيه العاصمه انه كان يوجد مزاد صباح اليوم لبيع قطعه ارض و اكد انه تم بيع قطعتين ارض في منطقه المراشده بمحافظه قنا بمبلغ مليون جنيها مشيرا الي انه اثناء المزاد حصل نوعا من الهرج و المرج وتم ايقاف المزاد وسيتم استئنافه صباح اليوم لاستكمال البيع موضوعات ذات صله '
text2 = preprocessor.preprocess(text2)

result2 = pipeline(text2,
            pad_token_id=tokenizer.eos_token_id,
            num_beams=3,
            repetition_penalty=3.0,
            max_length=200,
            length_penalty=1.0,
            no_repeat_ngram_size = 3)[0]['generated_text']

In [45]:
result2

'بيع قطعتين من اراضي الدوله المسترده بمليون جنيه'

Example 3.

In [46]:
data[0]

'و هو يعتبر متحف جديد العهد ، يقدم مجموعة من العروض الفنية و التشكيلية المتنوعة ، يظهر فنانين عرب معاصرين و تبرز إبداعاتهم الفريدة ، كما أنه يبرز الرؤية العربية عن الفن المعاصر و الفن الحديث العالمي ، و لذلك يعد من أبرز المتاحف في العالم ؛ حيث يجذب المتحف الكثير من السياح المحليين و العالميين ، و هذا يؤهله لأن يكون معلما سياحيا وثقافيا مهما و من الطراز الأول ، و تعتبر زيارته ضرورية لكل السياح الموجودين في مدينة الدوحة ! \n'

In [47]:
summaries[0]

'المتحف العربي للفن الحديث\n'

In [48]:
text3 = data[0]
text3 = preprocessor.preprocess(text3)

result3 = pipeline(text3,
            pad_token_id=tokenizer.eos_token_id,
            num_beams=3,
            repetition_penalty=3.0, 
            max_length=200,
            length_penalty=1.0,
            no_repeat_ngram_size = 3)[0]['generated_text']

In [49]:
result3

'متحف جديد في الدوحة'

## Output Summaries

In [103]:
# text = preprocessor.preprocess(val_paragraphs[0][1000])

# result = pipeline(text,
#             pad_token_id=tokenizer.eos_token_id,
#             num_beams=3,
#             repetition_penalty=3.0, 
#             max_length=200,
#             length_penalty=1.0,
#             no_repeat_ngram_size = 3)[0]['generated_text']

In [96]:
output = []

for text in val_paragraphs[:5]:
    result = pipeline(preprocessor.preprocess(text[:1000]),
                pad_token_id=tokenizer.eos_token_id, 
                num_beams=3,
                repetition_penalty=3.0, 
                max_length=200,
                length_penalty=1.0,
                no_repeat_ngram_size = 3)[0]['generated_text']
                
    output.append(result)

In [101]:
val_summaries[0]

'يبدأ الكاتب عرض الكتاب الرابع تحت عنوان من الكارثة إلى التحدى؛ حيث يوضح كيف كانت إسرائيل فرحة بنصرها عام 67، وكيف بدأت حرب الاستنزاف، ثم يتكلم عن وفاة عبدالناصر، وتولى أنور السادات حكم مصر، ويعرض الكاتب للخطط والاستعدادات المصرية، ثم الاستعدادات الإسرائيلية، ثم يبدأ بعرض وقائع الحرب، ويتوقف الكاتب عند يوم 8 أكتوبر، ويقول: إن هذا اليوم كان أسوأ هزيمة فى تاريخ الجيش الإسرائيلى، ثم ينتقل بنا إلى الجبهة السورية، ثم يعود ثانية إلى يوميات الحرب من  9 أكتوبر إلى 13 و 14 أكتوبر، والعمليات النهائية فى سوريا 14 إلى 23 أكتوبر، ثم يعرض الكاتب المعركة الخاصة بالاستيلاء على مدينة السويس من 23 أكتوبر إلى 25 أكتوبر، ثم تطورات هذه المعركة. '

In [102]:
output[0]

'الكتابة والأزمات الأخيرة في حرب 1967'

## Evaluation 
ROUGE-1, ROUGE-2, and ROUGE-L scores

In [8]:
!pip install rouge

Collecting rouge
  Downloading rouge-1.0.1-py3-none-any.whl (13 kB)
Installing collected packages: rouge
Successfully installed rouge-1.0.1


In [98]:
from rouge import Rouge

# Create a Rouge object
rouge = Rouge()

# Define the reference and generated summaries for multiple samples
reference_summaries = val_summaries[:5]
generated_summaries = output

# Initialize variables to accumulate the scores
total_rouge_1 = 0.0
total_rouge_2 = 0.0
total_rouge_l = 0.0

# Iterate over samples and calculate ROUGE scores
for ref_summary, gen_summary in zip(reference_summaries, generated_summaries):
    scores = rouge.get_scores(gen_summary, ref_summary)
    total_rouge_1 += scores[0]["rouge-1"]["f"]
    total_rouge_2 += scores[0]["rouge-2"]["f"]
    total_rouge_l += scores[0]["rouge-l"]["f"]

# Calculate average scores
avg_rouge_1 = total_rouge_1 / len(reference_summaries)
avg_rouge_2 = total_rouge_2 / len(reference_summaries)
avg_rouge_l = total_rouge_l / len(reference_summaries)

print("Average ROUGE-1:", avg_rouge_1)
print("Average ROUGE-2:", avg_rouge_2)
print("Average ROUGE-L:", avg_rouge_l)


Average ROUGE-1: 0.05469242237514038
Average ROUGE-2: 0.0
Average ROUGE-L: 0.04897813666085467


In [None]:
# from rouge import Rouge

# # Create a Rouge object
# rouge = Rouge()

# # Define the reference and generated summaries
# reference_summary = "This is the reference summary."
# generated_summary = "This is the generated summary."

# # Calculate ROUGE scores
# scores = rouge.get_scores(generated_summary, reference_summary)

# # Access the ROUGE-1, ROUGE-2, and ROUGE-L scores
# rouge_1_score = scores[0]["rouge-1"]["f"]
# rouge_2_score = scores[0]["rouge-2"]["f"]
# rouge_l_score = scores[0]["rouge-l"]["f"]

# print("ROUGE-1:", rouge_1_score)
# print("ROUGE-2:", rouge_2_score)
# print("ROUGE-L:", rouge_l_score)
