* ### ***Importing Libraries***

In [1]:
import pandas as pd
import numpy as np
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from transformers import AdamW, get_scheduler
from datasets import load_metric

import torch
from torch.utils.data import Dataset, DataLoader
from sklearn.model_selection import train_test_split

from tqdm.auto import tqdm

import seaborn as sns
from pylab import rcParams
import matplotlib.pyplot as plt
from matplotlib import rc

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)


* ### ***Loading T5 Model*** 

In [2]:
from transformers import BertTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("malmarjeh/t5-arabic-text-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("malmarjeh/t5-arabic-text-summarization")



tokenizer_config.json:   0%|          | 0.00/335 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/679 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/2.44M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/65.0 [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


pytorch_model.bin:   0%|          | 0.00/1.13G [00:00<?, ?B/s]

  return self.fget.__get__(instance, owner)()


*  ### ***Loading Dataset***

In [3]:
data = pd.read_csv("/kaggle/input/arabicsummarization/summarizdataset.csv")

data.head()

Unnamed: 0,text,type,Processed Text,summarizer
0,\nأشرف رئيس الجمهورية الباجي قايد السبسي اليوم...,culture,اشرف رئيس الجمهوريه الباجي قايد السبسي اليوم ب...,\nأشرف رئيس الجمهورية الباجي قايد السبسي اليوم...
1,"\nتحصل كتاب ""المصحف وقراءاته"" الذي ألفه باحثون...",culture,تحصل كتاب المصحف وقراءاته الفه باحثون تونسيون ...,"\nتحصل كتاب ""المصحف وقراءاته"" الذي ألفه باحثون..."
2,\nاحتضن جناح تونس في القرية الدولية للأفلام بم...,culture,احتضن جناح تونس القريه الدوليه للافلام بمدينه ...,تونس حاضرة من جهة أخرى ستكون تونس حاضرة في قائ...
3,\nشهدت برلين أمس الجمعة افتتاح مسجد فريد من نو...,culture,شهدت برلين الجمعه افتتاح مسجد فريد نوعه الاقل ...,واستأجرت صاحبة المشروع المحامية والكاتبة سيران...
4,\nنعت وزارة الشّؤون الثّقافيّة المنشد الصّوفي ...,culture,نعت وزاره المنشد عز بن محمود انتقل جوار يوم تن...,\nنعت وزارة الشّؤون الثّقافيّة المنشد الصّوفي ...


In [4]:
data.drop('type',inplace=True,axis=1)

In [5]:
data.drop('text',inplace=True,axis=1)

In [6]:
data

Unnamed: 0,Processed Text,summarizer
0,اشرف رئيس الجمهوريه الباجي قايد السبسي اليوم ب...,\nأشرف رئيس الجمهورية الباجي قايد السبسي اليوم...
1,تحصل كتاب المصحف وقراءاته الفه باحثون تونسيون ...,"\nتحصل كتاب ""المصحف وقراءاته"" الذي ألفه باحثون..."
2,احتضن جناح تونس القريه الدوليه للافلام بمدينه ...,تونس حاضرة من جهة أخرى ستكون تونس حاضرة في قائ...
3,شهدت برلين الجمعه افتتاح مسجد فريد نوعه الاقل ...,واستأجرت صاحبة المشروع المحامية والكاتبة سيران...
4,نعت وزاره المنشد عز بن محمود انتقل جوار يوم تن...,\nنعت وزارة الشّؤون الثّقافيّة المنشد الصّوفي ...
...,...,...
8373,تاجل الاضراب العام قطاع الصحه مقررا تنفيذه الي...,وكانت انعقدت عشية أمس في وزارة الشؤون الاجتماع...
8374,كشف الناشطان كريم نوار وعفيف زقيه اشرفا عمليه ...,وأكدا ان تكلفة العلم لم تتجاوز 3 آلاف دينار مق...
8375,فرقه الابحاث والتفتيش للحرس الوطني بطبلبه ولاي...,كما تمّ إلقاء القبض على عنصر رابع (عمره 32 سنة...
8376,قرر الاهالي بمناطق هيشر وعين القارصي والغولايث...,وتأتي هذه الخطوة على خلفية ما اعتبره أهالي هذه...


* ### ***Data Preprocessing***
 #### ***1.Word Tokenization***

In [7]:
#Data Preprocessing
    #First Checking 'duplicated rows' and removing them if they are exist
dupl = data[data.duplicated()]
if len(dupl)>0:
    data=data.drop_duplicates()
    print(len(dupl))
    
# !pip install nltk
import re
import nltk
### from nltk.stem.isri import ISRIStemmer
### st = ISRIStemmer()

# Data cleaning
def clean_text(text):
    # Remove special characters and punctuation and "Arabic digits"
    text = re.sub(r'[^\u0621-\u064A \u0660-\u0669 0-9 \s ( ) : . ، ؛ ]+','',text)
    
    # Remove extra whitespace
    text = re.sub('\s+', ' ', text)
    text = re.sub(r'\.{2,}', '', text)

    return text

# Data preprocessing
def pre_process(text):
    tokens = nltk.word_tokenize(text)
    stop_words = ["و", "في", "من", "على", "إلى", "عن", "فيه", "عليه", "هو", "هي"]
    text = " ".join([word for word in tokens if word not in stop_words])

    return text

data['Processed Text'] = data['Processed Text'].apply(clean_text)

print(data['Processed Text'])

# Apply the clean_text function to the content column
data['Processed Text'] = data['Processed Text'].apply(clean_text)
print(data['Processed Text'])


324


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['Processed Text'] = data['Processed Text'].apply(clean_text)


0       اشرف رئيس الجمهوريه الباجي قايد السبسي اليوم ب...
1       تحصل كتاب المصحف وقراءاته الفه باحثون تونسيون ...
2       احتضن جناح تونس القريه الدوليه للافلام بمدينه ...
3       شهدت برلين الجمعه افتتاح مسجد فريد نوعه الاقل ...
4       نعت وزاره المنشد عز بن محمود انتقل جوار يوم تن...
                              ...                        
8373    تاجل الاضراب العام قطاع الصحه مقررا تنفيذه الي...
8374    كشف الناشطان كريم نوار وعفيف زقيه اشرفا عمليه ...
8375    فرقه الابحاث والتفتيش للحرس الوطني بطبلبه ولاي...
8376    قرر الاهالي بمناطق هيشر وعين القارصي والغولايث...
8377    تمكنت وحدات الحرس الوطني بمحطه الاستخلاص ببرج ...
Name: Processed Text, Length: 8054, dtype: object
0       اشرف رئيس الجمهوريه الباجي قايد السبسي اليوم ب...
1       تحصل كتاب المصحف وقراءاته الفه باحثون تونسيون ...
2       احتضن جناح تونس القريه الدوليه للافلام بمدينه ...
3       شهدت برلين الجمعه افتتاح مسجد فريد نوعه الاقل ...
4       نعت وزاره المنشد عز بن محمود انتقل جوار يوم تن...
                      

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['Processed Text'] = data['Processed Text'].apply(clean_text)


 #### ***2. Removing StopWords***

In [8]:
import re
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
stop_words = set(stopwords.words('arabic'))
preprocessed_text=[]

def preprocess_arabic_Remove_stop(text):
    
    # Tokenize text into words
    words = nltk.word_tokenize(text)
    
    # Remove stop words
    words = [word for word in words if word not in stop_words]
    
    # Stem the words
    #words = [stemmer.stem(word) for word in words]
    
    # Join the words back into a single string
    preprocessed_text = ' '.join(words)
    
    return preprocessed_text

data['Processed Text'] = data['Processed Text'].apply(preprocess_arabic_Remove_stop)
data['Processed Text'] = data['Processed Text'].apply(lambda x: " ".join(x.lower() for x in x.split()))
data.head()

[nltk_data] Downloading package stopwords to /usr/share/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['Processed Text'] = data['Processed Text'].apply(preprocess_arabic_Remove_stop)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['Processed Text'] = data['Processed Text'].apply(lambda x: " ".join(x.lower() for x in x.split()))


Unnamed: 0,Processed Text,summarizer
0,اشرف رئيس الجمهوريه الباجي قايد السبسي اليوم ب...,\nأشرف رئيس الجمهورية الباجي قايد السبسي اليوم...
1,تحصل كتاب المصحف وقراءاته الفه باحثون تونسيون ...,"\nتحصل كتاب ""المصحف وقراءاته"" الذي ألفه باحثون..."
2,احتضن جناح تونس القريه الدوليه للافلام بمدينه ...,تونس حاضرة من جهة أخرى ستكون تونس حاضرة في قائ...
3,شهدت برلين الجمعه افتتاح مسجد فريد نوعه الاقل ...,واستأجرت صاحبة المشروع المحامية والكاتبة سيران...
4,نعت وزاره المنشد عز بن محمود انتقل جوار يوم تن...,\nنعت وزارة الشّؤون الثّقافيّة المنشد الصّوفي ...


In [9]:
!pip install rouge_score

Collecting rouge_score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: rouge_score
  Building wheel for rouge_score (setup.py) ... [?25ldone
[?25h  Created wheel for rouge_score: filename=rouge_score-0.1.2-py3-none-any.whl size=24934 sha256=8e0d5750a20a64562834ac2f5cd59b1a299c43be17c7d5f77df969bab8744034
  Stored in directory: /root/.cache/pip/wheels/5f/dd/89/461065a73be61a532ff8599a28e9beef17985c9e9c31e541b4
Successfully built rouge_score
Installing collected packages: rouge_score
Successfully installed rouge_score-0.1.2


In [10]:
class SummaryDataset(Dataset):
    def __init__(
        self,
        data=data,
        tokenizer=tokenizer,
        text_max_token_len = 800,
        summary_max_token_len = 150
    ):
        self.tokenizer = tokenizer
        self.data = data
        self.text_max_token_len = text_max_token_len
        self.summary_max_token_len = summary_max_token_len
    
    def __len__(self):
        return len(self.data)

    def __getitem__(self, index: int):
        data_row = self.data.iloc[index]

        text = data_row['Processed Text']

        text_encoding = tokenizer(
            text,
            max_length=self.text_max_token_len,
            padding='max_length',
            truncation=True,
            return_attention_mask=True,
            add_special_tokens=True,
            return_tensors='pt'
        )

        summary_encoding = tokenizer(
            data_row['summarizer'],
            max_length=self.summary_max_token_len,
            padding='max_length',
            truncation=True,
            return_attention_mask=True,
            add_special_tokens=True,
            return_tensors='pt'
        )
        
        labels = summary_encoding['input_ids']
        labels[labels == tokenizer.pad_token_id] = -100
        
        return dict(
            input_ids=text_encoding['input_ids'].flatten(),
            attention_mask=text_encoding['attention_mask'].flatten(),
            labels=labels.flatten(),
            decoder_attention_mask=summary_encoding['attention_mask'].flatten()
        )

### ***Split Dataset into Train and Test***

In [11]:
df_train, df_test = train_test_split(data, test_size=0.2, random_state=42)

train_dataset = SummaryDataset(data=df_train)
test_dataset = SummaryDataset(data=df_test)

train_dataloader = DataLoader(train_dataset, shuffle=True, batch_size=2)
eval_dataloader = DataLoader(test_dataset, batch_size=2)

In [12]:
df_train.to_csv('train.csv')
df_test.to_csv('val.csv')

In [13]:
df_train

Unnamed: 0,Processed Text,summarizer
6525,تمكنت وحدات الحرس الوطني بجهه بوحجله ولايه الق...,بالتحري معها حول دوافعها من عملية اختطاف وتكبي...
1409,قال كبير اداره الرئيس الاميركي دونالد ترامب ال...,\nقال مسؤولٌ كبير في إدارة الرئيس الأميركي دون...
826,اعلنت وزاره الداخليه المغربيه اليوم الاربعاء ا...,\nأعلنت وزارة الداخلية المغربية اليوم الأربعاء...
1848,رفض الرئيس السوري الاسد السماح لوفود تابعه لمن...,"وأوضح في مقابلة مع إذاعة ""Europe 1"" وقناة ""TF1..."
1637,انتزع مرشح فرنسا الثائره للانتخابات الفرنسيه ج...,"\nانتزع مرشح ""فرنسا الثائرة"" للإنتخابات الفرنس..."
...,...,...
5485,افاد المدير العام للامتحانات بوزارهالتربيه عمر...,ويضبط المعدل النهائي لامتحان الباكالوريا بالنس...
5654,بينت فوزيه مبروك المتفقده الجهويه للصحه بسوسه ...,\nبينت فوزية مبروك المتفقدة الجهوية للصحة بسوس...
874,قال الحاج ابو يوسف الحمراني القائد بفصائل المق...,\nقال الحاج ابو يوسف الحمراني، القائد بفصائل ا...
7914,شهدت مدينه بئر بن خليفه ولايه صفاقس اليوم الاث...,ويطالب أهالي المدينة بحق الجهة في التنمية وتحس...


In [14]:
df_test

Unnamed: 0,Processed Text,summarizer
2972,تدور اليوم عمليه سحب القرعه الخاصه بمرحله التت...,\nتدور اليوم عملية سحب القرعة الخاصة بمرحلة ال...
6552,اكد رئيس الحكومه يوسف الشاهد ضروره تشجيع المبا...,وشدد رئيس الحكومة على ضرورة تكوين جيل جديد من ...
2065,افاد سفيان طوبال تصريح اعلامي اليوم السبت ختام...,وأضاف طوبال أن 37 نائبا صوتوا إثر ذلك على احتر...
6201,اكدت امنه القلالي مديره مكتب تونس لمنظمه هيومن...,وأضافت أن الدعوة العامة للمظاهرة التي ستجري غ...
3572,اعلن الفرنسي باسكال جانان انسحابه مهامه كمدير ...,\nأعلن الفرنسي باسكال جانان عن إنسحابه من مهام...
...,...,...
8150,اعلن الديوان الوطني للحمايه المدنيه حصيله تدخل...,"كما تمّت معاينة جثة مواطن على مستوى معهد ""ابن ..."
4625,اكد الامين العام المساعد بالاتحاد العام التونس...,"ورفع المحتجون في هذه المسيرة التي وصفوها ب""يوم..."
6761,قال ابراهيم الميساوي رئيس الجمعيه التونسيه لمك...,\nقال ابراهيم الميساوي رئيس الجمعية التونسية ل...
6602,تحدث عمر بن مسعود مشرف اداره المرحله الاعداديه...,"وختم عمر بن مسعود بالقول ""صفحات التواصل الاجتم..."


### ***Train T5 Model*** 

In [15]:
num_epochs = 4

num_training_steps = num_epochs * len(train_dataloader)

optimizer = AdamW(model.parameters())
lr_scheduler = get_scheduler(
    "linear",
    optimizer=optimizer,
    num_warmup_steps=0,
    num_training_steps=num_training_steps
)

progress_bar = tqdm(range(num_training_steps))

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

model.train()
for epoch in range(num_epochs):
    for batch in train_dataloader:
        batch = {k: v.to(device) for k, v in batch.items()}
        
        outputs = model(**batch)
#         logits = outputs.logits
#         predictions = torch.argmax(logits, dim=-1)
#         print(predictions)
#         print(batch["labels"])
        
        loss = outputs.loss
        loss.backward()
        
        optimizer.step()
        lr_scheduler.step()
        
        optimizer.zero_grad()
        progress_bar.update()
    
    torch.save({
            'epoch': epoch,
            'model_state_dict': model.state_dict(),
            'optimizer_state_dict': optimizer.state_dict(),
            'loss': loss,
            }, f'./t5-Arabic.pth')

    print(f'epoch: {epoch + 1} -- loss: {loss}')

  0%|          | 0/12888 [00:00<?, ?it/s]

epoch: 2 -- loss: 1.9913995265960693
epoch: 3 -- loss: 0.7436581254005432
epoch: 4 -- loss: 0.6804153323173523


### ***Evaluate Rouge and RougeL Metric***

In [16]:
metric= load_metric("rouge")
model.eval()
for batch in eval_dataloader:
    batch = {k: v.to(device) for k, v in batch.items()}
    with torch.no_grad():
        outputs = model(**batch)

    logits = outputs.logits
    predictions = torch.argmax(logits, dim=-1)
    
    metric.add_batch(predictions=predictions, references=batch["labels"])

metric.compute()

Downloading builder script:   0%|          | 0.00/2.16k [00:00<?, ?B/s]

{'rouge1': AggregateScore(low=Score(precision=0.29868808193668495, recall=0.29868808193668495, fmeasure=0.29868808193668495), mid=Score(precision=0.30609973101593213, recall=0.30609973101593213, fmeasure=0.30609973101593213), high=Score(precision=0.312405545210015, recall=0.312405545210015, fmeasure=0.312405545210015)),
 'rouge2': AggregateScore(low=Score(precision=0.23663092247509657, recall=0.23663092247509657, fmeasure=0.23663092247509657), mid=Score(precision=0.24186069763663318, recall=0.24186069763663318, fmeasure=0.24186069763663318), high=Score(precision=0.2469944467357379, recall=0.2469944467357379, fmeasure=0.2469944467357379)),
 'rougeL': AggregateScore(low=Score(precision=0.29046461824953473, recall=0.29046461824953473, fmeasure=0.29046461824953473), mid=Score(precision=0.2968694392716742, recall=0.2968694392716742, fmeasure=0.2968694392716742), high=Score(precision=0.30362962962962914, recall=0.30362962962962914, fmeasure=0.30362962962962914)),
 'rougeLsum': AggregateScore

In [17]:
def summarizeText(text, model=model):
    text_encoding = tokenizer(
        text,
        max_length=1000,
        padding='max_length',
        truncation=True,
        return_attention_mask=True,
        add_special_tokens=True,
        return_tensors='pt'
    )
    generated_ids = model.generate(
        input_ids=text_encoding['input_ids'].to(device),
        attention_mask=text_encoding['attention_mask'].to(device),
        max_length=150,
        num_beams=4,
        repetition_penalty=2.5,
        length_penalty=1.0,
        early_stopping=True
    )    

    preds = [
            tokenizer.decode(gen_id, skip_special_tokens=True, clean_up_tokenization_spaces=True)
            for gen_id in generated_ids
    ]
    return "".join(preds)


In [20]:
path_input = '/kaggle/working/val.csv'

# Read the JSONL file
dataset = pd.read_csv(path_input)

dataset.head()

Unnamed: 0.1,Unnamed: 0,Processed Text,summarizer
0,2972,تدور اليوم عمليه سحب القرعه الخاصه بمرحله التت...,\nتدور اليوم عملية سحب القرعة الخاصة بمرحلة ال...
1,6552,اكد رئيس الحكومه يوسف الشاهد ضروره تشجيع المبا...,وشدد رئيس الحكومة على ضرورة تكوين جيل جديد من ...
2,2065,افاد سفيان طوبال تصريح اعلامي اليوم السبت ختام...,وأضاف طوبال أن 37 نائبا صوتوا إثر ذلك على احتر...
3,6201,اكدت امنه القلالي مديره مكتب تونس لمنظمه هيومن...,وأضافت أن الدعوة العامة للمظاهرة التي ستجري غ...
4,3572,اعلن الفرنسي باسكال جانان انسحابه مهامه كمدير ...,\nأعلن الفرنسي باسكال جانان عن إنسحابه من مهام...


In [21]:
dataset.drop('Unnamed: 0',inplace=True,axis=1)

In [22]:
dataset

Unnamed: 0,Processed Text,summarizer
0,تدور اليوم عمليه سحب القرعه الخاصه بمرحله التت...,\nتدور اليوم عملية سحب القرعة الخاصة بمرحلة ال...
1,اكد رئيس الحكومه يوسف الشاهد ضروره تشجيع المبا...,وشدد رئيس الحكومة على ضرورة تكوين جيل جديد من ...
2,افاد سفيان طوبال تصريح اعلامي اليوم السبت ختام...,وأضاف طوبال أن 37 نائبا صوتوا إثر ذلك على احتر...
3,اكدت امنه القلالي مديره مكتب تونس لمنظمه هيومن...,وأضافت أن الدعوة العامة للمظاهرة التي ستجري غ...
4,اعلن الفرنسي باسكال جانان انسحابه مهامه كمدير ...,\nأعلن الفرنسي باسكال جانان عن إنسحابه من مهام...
...,...,...
1606,اعلن الديوان الوطني للحمايه المدنيه حصيله تدخل...,"كما تمّت معاينة جثة مواطن على مستوى معهد ""ابن ..."
1607,اكد الامين العام المساعد بالاتحاد العام التونس...,"ورفع المحتجون في هذه المسيرة التي وصفوها ب""يوم..."
1608,قال ابراهيم الميساوي رئيس الجمعيه التونسيه لمك...,\nقال ابراهيم الميساوي رئيس الجمعية التونسية ل...
1609,تحدث عمر بن مسعود مشرف اداره المرحله الاعداديه...,"وختم عمر بن مسعود بالقول ""صفحات التواصل الاجتم..."


In [23]:
# Data Preprocessing on Val data 
# First Checking 'duplicated rows' and removing them if they are exist
dupl = dataset[dataset.duplicated()]
if len(dupl)>0:
    dataset=dataset.drop_duplicates()
    print(len(dupl))
    
    # Second Checking 'empty cells' and removing them if they are exist
    # Here we deal with empty cells (either removing them Or setting them with default data) but we won't do that because data is cleaned

    # Third Cleaning data from (Arabic and English digits, special characters, and extra spaces)
import re
def clean_text(text):

        # Remove special characters and punctuation and "Arabic digits"
    text = re.sub(r'[^\u0621-\u064A\u0660 - \0669\s]+', '', text)

        # Remove "English digits"
    text = re.sub('\d+', '', text)

        # Remove extra whitespace
    text = re.sub('\s+', ' ', text).strip()

    return text

# Apply the clean_text function to the content column
dataset['Processed Text'] = dataset['Processed Text'].apply(clean_text)
dataset['Processed Text']

0       تدور اليوم عمليه سحب القرعه الخاصه بمرحله التت...
1       اكد رئيس الحكومه يوسف الشاهد ضروره تشجيع المبا...
2       افاد سفيان طوبال تصريح اعلامي اليوم السبت ختام...
3       اكدت امنه القلالي مديره مكتب تونس لمنظمه هيومن...
4       اعلن الفرنسي باسكال جانان انسحابه مهامه كمدير ...
                              ...                        
1606    اعلن الديوان الوطني للحمايه المدنيه حصيله تدخل...
1607    اكد الامين العام المساعد بالاتحاد العام التونس...
1608    قال ابراهيم الميساوي رئيس الجمعيه التونسيه لمك...
1609    تحدث عمر بن مسعود مشرف اداره المرحله الاعداديه...
1610    عمد عشيه اليوم الجمعه كهل يبلغ العمر سنه قاطن ...
Name: Processed Text, Length: 1611, dtype: object

In [24]:
import pandas as pd

# Function to apply the model to each instance
def apply_model(instance):
    # Apply your model to the instance and return the output
    output = summarizeText(instance)
    return output

# Create an empty list to store the model outputs
model_outputs = []

# Iterate over the dataframe and apply the model to each instance
for index, row in tqdm(dataset.iterrows()):
    instance = row['Processed Text']  # Assuming 'text' is the column containing the input data
    output = apply_model(instance)
    model_outputs.append(output)

# Add the model outputs as a new column to the dataframe
dataset['summarizer'] = model_outputs

# Display the updated dataframe
print(dataset['summarizer'])


0it [00:00, ?it/s]

0       يشار أن مرحلة البلاي أوف ستنطلق يوم الأحد 26 ف...
1       وشدد رئيس الحكومة على ضرورة تكوين جيل جديد من ...
2       وقال طوبال إنه تم التوافق على ترشيح امرأة نواب...
3       وأضافت أن هذه الحملة بدأت في عدد من الجهات قرر...
4       أعلن الفرنسي باسكال جانان انسحابه من مهامه كمد...
                              ...                        
1606    أعلن الديوان الوطني للحماية المدنية عن حصيلة ت...
1607    ورفع المحتجون المسيرة التي وصفوها يوم أمس غضب ...
1608    وجاء تصريحه إثر تأجيل الجلسة العامة المخصصة لم...
1609    وختم عمر بن مسعود بالقول إن صفحات التواصل الاج...
1610    عمد عشية اليوم الجمعة، كهل يبلغ من العمر 34 سن...
Name: summarizer, Length: 1611, dtype: object


In [51]:
#Data Preprocessing
    #First Checking 'duplicated rows' and removing them if they are exist
dupl = dataset[dataset.duplicated()]
if len(dupl)>0:
    dataset=dataset.drop_duplicates()
    print(len(dupl))
    
    #Second Checking 'empty cells' and removing them if they are exist
    #Here we deal with empty cells (either removing them Or setting them with default data) but we won't do that because data is cleaned

    #Third Cleaning data from (Arabic and English digits, special characters, and extra spaces)
import re
def clean_text(text):

        # Remove special characters and punctuation and "Arabic digits"
    text = re.sub(r'[^\u0621-\u064A\u0660 - \0669\s]+' , '', text)

        # Remove "English digits"
    #text = re.sub('\d+', '', text)

        # Remove extra whitespace
    text = re.sub('\s+', ' ', text).strip()

    return text

# Apply the clean_text function to the content column
dataset['summarizer'] = dataset['summarizer'].apply(clean_text)
print(dataset['summarizer'])

0       يشار أن مرحلة البلاي أوف ستنطلق يوم الأحد فيفر...
1       وشدد رئيس الحكومة على ضرورة تكوين جيل جديد من ...
2       وقال طوبال إنه تم التوافق على ترشيح امرأة نواب...
3       وأضافت أن هذه الحملة بدأت في عدد من الجهات قرر...
4       أعلن الفرنسي باسكال جانان انسحابه من مهامه كمد...
                              ...                        
1606    أعلن الديوان الوطني للحماية المدنية عن حصيلة ت...
1607    ورفع المحتجون المسيرة التي وصفوها يوم أمس غضب ...
1608    وجاء تصريحه إثر تأجيل الجلسة العامة المخصصة لم...
1609    وختم عمر بن مسعود بالقول إن صفحات التواصل الاج...
1610    عمد عشية اليوم الجمعة كهل يبلغ من العمر سنة قا...
Name: summarizer, Length: 1611, dtype: object


### ***Testing***

In [52]:
print(dataset['Processed Text'][1])

اكد رئيس الحكومه يوسف الشاهد ضروره تشجيع المبادره الخاصه الباعثين الشبان وخريجي الجامعه وعلى تكفل الدوله بتوفير التمويل والاحاطه وايجاد المناخ الملائم لبعث المشاريع وقال خلال لقاء جمعه ظهر السبت بطلبه المعهد العالي للدراسات التجاريه بقرطاج دعم المبادره الخاصه اولويه جدول اعمال حكومه الوحده الوطنيه باعتبار مجهود الدوله وحده يفي بكل الطلبات مضيفا قوله رؤيتنا للسنوات القادمه تكوين جيل القيادات المجالات وساكون رحاب الجامعات جانب الطلبه كافه ربوع البلاد للمساهمه وشدد رئيس الحكومه ضروره تكوين جيل جديد القياديين والسياسيين والاقتصاديين الشبان وارساء الاطار الملائم لتشريك الشباب بالثوره الحياه العامه وفي الحوار السياسي والاقتصادي والمجتمعي اكد ضروره تغيير المفهوم المتعارف التونسيين لمقاربه دور الدوله يجب يبقى تعبيره اجتماعيا يتعلق بتوفير مناخ الاستثمار وحمايه الطبقات الاجتماعيه والقطاعات الاستراتيجيه ولفت السياق عديد القطاعات تبلغ مستوى التنافسيه القطاع الخاص اثبت نجاعته الاقتصاد الوطني تقييم الشاهد ابرز ضروره عوده التونسيين للعمل بالنسق المطلوب يمكن مجابهه التحديات والصعوبات ويسمح بخلق الثروه

In [53]:
apply_model(dataset['Processed Text'][1])

'وشدد رئيس الحكومة على ضرورة تكوين جيل جديد من القياديين والسياسيين والاقتصاديين الشبان وإرساء الإطار الملائم لتشريك الشباب بالثورة في الحياة العامة. وفي سياق متصل، حث الشاهد شباب تونس على المشاركة بكثافة في الانتخابات البلدية التي ستجرى أواخر سنة 2016 وتشمل بلدية التنافس حول 20 مقعدا.'

#### ***Testing the model on external data***

In [57]:
text = """
ضجت السوشيال ميديا، خلال الأيام القليلة الماضية، بعد انتشار خبر وفاة الطالبة نيرة صلاح، التي تدرس بجامعة العريش، بسبب الغموض حول ملابسات وفاتها.. فهناك روايات تقول أنها تعرضت لعملية ابتزاز بصور شخصية، دفعتها للانتحار، بينما تقول رواية أخرى أن قُتلت بالسم، لوجود خلافات بينها وبين صديقاتها
"""

In [58]:
print(text)


ضجت السوشيال ميديا، خلال الأيام القليلة الماضية، بعد انتشار خبر وفاة الطالبة نيرة صلاح، التي تدرس بجامعة العريش، بسبب الغموض حول ملابسات وفاتها.. فهناك روايات تقول أنها تعرضت لعملية ابتزاز بصور شخصية، دفعتها للانتحار، بينما تقول رواية أخرى أن قُتلت بالسم، لوجود خلافات بينها وبين صديقاتها



In [59]:
apply_model(text)

'ضجت السوشيال ميديا خلال الأيام القليلة الماضية بعد انتشار خبر وفاة الطالبة نيرة صلاح التي تدرس بجامعة العريش بسبب الغموض حول ملابسات وفاتها.'