This notebook contains the baseline models for Project [SAR](https://github.com/d0r1h/SAR), with sample dataset size of 2000


|Model | Checkpoint | Rouge-2[f_score] | checkpoint_link | Inference time | 
|--- | --- | --- | --- | --- |
|BART | ai4bharat/IndicBART | 21.48 | [ü§ó](https://huggingface.co/ai4bharat/IndicBART) | 20min 27s |
|T5 | csebuetnlp/mT5_multilingual_XLSum | 20.21 | [ü§ó](https://huggingface.co/csebuetnlp/mT5_multilingual_XLSum) | 45min 54s|

#### **Installing dependencies**

In [2]:
!pip install transformers sentencepiece datasets rouge -qq

#### **Importing libraries**

In [3]:
import torch
import pandas as pd
from rouge import Rouge
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

import plotly.express as px
import matplotlib.pyplot as plt

from plotly.offline import init_notebook_mode
init_notebook_mode(connected=True)

#### **Downloading the data**

In [4]:
!wget https://raw.githubusercontent.com/d0r1h/SAR/main/dataset/SARsample.csv -q

In [5]:
data = pd.read_csv("./SARsample.csv")

In [6]:
data

Unnamed: 0,title,summary,text
0,‡§≤‡•ã‡§ï‡§∏‡§≠‡§æ ‡§ö‡•Å‡§®‡§æ‡§µ 2019: ‡§§‡§® ‡§ï‡§∞ ‡§ö‡§≤‡§®‡•á ‡§µ‡§æ‡§≤‡•Ä ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§¨‡§ø‡§π‡§æ...,‡§¨‡§ø‡§π‡§æ‡§∞ ‡§Æ‡•á‡§Ç ‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä (‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä) ‡§Ö‡§™‡§®‡•á ‡§∏‡§π‡§Ø...,‡§Ü‡§ó‡§æ‡§Æ‡•Ä ‡§≤‡•ã‡§ï‡§∏‡§≠‡§æ ‡§ö‡•Å‡§®‡§æ‡§µ ‡§Æ‡•á‡§Ç ‡§∞‡§æ‡§ú‡•ç‡§Ø ‡§ï‡•Ä ‡§ï‡•Å‡§≤ 40 ‡§∏‡•Ä‡§ü‡•ã‡§Ç ‡§Æ...
1,‡§ö‡•à‡§Æ‡•ç‡§™‡§ø‡§Ø‡§Ç‡§∏ ‡§ü‡•ç‡§∞‡•â‡§´‡•Ä ‡§ï‡•ç‡§∞‡§ø‡§∏ ‡§ó‡•á‡§≤ ‡§®‡•á ‡§≠‡§æ‡§∞‡§§ ‡§™‡§æ‡§ï‡§ø‡§∏‡•ç‡§§‡§æ‡§® ‡§ï...,‡§ï‡•ç‡§∞‡§ø‡§∏ ‡§ó‡•á‡§≤ ‡§®‡•á ‡§ï‡§π‡§æ ‡§ö‡•à‡§Ç‡§™‡§ø‡§Ø‡§Ç‡§∏ ‡§ü‡•ç‡§∞‡•â‡§´‡•Ä ‡§Æ‡•á‡§Ç ‡§™‡§æ‡§ï‡§ø‡§∏‡•ç‡§§‡§æ‡§®...,‡§µ‡•á‡§∏‡•ç‡§ü‡§á‡§Ç‡§°‡•Ä‡§ú ‡§ï‡•á ‡§Ü‡§ï‡•ç‡§∞‡§æ‡§Æ‡§ï ‡§¨‡§≤‡•ç‡§≤‡•á‡§¨‡§æ‡§ú ‡§ï‡•ç‡§∞‡§ø‡§∏ ‡§ó‡•á‡§≤ ‡§®‡•á ‡§ï‡§π...
2,‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§µ‡§ø‡§∞‡•ã‡§ß‡•Ä ‡§™‡•ç‡§∞‡§¶‡§∞‡•ç‡§∂‡§® ‡§¨‡§Ç‡§¶ ‡§π‡•ã‡§®‡•á ‡§™‡§∞ ‡§π‡•Ä ‡§¨‡§æ‡§§‡§ö‡•Ä‡§§ ‡§∏...,‡§Æ‡•ç‡§∞‡§ø‡§∏‡•ç‡§∞ ‡§ï‡•á ‡§®‡§µ‡§®‡§ø‡§Ø‡•Å‡§ï‡•ç‡§§ ‡§â‡§™ ‡§∞‡§æ‡§∑‡•ç‡§ü‡•ç‡§∞‡§™‡§§‡§ø ‡§â‡§Æ‡§∞ ‡§∏‡•Å‡§≤‡•á‡§Æ‡§æ‡§®...,‡§Æ‡•ç‡§∞‡§ø‡§∏‡•ç‡§∞ ‡§ï‡•á ‡§®‡§µ‡§®‡§ø‡§Ø‡•Å‡§ï‡•ç‡§§ ‡§â‡§™ ‡§∞‡§æ‡§∑‡•ç‡§ü‡•ç‡§∞‡§™‡§§‡§ø ‡§â‡§Æ‡§∞ ‡§∏‡•Å‡§≤‡•á‡§Æ‡§æ‡§®...
3,‡§µ‡§π‡§æ‡§Ç ‡§∂‡•á‡§µ ‡§ï‡§∞‡§®‡•Ä ‡§ö‡§æ‡§π‡§ø‡§è ‡§Ø‡§æ ‡§®‡§π‡•Ä‡§Ç ‡§ü‡•ç‡§µ‡§ø‡§Ç‡§ï‡§≤ ‡§ñ‡§®‡•ç‡§®‡§æ ‡§®‡•á ...,‡§ü‡•ç‡§µ‡§ø‡§Ç‡§ï‡§≤ ‡§ñ‡§®‡•ç‡§®‡§æ ‡§®‡•á ‡§µ‡§ú‡§æ‡§á‡§®‡§æ ‡§∏‡•á ‡§ú‡•Å‡§°‡§º‡•á ‡§ï‡§à ‡§∏‡§µ‡§æ‡§≤‡•ã‡§Ç ‡§ï‡•á ...,‡§Ö‡§ï‡§∏‡§∞ ‡§Ö‡§™‡§®‡•á ‡§ü‡•ç‡§µ‡•Ä‡§ü‡•ç‡§∏ ‡§ï‡•ã ‡§≤‡•á‡§ï‡§∞ ‡§ö‡§∞‡•ç‡§ö‡§æ ‡§Æ‡•á‡§Ç ‡§∞‡§π‡§®‡•á ‡§µ‡§æ‡§≤‡•Ä...
4,‡§™‡•à‡§¶‡§≤ ‡§∏‡§°‡§º‡§ï ‡§™‡§æ‡§∞ ‡§ï‡§∞‡§®‡•á ‡§µ‡§æ‡§≤‡•á ‡§π‡•à‡§Ç ‡§ü‡•ç‡§∞‡•à‡§´‡§º‡§ø‡§ï ‡§Æ‡•á‡§Ç ‡§¨‡§æ‡§ß‡§æ?,‡§¶‡•Å‡§®‡§ø‡§Ø‡§æ ‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§ó‡§º‡§≤‡§§ ‡§§‡§∞‡•Ä‡§ï‡•á ‡§∏‡•á ‡§∏‡§°‡§º‡§ï ‡§™‡§æ‡§∞ ‡§ï‡§∞‡§®‡•á ‡§™‡§∞ ‡§ú...,‡§ï‡§π‡§æ ‡§ú‡§æ‡§§‡§æ ‡§π‡•à ‡§ï‡§ø ‡§Ö‡§Æ‡§∞‡•Ä‡§ï‡§æ ‡§Æ‡•á‡§Ç 1920 ‡§ï‡•á ‡§¶‡§∂‡§ï ‡§Æ‡•á‡§Ç ‡§Æ‡•ã‡§ü‡§∞...
...,...,...,...
1995,‡§®‡•ã‡§è‡§°‡§æ ‡§®‡§ï‡§≤ ‡§®‡§π‡•Ä‡§Ç ‡§ï‡§∞‡§µ‡§æ‡§à ‡§§‡•ã ‡§ü‡•Ä‡§ö‡§∞ ‡§ï‡•ã ‡§≤‡•ã‡§π‡•á ‡§ï‡•Ä ‡§∞‡•â‡§° ‡§∏‡•á...,‡§™‡§∞‡•Ä‡§ï‡•ç‡§∑‡§æ ‡§Æ‡•á‡§Ç ‡§®‡§ï‡§≤ ‡§ï‡§∞‡§§‡•á ‡§π‡•Å‡§è ‡§™‡§ï‡§°‡§º‡•á ‡§ú‡§æ‡§®‡•á ‡§™‡§∞ ‡§ó‡•Å‡§∏‡•ç‡§∏‡§æ‡§è...,‡§™‡§∞‡•Ä‡§ï‡•ç‡§∑‡§æ ‡§Æ‡•á‡§Ç ‡§®‡§ï‡§≤ ‡§ï‡§∞‡§§‡•á ‡§π‡•Å‡§è ‡§™‡§ï‡§°‡§º‡•á ‡§ú‡§æ‡§®‡•á ‡§™‡§∞ ‡§ó‡•Å‡§∏‡•ç‡§∏‡§æ‡§è...
1996,‡§™‡§æ‡§ï‡§ø‡§∏‡•ç‡§§‡§æ‡§® ‡§Æ‡•á‡§Ç ‡§¶‡§∞‡§ó‡§æ‡§π ‡§ï‡•á ‡§Æ‡§æ‡§®‡§∏‡§ø‡§ï ‡§∞‡•Ç‡§™ ‡§∏‡•á ‡§¨‡•Ä‡§Æ‡§æ‡§∞ ‡§∏‡§Ç‡§∞...,‡§Ö‡§≤‡§ó ‡§Ö‡§≤‡§ó ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞‡§ø‡§Ø‡•ã‡§Ç ‡§®‡•á ‡§ò‡§ü‡§®‡§æ ‡§ï‡§æ ‡§Ö‡§≤‡§ó ‡§Ö‡§≤‡§ó ‡§ï‡§æ‡§∞‡§£ ‡§¨‡§§‡§æ...,‡§™‡§æ‡§ï‡§ø‡§∏‡•ç‡§§‡§æ‡§® ‡§ï‡•á ‡§™‡§Ç‡§ú‡§æ‡§¨ ‡§™‡•ç‡§∞‡§æ‡§Ç‡§§ ‡§Æ‡•á‡§Ç ‡§è‡§ï ‡§¶‡§∞‡§ó‡§æ‡§π ‡§ï‡•á ‡§Æ‡§æ‡§®‡§∏...
1997,‡§™‡§æ‡§Ç‡§ö ‡§∏‡§™‡•ç‡§§‡§æ‡§π ‡§ï‡•Ä ‡§§‡•á‡§ú‡•Ä ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∂‡•á‡§Ø‡§∞ ‡§¨‡§æ‡§ú‡§æ‡§∞‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§Ü‡§à...,‡§™‡§æ‡§Ç‡§ö ‡§∏‡§™‡•ç‡§§‡§æ‡§π ‡§≤‡§ó‡§æ‡§§‡§æ‡§∞ ‡§§‡•á‡§ú‡•Ä ‡§Æ‡•á‡§Ç ‡§∞‡§π‡§®‡•á ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§ó‡§§ ‡§∏‡§™‡•ç...,‡§™‡§æ‡§Ç‡§ö ‡§∏‡§™‡•ç‡§§‡§æ‡§π ‡§≤‡§ó‡§æ‡§§‡§æ‡§∞ ‡§§‡•á‡§ú‡•Ä ‡§Æ‡•á‡§Ç ‡§∞‡§π‡§®‡•á ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§ó‡§§ ‡§∏‡§™‡•ç...
1998,‡§ó‡•ã‡§™‡§®‡•Ä‡§Ø‡§§‡§æ ‡§ï‡§æ‡§®‡•Ç‡§® ‡§ï‡•á ‡§§‡§π‡§§ ‡§∏‡§ú‡§æ ‡§ï‡§æ‡§ü‡§®‡•á ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§™‡§æ‡§ï‡§ø‡§∏‡•ç‡§§...,‡§á‡§∏‡§ï‡•ã 14 ‡§∏‡§æ‡§≤ ‡§∏‡§∂‡•ç‡§∞‡§Æ ‡§ï‡§æ‡§∞‡§æ‡§µ‡§æ‡§∏ ‡§ï‡•Ä ‡§∏‡§ú‡§æ ‡§∏‡•Å‡§®‡§æ‡§à ‡§ó‡§à ‡§•‡•Ä ‡§∏...,‡§§‡•á‡§≤‡§Ç‡§ó‡§æ‡§®‡§æ ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§®‡•á ‡§ó‡•ã‡§™‡§®‡•Ä‡§Ø‡§§‡§æ ‡§ï‡§æ‡§®‡•Ç‡§® ‡§ï‡•á ‡§§‡§π‡§§ ‡§∏‡§ú‡§æ ‡§ï‡§æ...


In [36]:
text = data['text']
goldsummary = data['summary']

**Note**: Mostly data is cleaned except few numerical values such as days and count, and maybe it is best not to remove them becuase summary also contains these numbers and it can be valuable for text generation.

### **Model1 : BART**

In [8]:
bart_checkpoint = "ai4bharat/IndicBART"

In [9]:
device = "cuda" if torch.cuda.is_available() else "cpu"

In [None]:
tokenizer_bart = AutoTokenizer.from_pretrained(bart_checkpoint, 
                                               do_lower_case=False, 
                                               use_fast=False, 
                                               keep_accents=True)

model_bart = AutoModelForSeq2SeqLM.from_pretrained(bart_checkpoint).to(device)

In [11]:
bos_id = tokenizer_bart._convert_token_to_id_with_added_voc("<s>")
eos_id = tokenizer_bart._convert_token_to_id_with_added_voc("</s>")
pad_id = tokenizer_bart._convert_token_to_id_with_added_voc("<pad>")

In [14]:
%%time

SystemSummary = []

for i, input_text in enumerate(text):
    
    inp = tokenizer_bart(input_text, add_special_tokens=False, 
                         truncation=True, return_tensors="pt", 
                         padding='max_length', max_length=1024)['input_ids'].to(device)  
    
    model_output = model_bart.generate(inp, use_cache=True, 
                                        num_beams=4, 
                                        max_length=70, 
                                        min_length=30, 
                                        early_stopping=True, 
                                        pad_token_id=pad_id,
                                        bos_token_id=bos_id, 
                                        eos_token_id=eos_id, 
                                        decoder_start_token_id=tokenizer_bart._convert_token_to_id_with_added_voc("<2en>"))
    
    decoded_output = tokenizer_bart.decode(model_output[0], 
                                    skip_special_tokens=True, 
                                    clean_up_tokenization_spaces=False)
    
    SystemSummary.append(decoded_output)

CPU times: user 20min 19s, sys: 3.09 s, total: 20min 22s
Wall time: 20min 27s


In [37]:
Summaries = pd.DataFrame(list(zip(goldsummary, SystemSummary)), columns =['GoldSummary', 'BartSummary'])
Summaries

Unnamed: 0,GoldSummary,BartSummary
0,‡§¨‡§ø‡§π‡§æ‡§∞ ‡§Æ‡•á‡§Ç ‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä (‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä) ‡§Ö‡§™‡§®‡•á ‡§∏‡§π‡§Ø...,‡§Ü‡§ó‡§æ‡§Æ‡•Ä ‡§≤‡•ã‡§ï‡§∏‡§≠‡§æ ‡§ö‡•Å‡§®‡§æ‡§µ ‡§Æ‡•á‡§Ç ‡§∞‡§æ‡§ú‡•ç‡§Ø ‡§ï‡•Ä ‡§ï‡•Å‡§≤ 40 ‡§∏‡•Ä‡§ü‡•ã‡§Ç ‡§Æ...
1,‡§ï‡•ç‡§∞‡§ø‡§∏ ‡§ó‡•á‡§≤ ‡§®‡•á ‡§ï‡§π‡§æ ‡§ö‡•à‡§Ç‡§™‡§ø‡§Ø‡§Ç‡§∏ ‡§ü‡•ç‡§∞‡•â‡§´‡•Ä ‡§Æ‡•á‡§Ç ‡§™‡§æ‡§ï‡§ø‡§∏‡•ç‡§§‡§æ‡§®...,‡§µ‡•á‡§∏‡•ç‡§ü‡§á‡§Ç‡§°‡•Ä‡§ú ‡§ï‡•á ‡§Ü‡§ï‡•ç‡§∞‡§æ‡§Æ‡§ï ‡§¨‡§≤‡•ç‡§≤‡•á‡§¨‡§æ‡§ú ‡§ï‡•ç‡§∞‡§ø‡§∏ ‡§ó‡•á‡§≤ ‡§®‡•á ‡§ï‡§π...
2,‡§Æ‡•ç‡§∞‡§ø‡§∏‡•ç‡§∞ ‡§ï‡•á ‡§®‡§µ‡§®‡§ø‡§Ø‡•Å‡§ï‡•ç‡§§ ‡§â‡§™ ‡§∞‡§æ‡§∑‡•ç‡§ü‡•ç‡§∞‡§™‡§§‡§ø ‡§â‡§Æ‡§∞ ‡§∏‡•Å‡§≤‡•á‡§Æ‡§æ‡§®...,‡§Æ‡•ç‡§∞‡§ø‡§∏‡•ç‡§∞ ‡§ï‡•á ‡§®‡§µ‡§®‡§ø‡§Ø‡•Å‡§ï‡•ç‡§§ ‡§â‡§™ ‡§∞‡§æ‡§∑‡•ç‡§ü‡•ç‡§∞‡§™‡§§‡§ø ‡§â‡§Æ‡§∞ ‡§∏‡•Å‡§≤‡•á‡§Æ‡§æ‡§®...
3,‡§ü‡•ç‡§µ‡§ø‡§Ç‡§ï‡§≤ ‡§ñ‡§®‡•ç‡§®‡§æ ‡§®‡•á ‡§µ‡§ú‡§æ‡§á‡§®‡§æ ‡§∏‡•á ‡§ú‡•Å‡§°‡§º‡•á ‡§ï‡§à ‡§∏‡§µ‡§æ‡§≤‡•ã‡§Ç ‡§ï‡•á ...,‡§Ö‡§ï‡§∏‡§∞ ‡§Ö‡§™‡§®‡•á ‡§ü‡•ç‡§µ‡•Ä‡§ü‡•ç‡§∏ ‡§ï‡•ã ‡§≤‡•á‡§ï‡§∞ ‡§ö‡§∞‡•ç‡§ö‡§æ ‡§Æ‡•á‡§Ç ‡§∞‡§π‡§®‡•á ‡§µ‡§æ‡§≤‡•Ä ...
4,‡§¶‡•Å‡§®‡§ø‡§Ø‡§æ ‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§ó‡§º‡§≤‡§§ ‡§§‡§∞‡•Ä‡§ï‡•á ‡§∏‡•á ‡§∏‡§°‡§º‡§ï ‡§™‡§æ‡§∞ ‡§ï‡§∞‡§®‡•á ‡§™‡§∞ ‡§ú...,‡§ï‡§π‡§æ ‡§ú‡§æ‡§§‡§æ ‡§π‡•à ‡§ï‡§ø ‡§Ö‡§Æ‡§∞‡•Ä‡§ï‡§æ ‡§Æ‡•á‡§Ç 1920 ‡§ï‡•á ‡§¶‡§∂‡§ï ‡§Æ‡•á‡§Ç ‡§Æ‡•ã‡§ü‡§∞...
...,...,...
1995,‡§™‡§∞‡•Ä‡§ï‡•ç‡§∑‡§æ ‡§Æ‡•á‡§Ç ‡§®‡§ï‡§≤ ‡§ï‡§∞‡§§‡•á ‡§π‡•Å‡§è ‡§™‡§ï‡§°‡§º‡•á ‡§ú‡§æ‡§®‡•á ‡§™‡§∞ ‡§ó‡•Å‡§∏‡•ç‡§∏‡§æ‡§è...,‡§™‡§∞‡•Ä‡§ï‡•ç‡§∑‡§æ ‡§Æ‡•á‡§Ç ‡§®‡§ï‡§≤ ‡§ï‡§∞‡§§‡•á ‡§π‡•Å‡§è ‡§™‡§ï‡§°‡§º‡•á ‡§ú‡§æ‡§®‡•á ‡§™‡§∞ ‡§ó‡•Å‡§∏‡•ç‡§∏‡§æ‡§è...
1996,‡§Ö‡§≤‡§ó ‡§Ö‡§≤‡§ó ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞‡§ø‡§Ø‡•ã‡§Ç ‡§®‡•á ‡§ò‡§ü‡§®‡§æ ‡§ï‡§æ ‡§Ö‡§≤‡§ó ‡§Ö‡§≤‡§ó ‡§ï‡§æ‡§∞‡§£ ‡§¨‡§§‡§æ...,‡§™‡§æ‡§ï‡§ø‡§∏‡•ç‡§§‡§æ‡§® ‡§ï‡•á ‡§™‡§Ç‡§ú‡§æ‡§¨ ‡§™‡•ç‡§∞‡§æ‡§Ç‡§§ ‡§Æ‡•á‡§Ç ‡§è‡§ï ‡§¶‡§∞‡§ó‡§æ‡§π ‡§ï‡•á ‡§Æ‡§æ‡§®‡§∏...
1997,‡§™‡§æ‡§Ç‡§ö ‡§∏‡§™‡•ç‡§§‡§æ‡§π ‡§≤‡§ó‡§æ‡§§‡§æ‡§∞ ‡§§‡•á‡§ú‡•Ä ‡§Æ‡•á‡§Ç ‡§∞‡§π‡§®‡•á ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§ó‡§§ ‡§∏‡§™‡•ç...,‡§™‡§æ‡§Ç‡§ö ‡§∏‡§™‡•ç‡§§‡§æ‡§π ‡§≤‡§ó‡§æ‡§§‡§æ‡§∞ ‡§§‡•á‡§ú‡•Ä ‡§Æ‡•á‡§Ç ‡§∞‡§π‡§®‡•á ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§ó‡§§ ‡§∏‡§™‡•ç...
1998,‡§á‡§∏‡§ï‡•ã 14 ‡§∏‡§æ‡§≤ ‡§∏‡§∂‡•ç‡§∞‡§Æ ‡§ï‡§æ‡§∞‡§æ‡§µ‡§æ‡§∏ ‡§ï‡•Ä ‡§∏‡§ú‡§æ ‡§∏‡•Å‡§®‡§æ‡§à ‡§ó‡§à ‡§•‡•Ä ‡§∏...,‡§§‡•á‡§≤‡§Ç‡§ó‡§æ‡§®‡§æ ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§®‡•á ‡§ó‡•ã‡§™‡§®‡•Ä‡§Ø‡§§‡§æ ‡§ï‡§æ‡§®‡•Ç‡§® ‡§ï‡•á ‡§§‡§π‡§§ ‡§∏‡§ú‡§æ ‡§ï‡§æ...


In [38]:
rouge = Rouge()
score = rouge.get_scores(Summaries['BartSummary'], Summaries['GoldSummary'], avg=True)
BartRouge = pd.DataFrame(score).set_index([['recall','precision','f-measure']])
BartRouge

Unnamed: 0,rouge-1,rouge-2,rouge-l
recall,0.524375,0.305393,0.47094
precision,0.318803,0.168727,0.286694
f-measure,0.392498,0.214855,0.352787


### **Model2 : T5**

In [None]:
t5_checkpoint = "csebuetnlp/mT5_multilingual_XLSum"

tokenizer_t5 = AutoTokenizer.from_pretrained(t5_checkpoint)
model_t5 = AutoModelForSeq2SeqLM.from_pretrained(t5_checkpoint).to(device)

In [32]:
%%time

SystemSummary1 = []

for i, input_text in enumerate(text):    
    
    input_ids = tokenizer_t5(input_text,
                             return_tensors="pt",
                             padding="max_length",
                             truncation=True,
                             max_length=768)["input_ids"].to(device) 

    model_output = model_t5.generate(input_ids=input_ids,
                                     num_beams=4,
                                     max_length=70,
                                     min_length=30,
                                     no_repeat_ngram_size=2,
                                     early_stopping=True)

    decoded_output = tokenizer_t5.decode(model_output[0],
                                  skip_special_tokens=True,
                                  clean_up_tokenization_spaces=False)
    
    SystemSummary1.append(decoded_output)

CPU times: user 45min 44s, sys: 2.47 s, total: 45min 47s
Wall time: 45min 54s


In [40]:
Summaries['T5Summary'] = SystemSummary1

In [42]:
Summaries.head()

Unnamed: 0,GoldSummary,BartSummary,T5Summary
0,‡§¨‡§ø‡§π‡§æ‡§∞ ‡§Æ‡•á‡§Ç ‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä (‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä) ‡§Ö‡§™‡§®‡•á ‡§∏‡§π‡§Ø...,‡§Ü‡§ó‡§æ‡§Æ‡•Ä ‡§≤‡•ã‡§ï‡§∏‡§≠‡§æ ‡§ö‡•Å‡§®‡§æ‡§µ ‡§Æ‡•á‡§Ç ‡§∞‡§æ‡§ú‡•ç‡§Ø ‡§ï‡•Ä ‡§ï‡•Å‡§≤ 40 ‡§∏‡•Ä‡§ü‡•ã‡§Ç ‡§Æ...,‡§¨‡§ø‡§π‡§æ‡§∞ ‡§Æ‡•á‡§Ç ‡§µ‡§ø‡§ß‡§æ‡§®‡§∏‡§≠‡§æ ‡§ö‡•Å‡§®‡§æ‡§µ‡•ã‡§Ç ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§î‡§∞ ‡§ú‡§®...
1,‡§ï‡•ç‡§∞‡§ø‡§∏ ‡§ó‡•á‡§≤ ‡§®‡•á ‡§ï‡§π‡§æ ‡§ö‡•à‡§Ç‡§™‡§ø‡§Ø‡§Ç‡§∏ ‡§ü‡•ç‡§∞‡•â‡§´‡•Ä ‡§Æ‡•á‡§Ç ‡§™‡§æ‡§ï‡§ø‡§∏‡•ç‡§§‡§æ‡§®...,‡§µ‡•á‡§∏‡•ç‡§ü‡§á‡§Ç‡§°‡•Ä‡§ú ‡§ï‡•á ‡§Ü‡§ï‡•ç‡§∞‡§æ‡§Æ‡§ï ‡§¨‡§≤‡•ç‡§≤‡•á‡§¨‡§æ‡§ú ‡§ï‡•ç‡§∞‡§ø‡§∏ ‡§ó‡•á‡§≤ ‡§®‡•á ‡§ï‡§π...,‡§Ü‡§à‡§∏‡•Ä‡§∏‡•Ä ‡§ö‡•à‡§Æ‡•ç‡§™‡§ø‡§Ø‡§Ç‡§∏ ‡§ü‡•ç‡§∞‡•â‡§´‡•Ä ‡§Æ‡•á‡§Ç ‡§Ö‡§ó‡§≤‡•á ‡§Æ‡§π‡•Ä‡§®‡•á ‡§≠‡§æ‡§∞‡§§ ‡§î‡§∞...
2,‡§Æ‡•ç‡§∞‡§ø‡§∏‡•ç‡§∞ ‡§ï‡•á ‡§®‡§µ‡§®‡§ø‡§Ø‡•Å‡§ï‡•ç‡§§ ‡§â‡§™ ‡§∞‡§æ‡§∑‡•ç‡§ü‡•ç‡§∞‡§™‡§§‡§ø ‡§â‡§Æ‡§∞ ‡§∏‡•Å‡§≤‡•á‡§Æ‡§æ‡§®...,‡§Æ‡•ç‡§∞‡§ø‡§∏‡•ç‡§∞ ‡§ï‡•á ‡§®‡§µ‡§®‡§ø‡§Ø‡•Å‡§ï‡•ç‡§§ ‡§â‡§™ ‡§∞‡§æ‡§∑‡•ç‡§ü‡•ç‡§∞‡§™‡§§‡§ø ‡§â‡§Æ‡§∞ ‡§∏‡•Å‡§≤‡•á‡§Æ‡§æ‡§®...,‡§Æ‡§ø‡§∏‡•ç‡§∞ ‡§ï‡•á ‡§∞‡§æ‡§∑‡•ç‡§ü‡•ç‡§∞‡§™‡§§‡§ø ‡§π‡•Å‡§∏‡•ç‡§®‡•Ä ‡§Æ‡•Å‡§¨‡§æ‡§∞‡§ï ‡§®‡•á ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§µ‡§ø‡§∞...
3,‡§ü‡•ç‡§µ‡§ø‡§Ç‡§ï‡§≤ ‡§ñ‡§®‡•ç‡§®‡§æ ‡§®‡•á ‡§µ‡§ú‡§æ‡§á‡§®‡§æ ‡§∏‡•á ‡§ú‡•Å‡§°‡§º‡•á ‡§ï‡§à ‡§∏‡§µ‡§æ‡§≤‡•ã‡§Ç ‡§ï‡•á ...,‡§Ö‡§ï‡§∏‡§∞ ‡§Ö‡§™‡§®‡•á ‡§ü‡•ç‡§µ‡•Ä‡§ü‡•ç‡§∏ ‡§ï‡•ã ‡§≤‡•á‡§ï‡§∞ ‡§ö‡§∞‡•ç‡§ö‡§æ ‡§Æ‡•á‡§Ç ‡§∞‡§π‡§®‡•á ‡§µ‡§æ‡§≤‡•Ä ...,‡§¨‡•â‡§≤‡•Ä‡§µ‡•Å‡§° ‡§ï‡•Ä ‡§è‡§ï‡•ç‡§ü‡•ç‡§∞‡•á‡§∏ ‡§ü‡•ç‡§µ‡§ø‡§Ç‡§ï‡§≤ ‡§ñ‡§®‡•ç‡§®‡§æ ‡§®‡•á ‡§è‡§ï ‡§î‡§∞ ‡§¨‡•ç‡§≤...
4,‡§¶‡•Å‡§®‡§ø‡§Ø‡§æ ‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§ó‡§º‡§≤‡§§ ‡§§‡§∞‡•Ä‡§ï‡•á ‡§∏‡•á ‡§∏‡§°‡§º‡§ï ‡§™‡§æ‡§∞ ‡§ï‡§∞‡§®‡•á ‡§™‡§∞ ‡§ú...,‡§ï‡§π‡§æ ‡§ú‡§æ‡§§‡§æ ‡§π‡•à ‡§ï‡§ø ‡§Ö‡§Æ‡§∞‡•Ä‡§ï‡§æ ‡§Æ‡•á‡§Ç 1920 ‡§ï‡•á ‡§¶‡§∂‡§ï ‡§Æ‡•á‡§Ç ‡§Æ‡•ã‡§ü‡§∞...,‡§Ö‡§Æ‡§∞‡•Ä‡§ï‡§æ ‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§≤ ‡§¨‡§§‡•ç‡§§‡•Ä ‡§™‡§∞ ‡§∏‡§°‡§º‡§ï ‡§™‡§æ‡§∞ ‡§ï‡§∞‡§®‡•á ‡§™‡§∞ ‡§∞‡•ã‡§ï ‡§≤...


In [43]:
rouge = Rouge()
score = rouge.get_scores(Summaries['T5Summary'], Summaries['GoldSummary'], avg=True)
T5Rouge = pd.DataFrame(score).set_index([['recall','precision','f-measure']])
T5Rouge

Unnamed: 0,rouge-1,rouge-2,rouge-l
recall,0.358953,0.177884,0.310272
precision,0.478681,0.246412,0.412407
f-measure,0.402849,0.202179,0.347753


### **Plotting Rouge Score**

In [88]:
T5Rouge = T5Rouge[['rouge-1','rouge-l', 'rouge-2']]
BartRouge = BartRouge[['rouge-1','rouge-l', 'rouge-2']]

In [None]:
fig = px.bar(T5Rouge*100, x=T5Rouge.index, y=T5Rouge.columns, 
             barmode='group', 
             text_auto='.2s',
             labels={
                     "Algo": "Algorithms",
                     "value": "Rouge Score",
                     "variable": "legend",
                     'index': "Metrics"
                 })

fig.update_layout(width=650,
                  height=400,
                  title={
                  'text': "Score",
                  'y':.96,
                  'x':0.49,
                  'xanchor': 'center',
                  'yanchor': 'top'})

fig.show()

![newplot.png](attachment:41c6ca4b-c8d5-43ae-a9f3-4436725df739.png)

In [None]:
fig = px.bar(BartRouge*100, x=BartRouge.index, y=BartRouge.columns, 
             barmode='group', 
             text_auto='.2s',
             labels={
                     "Algo": "Algorithms",
                     "value": "Rouge Score",
                     "variable": "legend",
                     'index': "Metrics"
                 })
fig.update_layout( width=650,
                  height=400,
                title={
                  'text': "Score",
                  'y':.96,
                  'x':0.49,
                  'xanchor': 'center',
                  'yanchor': 'top'})

fig.show()

![newplot (1).png](attachment:fbccaf73-89cf-4f36-ad97-52099df820d2.png)

### **Sample Summaries**

In [111]:
[i for i in Summaries['GoldSummary'][:5]]

['‡§¨‡§ø‡§π‡§æ‡§∞ ‡§Æ‡•á‡§Ç ‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä (‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä) ‡§Ö‡§™‡§®‡•á ‡§∏‡§π‡§Ø‡•ã‡§ó‡•Ä ‡§ú‡§®‡§§‡§æ ‡§¶‡§≤ ‡§Ø‡•Ç‡§®‡§æ‡§á‡§ü‡•á‡§° (‡§ú‡•á‡§°‡•Ä‡§Ø‡•Ç) ‡§î‡§∞ ‡§≤‡•ã‡§ï ‡§ú‡§®‡§∂‡§ï‡•ç‡§§‡§ø ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä (‡§è‡§≤‡§ú‡•á‡§™‡•Ä) ‡§∏‡•á ‡§ï‡§º‡§¶‡§Æ-‡§ï‡§º‡§¶‡§Æ ‡§™‡§∞ ‡§∏‡§Æ‡§ù‡•å‡§§‡§æ ‡§ï‡§∞‡§®‡•á ‡§ï‡•ã ‡§µ‡§ø‡§µ‡§∂ ‡§¶‡§ø‡§ñ ‡§∞‡§π‡•Ä ‡§π‡•à.',
 '‡§ï‡•ç‡§∞‡§ø‡§∏ ‡§ó‡•á‡§≤ ‡§®‡•á ‡§ï‡§π‡§æ ‡§ö‡•à‡§Ç‡§™‡§ø‡§Ø‡§Ç‡§∏ ‡§ü‡•ç‡§∞‡•â‡§´‡•Ä ‡§Æ‡•á‡§Ç ‡§™‡§æ‡§ï‡§ø‡§∏‡•ç‡§§‡§æ‡§®‡•Ä ‡§™‡§∞ ‡§≠‡§æ‡§∞‡•Ä ‡§™‡§°‡§º‡•á‡§ó‡§æ ‡§≠‡§æ‡§∞‡§§ ‡§ï‡•ç‡§∞‡§ø‡§∏ ‡§ó‡•á‡§≤ ‡§®‡•á ‡§™‡§æ‡§ï‡§ø‡§∏‡•ç‡§§‡§æ‡§® ‡§ï‡•ã ‡§™‡§Ç‡§∏‡§¶‡•Ä‡§¶‡§æ ‡§ü‡•Ä‡§Æ ‡§¨‡§§‡§æ‡§Ø‡§æ 18 ‡§ú‡•Ç‡§® ‡§∏‡•á ‡§á‡§Ç‡§ó‡•ç‡§≤‡•à‡§Ç‡§° ‡§î‡§∞ ‡§µ‡•á‡§≤‡•ç‡§∏ ‡§Æ‡•á‡§Ç ‡§∂‡•Å‡§∞‡•Ç ‡§π‡•ã‡§ó‡§æ ‡§ö‡•à‡§Æ‡•ç‡§™‡§ø‡§Ø‡§Ç‡§∏ ‡§ü‡•ç‡§∞‡•â‡§´‡•Ä ‡§ü‡•Ç‡§∞‡•ç‡§®‡§æ‡§Æ‡•á‡§Ç‡§ü',
 '‡§Æ‡•ç‡§∞‡§ø‡§∏‡•ç‡§∞ ‡§ï‡•á ‡§®‡§µ‡§®‡§ø‡§Ø‡•Å‡§ï‡•ç‡§§ ‡§â‡§™ ‡§∞‡§æ‡§∑‡•ç‡§ü‡•ç‡§∞‡§™‡§§‡§ø ‡§â‡§Æ‡§∞ ‡§∏‡•Å‡§≤‡•á

In [115]:
[i for i in Summaries['T5Summary'][:5]]

['‡§¨‡§ø‡§π‡§æ‡§∞ ‡§Æ‡•á‡§Ç ‡§µ‡§ø‡§ß‡§æ‡§®‡§∏‡§≠‡§æ ‡§ö‡•Å‡§®‡§æ‡§µ‡•ã‡§Ç ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§î‡§∞ ‡§ú‡§®‡§§‡§æ ‡§¶‡§≤ ‡§Ø‡•Ç‡§®‡§æ‡§á‡§ü‡•á‡§° (‡§ú‡•á‡§°‡•Ä‡§Ø‡•Ç) ‡§ú‡•à‡§∏‡•á ‡§§‡•Ä‡§®‡•ã‡§Ç ‡§ò‡§ü‡§ï ‡§∞‡§æ‡§ú‡§®‡•Ä‡§§‡§ø‡§ï ‡§¶‡§≤‡•ã‡§Ç ‡§ï‡•Ä ‡§â‡§Æ‡•ç‡§Æ‡•Ä‡§¶‡§µ‡§æ‡§∞‡•Ä ‡§≤‡§°‡§º‡§®‡•á ‡§ï‡•Ä ‡§§‡•à‡§Ø‡§æ‡§∞‡•Ä ‡§ï‡§∞ ‡§∞‡§π‡•á ‡§π‡•à‡§Ç.',
 '‡§Ü‡§à‡§∏‡•Ä‡§∏‡•Ä ‡§ö‡•à‡§Æ‡•ç‡§™‡§ø‡§Ø‡§Ç‡§∏ ‡§ü‡•ç‡§∞‡•â‡§´‡•Ä ‡§Æ‡•á‡§Ç ‡§Ö‡§ó‡§≤‡•á ‡§Æ‡§π‡•Ä‡§®‡•á ‡§≠‡§æ‡§∞‡§§ ‡§î‡§∞ ‡§™‡§æ‡§ï‡§ø‡§∏‡•ç‡§§‡§æ‡§® ‡§ï‡•á ‡§¨‡•Ä‡§ö ‡§π‡•ã‡§®‡•á ‡§µ‡§æ‡§≤‡•á ‡§Æ‡•Å‡§ï‡§æ‡§¨‡§≤‡•á ‡§Æ‡•á‡§Ç ‡§≠‡§æ‡§∞‡§§ ‡§ï‡§æ ‡§™‡§≤‡§°‡§º‡§æ ‡§≠‡§æ‡§∞‡•Ä ‡§∞‡§π‡•á‡§ó‡§æ.',
 '‡§Æ‡§ø‡§∏‡•ç‡§∞ ‡§ï‡•á ‡§∞‡§æ‡§∑‡•ç‡§ü‡•ç‡§∞‡§™‡§§‡§ø ‡§π‡•Å‡§∏‡•ç‡§®‡•Ä ‡§Æ‡•Å‡§¨‡§æ‡§∞‡§ï ‡§®‡•á ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§µ‡§ø‡§∞‡•ã‡§ß‡•Ä ‡§™‡•ç‡§∞‡§¶‡§∞‡•ç‡§∂‡§®‡§ï‡§æ‡§∞‡§ø‡§Ø‡•ã‡§Ç ‡§ï‡•á ‡§∏‡§æ‡§• ‡§¨‡§æ‡§§‡§ö‡•Ä‡§§ ‡§∂‡•Å‡§∞‡•Ç ‡§ï‡§∞‡§®‡•á ‡§ï‡§æ ‡§Ü‡§ó‡•ç‡§∞‡§π ‡§ï‡§ø‡§Ø‡§æ ‡§π‡•à.',
 '‡§¨‡•â‡§≤‡•Ä‡§µ‡•Å‡§° ‡§ï‡•Ä ‡§è‡§ï‡•ç‡

In [116]:
[i for i in Summaries['BartSummary'][:5]]

['‡§Ü‡§ó‡§æ‡§Æ‡•Ä ‡§≤‡•ã‡§ï‡§∏‡§≠‡§æ ‡§ö‡•Å‡§®‡§æ‡§µ ‡§Æ‡•á‡§Ç ‡§∞‡§æ‡§ú‡•ç‡§Ø ‡§ï‡•Ä ‡§ï‡•Å‡§≤ 40 ‡§∏‡•Ä‡§ü‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§∏‡•á ‡§ú‡§ø‡§® ‡§∏‡•Ä‡§ü‡•ã‡§Ç ‡§™‡§∞ ‡§∞‡§æ‡§∑‡•ç‡§ü‡•ç‡§∞‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ‡§Ç‡§§‡•ç‡§∞‡§ø‡§ï ‡§ó‡§†‡§¨‡§Ç‡§ß‡§® (‡§è‡§®‡§°‡•Ä‡§è) ‡§ï‡•á ‡§Ø‡•á ‡§§‡•Ä‡§®‡•ã‡§Ç ‡§ò‡§ü‡§ï ‡§ö‡•Å‡§®‡§æ‡§µ ‡§≤‡§°‡§º‡•á‡§Ç‡§ó‡•á, ‡§â‡§®‡§ï‡•Ä ‡§∏‡•Ç‡§ö‡•Ä ‡§∏‡•á ‡§≠‡•Ä ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§ï‡•Ä ‡§Æ‡§ú‡§¨‡•Ç‡§∞‡•Ä ‡§ù‡§≤‡§ï ‡§â‡§†‡§§‡•Ä ‡§π‡•à. ‡§Ø‡§æ‡§®‡•Ä ‡§∞‡§æ‡§ú‡•ç‡§Ø ‡§ï‡•á ‡§Æ‡•Å‡§ñ‡•ç‡§Ø‡§Æ‡§Ç‡§§‡•ç‡§∞‡•Ä ‡§î‡§∞ ‡§ú‡•á‡§°‡•Ä‡§Ø‡•Ç ‡§ï‡•á ‡§Ö‡§ß‡•ç‡§Ø‡§ï‡•ç‡§∑ ‡§®‡•Ä‡§§‡•Ä‡§∂ ‡§ï‡•Å‡§Æ‡§æ‡§∞ ‡§®‡•á ‡§∏‡•Ä‡§ü‡•ã‡§Ç ‡§ï‡•á ‡§ö‡§Ø‡§® ‡§Æ‡•á‡§Ç ‡§Ö‡§™‡§®‡•á ‡§¶‡§≤‡•Ä‡§Ø ‡§π‡§ø‡§§ ‡§ï‡•á ‡§Ö‡§®‡•Å‡§ï‡•Ç‡§≤ ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§®‡•á‡§§‡•É‡§§‡•ç‡§µ ‡§ï‡•ã ‡§ú‡•à‡§∏‡•á',
 '‡§µ‡•á‡§∏‡•ç‡§ü‡§á‡§Ç‡§°‡•Ä‡§ú ‡§ï‡•á ‡§Ü‡§ï‡•ç‡§∞‡§æ‡§Æ‡§ï ‡§¨‡§≤‡•ç‡§≤‡•á‡§¨‡§æ‡§ú ‡§ï‡•ç‡§∞‡§ø‡§∏ ‡§ó‡•á‡§≤ ‡§®‡•á ‡§ï‡§π‡§æ ‡§π‡•à ‡§ï‡§ø ‡§Ö‡§ó‡§≤‡•á ‡§Æ‡§π‡•Ä‡§®‡•á ‡§∂‡•Å‡§∞‡•Ç ‡§π‡•ã‡§®‡•á ‡§µ‡§æ‡§≤‡•Ä 

Note: Plotly plots are not rendering after saving notebook, so I kept same graph as image file.