<a href="https://colab.research.google.com/github/ngockhanh5110/nlp-vietnamese-text-summarization/blob/main/notebooks/testing_huggingface.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
%%capture

!wget 'https://github.com/CLC-HCMUS/ViMs-Dataset/raw/master/ViMs.zip'
!unzip 'ViMs.zip'

# Install the vncorenlp python wrapper
!pip install vncorenlp

# Download VnCoreNLP-1.1.1.jar & its word segmentation component (i.e. RDRSegmenter) 
!mkdir -p vncorenlp/models/wordsegmenter
!wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/VnCoreNLP-1.1.1.jar
!wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/models/wordsegmenter/vi-vocab
!wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/models/wordsegmenter/wordsegmenter.rdr
!mv VnCoreNLP-1.1.1.jar vncorenlp/ 
!mv vi-vocab vncorenlp/models/wordsegmenter/
!mv wordsegmenter.rdr vncorenlp/models/wordsegmenter/
!pip install datasets==1.0.2

In [3]:
import glob
import pandas as pd
import concurrent.futures
from datasets import *

## Processing data

In [4]:
from vncorenlp import VnCoreNLP
rdrsegmenter = VnCoreNLP("./vncorenlp/VnCoreNLP-1.1.1.jar", annotators="wseg", max_heap_size='-Xmx2g') 

In [5]:
pathfiles = list()
for pathdir in glob.glob('/content/ViMs/original/*'):
  for pathfile in glob.glob(pathdir + '/original/*'):
    pathfiles.append(pathfile)

In [6]:
def read_content(pathfile):
  """
  Input: Path of txt file
  Output: A dictionary has keys 'original' and 'summary'
  """
  with open(pathfile) as f:
    rows  = f.readlines()
    original = ''
    summary = ''
    start_copy_summary = False
    start_copy_content= False

    for row in rows:
      if row[:7] == 'Content':
        start_copy_summary = False
        start_copy_content = True
      elif start_copy_content:
        original += row + ' '
      elif start_copy_summary:
        summary += row + ' '
      elif row[:7] == 'Summary': 
        start_copy_summary = True
        summary += row[9:] + ' '

    original = rdrsegmenter.tokenize(original)
    original = ' '.join([' '.join(x) for x in original])

    summary = rdrsegmenter.tokenize(summary)
    summary = ' '.join([' '.join(x) for x in summary])

    if summary == '':
      summary = None
    if original == '':
      original = None
      
    return {'file' : pathfile,
            'original': original, 
            'summary': summary}

In [7]:
read_content('/content/ViMs/original/Cluster_001/original/8.txt')

{'file': '/content/ViMs/original/Cluster_001/original/8.txt',
 'original': 'Bộ_trưởng Quốc_phòng Hy_Lạp Panos_Kammenos , máy_bay đã " quay 90 độ sang trái và 360 độ sang phải , hạ độ cao từ 37.000 feet xuống 15.000 feet và mất tín_hiệu ở độ cao 10.000 feet " ( khoảng 11 km ) . Theo lời quan_chức này , chiếc máy_bay MS804 bất_ngờ bay chậm lại ở độ cao khoảng hơn 11km . Ở toạ_độ này , máy_bay " bất_ngờ chuyển_hướng " , ban_đầu xoay 90 độ sang bên phải , sau đó lại xoay ngược về bên trước khi biến mất khỏi màn_hình radar và có_thể là bắt_đầu rơi . Theo nguồn tin sân_bay Hy_Lạp cho biết , chiếc máy_bay MS804 đã rơi ở ngoài khơi đảo Karpathos của nước này . Truyền_thông Hy_Lạp cũng đưa tin rằng , ngư_dân trên một tàu đánh_cá của Hy_Lạp đã nhìn thấy một vệt sáng trên bầu_trời ở Địa_Trung_Hải . Tuy_nhiên , thông_tin này hiện chưa được kiểm_chứng . Một đoạn video xuất_hiện trên mạng Twitter được cho là quay lại khoảnh_khắc máy_bay của hãng hàng_không EgyptAir bốc cháy như một quả cầu lửa trên 

In [8]:
with concurrent.futures.ProcessPoolExecutor() as executor:
  data = executor.map(read_content, pathfiles)

In [9]:
# Make blank dataframe
data_df = list()
for d in data:
  data_df.append(d)
data_df = pd.DataFrame(data_df)
data_df

Unnamed: 0,file,original,summary
0,/content/ViMs/original/Cluster_018/original/11...,"Đến sáng , chị Nguyễn_Thị_Kim_Loan ( vợ anh Em...","Rạng sáng 17-5 , anh Trần_Văn_Sơn_Em ( ngụ khó..."
1,/content/ViMs/original/Cluster_018/original/12...,"Như tin đã đưa , một bé trai 4 tuổi ở TP Cao_L...",Thời_gian gần đây liên_tiếp xảy ra các vụ tử_v...
2,/content/ViMs/original/Cluster_018/original/11...,"Sáng 19/5 , thông_tin từ sở Y_tế Đồng_Tháp cho...",Sở Y_tế Đồng_Tháp kết_luận nguyên_nhân một trẻ...
3,/content/ViMs/original/Cluster_018/original/12...,"Cụ_thể , chiều ngày 16.5 , ông Trần_Văn_Sơn_Em...","Tối 18.5 , ông Đoàn_Tấn_Bửu , Giám_đốc Sở Y_tế..."
4,/content/ViMs/original/Cluster_018/original/12...,"Theo báo Giao_thông , trưa 19/5 , Sở Y_tế Đồn...",Sở Y_tế Đồng_Tháp xác_nhận bé trai tử_vong do ...
...,...,...,...
1940,/content/ViMs/original/Cluster_056/original/37...,"Bộ ảnh này do tạp_chí Marie_Claire công_bố , đ...",Bộ ảnh cặp đôi mới của làng giải_trí xứ Hàn mớ...
1941,/content/ViMs/original/Cluster_056/original/37...,"Mới_đây nhất , tạp_chí Marie_Claire đã đăng_tả...",Bộ ảnh chụp cho tạp_chí Marie_Claire trước thề...
1942,/content/ViMs/original/Cluster_056/original/37...,"Mới_đây , những bức hình_ảnh cưới của cặp đôi ...",Goo_Hye_Sun và Ahn_Jae_Hyun đã có những hình_ả...
1943,/content/ViMs/original/Cluster_056/original/37...,"Chiều ngày 21/5 , Ahn_Jae_Hyun và Goo_Hye_Sun ...",Một hình_ảnh hiếm_hoi của lễ cưới vừa được tiế...


In [10]:
data_df.dropna(inplace = True)
data_df

Unnamed: 0,file,original,summary
0,/content/ViMs/original/Cluster_018/original/11...,"Đến sáng , chị Nguyễn_Thị_Kim_Loan ( vợ anh Em...","Rạng sáng 17-5 , anh Trần_Văn_Sơn_Em ( ngụ khó..."
1,/content/ViMs/original/Cluster_018/original/12...,"Như tin đã đưa , một bé trai 4 tuổi ở TP Cao_L...",Thời_gian gần đây liên_tiếp xảy ra các vụ tử_v...
2,/content/ViMs/original/Cluster_018/original/11...,"Sáng 19/5 , thông_tin từ sở Y_tế Đồng_Tháp cho...",Sở Y_tế Đồng_Tháp kết_luận nguyên_nhân một trẻ...
3,/content/ViMs/original/Cluster_018/original/12...,"Cụ_thể , chiều ngày 16.5 , ông Trần_Văn_Sơn_Em...","Tối 18.5 , ông Đoàn_Tấn_Bửu , Giám_đốc Sở Y_tế..."
4,/content/ViMs/original/Cluster_018/original/12...,"Theo báo Giao_thông , trưa 19/5 , Sở Y_tế Đồn...",Sở Y_tế Đồng_Tháp xác_nhận bé trai tử_vong do ...
...,...,...,...
1940,/content/ViMs/original/Cluster_056/original/37...,"Bộ ảnh này do tạp_chí Marie_Claire công_bố , đ...",Bộ ảnh cặp đôi mới của làng giải_trí xứ Hàn mớ...
1941,/content/ViMs/original/Cluster_056/original/37...,"Mới_đây nhất , tạp_chí Marie_Claire đã đăng_tả...",Bộ ảnh chụp cho tạp_chí Marie_Claire trước thề...
1942,/content/ViMs/original/Cluster_056/original/37...,"Mới_đây , những bức hình_ảnh cưới của cặp đôi ...",Goo_Hye_Sun và Ahn_Jae_Hyun đã có những hình_ả...
1943,/content/ViMs/original/Cluster_056/original/37...,"Chiều ngày 21/5 , Ahn_Jae_Hyun và Goo_Hye_Sun ...",Một hình_ảnh hiếm_hoi của lễ cưới vừa được tiế...


In [11]:
data_df = data_df.sample(frac=1).reset_index(drop=True)
data_df

Unnamed: 0,file,original,summary
0,/content/ViMs/original/Cluster_163/original/10...,"Cụ_thể , Tập_đoàn ANA mua 8,771% cổ_phần của V...","Ngày 28/5 , Vietnam_Airlines và Tập_đoàn ANA k..."
1,/content/ViMs/original/Cluster_267/original/17...,"Hôm_qua ( 2/6 ) , Đại_sứ_quán Thuỵ_Điển tại Hà...","Đối_với nhiều người Việt_Nam , Thuỵ_Điển được ..."
2,/content/ViMs/original/Cluster_122/original/79...,"Ngôi_sao đến từ nước Anh , người nhận được 8 đ...",Dù vắng_mặt trong đêm trao giải Billboard đêm ...
3,/content/ViMs/original/Cluster_066/original/43...,"Bàn thắng : M.U : Mata ( 81 ' ) , Lingard ( 11...",Hai pha lập_công của Juan_Mata và Jesse_Lingar...
4,/content/ViMs/original/Cluster_091/original/59...,"Giải đấu này diễn ra từ ngày 19-26/5 , được xe...",Xạ_thủ số 1 Việt_Nam Hoàng_Xuân_Vinh vừa giành...
...,...,...,...
1895,/content/ViMs/original/Cluster_274/original/17...,"Theo những tin_tức mới nhất , vụ tai_nạn giao_...",Vụ tai_nạn giao_thông kinh_hoàng khiến 6 người...
1896,/content/ViMs/original/Cluster_227/original/14...,"Bất_ngờ xuất_sắc hạ gục hạt_giống số 8 , Milos...",Tuy chỉ gặp đối_thủ không xếp_hạng hạt_giống R...
1897,/content/ViMs/original/Cluster_144/original/92...,"Theo đó , vào thời_điểm trên anh Tiến và gia_đ...","Vào_khoảng 13 giờ ngày 27-5 , tại nhà anh Lê_V..."
1898,/content/ViMs/original/Cluster_136/original/87...,"Liverpool đã hoàn_tất bản hợp_đồng trị_giá 4,7...",Trước khi thị_trường chuyển_nhượng mùa Hè mở_c...


## **Warm-starting RoBERTaShared for BBC XSum**

***Note***: This notebook only uses a few training, validation, and test data samples for demonstration purposes. To fine-tune an encoder-decoder model on the full training data, the user should change the training and data preprocessing parameters accordingly as highlighted by the comments.


### **Data Preprocessing**


In [12]:
%%capture
!pip install datasets==1.0.2
!pip install transformers

import datasets
import transformers

In [13]:
from transformers import RobertaTokenizerFast,AutoTokenizer

# phobert = AutoModel.from_pretrained("vinai/phobert-base")

# For transformers v4.x+: 
tokenizer = AutoTokenizer.from_pretrained("vinai/phobert-base", use_fast=False)

# tokenizer = RobertaTokenizerFast.from_pretrained("roberta-base")

# train_data = datasets.load_dataset("xsum", split="train")
# val_data = datasets.load_dataset("xsum", split="validation[:10%]")

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=557.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=895321.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1135173.0, style=ProgressStyle(descript…




In [14]:
from sklearn.model_selection import train_test_split

train_data, val_data = train_test_split(data_df, test_size=0.2)
train_data =  Dataset.from_pandas(train_data)
val_data =  Dataset.from_pandas(val_data)

In [15]:
batch_size=8  # change to 16 for full training
encoder_max_length=256
decoder_max_length=64

def process_data_to_model_inputs(batch):                                                               
    # Tokenizer will automatically set [BOS] <text> [EOS]                                               
    inputs = tokenizer(batch["original"], padding="max_length", truncation=True, max_length=encoder_max_length)
    outputs = tokenizer(batch["summary"], padding="max_length", truncation=True, max_length=decoder_max_length)
                                                                                                        
    batch["input_ids"] = inputs.input_ids                                                               
    batch["attention_mask"] = inputs.attention_mask                                                     
    batch["decoder_input_ids"] = outputs.input_ids                                                      
    batch["labels"] = outputs.input_ids.copy()                                                          
    # mask loss for padding                                                                             
    batch["labels"] = [                                                                                 
        [-100 if token == tokenizer.pad_token_id else token for token in labels] for labels in batch["labels"]
    ]                     
    batch["decoder_attention_mask"] = outputs.attention_mask                                                                              
                                                                                                         
    return batch  

# only use 32 training examples for notebook - DELETE LINE FOR FULL TRAINING
# train_data = train_data.select(range(32))

train_data_batch = train_data.map(
    process_data_to_model_inputs, 
    batched=True, 
    batch_size=batch_size, 
    remove_columns=["file","original", "summary"],
)
train_data_batch.set_format(
    type="torch", columns=["input_ids", "attention_mask", "decoder_input_ids", "decoder_attention_mask", "labels"],
)


# only use 16 training examples for notebook - DELETE LINE FOR FULL TRAINING
# val_data = val_data.select(range(16))

val_data_batch = val_data.map(
    process_data_to_model_inputs, 
    batched=True, 
    batch_size=batch_size, 
    remove_columns=["file", "original", "summary"],
)
val_data_batch.set_format(
    type="torch", columns=["input_ids", "attention_mask", "decoder_input_ids", "decoder_attention_mask", "labels"],
)

HBox(children=(FloatProgress(value=0.0, max=190.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=48.0), HTML(value='')))




### **Warm-starting the Encoder-Decoder Model**

In [16]:
from transformers import EncoderDecoderModel

# set encoder decoder tying to True
roberta_shared = EncoderDecoderModel.from_encoder_decoder_pretrained("vinai/phobert-base", "vinai/phobert-base", tie_encoder_decoder=True)

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=542923308.0, style=ProgressStyle(descri…




In [17]:
roberta_shared1 = EncoderDecoderModel.from_encoder_decoder_pretrained("roberta-base", "roberta-base", tie_encoder_decoder=True)

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=481.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=501200538.0, style=ProgressStyle(descri…




In [18]:
# set special tokens
roberta_shared.config.decoder_start_token_id = tokenizer.bos_token_id                                             
roberta_shared.config.eos_token_id = tokenizer.eos_token_id

# sensible parameters for beam search
# set decoding params                               
roberta_shared.config.max_length = 64
roberta_shared.config.early_stopping = True
roberta_shared.config.no_repeat_ngram_size = 3
roberta_shared.config.length_penalty = 2.0
roberta_shared.config.num_beams = 4
roberta_shared.config.vocab_size = roberta_shared.config.encoder.vocab_size  

### **Fine-Tuning Warm-Started Encoder-Decoder Models**

The `Seq2SeqTrainer` that can be found under [examples/seq2seq/seq2seq_trainer.py](https://github.com/huggingface/transformers/blob/master/examples/seq2seq/seq2seq_trainer.py) will be used to fine-tune a warm-started encoder-decoder model.

Let's download the `Seq2SeqTrainer` code and import the module along with `TrainingArguments`.

In [19]:
%%capture
!rm seq2seq_trainer.py
!wget https://raw.githubusercontent.com/huggingface/transformers/master/examples/seq2seq/seq2seq_trainer.py

!pip install git-python==1.0.3
!pip install sacrebleu==1.4.12
!pip install rouge_score

from seq2seq_trainer import Seq2SeqTrainer
from transformers import TrainingArguments
from dataclasses import dataclass, field
from typing import Optional

We need to add some additional parameters to make `TrainingArguments` compatible with the `Seq2SeqTrainer`. Let's just copy the `dataclass` arguments as defined in [this file](https://github.com/patrickvonplaten/transformers/blob/make_seq2seq_trainer_self_contained/examples/seq2seq/finetune_trainer.py).

In [20]:
@dataclass
class Seq2SeqTrainingArguments(TrainingArguments):
    label_smoothing: Optional[float] = field(
        default=0.0, metadata={"help": "The label smoothing epsilon to apply (if not zero)."}
    )
    sortish_sampler: bool = field(default=False, metadata={"help": "Whether to SortishSamler or not."})
    predict_with_generate: bool = field(
        default=False, metadata={"help": "Whether to use generate to calculate generative metrics (ROUGE, BLEU)."}
    )
    adafactor: bool = field(default=False, metadata={"help": "whether to use adafactor"})
    encoder_layerdrop: Optional[float] = field(
        default=None, metadata={"help": "Encoder layer dropout probability. Goes into model.config."}
    )
    decoder_layerdrop: Optional[float] = field(
        default=None, metadata={"help": "Decoder layer dropout probability. Goes into model.config."}
    )
    dropout: Optional[float] = field(default=None, metadata={"help": "Dropout probability. Goes into model.config."})
    attention_dropout: Optional[float] = field(
        default=None, metadata={"help": "Attention dropout probability. Goes into model.config."}
    )
    lr_scheduler: Optional[str] = field(
        default="linear", metadata={"help": f"Which lr scheduler to use."}
    )

Also, we need to define a function to correctly compute the ROUGE score during validation. ROUGE is a much better metric to track during training than only language modeling loss.

In [21]:
import datasets

In [61]:
# load rouge for validation
rouge = datasets.load_metric("rouge")

def compute_metrics(pred):
    labels_ids = pred.label_ids
    pred_ids = pred.predictions

    # all unnecessary tokens are removed
    pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
    labels_ids[labels_ids == -100] = tokenizer.pad_token_id
    label_str = tokenizer.batch_decode(labels_ids, skip_special_tokens=True)

    rouge_output = rouge.compute(predictions=pred_str, references=label_str, rouge_types=["rouge2"])["rouge2"].mid

    return {
        "rouge2_precision": round(rouge_output.precision, 4),
        "rouge2_recall": round(rouge_output.recall, 4),
        "rouge2_fmeasure": round(rouge_output.fmeasure, 4),
    }

Cool! Finally, we start training.

In [23]:
# set training arguments - these params are not really tuned, feel free to change
training_args = Seq2SeqTrainingArguments(
    output_dir="/content/drive/MyDrive/small-datasets-checkpoints/",
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    predict_with_generate=True,
    # evaluate_during_training=True,
    do_train=True,
    do_eval=True,
    logging_steps=100,  # set to 2000 for full training
    save_steps=200,  # set to 500 for full training
    eval_steps=7500,  # set to 7500 for full training
    warmup_steps=3000,  # set to 3000 for full training
    num_train_epochs=40, #uncomment for full training
    overwrite_output_dir=True,
    save_total_limit=100,
    fp16=True, 
)

# instantiate trainer
trainer = Seq2SeqTrainer(
    model=roberta_shared,
    args=training_args,
    compute_metrics=compute_metrics,
    train_dataset=train_data_batch,
    eval_dataset=val_data_batch,
)
trainer.train()

The `config.pad_token_id` is `None`. Using `config.eos_token_id` = 2 for padding..
  return torch.tensor(x, **format_kwargs)


Step,Training Loss
100,10.5981
200,8.8592
300,7.6928
400,7.1442
500,6.5641
600,5.9228
700,5.3224
800,4.7899
900,4.4152
1000,4.0672


TrainOutput(global_step=7600, training_loss=1.4563353956373115, metrics={'train_runtime': 4302.7166, 'train_samples_per_second': 1.766, 'total_flos': 19147184523264000, 'epoch': 40.0})

### **Evaluation**

Awesome, we finished training our dummy model. Let's now evaluated the model on the test data. We make use of the dataset's handy `.map()` function to generate a summary of each sample of the test data.

In [25]:
import datasets
from transformers import RobertaTokenizer, EncoderDecoderModel, AutoTokenizer
from sklearn.model_selection import train_test_split

tokenizer = AutoTokenizer.from_pretrained("vinai/phobert-base", use_fast=False)

model = EncoderDecoderModel.from_pretrained("/content/drive/MyDrive/small-datasets-checkpoints/checkpoint-7600")
model.to("cuda")

# test_data = datasets.load_dataset("xsum", split="test")

batch_size = 16  # change to 64 for full evaluation

# map data correctly
def generate_summary(batch):
    # Tokenizer will automatically set [BOS] <text> [EOS]
    inputs = tokenizer(batch["original"], padding="max_length", truncation=True, max_length=256, return_tensors="pt")
    input_ids = inputs.input_ids.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")

    outputs = model.generate(input_ids, attention_mask=attention_mask)

    # all special tokens including will be removed
    output_str = tokenizer.batch_decode(outputs, skip_special_tokens=True)

    batch["pred"] = output_str

    return batch

results = val_data.map(generate_summary, batched=True, batch_size=batch_size, remove_columns=["original"])

pred_str = results["pred"]
label_str = results["summary"]

HBox(children=(FloatProgress(value=0.0, max=24.0), HTML(value='')))




In [66]:
rouge_output = rouge.compute(predictions=pred_str, references=label_str, rouge_types=["rouge1","rouge2","rougeL"])

In [68]:
for key,value in rouge_output.items():
  print(key)
  print(value.mid)

rouge1
Score(precision=0.6265770784144067, recall=0.6111669858421109, fmeasure=0.5941804104305777)
rouge2
Score(precision=0.317671715261963, recall=0.3109838184524352, fmeasure=0.3018575694940163)
rougeL
Score(precision=0.4125453037752388, recall=0.4036340684298163, fmeasure=0.3914559008583163)


In [71]:
i = 30
print('Prediction: ',pred_str[i])
print('Truth: ',label_str[i])
print('Content: ',val_data[i]['original'])

Prediction:  Thi_thể một thiếu_tá quân_đội được người_dân phát_hiện bên vệ đường với nhiều vết_thương trên người.
Truth:  Sáng ngày 3/6 , người_dân phường Tân_An , TP. Buôn_Ma_Thuột ( Đắk_Lắk ) phát_hiện xác một người đàn_ông bị giết nằm bên vệ đường nên đã trình_báo cơ_quan_chức_năng .
Content:  Theo cơ_quan_chức_năng , nạn_nhân là Thiếu_tá Nguyễn_Duy_Chuyển ( 46 tuổi , quê tại huyện Tĩnh_Gia , tỉnh Thanh_Hoá ) hiện đang là Trợ_lý Phòng kinh_doanh của Sư_đoàn 470 thuộc Bộ_Chỉ_huy Quân_sự tỉnh Đắk_Lắk . Hiện các cơ_quan_chức_năng đã tiến_hành đưa xác nạn_nhân về Bệnh_xá của Sư_đoàn 470 để tiến_hành khám_nghiệm tử_thi điều_tra , làm rõ nguyên_nhân . Được biết , đến trưa cùng ngày , đối_tượng giết chết Thiếu_tá Chuyển đã đến Cơ_quan điều_tra Công_an tỉnh Đắk_Lắk đầu_thú . Hiện các cơ_quan_chức_năng đang tiến_hành điều_tra , làm rõ vụ_việc .


The fully trained *RoBERTaShared* model is uploaded to the 🤗model hub under [patrickvonplaten/roberta_shared_bbc_xsum](https://huggingface.co/patrickvonplaten/roberta_shared_bbc_xsum). 

The model achieves a ROUGE-2 score of **16.89**, which is a bit worse than reported in the paper. Training the model for a bit longer will most likely close this performance gap.

For some summarization examples, the reader is advised to use the online inference API of the model, [here](https://huggingface.co/patrickvonplaten/roberta_shared_bbc_xsum).

In [None]:
import pickle

with open("/content/drive/MyDrive/small-datasets-checkpoints/val_data.pkl", 'wb') as pfile:
    pickle.dump(val_data, pfile, protocol=pickle.HIGHEST_PROTOCOL)

# with open("/content/drive/MyDrive/small-datasets-checkpoints/val_data.pkl", 'rb') as pfile:
#     val_data = pickle.load(pfile)