<a href="https://colab.research.google.com/github/ngockhanh5110/nlp-vietnamese-text-summarization/blob/main/notebooks/testing_huggingface.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
%%capture

!wget 'https://github.com/CLC-HCMUS/ViMs-Dataset/raw/master/ViMs.zip'
!unzip 'ViMs.zip'

# Install the vncorenlp python wrapper
!pip install vncorenlp

# Download VnCoreNLP-1.1.1.jar & its word segmentation component (i.e. RDRSegmenter) 
!mkdir -p vncorenlp/models/wordsegmenter
!wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/VnCoreNLP-1.1.1.jar
!wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/models/wordsegmenter/vi-vocab
!wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/models/wordsegmenter/wordsegmenter.rdr
!mv VnCoreNLP-1.1.1.jar vncorenlp/ 
!mv vi-vocab vncorenlp/models/wordsegmenter/
!mv wordsegmenter.rdr vncorenlp/models/wordsegmenter/
!pip install datasets==1.0.2

In [2]:
import glob
import pandas as pd
import concurrent.futures
from datasets import *

## Processing data

In [3]:
from vncorenlp import VnCoreNLP
rdrsegmenter = VnCoreNLP("./vncorenlp/VnCoreNLP-1.1.1.jar", annotators="wseg", max_heap_size='-Xmx2g') 

In [4]:
pathfiles = list()
for pathdir in glob.glob('/content/ViMs/original/*'):
  for pathfile in glob.glob(pathdir + '/original/*'):
    pathfiles.append(pathfile)

In [5]:
def read_content(pathfile):
  """
  Input: Path of txt file
  Output: A dictionary has keys 'original' and 'summary'
  """
  with open(pathfile) as f:
    rows  = f.readlines()
    original = ''
    summary = ''
    start_copy_summary = False
    start_copy_content= False

    for row in rows:
      if row[:7] == 'Content':
        start_copy_summary = False
        start_copy_content = True
      elif start_copy_content:
        original += row + ' '
      elif start_copy_summary:
        summary += row + ' '
      elif row[:7] == 'Summary': 
        start_copy_summary = True
        summary += row[9:] + ' '

    original = rdrsegmenter.tokenize(original)
    original = ' '.join([' '.join(x) for x in original])

    summary = rdrsegmenter.tokenize(summary)
    summary = ' '.join([' '.join(x) for x in summary])

    if summary == '':
      summary = None
    if original == '':
      original = None
      
    return {'file' : pathfile,
            'original': original, 
            'summary': summary}

In [6]:
read_content('/content/ViMs/original/Cluster_001/original/8.txt')

{'file': '/content/ViMs/original/Cluster_001/original/8.txt',
 'original': 'Bộ_trưởng Quốc_phòng Hy_Lạp Panos_Kammenos , máy_bay đã " quay 90 độ sang trái và 360 độ sang phải , hạ độ cao từ 37.000 feet xuống 15.000 feet và mất tín_hiệu ở độ cao 10.000 feet " ( khoảng 11 km ) . Theo lời quan_chức này , chiếc máy_bay MS804 bất_ngờ bay chậm lại ở độ cao khoảng hơn 11km . Ở toạ_độ này , máy_bay " bất_ngờ chuyển_hướng " , ban_đầu xoay 90 độ sang bên phải , sau đó lại xoay ngược về bên trước khi biến mất khỏi màn_hình radar và có_thể là bắt_đầu rơi . Theo nguồn tin sân_bay Hy_Lạp cho biết , chiếc máy_bay MS804 đã rơi ở ngoài khơi đảo Karpathos của nước này . Truyền_thông Hy_Lạp cũng đưa tin rằng , ngư_dân trên một tàu đánh_cá của Hy_Lạp đã nhìn thấy một vệt sáng trên bầu_trời ở Địa_Trung_Hải . Tuy_nhiên , thông_tin này hiện chưa được kiểm_chứng . Một đoạn video xuất_hiện trên mạng Twitter được cho là quay lại khoảnh_khắc máy_bay của hãng hàng_không EgyptAir bốc cháy như một quả cầu lửa trên 

In [7]:
with concurrent.futures.ProcessPoolExecutor() as executor:
  data = executor.map(read_content, pathfiles)

In [8]:
# Make blank dataframe
data_df = list()
for d in data:
  data_df.append(d)
data_df = pd.DataFrame(data_df)
data_df

Unnamed: 0,file,original,summary
0,/content/ViMs/original/Cluster_298/original/19...,"Thông_tin trên Pravda cho biết , sự_việc hy_hữ...",Một chiếc máy_bay chở 147 hành_khách vừa đáp x...
1,/content/ViMs/original/Cluster_298/original/19...,"Hãng tin Pravda cho biết , sự_việc xảy ra_chiề...",Đường_băng ở sân_bay quốc_tế Domodedovo ở Mosc...
2,/content/ViMs/original/Cluster_298/original/19...,"Báo Pravda của Nga đưa tin , hôm 2/4 , đường_b...",Một sự_cố hi_hữu đã xảy ra khi một chiếc máy_b...
3,/content/ViMs/original/Cluster_298/original/19...,Chiếc máy bay đã đứng tại chỗ trong khoả...,Một chiếc máy_bay thực hiện chuyến bay từ ...
4,/content/ViMs/original/Cluster_298/original/19...,Theo những tin_tức mới nhất báo Dân_Trí trích ...,"ai nạn hy_hữu xảy ra ở Nga , khi đường_băng ở ..."
...,...,...,...
1940,/content/ViMs/original/Cluster_157/original/10...,"Sáng nay , khi cơ_quan điều_tra vào_cuộc điều_...","Trưa nay ( 29-5 ) , nguồn tin cho biết trong v..."
1941,/content/ViMs/original/Cluster_157/original/10...,"Trước đó , báo Người đưa tin đã thông_tin , kh...",Trong khi bị lực_lượng chức_năng tổ_chức vây b...
1942,/content/ViMs/original/Cluster_157/original/10...,"Sáng nay , Công_an huyện Quế_Phong ( Nghệ_An )...","Tỉnh_giấc sau chầu nhậu , Thắng ra_tay giết ch..."
1943,/content/ViMs/original/Cluster_157/original/10...,"Theo đó , khi cơ_quan công_an huyện Quế_Phong ...","Sáng 29/5 , ông Lương_Trường_Sơn - Trưởng CA x..."


In [9]:
data_df.dropna(inplace = True)
data_df

Unnamed: 0,file,original,summary
0,/content/ViMs/original/Cluster_298/original/19...,"Thông_tin trên Pravda cho biết , sự_việc hy_hữ...",Một chiếc máy_bay chở 147 hành_khách vừa đáp x...
1,/content/ViMs/original/Cluster_298/original/19...,"Hãng tin Pravda cho biết , sự_việc xảy ra_chiề...",Đường_băng ở sân_bay quốc_tế Domodedovo ở Mosc...
2,/content/ViMs/original/Cluster_298/original/19...,"Báo Pravda của Nga đưa tin , hôm 2/4 , đường_b...",Một sự_cố hi_hữu đã xảy ra khi một chiếc máy_b...
3,/content/ViMs/original/Cluster_298/original/19...,Chiếc máy bay đã đứng tại chỗ trong khoả...,Một chiếc máy_bay thực hiện chuyến bay từ ...
4,/content/ViMs/original/Cluster_298/original/19...,Theo những tin_tức mới nhất báo Dân_Trí trích ...,"ai nạn hy_hữu xảy ra ở Nga , khi đường_băng ở ..."
...,...,...,...
1940,/content/ViMs/original/Cluster_157/original/10...,"Sáng nay , khi cơ_quan điều_tra vào_cuộc điều_...","Trưa nay ( 29-5 ) , nguồn tin cho biết trong v..."
1941,/content/ViMs/original/Cluster_157/original/10...,"Trước đó , báo Người đưa tin đã thông_tin , kh...",Trong khi bị lực_lượng chức_năng tổ_chức vây b...
1942,/content/ViMs/original/Cluster_157/original/10...,"Sáng nay , Công_an huyện Quế_Phong ( Nghệ_An )...","Tỉnh_giấc sau chầu nhậu , Thắng ra_tay giết ch..."
1943,/content/ViMs/original/Cluster_157/original/10...,"Theo đó , khi cơ_quan công_an huyện Quế_Phong ...","Sáng 29/5 , ông Lương_Trường_Sơn - Trưởng CA x..."


In [10]:
data_df = data_df.sample(frac=1).reset_index(drop=True)
data_df

Unnamed: 0,file,original,summary
0,/content/ViMs/original/Cluster_171/original/11...,Cuộc tìm_kiếm nhóm nhạc nữ tài_năng Hello_Yell...,Ca_sĩ Đông_Nhi vừa kêu_gọi những bạn nữ yêu th...
1,/content/ViMs/original/Cluster_113/original/72...,"Ngoài_ra , các bị_cáo còn phải bồi_thường thiệ...",Qua hai lần đưa ra xét_xử vụ án “ Cố_ý làm trá...
2,/content/ViMs/original/Cluster_277/original/18...,"Cụ_thể , khi mua xe LEAD 125cc , bạn sẽ nhận đ...","Nhân kỷ_niệm 20 năm có_mặt tại Việt_Nam , Hond..."
3,/content/ViMs/original/Cluster_075/original/49...,Công_ty tư_vấn BĐS Savills vừa có Báo_cáo về t...,"Theo Savills Việt_Nam , khoảng 80% người mua B..."
4,/content/ViMs/original/Cluster_200/original/13...,"Tham_dự hội_nghị , có ông Wei_Jizhong , Phó Ch...","Sáng 1-6 , tại TP Đà_Nẵng , Ban Tổ_chức Đại_hộ..."
...,...,...,...
1895,/content/ViMs/original/Cluster_289/original/18...,"Tin nhanh , vào_khoảng 9h sáng cùng ngày , Lê_...","Sau khi cướp xe ô_tô , Hiếu đạp ga bỏ chạy như..."
1896,/content/ViMs/original/Cluster_168/original/10...,Nổi_tiếng nhờ vai diễn Daenerys_Targaryen tron...,“ Mẹ rồng ” Emilia_Clarke mới_đây đã “ bật_mí ...
1897,/content/ViMs/original/Cluster_160/original/10...,"Tổng_giám_đốc Công_ty Việt_An_Hoà , Trần_Khánh...",Nhiều chuyên_gia cho rằng dù hệ_thống luật khá...
1898,/content/ViMs/original/Cluster_128/original/82...,Đài_truyền_hình NBC News đưa tin câu_chuyện kh...,"Một người đàn_ông ở Mỹ , sau khi qua_đời , đã ..."


## **Warm-starting RoBERTaShared for BBC XSum**

***Note***: This notebook only uses a few training, validation, and test data samples for demonstration purposes. To fine-tune an encoder-decoder model on the full training data, the user should change the training and data preprocessing parameters accordingly as highlighted by the comments.


### **Data Preprocessing**


In [11]:
%%capture
!pip install datasets==1.0.2
!pip install transformers

import datasets
import transformers

In [12]:
from transformers import RobertaTokenizerFast,AutoTokenizer

# phobert = AutoModel.from_pretrained("vinai/phobert-base")

# For transformers v4.x+: 
tokenizer = AutoTokenizer.from_pretrained("vinai/phobert-base", use_fast=False)

# tokenizer = RobertaTokenizerFast.from_pretrained("roberta-base")

# train_data = datasets.load_dataset("xsum", split="train")
# val_data = datasets.load_dataset("xsum", split="validation[:10%]")

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=557.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=895321.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1135173.0, style=ProgressStyle(descript…




In [13]:
from sklearn.model_selection import train_test_split

train_data, val_data = train_test_split(data_df, test_size=0.2)
train_data =  Dataset.from_pandas(train_data)
val_data =  Dataset.from_pandas(val_data)

In [14]:
batch_size=8  # change to 16 for full training
encoder_max_length=256
decoder_max_length=64

def process_data_to_model_inputs(batch):                                                               
    # Tokenizer will automatically set [BOS] <text> [EOS]                                               
    inputs = tokenizer(batch["original"], padding="max_length", truncation=True, max_length=encoder_max_length)
    outputs = tokenizer(batch["summary"], padding="max_length", truncation=True, max_length=decoder_max_length)
                                                                                                        
    batch["input_ids"] = inputs.input_ids                                                               
    batch["attention_mask"] = inputs.attention_mask                                                     
    batch["decoder_input_ids"] = outputs.input_ids                                                      
    batch["labels"] = outputs.input_ids.copy()                                                          
    # mask loss for padding                                                                             
    batch["labels"] = [                                                                                 
        [-100 if token == tokenizer.pad_token_id else token for token in labels] for labels in batch["labels"]
    ]                     
    batch["decoder_attention_mask"] = outputs.attention_mask                                                                              
                                                                                                         
    return batch  

# only use 32 training examples for notebook - DELETE LINE FOR FULL TRAINING
# train_data = train_data.select(range(32))

train_data = train_data.map(
    process_data_to_model_inputs, 
    batched=True, 
    batch_size=batch_size, 
    remove_columns=["file","original", "summary"],
)
train_data.set_format(
    type="torch", columns=["input_ids", "attention_mask", "decoder_input_ids", "decoder_attention_mask", "labels"],
)


# only use 16 training examples for notebook - DELETE LINE FOR FULL TRAINING
# val_data = val_data.select(range(16))

val_data = val_data.map(
    process_data_to_model_inputs, 
    batched=True, 
    batch_size=batch_size, 
    remove_columns=["file", "original", "summary"],
)
val_data.set_format(
    type="torch", columns=["input_ids", "attention_mask", "decoder_input_ids", "decoder_attention_mask", "labels"],
)

HBox(children=(FloatProgress(value=0.0, max=190.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=48.0), HTML(value='')))




### **Warm-starting the Encoder-Decoder Model**

In [15]:
from transformers import EncoderDecoderModel

# set encoder decoder tying to True
roberta_shared = EncoderDecoderModel.from_encoder_decoder_pretrained("vinai/phobert-base", "vinai/phobert-base", tie_encoder_decoder=True)

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=542923308.0, style=ProgressStyle(descri…




In [16]:
roberta_shared1 = EncoderDecoderModel.from_encoder_decoder_pretrained("roberta-base", "roberta-base", tie_encoder_decoder=True)

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=481.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=501200538.0, style=ProgressStyle(descri…




In [17]:
# set special tokens
roberta_shared.config.decoder_start_token_id = tokenizer.bos_token_id                                             
roberta_shared.config.eos_token_id = tokenizer.eos_token_id

# sensible parameters for beam search
# set decoding params                               
roberta_shared.config.max_length = 64
roberta_shared.config.early_stopping = True
roberta_shared.config.no_repeat_ngram_size = 3
roberta_shared.config.length_penalty = 2.0
roberta_shared.config.num_beams = 4
roberta_shared.config.vocab_size = roberta_shared.config.encoder.vocab_size  

### **Fine-Tuning Warm-Started Encoder-Decoder Models**

The `Seq2SeqTrainer` that can be found under [examples/seq2seq/seq2seq_trainer.py](https://github.com/huggingface/transformers/blob/master/examples/seq2seq/seq2seq_trainer.py) will be used to fine-tune a warm-started encoder-decoder model.

Let's download the `Seq2SeqTrainer` code and import the module along with `TrainingArguments`.

In [18]:
%%capture
!rm seq2seq_trainer.py
!wget https://raw.githubusercontent.com/huggingface/transformers/master/examples/seq2seq/seq2seq_trainer.py

!pip install git-python==1.0.3
!pip install sacrebleu==1.4.12
!pip install rouge_score

from seq2seq_trainer import Seq2SeqTrainer
from transformers import TrainingArguments
from dataclasses import dataclass, field
from typing import Optional

We need to add some additional parameters to make `TrainingArguments` compatible with the `Seq2SeqTrainer`. Let's just copy the `dataclass` arguments as defined in [this file](https://github.com/patrickvonplaten/transformers/blob/make_seq2seq_trainer_self_contained/examples/seq2seq/finetune_trainer.py).

In [19]:
@dataclass
class Seq2SeqTrainingArguments(TrainingArguments):
    label_smoothing: Optional[float] = field(
        default=0.0, metadata={"help": "The label smoothing epsilon to apply (if not zero)."}
    )
    sortish_sampler: bool = field(default=False, metadata={"help": "Whether to SortishSamler or not."})
    predict_with_generate: bool = field(
        default=False, metadata={"help": "Whether to use generate to calculate generative metrics (ROUGE, BLEU)."}
    )
    adafactor: bool = field(default=False, metadata={"help": "whether to use adafactor"})
    encoder_layerdrop: Optional[float] = field(
        default=None, metadata={"help": "Encoder layer dropout probability. Goes into model.config."}
    )
    decoder_layerdrop: Optional[float] = field(
        default=None, metadata={"help": "Decoder layer dropout probability. Goes into model.config."}
    )
    dropout: Optional[float] = field(default=None, metadata={"help": "Dropout probability. Goes into model.config."})
    attention_dropout: Optional[float] = field(
        default=None, metadata={"help": "Attention dropout probability. Goes into model.config."}
    )
    lr_scheduler: Optional[str] = field(
        default="linear", metadata={"help": f"Which lr scheduler to use."}
    )

Also, we need to define a function to correctly compute the ROUGE score during validation. ROUGE is a much better metric to track during training than only language modeling loss.

In [20]:
import datasets

In [21]:
# load rouge for validation
rouge = datasets.load_metric("rouge")

def compute_metrics(pred):
    labels_ids = pred.label_ids
    pred_ids = pred.predictions

    # all unnecessary tokens are removed
    pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
    labels_ids[labels_ids == -100] = tokenizer.pad_token_id
    label_str = tokenizer.batch_decode(labels_ids, skip_special_tokens=True)

    rouge_output = rouge.compute(predictions=pred_str, references=label_str, rouge_types=["rouge2"])["rouge2"].mid

    return {
        "rouge2_precision": round(rouge_output.precision, 4),
        "rouge2_recall": round(rouge_output.recall, 4),
        "rouge2_fmeasure": round(rouge_output.fmeasure, 4),
    }

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1717.0, style=ProgressStyle(description…




Cool! Finally, we start training.

In [22]:
!mkdir 'training_dir'

In [23]:
# set training arguments - these params are not really tuned, feel free to change
training_args = Seq2SeqTrainingArguments(
    output_dir="./training_dir",
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    predict_with_generate=True,
    # evaluate_during_training=True,
    do_train=True,
    do_eval=True,
    logging_steps=100,  # set to 2000 for full training
    save_steps=200,  # set to 500 for full training
    eval_steps=7500,  # set to 7500 for full training
    warmup_steps=3000,  # set to 3000 for full training
    num_train_epochs=20, #uncomment for full training
    overwrite_output_dir=True,
    save_total_limit=100,
    fp16=True, 
)

# instantiate trainer
trainer = Seq2SeqTrainer(
    model=roberta_shared,
    args=training_args,
    compute_metrics=compute_metrics,
    train_dataset=train_data,
    eval_dataset=val_data,
)
trainer.train()

The `config.pad_token_id` is `None`. Using `config.eos_token_id` = 2 for padding..
  return torch.tensor(x, **format_kwargs)


Step,Training Loss
100,10.34
200,8.7247
300,7.7275
400,7.2521
500,6.7169
600,6.2267
700,5.6156
800,5.0184
900,4.5647
1000,4.1915


TrainOutput(global_step=3800, training_loss=2.8618894351156134, metrics={'train_runtime': 940.4013, 'train_samples_per_second': 4.041, 'total_flos': 9573592261632000, 'epoch': 20.0})

### **Evaluation**

Awesome, we finished training our dummy model. Let's now evaluated the model on the test data. We make use of the dataset's handy `.map()` function to generate a summary of each sample of the test data.

In [25]:
import datasets
from transformers import RobertaTokenizer, EncoderDecoderModel, AutoTokenizer
from sklearn.model_selection import train_test_split

tokenizer = AutoTokenizer.from_pretrained("vinai/phobert-base", use_fast=False)

model = EncoderDecoderModel.from_pretrained("/content/training_dir/checkpoint-3800")
model.to("cuda")

# test_data = datasets.load_dataset("xsum", split="test")

# # only use 16 training examples for notebook - DELETE LINE FOR FULL TRAINING
# test_data = test_data.select(range(16))
train_data, val_data = train_test_split(data_df, test_size=0.2)
train_data =  Dataset.from_pandas(train_data)
val_data =  Dataset.from_pandas(val_data)

batch_size = 16  # change to 64 for full evaluation

# map data correctly
def generate_summary(batch):
    # Tokenizer will automatically set [BOS] <text> [EOS]
    inputs = tokenizer(batch["original"], padding="max_length", truncation=True, max_length=256, return_tensors="pt")
    input_ids = inputs.input_ids.to("cuda")
    attention_mask = inputs.attention_mask.to("cuda")

    outputs = model.generate(input_ids, attention_mask=attention_mask)

    # all special tokens including will be removed
    output_str = tokenizer.batch_decode(outputs, skip_special_tokens=True)

    batch["pred"] = output_str

    return batch

results = val_data.map(generate_summary, batched=True, batch_size=batch_size, remove_columns=["original"])

pred_str = results["pred"]
label_str = results["summary"]



HBox(children=(FloatProgress(value=0.0, max=24.0), HTML(value='')))




In [26]:
rouge_output = rouge.compute(predictions=pred_str, references=label_str, rouge_types=["rouge2"])["rouge2"].mid

print(rouge_output)

Score(precision=0.6698110566212316, recall=0.6698533486628263, fmeasure=0.6640665890910499)


In [27]:
pred_str

['Nhà_sản_xuất ô_tô Nhật_Bản Suzuki_Motor Corp. hôm 18/5 đã tổ_chức họp_báo xin_lỗi về việc sử_dụng sai phương_pháp đo mức tiêu_thụ nhiên_liệu đối_với khoảng 2,1 triệu xe, nhưng phủ_nhận thông_tin hãng làm sai_lệch kết_quả đo.',
 'Vụ_việc trên xảy ra vào_khoảng 15h30 chiều ngày 28/5, tại showrom cà_phê của Tập_đoàn cà_phê Trung_Nguyên số 45 đường Lý_Tự_Trọng, phường Tân_An, TP Buôn_Ma_Thuột, tỉnh Đắk_Lắk.',
 'Nghe đồn làm_ăn mày ở Dubai có_thể kiếm bạc tỷ mỗi tháng, chàng trai 16 tuổi người Tứ_Xuyên, Trung_Quốc vội_vã lên kế_hoạch trốn sang " miền đất_hứa " và cái kết đắng.',
 'Mẹ Rồng của Game of Thrones đã tâm_sự rằng mình phải uống rượu để say mới dám đóng các cảnh nóng.',
 'Mặc_dù Ronaldo vừa cùng Real giành chức vô_địch Champions_League nhưng theo nghiên_cứu của CIES Football_Observatory, Messi và Neymar mới là những cầu_thủ giá_trị nhất châu_Âu.',
 'UBND xã yêu_cầu HTX DVSX Nông_nghiệp Triều_Khúc không được phép dừng việc cấp nước_sạch cho gia_đình ông Ứng, đồng_thời phải thực tì

In [28]:
label_str

['“ Virus ” gian_lận có nguy_cơ bùng_nổ thành “ dịch ” trong ngành công_nghiệp ô_tô Nhật_Bản khi lại có thêm một hãng sản_xuất xe_hơi thừa_nhận sử_dụng những biện_pháp thiếu chính_xác để thử_nghiệm khả_năng tiết_kiệm nhiên_liệu . Theo đó đã có khoảng 2 triệu xe Suzuki bán ra tại Nhật_Bản không trung_thực về mức tiêu_hao .',
 'Sau nhiều lần đòi gặp người đứng đầu tập_đoàn cà_phê Trung_Nguyên nhưng không được , đối_tượng nghi ngáo đá đã dùng dao uy_hiếp nhân_viên tại showrom cà_phê để được đáp_ứng yêu_cầu của mình .',
 'Nghe đồn làm_ăn mày ở Dubai có_thể kiếm bạc tỷ mỗi tháng , chàng trai 16 tuổi người Tứ_Xuyên , Trung_Quốc vội_vã lên kế_hoạch trốn sang " miền đất_hứa " và cái kết đắng .',
 'Mẹ rồng trong bộ phim_truyền_hình nổi_tiếng nhất hiện_nay , Game_Of_Thrones là cái tên được quan_tâm nhiều nhất hiện_nay của Emilia_Clarke . Ngoài phim đình_đám này , Emilia còn đang thu_hút người xem trong bộ phim tình_cảm lãng_mạn trong mùa hè 2016 , Me before you .',
 'Những tranh_cãi về việc Mess

The fully trained *RoBERTaShared* model is uploaded to the 🤗model hub under [patrickvonplaten/roberta_shared_bbc_xsum](https://huggingface.co/patrickvonplaten/roberta_shared_bbc_xsum). 

The model achieves a ROUGE-2 score of **16.89**, which is a bit worse than reported in the paper. Training the model for a bit longer will most likely close this performance gap.

For some summarization examples, the reader is advised to use the online inference API of the model, [here](https://huggingface.co/patrickvonplaten/roberta_shared_bbc_xsum).