# Summarization (PyTorch)

Install the Transformers, Datasets, and Evaluate libraries to run this notebook.

In [None]:
!pip install datasets evaluate transformers[sentencepiece]
!pip install accelerate
# To run the training on TPU, you will need to uncomment the following line:
# !pip install cloud-tpu-client==0.10 torch==1.9.0 https://storage.googleapis.com/tpu-pytorch/wheels/torch_xla-1.9-cp37-cp37m-linux_x86_64.whl
!apt install git-lfs

Collecting datasets
  Downloading datasets-2.19.2-py3-none-any.whl (542 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m542.1/542.1 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting evaluate
  Downloading evaluate-0.4.2-py3-none-any.whl (84 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.1/84.1 kB[0m [31m9.6 MB/s[0m eta [36m0:00:00[0m
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m13.8 MB/s[0m eta [36m0:00:00[0m
Collecting requests>=2.32.1 (from datasets)
  Downloading requests-2.32.3-py3-none-any.whl (64 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m64.9/64.9 kB[0m [31m6.8 MB/s[0m eta [36m0:00:00[0m
Collecting xxhash (from datasets)
  Downloading xxhash-3.4.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (194 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━

You will need to setup git, adapt your email and name in the following cell.

In [None]:
!git config --global user.email "merlinthehunter@gmail.com"
!git config --global user.name "LinhCT2"

You will also need to be logged in to the Hugging Face Hub. Execute the following and enter your credentials.

In [None]:
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [None]:
from datasets import load_dataset


english_dataset = load_dataset("HaiLong9901/VietNameseLongTextSum")
english_dataset

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Downloading readme:   0%|          | 0.00/90.0 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/27.4M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/6.45M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/6.69M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/2000 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/500 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/500 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['abstract', 'section_names', 'article'],
        num_rows: 2000
    })
    validation: Dataset({
        features: ['abstract', 'section_names', 'article'],
        num_rows: 500
    })
    test: Dataset({
        features: ['abstract', 'section_names', 'article'],
        num_rows: 500
    })
})

In [None]:
def show_samples(dataset, num_samples=3, seed=42):
    sample = dataset["train"].shuffle(seed=seed).select(range(num_samples))
    for example in sample:
        print(f"\n'>> Title: {example['abstract']}'")
        print(f"'>> Review: {example['article']}'")


show_samples(english_dataset)


'>> Title: Ngày nay, thật khó có thể tưởng tượng rằng đã có thời con người chỉ có chất gì ngọt ngọt để ăn đôi ba tháng mỗi năm, khi vào mùa hoa quả.'
'>> Review: Đường fructose, có sẵn trong trái cây và là thành tố cơn bản trong xi-rô bắp giàu đường fructose có thể dẫn đến tình trạng tăng mảng bám ở thành động mạch Khoảng 80.000 năm trước, khi con người mới chỉ biết săn bắt, hái lượm, họ thảng hoặc mới có trái cây mà ăn vì phải cạnh tranh với chim muông. 50 loại thực phẩm bổ nhất cho sức khỏe Chúng ta không cần nhiều đạm đến thế Ngồi với bạn khiến ta ăn uống nhiều hơn Ngày nay, chúng ta có đường ngọt quanh năm, thậm chí chỉ cần bật lon nước ngọt hay khui hộp bột ngũ cốc ra ăn là xong. Không cần phải là chuyên gia cũng biết kiểu tiêu thụ đường ngọt của người hiện đại kém lành mạnh ra sao so với thời săn bắt hái lượm khi xưa. Ngày nay, đường trở thành kẻ thù số một của sức khỏe cộng đồng: chính phủ các nước đánh thuế đường, trường học và bệnh viện đang dần loại bỏ đường khỏi máy bán hàn

In [None]:
english_dataset.set_format("pandas")
english_df = english_dataset["train"][:]
# Show counts for top 20 products
english_df["product_category"].value_counts()[:20]

home                      17679
apparel                   15951
wireless                  15717
other                     13418
beauty                    12091
drugstore                 11730
kitchen                   10382
toy                        8745
sports                     8277
automotive                 7506
lawn_and_garden            7327
home_improvement           7136
pet_products               7082
digital_ebook_purchase     6749
pc                         6401
electronics                6186
office_product             5521
shoes                      5197
grocery                    4730
book                       3756
Name: product_category, dtype: int64

In [None]:
def filter_books(example):
    return (
        example["product_category"] == "book"
        or example["product_category"] == "digital_ebook_purchase"
    )

In [None]:
english_dataset.reset_format()

In [None]:
spanish_books = spanish_dataset.filter(filter_books)
english_books = english_dataset.filter(filter_books)
show_samples(english_books)

'>> Title: I\'m dissapointed.'
'>> Review: I guess I had higher expectations for this book from the reviews. I really thought I\'d at least like it. The plot idea was great. I loved Ash but, it just didnt go anywhere. Most of the book was about their radio show and talking to callers. I wanted the author to dig deeper so we could really get to know the characters. All we know about Grace is that she is attractive looking, Latino and is kind of a brat. I\'m dissapointed.'

'>> Title: Good art, good price, poor design'
'>> Review: I had gotten the DC Vintage calendar the past two years, but it was on backorder forever this year and I saw they had shrunk the dimensions for no good reason. This one has good art choices but the design has the fold going through the picture, so it\'s less aesthetically pleasing, especially if you want to keep a picture to hang. For the price, a good calendar'

'>> Title: Helpful'
'>> Review: Nearly all the tips useful and. I consider myself an intermediate t

In [None]:
from datasets import concatenate_datasets, DatasetDict

books_dataset = DatasetDict()

for split in english_books.keys():
    books_dataset[split] = concatenate_datasets(
        [english_books[split], spanish_books[split]]
    )
    books_dataset[split] = books_dataset[split].shuffle(seed=42)

# Peek at a few examples
show_samples(books_dataset)

NameError: name 'english_books' is not defined

In [None]:
books_dataset = books_dataset.filter(lambda x: len(x["review_title"].split()) > 2)

In [None]:
from transformers import AutoTokenizer

model_checkpoint = "google/mt5-small"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

tokenizer_config.json:   0%|          | 0.00/82.0 [00:00<?, ?B/s]



config.json:   0%|          | 0.00/553 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/99.0 [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


In [None]:
inputs = tokenizer("I loved reading the Hunger Games!")
inputs

{'input_ids': [336, 259, 28387, 11807, 287, 62893, 295, 12507, 309, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [None]:
tokenizer.convert_ids_to_tokens(inputs.input_ids)

['▁I', '▁', 'loved', '▁reading', '▁the', '▁Hung', 'er', '▁Games', '!', '</s>']

In [None]:
max_input_length = 512
max_target_length = 30


def preprocess_function(examples):
    model_inputs = tokenizer(
        examples["article"],
        max_length=max_input_length,
        truncation=True,
    )
    labels = tokenizer(
        examples["abstract"], max_length=max_target_length, truncation=True
    )
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

In [None]:
tokenized_datasets = english_dataset.map(preprocess_function, batched=True)

Map:   0%|          | 0/2000 [00:00<?, ? examples/s]

Map:   0%|          | 0/500 [00:00<?, ? examples/s]

Map:   0%|          | 0/500 [00:00<?, ? examples/s]

In [None]:
generated_summary = "I absolutely loved reading the Hunger Games"
reference_summary = "I loved reading the Hunger Games"

In [None]:
!pip install rouge_score

Collecting rouge_score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: rouge_score
  Building wheel for rouge_score (setup.py) ... [?25l[?25hdone
  Created wheel for rouge_score: filename=rouge_score-0.1.2-py3-none-any.whl size=24933 sha256=39ba1fb141917ebbce5b0e20022c2a5368f7e066f12214604df68043c1dbc718
  Stored in directory: /root/.cache/pip/wheels/5f/dd/89/461065a73be61a532ff8599a28e9beef17985c9e9c31e541b4
Successfully built rouge_score
Installing collected packages: rouge_score
Successfully installed rouge_score-0.1.2


In [None]:
import evaluate

rouge_score = evaluate.load("rouge")

Downloading builder script:   0%|          | 0.00/6.27k [00:00<?, ?B/s]

In [None]:
scores = rouge_score.compute(
    predictions=[generated_summary], references=[reference_summary]
)
scores

{'rouge1': 0.923076923076923,
 'rouge2': 0.7272727272727272,
 'rougeL': 0.923076923076923,
 'rougeLsum': 0.923076923076923}

In [None]:
scores["rouge1"].mid

AttributeError: 'numpy.float64' object has no attribute 'mid'

In [None]:
!pip install nltk



In [None]:
import nltk

nltk.download("punkt")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
from nltk.tokenize import sent_tokenize

In [None]:
#from nltk.tokenize import sent_tokenize


def three_sentence_summary(text):
    return "\n".join(sent_tokenize(text)[:3])


print(three_sentence_summary(english_dataset["train"][1]["article"]))

Trao đổi tiền tệ ở Việt Nam Trong diễn văn khai mạc, Tổng Bí thư Nguyễn Phú Trọng đề cập: "Công tác xây dựng, chỉnh đốn Đảng cùng với cuộc đấu tranh phòng, chống tham nhũng được đẩy mạnh và có những chuyển biến tích cực, rõ rệt."
Ông Nguyễn Phú Trọng cũng là Trưởng Ban Chỉ đạo Trung ương về phòng, chống tham nhũng.
'Gay cấn trước Hội nghị Trung ương 5' VN: Lãnh đạo sai nên kinh tế không như ý?


In [None]:
def evaluate_baseline(dataset, metric):
    summaries = [three_sentence_summary(text) for text in dataset["article"]]
    return metric.compute(predictions=summaries, references=dataset["abstract"])

In [None]:
import pandas as pd

score = evaluate_baseline(english_dataset["validation"], rouge_score)
rouge_names = ["rouge1", "rouge2", "rougeL", "rougeLsum"]
rouge_dict = dict((rn, round(score[rn] * 100, 2)) for rn in rouge_names)
rouge_dict

{'rouge1': 43.55, 'rouge2': 17.31, 'rougeL': 25.64, 'rougeLsum': 29.37}

In [None]:
from transformers import AutoModelForSeq2SeqLM

model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)

pytorch_model.bin:   0%|          | 0.00/1.20G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

In [None]:
from huggingface_hub import notebook_login

notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [None]:
from transformers import Seq2SeqTrainingArguments

batch_size = 8
num_train_epochs = 8
# Show the training loss with every epoch
logging_steps = len(tokenized_datasets["train"]) // batch_size
model_name = model_checkpoint.split("/")[-1]

args = Seq2SeqTrainingArguments(
    output_dir=f"{model_name}-finetuned-amazon-en-es",
    evaluation_strategy="epoch",
    learning_rate=5.6e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    weight_decay=0.01,
    save_total_limit=3,
    num_train_epochs=num_train_epochs,
    predict_with_generate=True,
    logging_steps=logging_steps,
    push_to_hub=True,
)



In [None]:
import numpy as np


def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    # Decode generated summaries into text
    decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
    # Replace -100 in the labels as we can't decode them
    labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
    # Decode reference summaries into text
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
    # ROUGE expects a newline after each sentence
    decoded_preds = ["\n".join(sent_tokenize(pred.strip())) for pred in decoded_preds]
    decoded_labels = ["\n".join(sent_tokenize(label.strip())) for label in decoded_labels]
    # Compute ROUGE scores
    result = rouge_score.compute(
        predictions=decoded_preds, references=decoded_labels, use_stemmer=True
    )
    # Extract the median scores
    result = {key: value * 100 for key, value in result.items()}
    return {k: round(v, 4) for k, v in result.items()}

In [None]:
from transformers import DataCollatorForSeq2Seq

data_collator = DataCollatorForSeq2Seq(tokenizer, model=model)

In [None]:
tokenized_datasets = tokenized_datasets.remove_columns(
    english_dataset["train"].column_names
)

ValueError: Column name ['article', 'section_names', 'abstract'] not in the dataset. Current columns in the dataset: ['input_ids', 'attention_mask', 'labels']

In [None]:
tokenized_datasets

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 2000
    })
    validation: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 500
    })
    test: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 500
    })
})

In [None]:
features = [tokenized_datasets["train"][i] for i in range(2)]
data_collator(features)

{'input_ids': tensor([[  259, 13152,  4789,  ...,  4335,  1101,     1],
        [ 7414,   268,   355,  ...,  5013,   317,     1]]), 'attention_mask': tensor([[1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 1, 1, 1]]), 'labels': tensor([[ 2526,  1722,  5202,   270,   259,   263,  2294,   458,   903,   259,
          9098,   977,  3902,   261,   355,  1047,   796,   282,   625,   903,
          5202,   297,   259,  2111, 19027, 14133,   260,   259, 27398,     1],
        [  447,  2291,  3442,   933,   259,   280,  1313,   394,  1978,   259,
          3488,  6539,  1536,  1345,   325,   259,  3449,   259,  9978,   259,
          2292,   977,  4535,   371,  4619,   259,   263,  1629,  4674,     1]]), 'decoder_input_ids': tensor([[    0,  2526,  1722,  5202,   270,   259,   263,  2294,   458,   903,
           259,  9098,   977,  3902,   261,   355,  1047,   796,   282,   625,
           903,  5202,   297,   259,  2111, 19027, 14133,   260,   259, 27398],
        [    0,   447,  2291,  34

In [None]:
from transformers import Seq2SeqTrainer

trainer = Seq2SeqTrainer(
    model,
    args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

In [None]:
trainer.train()

Epoch,Training Loss,Validation Loss,Rouge1,Rouge2,Rougel,Rougelsum
1,3.833,2.679219,31.8471,7.6517,22.5413,22.6222
2,3.5861,2.640772,36.8204,8.641,26.7687,26.9114
3,3.411,2.603703,36.2502,7.9975,26.3962,26.502
4,3.29,2.567264,36.7784,8.4415,26.7726,26.9248
5,3.2199,2.556756,36.8812,8.7419,26.7704,26.8682
6,3.1628,2.528015,37.1871,8.8604,26.9372,27.0992
7,3.1292,2.52647,36.6801,8.5876,26.4392,26.5908
8,3.1129,2.525882,36.6783,8.5304,26.4419,26.6455




TrainOutput(global_step=2000, training_loss=3.3431134948730468, metrics={'train_runtime': 1640.1318, 'train_samples_per_second': 9.755, 'train_steps_per_second': 1.219, 'total_flos': 8459995054080000.0, 'train_loss': 3.3431134948730468, 'epoch': 8.0})

In [None]:
trainer.evaluate()

{'eval_loss': 2.5258822441101074,
 'eval_rouge1': 36.6783,
 'eval_rouge2': 8.5304,
 'eval_rougeL': 26.4419,
 'eval_rougeLsum': 26.6455,
 'eval_runtime': 35.0981,
 'eval_samples_per_second': 14.246,
 'eval_steps_per_second': 1.795,
 'epoch': 8.0}

In [None]:
trainer.push_to_hub()

events.out.tfevents.1718070514.a83e38ff432c.205.1:   0%|          | 0.00/11.0k [00:00<?, ?B/s]

Upload 2 LFS files:   0%|          | 0/2 [00:00<?, ?it/s]

events.out.tfevents.1718072206.a83e38ff432c.205.2:   0%|          | 0.00/562 [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/LinhCT/mt5-small-finetuned-amazon-en-es/commit/62ad8a2741332a75b7591f77506e4910a68d8c0d', commit_message='End of training', commit_description='', oid='62ad8a2741332a75b7591f77506e4910a68d8c0d', pr_url=None, pr_revision=None, pr_num=None)

In [None]:
tokenized_datasets.set_format("torch")

In [None]:
model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)

In [None]:
from torch.utils.data import DataLoader

batch_size = 8
train_dataloader = DataLoader(
    tokenized_datasets["train"],
    shuffle=True,
    collate_fn=data_collator,
    batch_size=batch_size,
)
eval_dataloader = DataLoader(
    tokenized_datasets["validation"], collate_fn=data_collator, batch_size=batch_size
)

In [None]:
from torch.optim import AdamW

optimizer = AdamW(model.parameters(), lr=2e-5)

In [None]:
from accelerate import Accelerator

accelerator = Accelerator()
model, optimizer, train_dataloader, eval_dataloader = accelerator.prepare(
    model, optimizer, train_dataloader, eval_dataloader
)

In [None]:
from transformers import get_scheduler

num_train_epochs = 10
num_update_steps_per_epoch = len(train_dataloader)
num_training_steps = num_train_epochs * num_update_steps_per_epoch

lr_scheduler = get_scheduler(
    "linear",
    optimizer=optimizer,
    num_warmup_steps=0,
    num_training_steps=num_training_steps,
)

In [None]:
def postprocess_text(preds, labels):
    preds = [pred.strip() for pred in preds]
    labels = [label.strip() for label in labels]

    # ROUGE expects a newline after each sentence
    preds = ["\n".join(nltk.sent_tokenize(pred)) for pred in preds]
    labels = ["\n".join(nltk.sent_tokenize(label)) for label in labels]

    return preds, labels

In [None]:
from huggingface_hub import get_full_repo_name

model_name = "test-bert-finetuned-squad-accelerate"
repo_name = get_full_repo_name(model_name)
repo_name

'lewtun/mt5-finetuned-amazon-en-es-accelerate'

In [None]:
from huggingface_hub import Repository

output_dir = "results-mt5-finetuned-squad-accelerate"
repo = Repository(output_dir, clone_from=repo_name)

In [None]:
from tqdm.auto import tqdm
import torch
import numpy as np

progress_bar = tqdm(range(num_training_steps))

for epoch in range(num_train_epochs):
    # Training
    model.train()
    for step, batch in enumerate(train_dataloader):
        outputs = model(**batch)
        loss = outputs.loss
        accelerator.backward(loss)

        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        progress_bar.update(1)

    # Evaluation
    model.eval()
    for step, batch in enumerate(eval_dataloader):
        with torch.no_grad():
            generated_tokens = accelerator.unwrap_model(model).generate(
                batch["input_ids"],
                attention_mask=batch["attention_mask"],
            )

            generated_tokens = accelerator.pad_across_processes(
                generated_tokens, dim=1, pad_index=tokenizer.pad_token_id
            )
            labels = batch["labels"]

            # If we did not pad to max length, we need to pad the labels too
            labels = accelerator.pad_across_processes(
                batch["labels"], dim=1, pad_index=tokenizer.pad_token_id
            )

            generated_tokens = accelerator.gather(generated_tokens).cpu().numpy()
            labels = accelerator.gather(labels).cpu().numpy()

            # Replace -100 in the labels as we can't decode them
            labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
            if isinstance(generated_tokens, tuple):
                generated_tokens = generated_tokens[0]
            decoded_preds = tokenizer.batch_decode(
                generated_tokens, skip_special_tokens=True
            )
            decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)

            decoded_preds, decoded_labels = postprocess_text(
                decoded_preds, decoded_labels
            )

            rouge_score.add_batch(predictions=decoded_preds, references=decoded_labels)

    # Compute metrics
    result = rouge_score.compute()
    # Extract the median ROUGE scores
    result = {key: value.mid.fmeasure * 100 for key, value in result.items()}
    result = {k: round(v, 4) for k, v in result.items()}
    print(f"Epoch {epoch}:", result)

    # Save and upload
    accelerator.wait_for_everyone()
    unwrapped_model = accelerator.unwrap_model(model)
    unwrapped_model.save_pretrained(output_dir, save_function=accelerator.save)
    if accelerator.is_main_process:
        tokenizer.save_pretrained(output_dir)
        repo.push_to_hub(
            commit_message=f"Training in progress epoch {epoch}", blocking=False
        )

Epoch 0: {'rouge1': 5.6351, 'rouge2': 1.1625, 'rougeL': 5.4866, 'rougeLsum': 5.5005}
Epoch 1: {'rouge1': 9.8646, 'rouge2': 3.4106, 'rougeL': 9.9439, 'rougeLsum': 9.9306}
Epoch 2: {'rouge1': 11.0872, 'rouge2': 3.3273, 'rougeL': 11.0508, 'rougeLsum': 10.9468}
Epoch 3: {'rouge1': 11.8587, 'rouge2': 4.8167, 'rougeL': 11.7986, 'rougeLsum': 11.7518}
Epoch 4: {'rouge1': 12.9842, 'rouge2': 5.5887, 'rougeL': 12.7546, 'rougeLsum': 12.7029}
Epoch 5: {'rouge1': 13.4628, 'rouge2': 6.4598, 'rougeL': 13.312, 'rougeLsum': 13.2913}
Epoch 6: {'rouge1': 12.9131, 'rouge2': 5.8914, 'rougeL': 12.6896, 'rougeLsum': 12.5701}
Epoch 7: {'rouge1': 13.3079, 'rouge2': 6.2994, 'rougeL': 13.1536, 'rougeLsum': 13.1194}
Epoch 8: {'rouge1': 13.96, 'rouge2': 6.5998, 'rougeL': 13.9123, 'rougeLsum': 13.7744}
Epoch 9: {'rouge1': 14.1192, 'rouge2': 7.0059, 'rougeL': 14.1172, 'rougeLsum': 13.9509}

In [None]:
from transformers import pipeline

hub_model_id = "LinhCT/mt5-small-finetuned-amazon-en-es"
summarizer = pipeline("summarization", model=hub_model_id)

config.json:   0%|          | 0.00/802 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.20G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/861 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/16.3M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/416 [00:00<?, ?B/s]

You set `add_prefix_space`. The tokenizer needs to be converted from the slow tokenizers


In [None]:
def print_summary(idx):
    review = english_dataset["test"][idx]["article"]
    title = english_dataset["test"][idx]["abstract"]
    summary = summarizer(english_dataset["test"][idx]["article"])[0]["summary_text"]
    print(f"'>>> Review: {review}'")
    print(f"\n'>>> Title: {title}'")
    print(f"\n'>>> Summary: {summary}'")

In [None]:
print_summary(100)



'>>> Review: An ủi cho tôi là rất nhiều dân nhập cư có cùng niềm than vãn. Lý do thì có nhiều, nhưng lý do lớn nhất là vì người Hà Lan nói tiếng Anh ngang ngửa tiếng mẹ đẻ của chính họ. Mỗi lần thấy người nước ngoài hoặc người nhập cư chỉ cần hơi trúc trắc trong việc tìm câu chữ là họ nhanh nhẹn muốn giúp đỡ, đổi ngoặt sang tiếng Anh. Trường VN dạy tiếng Hàn, Đức khi tiếng Anh còn chưa tới đâu? Tiếng Anh chưa là 'ngôn ngữ thứ hai' ở VN Có một thời gian, tôi quên quá nhiều tiếng Hà Lan nên nằng nặc đòi người bán hàng đừng nói tiếng Anh. Ông ta nhìn tôi như thể một kẻ thừa hơi rỗi việc, tự ôm rơm rặm bụng vậy. Tại sao người Hà Lan giỏi ngoại ngữ? Trong bảng biểu năm 2018 những quốc gia nói tiếng Anh tốt nhất, Hà Lan đứng đầu cùng Thuỵ Điển và Singapore. Giáo dục ở Hà Lan từ thế kỷ thứ 16 đã coi trọng việc nói tiếng Pháp và tiếng Flemish. Một thời gian dài tầm đầu thế kỷ 20, giáo dục Hà Lan nở bung những phương pháp dạy ngoại ngữ khác nhau để tìm ra một giải pháp học tốt nhất. Người Hà La

In [None]:
print_summary(0)

'>>> Review: Thủ hiến Victoria Daniel Andrews Người Việt tới Úc: Nhớ lại thách thức bước đầu ở Melbourne Những gương mặt cộng đồng người Việt tị nạn đầu tiên đến Melbourne từ 1976 Ban điều hành đảng Lao Động toàn quốc phải đề cử hai cựu chính trị gia có uy tín lãnh đạo một cuộc điều tra nội bộ, đồng thời trong vòng ba năm tới các chi bộ tại Victoria mất quyền đưa người ra tranh cử. Chính phủ tiểu bang Victoria (6,3 triệu dân) đã ký kết các biên bản nghi nhớ và hợp đồng riêng tham gia dự án "Vành đai và Con đường" với Bắc Kinh, và đang bị chính phủ Liên bang đặt câu hỏi. Điều này khiến dư luận, gồm nhiều cử tri Úc gốc Việt đặt câu hỏi vụ việc gần đây tại bang Victoria sẽ ảnh hưởng gì đến các ký kết với Trung Quốc hay là không? Phe cánh trong đảng Lao Động tại Victoria Xin giải thích một chút về chính trị Úc. Ở Úc đi bầu là bắt buộc và phiếu bầu được phân phối theo thứ tự ưu tiên (được gọi là two-party preferred vote) nên hầu hết các ứng cử viên hoặc của đảng Lao Động hoặc của