# Text Summarization using Hugging Face

### Summarization
Summarization is a task of getting short summaries from long documents i.e. news articles or research articles. Basically it can be of two types.


### Abstractive Summarization

Abstractive Summarization is quite different from prior basic summarization technique. In prior summarization, resulting summaries may or maynot be meaningful because it's just a process of extracting important sentences from long documents but in abstractive summarization , resulting summaries tries to consider context for whole document and then summarize it accordingly where words maynot be exact similar to given documents.

### Imports

In [None]:
# Install and import the modules
!pip install torch
!pip install transformers

import json
import torch
from torch.utils.data import DataLoader, Dataset

Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (14.1 MB)
Collecting nvidia-cudnn-cu12==8.9.2.26 (from torch)
  Using cached nvidia_cudnn_cu12-8.9.2.26-py3-none-manylinux1_x86_64.whl (731.7 MB)
Collecting nvidia-cublas-cu12==12.1.3.1 (from torch)
  Using cached nvidia_cublas_cu12-12.1.3.1-py3-none-manylinux1_x86_64.whl (410.6 MB)
Collecting nvidia-cufft-cu12==11.0.2.54 (from torch)
  Using cached nvidia_cufft_cu12-11.0.2.54-py3-none-manylinux1_x86_64.whl (121.6 MB)
Collecting nvidia-curand-cu12==10.3.2.106 (from torch)
  Using cached nvidia_curand_cu12-10.3.2.106-py3-none-manylinux1_x86_64.whl (56.5 MB)
Collectin

## Dataset used
https://huggingface.co/datasets/HariprasathSB/tamil_summarization

We will use tamil_summary dataset here to perform summarization using T5 pretrained model.

## Load Dataset

Notes: The data set is in the form of a dict with the fields

- Text: a string containing the full document text.
- Summary: a string containing the summary of the Text.

Also the initial load results in three subsets - train and test and validation


In [None]:
# prompt: hugging face cli login with tokens

!huggingface-cli login --token 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

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [None]:
!pip install datasets
#load cnn dataset
import datasets
from datasets import load_dataset

dataset = load_dataset("HariprasathSB/tamil_summarization")



In [None]:
# check dataset
dataset.keys()

dict_keys(['train', 'test', 'val'])

  ##  The  dataset is too large so for now we will consider just 4000 rows for training and 200 rows for validation

  Steps
  - subset the original dataset in portions for train and validation
  - write to local memory
  - SKIP if already done once

In [None]:
# prompt: mount gdrie

from google.colab import drive
drive.mount('/content/drive')


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import json
train_dataset = dataset['train'][:4000]
val_dataset = dataset['val'][:200]

# Save cnn train dataset
with open('drive/MyDrive/LLM_data/cnn_train_4000_data.json','w') as f:
   json.dump(train_dataset, f)

# Save cnn validation dataset
with open('drive/MyDrive/LLM_data/cnn_val_200_data.json','w') as f:
   json.dump(val_dataset, f)

## Read the train and validation from local memory or drive

In [None]:
## Read train data from saved dump

# Opening cnn train data file
f = open('drive/MyDrive/LLM_data/cnn_train_4000_data.json')

# read cnn train data
train_data = json.load(f)

# select first entry of article from the train data
sample_text = train_data["Text"][0]
print("       Sample Text      ")
print(sample_text, '/n')

# select first entry of highlight  from the train data
sample_highlight = train_data["Summary"][0]
print("        Sample Highlight     ")
print(sample_highlight)

       Sample Text      
உரிமை கோருதல்: அதிவேக ரயில், செல்பேசி வழியாக பணம் செலுத்துதல், இ-வணிகம் மற்றும் மிதிவண்டி பகிர்வு ஆகியவற்றை சீனா கண்டுபிடித்தது. உண்மை சோதனை தீர்ப்பு: இந்த தொழில்நுட்பங்களில் எதையும் சீனா கண்டுபிடிக்கவில்லை. இந்த தொழில்நுட்பங்களை மிகப் பெரிய அளவில் நடைமுறைப்படுத்தும் பாதைக்கு சீனா அழைத்து சென்றுள்ளது. அதிவேக ரயில், செல்பேசி வழியாக பணம் செலுத்துதல், இ-வணிகம் மற்றும் மிதிவண்டி பகிர்வு ஆகியவற்றை சீனா கண்டுபிடித்ததாக உரிமை கோரும் தகவல்கள் 2017ம் ஆண்டு மே மாதம் முதல் சீனாவின் அரசு ஊடகங்களில் மீண்டும் மீண்டும் வெளிவந்தன. சீன தேசிய மக்கள் பேரவையின் பிரதிநிதிகளில் ஒருவரும், சீன இணைய ஜாம்பவான் நிறுவனமான 'டென்சென்று' வின் முதன்மை செயலதிகாரியாகவும் அறியப்படும் போனி மாவால், சீனாவின் தேசிய மக்கள் பேரவை கூட்டத்தில் சமீபத்தில் இதனை மீண்டும் தெரிவித்துள்ளார். 'த ஹூருன் குளோபல்' பணக்காரர்கள் பட்டியலின்படி, சீனாவில் இவரொரு பணக்காரரும்கூட. "அதிவேக ரயில், செல்பேசி வழியாக பணம் செலுத்துதல், இ-வணிகம் மற்றும் மிதிவண்டி பகிர்வு ஆகிய சீனாவில் கண்டுபிடிக்கப்பட்ட தொழில்நுட்பங்களை நாம் பெற

In [None]:
## Read val data from saved dump

# Opening cnn train data file
f = open('drive/MyDrive/LLM_data/cnn_val_200_data.json')

# read cnn train data
val_data = json.load(f)

# select first entry of each type from the val data set
val_sample_text = val_data["Text"][0]
print("       Sample Text      ")
print(val_sample_text, '/n')
#
val_sample_highlight = val_data["Summary"][0]
print("        Sample Highlight     ")
print(val_sample_highlight)



       Sample Text      
ஆ. ராசா சேலம் மாவட்டத்தில் செய்யப்பட்டுவரும் வளர்ச்சித் திட்டப் பணிகள் குறித்து வியாழக்கிழமையன்று ஆய்வுசெய்த முதலமைச்சர் எடப்பாடி பழனிசாமி, ஆய்வுக்குப் பிறகு செய்தியாளர்களைச் சந்தித்தார். அப்போது, தி.மு.க. தேவையில்லாமல் தொடர்ந்து ஆதாரமற்ற குற்றச்சாட்டுகளை தங்கள் மீது தெரிவிப்பதாகக் கூறினார். "எதிர்கட்சித் தலைவர் மு.க. ஸ்டாலின் தினமும் அறிக்கை விடுகிறார். அவருக்கு அறிக்கை நாயகன் என்றே பெயர் சூட்டலாம். மக்களைப் பார்த்து மனு வாங்காமல், நான்கைந்து மாதமாக வீட்டிலேயே இருந்துகொண்டு இந்த ஆட்சியில் ஊழல் நடப்பதாக பொய் குற்றச்சாட்டுகளைச் சுமத்துகிறார். 2 ஜி ஊழல் மிகப் பெரிய ஊழல். தமிழ்நாட்டு பட்ஜெட் அளவுக்கு பெரிய ஊழல். 1.76 ஆயிரம் கோடி ரூபாயைக் கொள்ளையடித்த கட்சி தி.மு.க. அவர்கள்  மத்திய ஆட்சியில் இடம்பெற்றபோது 1.76 ஆயிரம் கோடி ஊழல் செய்தார்கள். காங்கிரசுடன் சேர்ந்து ஆட்சி செய்தபோது இந்த ஊழல் நடைபெற்றது. அப்போது காங்கிரஸ் ஆட்சியே இதில் நடவடிக்கை எடுத்தது. சிறையில் அடைத்தார்கள். இந்த நிலையில், அ.தி.மு.க அரசின் மீது ஊழல் குற்றச்சாட்டுகளைச் சுமத்துகிறார்" என்று எடப்பாடி பழன

## Data Cleaning

- We will remove '--'  from the text
- We will remove the names within parenthesis from the text

In [None]:
# Pre process sample text
import re


# Pre Process
import re
sample_text = train_data["Text"][0]
# Check before pre process
print("BEFORE Pre Process : ", sample_text)

sample_text = re.sub('\(.*?\)','',sample_text)

sample_text = sample_text.replace('--','')

# Check after pre process
print("AFTER Pre Process : ", sample_text)


BEFORE Pre Process :  உரிமை கோருதல்: அதிவேக ரயில், செல்பேசி வழியாக பணம் செலுத்துதல், இ-வணிகம் மற்றும் மிதிவண்டி பகிர்வு ஆகியவற்றை சீனா கண்டுபிடித்தது. உண்மை சோதனை தீர்ப்பு: இந்த தொழில்நுட்பங்களில் எதையும் சீனா கண்டுபிடிக்கவில்லை. இந்த தொழில்நுட்பங்களை மிகப் பெரிய அளவில் நடைமுறைப்படுத்தும் பாதைக்கு சீனா அழைத்து சென்றுள்ளது. அதிவேக ரயில், செல்பேசி வழியாக பணம் செலுத்துதல், இ-வணிகம் மற்றும் மிதிவண்டி பகிர்வு ஆகியவற்றை சீனா கண்டுபிடித்ததாக உரிமை கோரும் தகவல்கள் 2017ம் ஆண்டு மே மாதம் முதல் சீனாவின் அரசு ஊடகங்களில் மீண்டும் மீண்டும் வெளிவந்தன. சீன தேசிய மக்கள் பேரவையின் பிரதிநிதிகளில் ஒருவரும், சீன இணைய ஜாம்பவான் நிறுவனமான 'டென்சென்று' வின் முதன்மை செயலதிகாரியாகவும் அறியப்படும் போனி மாவால், சீனாவின் தேசிய மக்கள் பேரவை கூட்டத்தில் சமீபத்தில் இதனை மீண்டும் தெரிவித்துள்ளார். 'த ஹூருன் குளோபல்' பணக்காரர்கள் பட்டியலின்படி, சீனாவில் இவரொரு பணக்காரரும்கூட. "அதிவேக ரயில், செல்பேசி வழியாக பணம் செலுத்துதல், இ-வணிகம் மற்றும் மிதிவண்டி பகிர்வு ஆகிய சீனாவில் கண்டுபிடிக்கப்பட்ட தொழில்நுட்பங்களை நாம் பெற்று

## Tokenizer

We will be using T5TokenizerFast

In [None]:
# Prepare sample text for tokenization

# select first entry of article from the train data
#sample_text = train_data["article"][0]

sample_text = str(sample_text)
sample_text = ' '.join(sample_text.split())
# Set Max lengths for padding
max_txt_len = 250

# Prepare sample highlight  for tokenization
sample_highlight = str(sample_highlight)
sample_highlight = ' '.join(sample_highlight.split())



max_summ_len = 150


In [None]:
# Set parameters for text and summary for padding
max_txt_len = 250


from transformers import T5Model, T5TokenizerFast, T5Config, T5ForConditionalGeneration, AutoTokenizer, AutoModelForSeq2SeqLM
from transformers.optimization import AdamW

# Invoke tokenizer
tokenizer = AutoTokenizer.from_pretrained("google/mt5-base")

# Each source sequence is encoded and padded to max length in batches
source  = tokenizer.batch_encode_plus([sample_text],truncation = True, max_length=max_txt_len,return_tensors='pt',padding = True)


max_summ_len = 150
# Tokenize sample highlight
# Each sample sequence is encoded and padded to max length in batches
target = tokenizer.batch_encode_plus([sample_highlight],truncation = True, max_length=max_summ_len,return_tensors='pt',padding =True)



tokenizer_config.json:   0%|          | 0.00/376 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/702 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/65.0 [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


In [None]:
# print encoding for source
for key, value in source.items():
    print( '{} : {}'.format( key, value ) )

input_ids : tensor([[ 87865, 189432,  56269,    267,  88107, 152707,  23297,   5266,    261,
         105036, 177106,  30459,  23595,  58960,   1103, 117356,  56269,    261,
           3078,    264,   6856, 201234,   1103,   4687,   1611,    259, 210335,
         189603,  81319, 158967,   9771,  21060,   7832,  75193,  39941,  16961,
         151694, 144402,    260,  53722,  44752,  76898,  75499,  10101,    267,
           5521,  86516,  28819, 131961,  22387,   7201, 134297,  39941,  16961,
         151694, 201575,    260,   5521,  86516,  28819, 131961,  28850,  21356,
           3479,  39891,  43529,  14855, 118710,  34820, 237198, 132422,  79613,
          39941,  16961, 156948,   1924,  51425,  41842,    260,  88107, 152707,
          23297,   5266,    261, 105036, 177106,  30459,  23595,  58960,   1103,
         117356,  56269,    261,   3078,    264,   6856, 201234,   1103,   4687,
           1611,    259, 210335, 189603,  81319, 158967,   9771,  21060,   7832,
          75193,

In [None]:
# print encoding for target
for key, value in target.items():
    print( '{} : {}'.format( key, value ) )

input_ids : tensor([[ 47667,   9618,   9960, 149886,   8522,  49487,   7535, 151694,  10101,
           5353,    259,  31894,  42769, 165505,  20962,  31897,  39941,  16961,
          87865, 189432,   1611,    259,  38955,    261, 184756, 116420,  87865,
         189432,   4176,  58516,    261,  19306,  66061,  15261,  53722,  58516,
          82492, 181810,  20656,   3520,  51321, 130423,  13350,    259,    260,
              1]])
attention_mask : tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])


In [None]:
# Extract input ids for source
source_ids = source['input_ids'].squeeze()
# Extract attention Mask for source
source_masks = source['attention_mask'].squeeze()
# Extract input ids for target
target_ids = target['input_ids'].squeeze()
# Extract attention Mask for source
target_masks = target['attention_mask'].squeeze()

# print and check  target ids
print("target ids")
print(target_ids)
# print and check target masks
print("target mask")
print(target_masks)

target ids
tensor([ 47667,   9618,   9960, 149886,   8522,  49487,   7535, 151694,  10101,
          5353,    259,  31894,  42769, 165505,  20962,  31897,  39941,  16961,
         87865, 189432,   1611,    259,  38955,    261, 184756, 116420,  87865,
        189432,   4176,  58516,    261,  19306,  66061,  15261,  53722,  58516,
         82492, 181810,  20656,   3520,  51321, 130423,  13350,    259,    260,
             1])
target mask
tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])


In [None]:
# display tokens and ids for the source
tokens = tokenizer.convert_ids_to_tokens(source_ids)
for token, id in zip(tokens, source_ids):
    print('{:8}{:8,}'.format(token,id))

▁உரிமை    87,865
▁கோர     189,432
ுதல்      56,269
:            267
▁அதி      88,107
வேக      152,707
▁ர        23,297
யில்       5,266
,            261
▁செல்    105,036
பேசி     177,106
▁வழி      30,459
யாக       23,595
▁பண       58,960
ம்         1,103
▁செலுத்த 117,356
ுதல்      56,269
,            261
▁இ         3,078
-            264
வ          6,856
ணிக      201,234
ம்         1,103
▁மற்ற      4,687
ும்        1,611
▁            259
மித      210,335
ிவ       189,603
ண்டி      81,319
▁பகிர்   158,967
வு         9,771
▁ஆக       21,060
ிய         7,832
வற்றை     75,193
▁சீ       39,941
னா        16,961
▁கண்டுபிடி 151,694
த்தது    144,402
.            260
▁உண்மை    53,722
▁சோ       44,752
தனை       76,898
▁தீர்     75,499
ப்பு      10,101
:            267
▁இந்த      5,521
▁தொழில்   86,516
ந         28,819
ுட்ப     131,961
ங்களில்   22,387
▁எ         7,201
தையும்   134,297
▁சீ       39,941
னா        16,961
▁கண்டுபிடி 151,694
க்கவில்லை 201,575
.            260
▁இந்த      5,521
▁தொழில்  

## Datasets and Data Loading

REFERENCE
https://pytorch.org/tutorials/beginner/basics/data_tutorial.html

### Background

- We ideally want our dataset code to be decoupled from our model training code for better readability and modularity.

- PyTorch provides two data primitives: torch.utils.data.DataLoader and torch.utils.data.Dataset that allow you to use pre-loaded datasets as well as your own data.

- Dataset stores the samples and their corresponding labels, and DataLoader wraps an iterable around the Dataset to enable easy access to the samples.


### Creating a Custom Dataset Class
A custom Dataset class must implement three functions: __init__, __len__, and __getitem_


### Explanation of each of the three functions

**__init__**

- The __init__ function is run once when instantiating the Dataset object
We intstantiate the tokenizer  and extract the occurences of 'article' and 'highlights' from the supplied data

**__len__**

- The __len__ function returns the number of samples in our dataset.

**__getitem__**

- The __getitem__ function loads and returns a sample from the dataset at the given index idx.

- Based on the index, it extracts a sample text and the corresponding highlight.

- It tokenizes the text and the summary and extracts the input ids and the attention masks

- it then returns the input ids and the attention masks for the text and the summary



In [None]:
class CustomDataset(Dataset):
  def __init__(self,dataset,tokenizer,source_len,summ_len):
    self.dataset = dataset
    self.tokenizer = tokenizer
    self.text_len = source_len
    self.summ_len = summ_len
    self.text = self.dataset['Text']
    self.summary = self.dataset['Summary']


  def __len__(self):
    return len(self.text)


  def __getitem__(self,i):
    summary = str(self.summary[i])
    summary = ' '.join(summary.split())
    text = str(self.text[i])
    text = ' '.join(text.split())
    source = self.tokenizer.batch_encode_plus([text],max_length=self.text_len,return_tensors='pt',pad_to_max_length=True) # Each source sequence is encoded and padded to max length in batches
    target = self.tokenizer.batch_encode_plus([summary],max_length=self.summ_len,return_tensors='pt',pad_to_max_length=True) # Each target sequence is encoded and padded to max lenght in batches


    source_ids = source['input_ids'].squeeze()
    source_masks = source['attention_mask'].squeeze()
    target_ids = target['input_ids'].squeeze()
    target_masks = target['attention_mask'].squeeze()


    return {
        'source_ids':source_ids.to(torch.long),
        'source_masks':source_masks.to(torch.long),
        'target_ids':target_ids.to(torch.long),
        'target_masks':target_masks.to(torch.long)
    	   }


### Dataloader

The Dataset retrieves our dataset’s features and labels one sample at a time. While training a model, we typically want to pass samples in “minibatches”, reshuffle the data at every epoch to reduce model overfitting, and use Python’s multiprocessing to speed up data retrieval.

DataLoader is an iterable that abstracts this complexity for us in an easy API.

### Training

We define a function for the train process as coded below

**Input Arguments:**
- epoch
- transformer model
- data loader
- optimizer
- device : cuda or cpu

**Key Process Steps**


## Let us Check some of the key process steps outside the function definition

- The model loops through the data loader
- loads the data to device CPU or GPU
- y_ids - select all the Ids in the sequence except last one - This will be decoder input
- lm_label - Skip the pre sequence addition and select all ids : this will be the loss function label
- check if padding token exsits in the label if so then replace with -100 as internally the loss function compute will neglect them
- move the source id, source masks to device
- invoke model
- print loss at every 10th step or 10 batches
- optimize weights through back prop loss



In [None]:
### Training
def train(epoch,model,tokenizer,loader,optimizer,device):
  model.train()
  print(loader)
  for step,data in enumerate(loader,0):
    y = data['target_ids'].to(device)
    y_ids = y[:,:-1].contiguous() # all ids except last one
    lm_labels = y[:,1:].clone().detach() # copy the address and detach label
    lm_labels[y[:,1:]==tokenizer.pad_token_id] = -100 # if it's padded token then assign it to -100
    source_ids = data['source_ids'].to(device)
    masks = data['source_masks'].to(device)
    outputs = model(input_ids = source_ids,attention_mask = masks,decoder_input_ids=y_ids,labels=lm_labels)
    loss  = outputs[0]
    if step%100==0:
      print('Epoch:{} | Loss:{}'.format(epoch,loss))
    optimizer.zero_grad()
    loss.backward() # optimize weights through backpropagation loss
    optimizer.step()



## Notes on the T5 model

- T5 is an encoder-decoder model and converts all NLP problems into a text-to-text format.

- It is trained using teacher forcing. This means that for training we always need an input sequence and a target sequence.

- The input sequence is fed to the model using input_ids.

- The target sequence is shifted to the right, i.e. prepended by a start-sequence token and fed to the decoder using the decoder_input_ids.

- In teacher-forcing style, the target sequence is then appended by the EOS token and corresponds to the labels.

- The PAD token is hereby used as the start-sequence token. T5 can be trained / fine-tuned both in a supervised and unsupervised fashion.



## Notes on the model input format

- encodings.labels represent the desired output and have two uses: as decoder_input_ids and as labels for the loss function.

- These two are identical except labels do not include the right-shift token at the start. Therefore, we create two copies of encodings.labels: one for decoder input and one for loss labels.

- We remove the starting right-shift token from labels as this token is not part of the expected output.

- We then remove the last token from decoder_input_ids to equalize tensor sizes.

- In the code below - y_ids represent the decoder input
and lm_labels represent the lables for the loss function

## Note on handling padding for loss functions

- Frequently, model inputs are padded to some maximum length to ensure consistent tensor sizes.
- This is accomplished by appending padding tokens to the inputs.
- These tokens need to be excluded from loss calculations.
- Huggingface’s loss functions are defined to exclude the ID -100 during loss calculations.
- Therefore, we need to convert all padding token IDs in labels to -100

In [None]:
y = target['input_ids']
print(y)

##################################################################################################
# tensor.contiguous(memory_format=torch.contiguous_format) → Tensor
# Returns a contiguous in memory tensor containing the same data as self tensor.
# If self tensor is already in the specified memory format, this function returns the self tensor.
##################################################################################################

y_ids = y[:,:-1].contiguous()
print(y_ids)


lm_labels = y[:,1:].clone().detach() # copy the address and detach label
print(lm_labels)


lm_labels[y[:,1:]==tokenizer.pad_token_id] = -100
print(lm_labels)
#################################################################################################
# tensor.detach() creates a tensor that shares storage with tensor that does not require gradient.
# tensor.clone() creates a copy of tensor that imitates the original tensor's requires_grad field.
# You should use detach() when attempting to remove a tensor from a computation graph,
# and clone as a way to copy the tensor while still keeping the copy as a part of the computation graph it came from.
##################################################################################################

tensor([[ 47667,   9618,   9960, 149886,   8522,  49487,   7535, 151694,  10101,
           5353,    259,  31894,  42769, 165505,  20962,  31897,  39941,  16961,
          87865, 189432,   1611,    259,  38955,    261, 184756, 116420,  87865,
         189432,   4176,  58516,    261,  19306,  66061,  15261,  53722,  58516,
          82492, 181810,  20656,   3520,  51321, 130423,  13350,    259,    260,
              1]])
tensor([[ 47667,   9618,   9960, 149886,   8522,  49487,   7535, 151694,  10101,
           5353,    259,  31894,  42769, 165505,  20962,  31897,  39941,  16961,
          87865, 189432,   1611,    259,  38955,    261, 184756, 116420,  87865,
         189432,   4176,  58516,    261,  19306,  66061,  15261,  53722,  58516,
          82492, 181810,  20656,   3520,  51321, 130423,  13350,    259,    260]])
tensor([[  9618,   9960, 149886,   8522,  49487,   7535, 151694,  10101,   5353,
            259,  31894,  42769, 165505,  20962,  31897,  39941,  16961,  87865,
       

### Evaluation

**The Steps are as follows:**

- Initiate model for eval
- Loop through validation data loader
- Extract source id , source mask and taregt ids
- Predict using model parameters as described below
- Decode the predictions and the labels using parameters described below
- predictions are extended to a list at each iterat
- the extended list is finally returned

**The Prediction / generate paramaters are as follows**

- input_ids : the validation set input token Ids

- attention mask - attenion mask for input tokens

- max_length (int, optional, defaults to model.config.max_length) — The maximum length of the sequence to be generated

- num_beams (int, optional, defaults to 1) — Number of beams for beam search. 1 means no beam search.

- repetition_penalty (float, optional, defaults to 1.0) — The parameter for repetition penalty. 1.0 means no penalty.

- Exponential penalty to the length. 1.0 means that the beam score is penalized by the sequence length. 0.0 means no penalty. Set to values < 0.0 in order to encourage the model to generate longer sequences, to a value > 0.0 in order to encourage the model to produce shorter sequences.


**The decode sequence has the parameters**

- skip_special_tokens
(bool, optional, defaults to False) — Whether or not to remove special tokens in the decoding.

- clean_up_tokenization_spaces

(bool, optional, defaults to True) — Whether or not to clean up the tokenization spaces.

In [None]:
def validation(tokenizer,model,device,loader):
  model.eval()
  predictions = []
  actual = []
  with torch.no_grad():
    for step,data in enumerate(loader,0):
      ids = data['source_ids'].to(device)
      mask = data['source_masks'].to(device)
      y_id = data['target_ids'].to(device)
      prediction = model.generate(input_ids=ids,attention_mask = mask,num_beams=2,max_length=170,repetition_penalty=2.5,early_stopping=True,length_penalty=1.0)


      # Decode y_id and prediction #
      preds = [tokenizer.decode(p,skip_special_tokens=True,clean_up_tokenization_spaces=False) for p in prediction]
      target = [tokenizer.decode(t,skip_special_tokens=True,clean_up_tokenization_spaces=False) for t in y_id]


      if step%20==0:
        print('block of 20 steps Completed')
      #print('predictions',preds)
      #print('actual',target)
      predictions.extend(preds)
      actual.extend(target)
  return predictions,actual


## Main Driver code




### Define Model and parameters

In [None]:
# define number of epochs
epochs = 1

# define device
if torch.cuda.is_available():
    device = torch.device("cuda")
else:
    device = torch.device("cpu")

# define Tokenizer
tokenizer = AutoTokenizer.from_pretrained("google/mt5-base")




## Prepare Dataset ##
  ##  We will use cnn_dailymail summarization dataset for abstractive summarization #

###  SKIP BELOW if already loaded from local storage



In [None]:
#dataset = load_dataset('cnn_dailymail','3.0.0')


# As we can observe, dataset is too large so for now we will consider just 8k rows for training and 4k rows for validation
train_dataset = dataset['train'][:8000]
val_dataset = dataset['val'][:4000]

### Data Cleaning Applied on the train and val datasets to remove

- text in parentheis
- '--'  



In [None]:
# check - number of entries in train
print("nos of train data entries", len(train_data['Text']))

# check - number of entries in validation
print("nos of val data entries", len(val_data['Text']))

nos of train data entries 4000
nos of val data entries 200


In [None]:
!pip install regex

# define pre process function
import re
def preprocess(dataset):
    dataset['Text'] = [re.sub('\(.*?\)','',t) for t in dataset['Text']]
    dataset['Text'] = [t.replace('--','') for t in dataset['Text']]
    return dataset


# Pre process the data set
train_dataset = preprocess(train_data)
val_dataset = preprocess(val_data)



In [None]:
from google.colab import drive
drive.mount('/content/drive')

## Tokenize Input data

We will use the CustomDataset Class for this

In [None]:
### pass train and validation data sets through CustomDataset function
train_dataset = CustomDataset(train_dataset,tokenizer,270,160)
val_dataset = CustomDataset(val_dataset,tokenizer,270,160)


In [None]:
# check number of entries in train
print("After Tokenization of train " , len(train_dataset))

# check number of entries in validation
print("After Tokenization of val " , len(val_dataset))

# check first entry
#print(train_dataset[0])

After Tokenization of train  4000
After Tokenization of val  200


### Use Data Loader to get batch feed

In [None]:
train_loader = DataLoader(dataset=train_dataset,batch_size=2,shuffle=True,num_workers=0)
val_loader = DataLoader(dataset = val_dataset,batch_size=2,num_workers=0)


### Fine Tune Model


#### Step 1  Instantiate model

In [None]:
# Define model
model = AutoModelForSeq2SeqLM.from_pretrained("google/mt5-base").to(device)
optimizer = AdamW(model.parameters(),lr=3e-4)

pytorch_model.bin:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]



#### Step 2 call Train function

In [None]:

# Call train function
for epoch in range(epochs):
    train(epoch,model,tokenizer,train_loader,optimizer,device)



Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


<torch.utils.data.dataloader.DataLoader object at 0x79a0841ef6d0>
Epoch:0 | Loss:18.05750846862793




Epoch:0 | Loss:6.54565954208374
Epoch:0 | Loss:4.6272454261779785
Epoch:0 | Loss:3.709916114807129
Epoch:0 | Loss:3.7040932178497314
Epoch:0 | Loss:2.7827649116516113
Epoch:0 | Loss:3.1552324295043945
Epoch:0 | Loss:4.544748783111572
Epoch:0 | Loss:3.7520053386688232
Epoch:0 | Loss:3.546351909637451
Epoch:0 | Loss:2.768284797668457
Epoch:0 | Loss:2.156905174255371
Epoch:0 | Loss:3.980877161026001
Epoch:0 | Loss:4.412546634674072
Epoch:0 | Loss:3.287254810333252
Epoch:0 | Loss:3.4609861373901367
Epoch:0 | Loss:2.674665927886963
Epoch:0 | Loss:3.056450843811035
Epoch:0 | Loss:3.085787534713745
Epoch:0 | Loss:3.093076467514038


### Save the fine tuned model

In [None]:
# save to gdrive
model.save_pretrained("drive/MyDrive/LLM_data/t5small_4000_cnn", from_pt=True)

### Load the fine tuned model from local / drive storage

In [None]:
# load from gdrive
model = T5ForConditionalGeneration.from_pretrained("drive/MyDrive/LLM_data/t5small_4000_cnn")

You are using a model of type mt5 to instantiate a model of type t5. This is not supported for all configurations of models and can yield errors.


## Run Validation

In [None]:
# Call validation function
for epoch in range(epochs):
  model.to("cuda")
  pred,target = validation(tokenizer,model,device,val_loader)
#print(pred,target)

block of 20 steps Completed
block of 20 steps Completed
block of 20 steps Completed
block of 20 steps Completed
block of 20 steps Completed


## Save Validation Results

- We create a Data Frame with the Actual and Predicted Validation data and save it a CSV file to Local

- Read from saved file and check a few records for comparison


In [None]:
import pandas as pd
import numpy as np
# convert pred list to numpy array
arr_pred = np.array(pred)
# convert pred list to numpy array
arr_target = np.array(target)
# convert to Dataframe
txt_sum_df = pd.DataFrame({'pred':arr_pred, 'actual':arr_target})
# Write CSV
txt_sum_df.to_csv('drive/MyDrive/LLM_data/txt_sum_preds.csv', index=False)


In [None]:
import pandas as pd
# Read from saved location
txt_sum_preds  = pd.read_csv('drive/MyDrive/LLM_data/txt_sum_preds.csv')

# Check data
txt_sum_preds.head()

Unnamed: 0,pred,actual
0,<extra_id_0> ஆகியவற்றில் ஈடுபட்டுள்ள வளர்ச்சித...,( இன்றைய நாளின் முக்கிய செய்திகளின் சுருக்கத்த...
1,<extra_id_0> ஆகியவற்றில் கர்னாட் தனது கருத்துக...,"கிரிஷ் கர்னாட் ஒரு மிகப்பெரிய நாடக ஆசிரியர், எ..."
2,<extra_id_0> கிரிக்கெட் அணியில் இடம் பெற்றிருக...,மாநிலங்களவை உறுப்பினராக ஆறு ஆண்டு காலம் களத்தி...
3,<extra_id_0>ன் மன்னர் சல்மான் மன்னரின் ஆணை அமல...,ஆடவர் ஒருவர் தன்னுடைய மனைவிக்கு கார் ஓட்டுவதற்...
4,<extra_id_0> ஒப்பந்தத்தில் இருந்து விலகும் அமெ...,பாரிஸ் பருவநிலை ஒப்பந்தத்தில் அமெரிக்காவை மீண்...


### Randomly check pred vs actual summaries from the validation output


In [None]:
import textwrap
import numpy as np
idx = np.random.randint(0,txt_sum_preds.shape[0])
# check Actual
print(" ---    Actual --- \n    ")
print(textwrap.fill(txt_sum_preds["actual"][idx], 40))
# Check predicted
print(" \n ---    Predicted --- \n    ")
print(textwrap.fill(txt_sum_preds["pred"][idx],40))

 ---    Actual --- 
    
கடந்த ஐந்து ஆண்டுகளாக தாலிபன்
தீவிரவாதிகள் பிணைக்கைதியாக
பிடித்துவைத்திருந்த ஐந்துபேர் கொண்ட வட
அமெரிக்க குடும்பம் ஒன்றை பாகிஸ்தான்
படையினர் விடுவித்துள்ளனர்.
 
 ---    Predicted --- 
    
<extra_id_0> தம்பதியர் பிணைக்கைதியாக
வைக்கப்பட்டுள்ளனர்.


## Inference Fine tuned Model



###. Step 1  Load bbc news txt file

We choose this article

https://www.bbc.com/news/world-asia-india-67657873


In [None]:
# Read bbc news file  in .txt format
path = "drive/MyDrive/LLM_data/bbcnews.txt"
bbc_file = open(path, 'r')
text = bbc_file.read()
print(textwrap.fill(text, 80))

இது குறித்து அவர் பிபிசி தமிழிடம் கூறுகையில், "இத்தீர்ப்பை மிகச் சிறந்த
முற்போக்கான தீர்ப்பாக பார்க்கிறேன். அடிப்படை உரிமை என்ன என்பதை மிகவும் தீவிரமாக
இத்தீர்ப்பு விளக்கியுள்ளது" என்றார். "இந்திய அரசியலமைப்பின் 21-ஆவது விதியை
மிகவும் ஆழமாக நீதிமன்றம் விளக்கியுள்ளது என்றும், ஏற்கனவே இரு வேறு வழக்குகளில்
தனி நபர் அந்தரங்கத்தை அடிப்படை உரிமை பாதுகாக்காது எனக் குறிப்பிட்ட தீர்ப்புகளைத்
திருத்தி அந்த உரிமையை தற்போது உச்ச நீதிமன்றம் பாதுகாத்துள்ளது" என்று என்.ராம்
கூறினார். "ஆதார் பதிவு விவகாரத்தில் இந்த தீர்ப்பு நிச்சயமாக பிரதிபலிக்கும் என்று
கூறும் அவர், ஆதார் முறையைத் திணிக்க முயற்சிக்கும் மத்திய அரசின் எண்ணம் இனி
கடினமாக இருக்கும்" என்றார். "நெருக்கடி காலத்தில் நீதிபதி எச்.ஆர். கன்னா அளித்த
தீர்ப்பு ஏற்படுத்திய மாற்றத்தைப் போல இந்தத் தீர்ப்பும் சமூகத்தில் மாற்றத்தை
ஏற்படுத்தலாம் என்று சிலர் கருதுவதாகவும், மொத்தத்தில் இது ஒரு முக்கியத்துவம்
நிறைந்த தீர்ப்பாகும்" என்றும் என்.ராம் தெரிவித்தார். பிற செய்திகள் : சமூக
ஊடகங்களில் பிபிசி தமிழ் :


### Step 2 Pre Process text

In [None]:
### data clean
import re
# Pre Process
text = re.sub('\(.*?\)','',text)
text = text.replace('--','')

# make ready for tokenizer
text = str(text)
text = ' '.join(text.split())

# Invoke tokenizer
tokenizer = AutoTokenizer.from_pretrained("google/mt5-base")

# Tokenize text
# Each source sequence is encoded and padded to max length in batches
source  = tokenizer.batch_encode_plus([text],return_tensors='pt',padding = True)




In [None]:

# Extract input Ids and attention Masks
source_ids = source['input_ids']
source_masks = source['attention_mask']

# convert to pyTorch tensor
ids = source_ids.to(torch.long)
mask = source_masks.to(torch.long)


### Step 3 Inference Fine Tuned Model trained on 4000 data rows  to generate summary

In [None]:
# Generate summary
model.to("cpu")
generate_ids = model.generate(input_ids=ids,attention_mask = mask,max_length=170)

# Decode Summary
summary_decoded = [tokenizer.decode(gen_id, skip_special_tokens=True) for gen_id in generate_ids]

# Create Output Text
output_txt = "".join(summary_decoded)


### Step 4 Compare and Check

In [None]:
# print actual text
print("\n Actual text  \n ")
print(textwrap.fill(text, 80))

# print generated summary
print("\n Summary \n ")
print(textwrap.fill(output_txt, 80))



 Actual text  
 
இது குறித்து அவர் பிபிசி தமிழிடம் கூறுகையில், "இத்தீர்ப்பை மிகச் சிறந்த
முற்போக்கான தீர்ப்பாக பார்க்கிறேன். அடிப்படை உரிமை என்ன என்பதை மிகவும் தீவிரமாக
இத்தீர்ப்பு விளக்கியுள்ளது" என்றார். "இந்திய அரசியலமைப்பின் 21-ஆவது விதியை
மிகவும் ஆழமாக நீதிமன்றம் விளக்கியுள்ளது என்றும், ஏற்கனவே இரு வேறு வழக்குகளில்
தனி நபர் அந்தரங்கத்தை அடிப்படை உரிமை பாதுகாக்காது எனக் குறிப்பிட்ட தீர்ப்புகளைத்
திருத்தி அந்த உரிமையை தற்போது உச்ச நீதிமன்றம் பாதுகாத்துள்ளது" என்று என்.ராம்
கூறினார். "ஆதார் பதிவு விவகாரத்தில் இந்த தீர்ப்பு நிச்சயமாக பிரதிபலிக்கும் என்று
கூறும் அவர், ஆதார் முறையைத் திணிக்க முயற்சிக்கும் மத்திய அரசின் எண்ணம் இனி
கடினமாக இருக்கும்" என்றார். "நெருக்கடி காலத்தில் நீதிபதி எச்.ஆர். கன்னா அளித்த
தீர்ப்பு ஏற்படுத்திய மாற்றத்தைப் போல இந்தத் தீர்ப்பும் சமூகத்தில் மாற்றத்தை
ஏற்படுத்தலாம் என்று சிலர் கருதுவதாகவும், மொத்தத்தில் இது ஒரு முக்கியத்துவம்
நிறைந்த தீர்ப்பாகும்" என்றும் என்.ராம் தெரிவித்தார். பிற செய்திகள் : சமூக
ஊடகங்களில் பிபிசி தமிழ் :

 Summary 
 
<extra_id_0> என்.ர

### Step 5  Now Load Model trained on 400 data rows and generate and check summary

In [None]:
# load from gdrive
model_400 = T5ForConditionalGeneration.from_pretrained("/content/drive/MyDrive/LLM_data/t5small_4000_cnn")

You are using a model of type mt5 to instantiate a model of type t5. This is not supported for all configurations of models and can yield errors.


In [None]:
# Generate summary
generate_ids = model_400.generate(input_ids=ids,attention_mask = mask,max_length=170)

# Decode Summary
summary_decoded = [tokenizer.decode(gen_id, skip_special_tokens=True) for gen_id in generate_ids]

# Create Output Text
output_txt_400 = "".join(summary_decoded)

In [None]:
# print generated summary
print("\n Summary \n ")
print(textwrap.fill(output_txt_400, 80))


 Summary 
 
<extra_id_0> என்.ராம் தெரிவித்துள்ளார்.
