In [22]:
import torch
from torch.utils.data import DataLoader, Dataset
from transformers import BartForConditionalGeneration, AutoTokenizer, BartTokenizer
import torch.optim
import accelerate
import os
import json
from tqdm import tqdm
from time import time
from random import sample
import numpy as np
from sklearn.model_selection import train_test_split
from nltk.translate.bleu_score import corpus_bleu
from nltk.translate.bleu_score import SmoothingFunction
from nltk.translate import bleu_score
import nltk
from rouge import Rouge
from pycocoevalcap.cider.cider import Cider

In [23]:
data_root_path = os.path.join(os.getcwd(), 'v3/v2/en-hi')
model_path = os.path.join(os.path.join(os.getcwd(), 'Models'), 'Machine_Translation')

In [24]:
class CustomDataset(Dataset):
    def __init__(self, tokenizer, data, max_length=512):
        #self.data = self.load_data(data_path, sample_size)
        self.data = data
        self.tokenizer = tokenizer
        self.max_length = max_length
        #self.sample_size = sample_size
    def __len__(self):
        return len(self.data)
    def __getitem__(self, idx):
        item = self.data[idx]
        input_text = item['English']
        target_text = item['Hindi']
        
        inputs = self.tokenizer.encode_plus(input_text, max_length=self.max_length,
                                            padding='max_length', truncation=True, return_tensors='pt'
                                           )
        
        targets = self.tokenizer.encode(target_text, max_length=self.max_length,
                                        padding='max_length', truncation=True, return_tensors='pt'
                                        )
        
        return {'input_ids': inputs['input_ids'].squeeze(),
                'attention_mask': inputs['attention_mask'].squeeze(),
                'labels': targets.squeeze()
               }
    """def load_data(self, data_path, sample_size):
        '''with open(data_path, 'r',encoding="utf8") as file:
            data = json.load(file)'''
        data = []
        with open(os.path.join(data_root_path, 'train.en'), 'r', encoding="utf8") as en_file:
            en_lines = en_file.readlines()
        with open(os.path.join(data_root_path, 'train.hi'), 'r', encoding="utf8") as hn_file:
            hn_lines = hn_file.readlines()
            
        for en_line, hn_line in zip(en_lines, hn_lines):
            data.append(dict(English=en_line.replace('\n', ''), Hindi=hn_line.replace('\n', '')))
            
        return sample(data, sample_size)"""

In [25]:
model_name = "facebook/bart-base"
tokenizer = BartTokenizer.from_pretrained(model_name)

In [26]:
def load_data(data_path, sample_size):
    '''with open(data_path, 'r',encoding="utf8") as file:
        data = json.load(file)'''
    data = []
    with open(os.path.join(data_root_path, 'train.en'), 'r', encoding="utf8") as en_file:
        en_lines = en_file.readlines()
    with open(os.path.join(data_root_path, 'train.hi'), 'r', encoding="utf8") as hn_file:
        hn_lines = hn_file.readlines()

    for en_line, hn_line in zip(en_lines, hn_lines):
        data.append(dict(English=en_line.replace('\n', ''), Hindi=hn_line.replace('\n', '')))

    return sample(data, sample_size)

In [6]:
data = load_data(data_root_path, 5600)

In [7]:
train_data, test_data = train_test_split(data, test_size=0.1785, shuffle=False)
train_data, val_data = train_test_split(train_data, test_size=0.1304, shuffle=False)

In [8]:
train_dataset = CustomDataset(tokenizer, train_data)
dev_dataset = CustomDataset(tokenizer, val_data)
test_dataset = CustomDataset(tokenizer, test_data)

In [9]:
train_loader = DataLoader(train_dataset, batch_size=25, shuffle=True)
val_loader = DataLoader(dev_dataset, batch_size=25, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=25, shuffle=False)

In [10]:
def Fine_Tune(train_loader, val_loader, num_epochs, num_layers_to_finetune):
    model = BartForConditionalGeneration.from_pretrained("facebook/bart-base")
    
    for param in model.parameters():
        param.requires_grad = False
    
    for i in range(1, num_layers_to_finetune + 1):
        for param in model.model.encoder.layers[-i].parameters():
            param.requires_grad = True
        for param in model.model.decoder.layers[-i].parameters():
            param.requires_grad = True
    
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    #print(device)
    model.to(device)
    optimizer = torch.optim.Adam(model.parameters(), lr=1e-4, weight_decay=3e-6)
    for epoch in tqdm(range(num_epochs)):
        model.train()
        print("Training phase")
        #for idx, batch in enumerate(train_loader):
        for batch in tqdm(train_loader):
            #time0 = time()
            #print(f"batch: {idx+1} starts")
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)
            optimizer.zero_grad()
            outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
            loss = outputs.loss
            loss.backward()
            optimizer.step()
            #time1 = time()
            #print(f"batch: {idx+1} ends\ntime taken: {time1-time0} seconds")
            #print(f"time taken: {time1-time0} seconds")
        
        model.eval()
        print("Validation phase")
        with torch.no_grad():
            total_val_loss = 0.0
            for val_batch in tqdm(val_loader):
                input_ids = val_batch['input_ids'].to(device)
                attention_mask = val_batch['attention_mask'].to(device)
                labels = val_batch['labels'].to(device)
                val_output = model(input_ids, attention_mask=attention_mask, labels=labels)
                total_val_loss += val_output.loss.item()
            average_val_loss = total_val_loss / len(val_loader)
            
        print(f'Epoch: {epoch+1}/{num_epochs}, Validation Loss: {average_val_loss}')
    os.makedirs(model_path, exist_ok=True)
    model.save_pretrained(model_path, from_pt=True)
    torch.save(model.state_dict(), os.path.join(model_path, 'pytorch_model.bin'))

In [11]:
def Generate_translation_show(val_loader):
    model = BartForConditionalGeneration.from_pretrained(model_path)
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    model.to(device)
    with torch.no_grad():
        for val_batch in val_loader:
            input_ids = val_batch['input_ids'].to(device)
            attention_mask = val_batch['attention_mask'].to(device)
            labels = val_batch['labels'].to(device)
            generated_ids = model.generate(input_ids, attention_mask=attention_mask,
                                           max_length=60, num_beams=2, repetition_penalty=2.0,
                                           length_penalty=2.0, early_stopping=True
                                          )
            generated_title = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
            input_text = tokenizer.decode(input_ids[0], skip_special_tokens=True)
            actual_title = tokenizer.decode(labels[0], skip_special_tokens=True)
            
            print(f'Input Text: {input_text}\nGenerated Translation: {generated_title}\nActual Translation: {actual_title}')
            print('\n'+'='*50+'\n')

In [12]:
def Generate_translation(val_loader):
    model = BartForConditionalGeneration.from_pretrained(model_path)
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    model.to(device)
    generated_translations = []
    actual_translations = []
    with torch.no_grad():
        for val_batch in val_loader:
            input_ids = val_batch['input_ids'].to(device)
            attention_mask = val_batch['attention_mask'].to(device)
            labels = val_batch['labels'].to(device)
            generated_ids = model.generate(input_ids, attention_mask=attention_mask,
                                           max_length=60, num_beams=2, repetition_penalty=2.0,
                                           length_penalty=2.0, early_stopping=True
                                          )
            generated_translation = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
            input_text = tokenizer.decode(input_ids[0], skip_special_tokens=True)
            actual_translation = tokenizer.decode(labels[0], skip_special_tokens=True)
            generated_translations.append(generated_translation)
            actual_translations.append(actual_translation)
    return generated_translations, actual_translations

In [13]:
def calculate_bleu_scores(actual, generated):
    smoothie = SmoothingFunction().method4
    actual_tokenized = [[nltk.word_tokenize(act) for act in group] for group in actual]
    generated_tokenized = [nltk.word_tokenize(gen) for gen in generated]
    score = corpus_bleu(actual_tokenized, generated_tokenized, smoothing_function=smoothie)
    return score

In [14]:
def calculate_rouge_scores(actual, generated):
    rouge = Rouge()
    scores = rouge.get_scores(generated, actual)
    return scores

In [15]:
def calculate_cider_scores(actual, generated):
    act_dict = {idx: [line] for idx, line in enumerate(actual)}
    gen_dict = {idx: [line] for idx, line in enumerate(generated)}
    cider = Cider()
    (score, scores) = cider.compute_score(act_dict, gen_dict)
    return score

In [12]:
Fine_Tune(train_loader, val_loader, 5, 2)

  0%|                                                                                                                                                                                                                                                   | 0/5 [00:00<?, ?it/s]

Training phase



  attn_output = torch.nn.functional.scaled_dot_product_attention(

  1%|█▍                                                                                                                                                                                                                                       | 1/160 [00:12<33:44, 12.73s/it][A
  1%|██▉                                                                                                                                                                                                                                      | 2/160 [00:13<14:24,  5.47s/it][A
  2%|████▎                                                                                                                                                                                                                                    | 3/160 [00:21<18:04,  6.91s/it][A
  2%|█████▊                                                                                                   

 18%|████████████████████████████████████████▌                                                                                                                                                                                               | 28/160 [03:32<16:46,  7.63s/it][A
 18%|██████████████████████████████████████████                                                                                                                                                                                              | 29/160 [03:40<16:40,  7.64s/it][A
 19%|███████████████████████████████████████████▌                                                                                                                                                                                            | 30/160 [03:47<16:32,  7.63s/it][A
 19%|████████████████████████████████████████████▉                                                                                                                                

 36%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                     | 57/160 [07:14<13:08,  7.66s/it][A
 36%|████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                    | 58/160 [07:21<12:59,  7.64s/it][A
 37%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                  | 59/160 [07:29<12:52,  7.65s/it][A
 38%|███████████████████████████████████████████████████████████████████████████████████████                                                                                      

 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                           | 86/160 [10:55<09:25,  7.64s/it][A
 54%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 87/160 [11:03<09:18,  7.65s/it][A
 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 88/160 [11:10<09:09,  7.63s/it][A
 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            

 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 115/160 [14:37<05:45,  7.67s/it][A
 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 116/160 [14:45<05:36,  7.65s/it][A
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 117/160 [14:52<05:30,  7.68s/it][A
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  

 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 144/160 [18:19<02:02,  7.64s/it][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 145/160 [18:27<01:54,  7.66s/it][A
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 146/160 [18:34<01:47,  7.64s/it][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

Validation phase



  0%|                                                                                                                                                                                                                                                  | 0/24 [00:00<?, ?it/s][A
  4%|█████████▊                                                                                                                                                                                                                                | 1/24 [00:09<03:31,  9.20s/it][A
  8%|███████████████████▌                                                                                                                                                                                                                      | 2/24 [00:11<01:47,  4.90s/it][A
 12%|█████████████████████████████▎                                                                                                                                              

Epoch: 1/5, Validation Loss: 3.712118476629257
Training phase



  0%|                                                                                                                                                                                                                                                 | 0/160 [00:00<?, ?it/s][A
  1%|█▍                                                                                                                                                                                                                                       | 1/160 [00:03<09:01,  3.41s/it][A
  1%|██▉                                                                                                                                                                                                                                      | 2/160 [00:08<11:35,  4.40s/it][A
  2%|████▎                                                                                                                                                                       

 18%|██████████████████████████████████████████                                                                                                                                                                                              | 29/160 [02:58<13:44,  6.30s/it][A
 19%|███████████████████████████████████████████▌                                                                                                                                                                                            | 30/160 [03:05<13:38,  6.30s/it][A
 19%|████████████████████████████████████████████▉                                                                                                                                                                                           | 31/160 [03:11<13:31,  6.29s/it][A
 20%|██████████████████████████████████████████████▍                                                                                                                              

 36%|████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                    | 58/160 [06:01<10:42,  6.30s/it][A
 37%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                  | 59/160 [06:07<10:35,  6.30s/it][A
 38%|███████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                 | 60/160 [06:14<10:29,  6.30s/it][A
 38%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    

 54%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 87/160 [09:03<07:38,  6.29s/it][A
 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 88/160 [09:10<07:32,  6.29s/it][A
 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 89/160 [09:16<07:26,  6.29s/it][A
 56%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          

 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 116/160 [12:06<04:36,  6.29s/it][A
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 117/160 [12:12<04:30,  6.29s/it][A
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 118/160 [12:19<04:24,  6.29s/it][A
 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ 

 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 145/160 [15:09<01:34,  6.29s/it][A
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 146/160 [15:15<01:28,  6.29s/it][A
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 147/160 [15:21<01:21,  6.29s/it][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

Validation phase



  0%|                                                                                                                                                                                                                                                  | 0/24 [00:00<?, ?it/s][A
  4%|█████████▊                                                                                                                                                                                                                                | 1/24 [00:07<02:58,  7.78s/it][A
  8%|███████████████████▌                                                                                                                                                                                                                      | 2/24 [00:09<01:34,  4.31s/it][A
 12%|█████████████████████████████▎                                                                                                                                              

Epoch: 2/5, Validation Loss: 3.6377245287100473
Training phase



  0%|                                                                                                                                                                                                                                                 | 0/160 [00:00<?, ?it/s][A
  1%|█▍                                                                                                                                                                                                                                       | 1/160 [00:00<01:02,  2.53it/s][A
  1%|██▉                                                                                                                                                                                                                                      | 2/160 [00:06<10:09,  3.86s/it][A
  2%|████▎                                                                                                                                                                       

 18%|██████████████████████████████████████████                                                                                                                                                                                              | 29/160 [02:56<13:43,  6.29s/it][A
 19%|███████████████████████████████████████████▌                                                                                                                                                                                            | 30/160 [03:02<13:39,  6.30s/it][A
 19%|████████████████████████████████████████████▉                                                                                                                                                                                           | 31/160 [03:09<13:31,  6.29s/it][A
 20%|██████████████████████████████████████████████▍                                                                                                                              

 36%|████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                    | 58/160 [05:58<10:41,  6.29s/it][A
 37%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                  | 59/160 [06:05<10:35,  6.29s/it][A
 38%|███████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                 | 60/160 [06:11<10:29,  6.29s/it][A
 38%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    

 54%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 87/160 [09:00<07:38,  6.27s/it][A
 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 88/160 [09:07<07:32,  6.28s/it][A
 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 89/160 [09:13<07:25,  6.28s/it][A
 56%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          

 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 116/160 [12:03<04:36,  6.28s/it][A
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 117/160 [12:09<04:29,  6.28s/it][A
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 118/160 [12:15<04:23,  6.28s/it][A
 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ 

 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 145/160 [15:05<01:34,  6.28s/it][A
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 146/160 [15:11<01:27,  6.28s/it][A
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 147/160 [15:17<01:21,  6.28s/it][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

Validation phase



  0%|                                                                                                                                                                                                                                                  | 0/24 [00:00<?, ?it/s][A
  4%|█████████▊                                                                                                                                                                                                                                | 1/24 [00:07<02:58,  7.77s/it][A
  8%|███████████████████▌                                                                                                                                                                                                                      | 2/24 [00:09<01:34,  4.30s/it][A
 12%|█████████████████████████████▎                                                                                                                                              

Epoch: 3/5, Validation Loss: 3.5728124479452767
Training phase



  0%|                                                                                                                                                                                                                                                 | 0/160 [00:00<?, ?it/s][A
  1%|█▍                                                                                                                                                                                                                                       | 1/160 [00:00<00:57,  2.77it/s][A
  1%|██▉                                                                                                                                                                                                                                      | 2/160 [00:06<10:08,  3.85s/it][A
  2%|████▎                                                                                                                                                                       

 18%|██████████████████████████████████████████                                                                                                                                                                                              | 29/160 [02:56<13:42,  6.28s/it][A
 19%|███████████████████████████████████████████▌                                                                                                                                                                                            | 30/160 [03:02<13:36,  6.28s/it][A
 19%|████████████████████████████████████████████▉                                                                                                                                                                                           | 31/160 [03:08<13:30,  6.28s/it][A
 20%|██████████████████████████████████████████████▍                                                                                                                              

 36%|████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                    | 58/160 [05:58<10:40,  6.28s/it][A
 37%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                  | 59/160 [06:04<10:33,  6.28s/it][A
 38%|███████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                 | 60/160 [06:11<10:28,  6.28s/it][A
 38%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    

 54%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 87/160 [09:00<07:38,  6.28s/it][A
 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 88/160 [09:06<07:32,  6.28s/it][A
 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 89/160 [09:13<07:25,  6.28s/it][A
 56%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          

 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 116/160 [12:02<04:36,  6.28s/it][A
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 117/160 [12:09<04:29,  6.28s/it][A
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 118/160 [12:15<04:23,  6.28s/it][A
 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ 

 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 145/160 [15:05<01:34,  6.29s/it][A
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 146/160 [15:11<01:27,  6.29s/it][A
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 147/160 [15:17<01:21,  6.28s/it][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

Validation phase



  0%|                                                                                                                                                                                                                                                  | 0/24 [00:00<?, ?it/s][A
  4%|█████████▊                                                                                                                                                                                                                                | 1/24 [00:07<02:58,  7.77s/it][A
  8%|███████████████████▌                                                                                                                                                                                                                      | 2/24 [00:09<01:34,  4.31s/it][A
 12%|█████████████████████████████▎                                                                                                                                              

Epoch: 4/5, Validation Loss: 3.5138267278671265
Training phase



  0%|                                                                                                                                                                                                                                                 | 0/160 [00:00<?, ?it/s][A
  1%|█▍                                                                                                                                                                                                                                       | 1/160 [00:00<00:59,  2.68it/s][A
  1%|██▉                                                                                                                                                                                                                                      | 2/160 [00:06<10:09,  3.86s/it][A
  2%|████▎                                                                                                                                                                       

 18%|██████████████████████████████████████████                                                                                                                                                                                              | 29/160 [02:56<13:44,  6.29s/it][A
 19%|███████████████████████████████████████████▌                                                                                                                                                                                            | 30/160 [03:02<13:39,  6.31s/it][A
 19%|████████████████████████████████████████████▉                                                                                                                                                                                           | 31/160 [03:09<13:32,  6.30s/it][A
 20%|██████████████████████████████████████████████▍                                                                                                                              

 36%|████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                    | 58/160 [05:59<10:42,  6.30s/it][A
 37%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                  | 59/160 [06:05<10:35,  6.29s/it][A
 38%|███████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                 | 60/160 [06:11<10:29,  6.29s/it][A
 38%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    

 54%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 87/160 [09:01<07:40,  6.31s/it][A
 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 88/160 [09:07<07:33,  6.30s/it][A
 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 89/160 [09:14<07:26,  6.30s/it][A
 56%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          

 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 116/160 [12:04<04:37,  6.31s/it][A
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 117/160 [12:10<04:30,  6.30s/it][A
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 118/160 [12:16<04:24,  6.30s/it][A
 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ 

 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 145/160 [15:06<01:34,  6.28s/it][A
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 146/160 [15:12<01:27,  6.28s/it][A
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 147/160 [15:19<01:21,  6.28s/it][A
 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

Validation phase



  0%|                                                                                                                                                                                                                                                  | 0/24 [00:00<?, ?it/s][A
  4%|█████████▊                                                                                                                                                                                                                                | 1/24 [00:07<02:58,  7.77s/it][A
  8%|███████████████████▌                                                                                                                                                                                                                      | 2/24 [00:09<01:34,  4.30s/it][A
 12%|█████████████████████████████▎                                                                                                                                              

Epoch: 5/5, Validation Loss: 3.4473043779532113


In [27]:
generated_translations, actual_translations = Generate_translation(test_loader)

Input Text: <s>Taking suo motu cognizance of Hajelas interview to a national daily, Justice Gogoi said: Where is the necessity, scope and authority in you to make such a statement?</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><

Input Text: <s>Owing to the immense benefits of the conclave as mentioned above, the participation of the industry and other stakeholders in the earlier conclaves was kept free of charge for encouraging their participation and the same will be continued in this conclave.</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad>

Input Text: <s>Have you seen him who takes his own lust (vain desires) as his ilah (god), and Allah knowing (him as such), left him astray, and sealed his hearing and his heart, and put a cover on his sight. Who then will guide him after Allah? Will you not then remember?</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad

Input Text: <s>Police are currently investigating the case.</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><p

Input Text: <s>Apart from these states, Tamil Nadu has also recorded a temperature level above the 40-degree mark and is likely to witness the same for the next couple of days.</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad>

Input Text: <s>Civil - Water Level</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><p

Input Text: <s>Priyanka Chopra is currently working on her upcoming film 'The Sky Is Pink' starring Farhan Akhtar and Zaira Wasim.</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><

Input Text: <s>India has its first individual Olympics gold medal.</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad>

Input Text: <s>The deceased was a labourer.</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pa

Input Text: <s>"""Bring them back to me!"" - - [he said] and began to stroke their legs and their necks."</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><

Input Text: <s>Two of Diamonds</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><

Input Text: <s>Candidates will be selected on the basis of skill test.</s><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><pad><

In [17]:
bleu_score = calculate_bleu_scores(actual_translations, generated_translations)

In [18]:
rouge_score = calculate_rouge_scores(actual_translations, generated_translations)

In [19]:
cider_score = calculate_cider_scores(actual_translations, generated_translations)

In [20]:
bleu_score, rouge_score, cider_score

(0.003001069987114241,
 [{'rouge-1': {'r': 0.047619047619047616,
    'p': 0.125,
    'f': 0.06896551324613578},
   'rouge-2': {'r': 0.0, 'p': 0.0, 'f': 0.0},
   'rouge-l': {'r': 0.047619047619047616,
    'p': 0.125,
    'f': 0.06896551324613578}},
  {'rouge-1': {'r': 0.05263157894736842,
    'p': 0.14285714285714285,
    'f': 0.07692307298816588},
   'rouge-2': {'r': 0.0, 'p': 0.0, 'f': 0.0},
   'rouge-l': {'r': 0.05263157894736842,
    'p': 0.14285714285714285,
    'f': 0.07692307298816588}},
  {'rouge-1': {'r': 0.1, 'p': 0.2857142857142857, 'f': 0.14814814430727036},
   'rouge-2': {'r': 0.05, 'p': 0.16666666666666666, 'f': 0.07692307337278123},
   'rouge-l': {'r': 0.1, 'p': 0.2857142857142857, 'f': 0.14814814430727036}},
  {'rouge-1': {'r': 0.02040816326530612,
    'p': 0.16666666666666666,
    'f': 0.03636363441983481},
   'rouge-2': {'r': 0.0, 'p': 0.0, 'f': 0.0},
   'rouge-l': {'r': 0.02040816326530612,
    'p': 0.16666666666666666,
    'f': 0.03636363441983481}},
  {'rouge-1': {'

In [21]:
Generate_translation_show(test_loader)

Input Text: He said that an attitude of togetherness combined with positivity is the key to facing the challenge posed by COVID-19.
Generated Translation: उन्हों के अधिकार संबद्‍धान पर 18 में, �
Actual Translation: उन्होंने कहा कि 'कोविड-19 द्वारा खड़ी की गई चुनौती का मुकाबला करने की कुंजी सकारात्मकता के साथ एकजुटता के दृष्टिकोण में निहित है।'


Input Text: Char can also be used as soil-amendment, in which case it's called biochar.
Generated Translation: उन्हों के लिए अपना संबरती में, जाएगी
Actual Translation: चार को मिट्टी-संशोधन के रूप में भी इस्तेमाल किया जा सकता है, जिस स्थिति में इसे बायोचार कहा जाता है।


Input Text: Children are sent back along with other families to their homes by the home scheme.
Generated Translation: उन्हों के लिए अपना संबर्‍ट में, जाति
Actual Translation: होम स्कीम की तरफ से बच्चों को अन्य परिवार के साथ उनके घर पर कुछ दिनों के लिए भेजा जाता है।


Input Text: But B S Yeddyurappa, the scam-tainted 71-year-old former Karnataka CM, was rehabilitated because he 