### This notebook loads and evaluates a pre-trained Transformers model for English to Hindi records

In [1]:
from nltk.translate.bleu_score import corpus_bleu, SmoothingFunction
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# Import the Util file
import util as util

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
raw_datasets = load_dataset("cfilt/iitb-english-hindi")
data = raw_datasets["train"]["translation"]
    
eng_sen = []
hin_sen = []

for item in data:
  eng_sen.append(item['en'])
  hin_sen.append(item['hi'])

# Remove duplicate sentences
eng_sen, hin_sen = util.unique_sentences(eng_sen, hin_sen)



In [3]:
tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-hi")
model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-hi")

def translator(text):
  # function to translate english text to hindi
  input_ids = tokenizer.encode(text, return_tensors="pt", padding=True)
  outputs = model.generate(input_ids)
  decoded_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
  
  return decoded_text

In [6]:
# num of sentences to be translated
num = 20

input_text = eng_sen[:num]
translated_text = []

for i in range(len(input_text)):
  line = translator(input_text[i])
  translated_text.append(line)
  
  print('transl:', line)
  print('actual:', hin_sen[i], '\n')

transl: अपने अनुप्रयोग को पहुंचनीयता व्यायाम का लाभ दें
actual: अपने अनुप्रयोग को पहुंचनीयता व्यायाम का लाभ दें 

transl: एक्सेर्साइसर पहुंचनीयता अन्वेषक
actual: एक्सेर्साइसर पहुंचनीयता अन्वेषक 

transl: निचले पटल के लिए डिफोल्ट प्लग-इन खाका
actual: निचले पटल के लिए डिफोल्ट प्लग-इन खाका 

transl: ऊपरी पटल के लिए डिफोल्ट प्लग-इन खाका
actual: ऊपरी पटल के लिए डिफोल्ट प्लग-इन खाका 

transl: उन प्लग-इनों की सूची जिन्हें डिफोल्ट रूप से निष्क्रिय किया गया है
actual: उन प्लग-इनों की सूची जिन्हें डिफोल्ट रूप से निष्क्रिय किया गया है 

transl: अवधि को हाइलाइट रकें
actual: अवधि को हाइलाइट रकें 

transl: पहुंचनीय आसंधि नोड को चुनते समय हाइलाइट बक्से की अवधि
actual: पहुंचनीय आसंधि (नोड) को चुनते समय हाइलाइट बक्से की अवधि 

transl: सीमांत (बोर्डर) के रंग को हाइलाइट करें
actual: सीमांत (बोर्डर) के रंग को हाइलाइट करें 

transl: हाइलाइट किए गए सीमांत का रंग और अपारदर्शिता।
actual: हाइलाइट किए गए सीमांत का रंग और अपारदर्शिता।  

transl: भराई के रंग को हाइलाइट करें
actual: भराई के रंग को हाइलाइट करें 

t

In [10]:
smooth = SmoothingFunction()
corpus_bleu(hin_sen[0:num], translated_text, smoothing_function=smooth.method7)

0.13276982988333147