In [1]:
!pip install transformers -q
!pip install sentencepiece -q

[K     |████████████████████████████████| 3.1 MB 8.2 MB/s 
[K     |████████████████████████████████| 59 kB 8.2 MB/s 
[K     |████████████████████████████████| 596 kB 47.0 MB/s 
[K     |████████████████████████████████| 3.3 MB 43.8 MB/s 
[K     |████████████████████████████████| 895 kB 7.9 MB/s 
[K     |████████████████████████████████| 1.2 MB 8.3 MB/s 
[?25h

In [2]:
# Mount Google drive to upload datasets
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# The path to the data on my drive
D = '/content/drive/My Drive/W266_Project_Data/pmi_data'

In [4]:
import pandas as pd
import csv
from transformers import AutoTokenizer, AutoModel
import torch
from torch.utils.data import Dataset, DataLoader
import torch.nn.functional as F

In [5]:
# Load the gold-standard target translation datasets
hi_target = pd.read_csv(D+"/predicted_text/MBart/dev.hi", sep = "\t", quoting=csv.QUOTE_NONE, names=["sentence_1"])
ml_target = pd.read_csv(D+"/predicted_text/MBart/dev.ml", sep = "\t", quoting=csv.QUOTE_NONE, names=["sentence_1"])
ta_target = pd.read_csv(D+"/predicted_text/MBart/dev.ta", sep = "\t", quoting=csv.QUOTE_NONE, names=["sentence_1"])

In [6]:
hi_target.head()

Unnamed: 0,sentence_1
0,प्रधानमंत्री ने कहा कि बाबा साहेब अम्बेडकर की ...
1,इस समारोह को आज बीजापुर में आयोजित करने के महत...
2,उन्होंने कहा कि इस कार्य को 2022 तक पूरा कर ले...
3,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...
4,"उन्होंने इस संदर्भ में जन धन खाता खोलने, गरीबो..."


In [7]:
# Load the Bart translated files into their respective language datasets
hi_bart = pd.read_csv(D+"/predicted_text/MBart/new_dev_bart_translated_hi", sep = "\t", quoting=csv.QUOTE_NONE, names=["sentence_2"])
ml_bart = pd.read_csv(D+"/predicted_text/MBart/new_dev_bart_translated_ml", sep = "\t", quoting=csv.QUOTE_NONE, names=["sentence_2"])
ta_bart = pd.read_csv(D+"/predicted_text/MBart/new_dev_bart_translated_ta", sep = "\t", quoting=csv.QUOTE_NONE, names=["sentence_2"])

In [8]:
hi_bart.head()

Unnamed: 0,sentence_2
0,Prime Minister said Babasaheb Ambedkar has a k...
1,आज बीजापुर में इस समारोह को आयोजित करने के महत...
2,उन्होंने कहा कि लक्ष्य 2022 तक इस कार्य को पूर...
3,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...
4,"इस संदर्भ में उन्होंने जनधन खाते खोलने, गरीबों..."


In [9]:
# Create Hindi Bart test set
hi_bart_test = pd.concat([hi_target['sentence_1'], hi_bart['sentence_2']], axis=1, keys=['sentence_1', 'sentence_2'])
hi_bart_test.insert(0, 'language_task', 'translate English to Hindi')
hi_bart_test.head()

Unnamed: 0,language_task,sentence_1,sentence_2
0,translate English to Hindi,प्रधानमंत्री ने कहा कि बाबा साहेब अम्बेडकर की ...,Prime Minister said Babasaheb Ambedkar has a k...
1,translate English to Hindi,इस समारोह को आज बीजापुर में आयोजित करने के महत...,आज बीजापुर में इस समारोह को आयोजित करने के महत...
2,translate English to Hindi,उन्होंने कहा कि इस कार्य को 2022 तक पूरा कर ले...,उन्होंने कहा कि लक्ष्य 2022 तक इस कार्य को पूर...
3,translate English to Hindi,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...
4,translate English to Hindi,"उन्होंने इस संदर्भ में जन धन खाता खोलने, गरीबो...","इस संदर्भ में उन्होंने जनधन खाते खोलने, गरीबों..."


In [10]:
# Create Malayalam Bart test set
ml_bart_test = pd.concat([ml_target['sentence_1'], ml_bart['sentence_2']], axis=1, keys=['sentence_1', 'sentence_2'])
ml_bart_test.insert(0, 'language_task', 'translate English to Malayalam')

In [11]:
# View first few rows of Malayalam Bart test set
ml_bart_test.head()

Unnamed: 0,language_task,sentence_1,sentence_2
0,translate English to Malayalam,കോടിക്കണക്കിന് ജനങ്ങളുടെ മനസില്‍ അഭിലാഷങ്ങള്‍ ...,കോടിക്കണക്കിന് ജനങ്ങളുടെ മനസ്സിലും മനസ്സിലും അ...
1,translate English to Malayalam,രാജ്യത്തിന്റെ വികസയാത്രയില്‍ പിന്നോക്കം വിട്ടു...,ഇന്ന് ബിജ്യപ്പூரில் ഈ പരിപാടി നടത്തുന്നതിന് റെ...
2,translate English to Malayalam,2022 ഓടെ ഈ ലക്ഷ്യം പൂര്‍ത്തീകരിക്കുകയാണ് ലക്ഷ്...,അദ്ധേഹത്തിന് റെ ലക്ഷ്യം 2022-ല് ഈ ജോലി പൂര് ത്...
3,translate English to Malayalam,സമയബന്ധിതമായും കൃത്യമായ ലക്ഷ്യങ്ങളോടുംകൂടി ഗവണ...,കൃത്യമായ ലക്ഷ്യങ്ങളും കൃത്യസമയങ്ങളും ഉള്ള பல்வ...
4,translate English to Malayalam,ജന്‍ ധന്‍ അക്കൗണ്ടുകള്‍ തുറക്കുന്നതിലും ദരിദ്ര...,"ഈ കാര്യത്തില് അദ്ദേഹം, ജാന് ദന് അക്കൗണ്ട് തുറക..."


In [12]:
# Load the first few rows of the Tamil Bart test set
ta_bart_test = pd.concat([ta_target['sentence_1'], ta_bart['sentence_2']], axis=1, keys=['sentence_1', 'sentence_2'])
ta_bart_test.insert(0, 'language_task', 'translate English to Tamil')

In [13]:
# View the first few rows of the Tamil translation
ta_bart_test.head()

Unnamed: 0,language_task,sentence_1,sentence_2
0,translate English to Tamil,கோடிக்கணக்கான மக்களின் மனங்களிலும் மற்றும் இதய...,"கோடிக்கணக்கான மக்களின் இதயங்களிலும், மனங்களிலு..."
1,translate English to Tamil,பீஜப்பூர் பகுதியில் இந்த நிகழ்ச்சியை நடத்துவதன...,இந்த நிகழ்ச்சியை இன்று பிஜப்பூர் நகரில் நடத்து...
2,translate English to Tamil,இந்தப் பணியை 2022-ம் ஆண்டுக்குள் நிறைவேற்றுவதே...,2022-ம் ஆண்டுக்குள் இந்த பணியை நிறைவேற்றுவதை ந...
3,translate English to Tamil,மத்திய அரசு பல்வேறு திட்டங்கைளை தெளிவான இலக்கு...,தெளிவான இலக்குகள் மற்றும் காலக்கெடுகளுடன் பல்வ...
4,translate English to Tamil,"இது தொடர்பாக ஜன் தன் கணக்குகள், ஏழை மக்களுக்கா...","இந்த வகையில் ஜன் தன் கணக்குகள், ஏழைகளுக்கு காப..."


In [14]:
class SiameseNet(torch.nn.Module):
    def __init__(self):
      super(SiameseNet, self).__init__()

      # Set up a fully-connected layer to apply to each incoming sentence vector
      # Use a dense layer (nn.Linear) to reduce the dimensionality of the input embeddings
      # use a relu activation function
      # Randomly drop out
      # Set 1 as the dimensionality of the final output since we want to predict the logits corresponding to a binary label
      # Initialize the feed forward layer
      self.fc = torch.nn.Sequential(
            torch.nn.Linear(768, 128),
            torch.nn.InstanceNorm1d(128),
            torch.nn.ReLU(inplace=True))
      
      self.relu = torch.nn.ReLU(inplace=True)
      self.batch2 = torch.nn.InstanceNorm1d(384)
      self.ffn = torch.nn.Linear(384, 128)
      self.batch3 = torch.nn.InstanceNorm1d(128)
      self.layer_out = torch.nn.Linear(128,1)

      # Add drop out
      self.drop = torch.nn.Dropout(0.2)

    # left and right represent columns in our data
    def forward(self, left, right):

      # Get the sentence embeddings 
      u = left
      v = right

      # Reduce the dimensionality
      u = self.fc(u)
      v = self.fc(v)

      # Get the absolute value of the difference of the vectors
      uv = torch.sub(u, v)
      uv_abs = torch.abs(uv)

      # concatenate u, v, and the absolute value of the element-wise difference between the embeddings
      x = torch.cat([u, v, uv_abs], dim=-1)

      # Normalize the concatenated batch
      x = self.batch2(x)

      # Use the relu activation function
      x = self.relu(x)

      # Pass the concatenated layers through a dense layer to reduce the dimensionality from 2304 to 128
      x = self.ffn(x)
      # Normalize the concatenated layers
      x = self.batch3(x)
      # Pass through relu activation
      x = self.relu(x)
      # Implement drop out to avoid overfitting
      x = self.drop(x)
      # Pass the output through a final dense layer
      output = self.layer_out(x)
      # Reshape the output to have the same dimension as the target labels
      output = output[:,-1,:]

      # Concatenate the 
      return output

In [15]:
# Set up the device to run on GPU if available
device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')

In [16]:
# Create an instance of the tokenizer and model using Indic Bert
tokenizer = AutoTokenizer.from_pretrained('ai4bharat/indic-bert', keep_accents=True)
model = AutoModel.from_pretrained('ai4bharat/indic-bert')

Downloading:   0%|          | 0.00/507 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/5.38M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/129M [00:00<?, ?B/s]

Some weights of the model checkpoint at ai4bharat/indic-bert were not used when initializing AlbertModel: ['sop_classifier.classifier.weight', 'sop_classifier.classifier.bias', 'predictions.bias', 'predictions.dense.weight', 'predictions.dense.bias', 'predictions.decoder.bias', 'predictions.decoder.weight', 'predictions.LayerNorm.bias', 'predictions.LayerNorm.weight']
- This IS expected if you are initializing AlbertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing AlbertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [17]:
# Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    sum_embeddings = torch.sum(token_embeddings * input_mask_expanded, 1)
    sum_mask = torch.clamp(input_mask_expanded.sum(1), min=1e-9)
    return sum_embeddings / sum_mask

def sentence_embeddings(device, tokenizer, model, sentences):
  """Create contextualized sentence embeddings
  
  Parameters:
  tokenizer: transformers tokenizer for creating word tokens
  model:
  sentences: sentences to generate sentence embeddings for
  """

  # Tokenize sentences and return PyTorch tensors
  encoded_input = tokenizer(sentences, padding=True, truncation=True, 
                            max_length=128, return_tensors='pt')
  encoded_input = encoded_input.to(device)
  
  # Pass the tokenized input to the model 
  with torch.no_grad():
    model.to(device)
    model_output = model(**encoded_input) 
  
  # Perform mean pooling to get total sentence embeddings
  sentence_embeddings = mean_pooling(model_output, 
                                     encoded_input['attention_mask'])
  
  return sentence_embeddings

In [18]:
# Load the Siamese Neural Net from the pre-trained weights
net = SiameseNet().to(device)
# Load the weights and biases from the last round of training
net.load_state_dict(torch.load("/content/drive/My Drive/W266_Project_Data/models/siamese_model/siamese_models_used/three_dense_w_punjabi_model.pt"))

<All keys matched successfully>

In [19]:
# Create a dataset class, similarly to the one used for training the Siamese Neural Network dataset - the difference is that it won't create labels
class TranslationEvalDataset(Dataset): 
  def __init__(self,training_df, device, tokenizer, model):
    self.training_df=training_df
    self.sent1 = self.training_df['sentence_1'].tolist()
    self.sent2 = self.training_df['sentence_2'].tolist()
    self.language_task = self.training_df['language_task'].tolist()
    self.device = device
    self.tokenizer = tokenizer
    self.model = model

  def __getitem__(self, index):
    sent1 = self.sent1[index]
    sent2 = self.sent2[index]
    task = self.language_task[index]

    # Get the sentence embeddings for sentences 1 and 2 for each row
    sent1_embeddings = sentence_embeddings(self.device, self.tokenizer, self.model, sent1)
    sent2_embeddings = sentence_embeddings(self.device, self.tokenizer, self.model, sent2)
    return sent1_embeddings, sent2_embeddings, task

  def __len__(self):
    return len(self.training_df)

In [20]:
# Concatenate all of the bart test sets into one test set
final_test = pd.concat([hi_bart_test, ml_bart_test, ta_bart_test]).reset_index()
final_test.drop(columns={'index'}, inplace=True)

In [21]:
final_test.head()

Unnamed: 0,language_task,sentence_1,sentence_2
0,translate English to Hindi,प्रधानमंत्री ने कहा कि बाबा साहेब अम्बेडकर की ...,Prime Minister said Babasaheb Ambedkar has a k...
1,translate English to Hindi,इस समारोह को आज बीजापुर में आयोजित करने के महत...,आज बीजापुर में इस समारोह को आयोजित करने के महत...
2,translate English to Hindi,उन्होंने कहा कि इस कार्य को 2022 तक पूरा कर ले...,उन्होंने कहा कि लक्ष्य 2022 तक इस कार्य को पूर...
3,translate English to Hindi,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...
4,translate English to Hindi,"उन्होंने इस संदर्भ में जन धन खाता खोलने, गरीबो...","इस संदर्भ में उन्होंने जनधन खाते खोलने, गरीबों..."


In [22]:
final_test[1000:2000]

Unnamed: 0,language_task,sentence_1,sentence_2
1000,translate English to Malayalam,കോടിക്കണക്കിന് ജനങ്ങളുടെ മനസില്‍ അഭിലാഷങ്ങള്‍ ...,കോടിക്കണക്കിന് ജനങ്ങളുടെ മനസ്സിലും മനസ്സിലും അ...
1001,translate English to Malayalam,രാജ്യത്തിന്റെ വികസയാത്രയില്‍ പിന്നോക്കം വിട്ടു...,ഇന്ന് ബിജ്യപ്പூரில் ഈ പരിപാടി നടത്തുന്നതിന് റെ...
1002,translate English to Malayalam,2022 ഓടെ ഈ ലക്ഷ്യം പൂര്‍ത്തീകരിക്കുകയാണ് ലക്ഷ്...,അദ്ധേഹത്തിന് റെ ലക്ഷ്യം 2022-ല് ഈ ജോലി പൂര് ത്...
1003,translate English to Malayalam,സമയബന്ധിതമായും കൃത്യമായ ലക്ഷ്യങ്ങളോടുംകൂടി ഗവണ...,കൃത്യമായ ലക്ഷ്യങ്ങളും കൃത്യസമയങ്ങളും ഉള്ള பல்வ...
1004,translate English to Malayalam,ജന്‍ ധന്‍ അക്കൗണ്ടുകള്‍ തുറക്കുന്നതിലും ദരിദ്ര...,"ഈ കാര്യത്തില് അദ്ദേഹം, ജാന് ദന് അക്കൗണ്ട് തുറക..."
...,...,...,...
1995,translate English to Malayalam,മ്യാന്‍മാറിലെ യൂണിയന്‍ തിരഞ്ഞെടുപ്പ് കമ്മിഷന്‍ 7.,vi. മിയാമാൻ യൂണിയൻ എLECTION COMMISSION;
1996,translate English to Malayalam,സ്വാതന്ത്ര്യാനന്തരം പല നേട്ടങ്ങളും ഉണ്ടാക്കാന്...,சுதந்திரത്തിന് ശേഷം ഒരുപാട് നേട്ടങ്ങള് ഉണ്ടായി...
1997,translate English to Malayalam,"ജന്‍ ഭാഗീദാരി, വിവരം പങ്കിടല്‍, വിഭവങ്ങള്‍ പരമ...","അദ്ദേഹം അവരോട് സംസാരിച്ചു, നല്ല ഭരണത്തിന് റെ ച..."
1998,translate English to Malayalam,"ഗ്രാമ സ്വരാജ് അഭിയാന്‍, ആയുഷ്മാന്‍ ഭാരത് തുടങ്...","ഗർമൻ സ്വraj Abhiyan, ആയുഷ്മൻ பாரத் എന്നിവ അண்ம..."


In [23]:
final_test.tail()

Unnamed: 0,language_task,sentence_1,sentence_2
2995,translate English to Tamil,6. மியான்மர் மத்திய தேர்தல் ஆணையம்,vi. மியான்மர் மத்திய தேர்தல் ஆணையம்;
2996,translate English to Tamil,“சுதந்திரம் பெற்ற பிறகு ஏராளமானவை நிறைவேற்றப்ப...,சுதந்திரத்திற்குப் பிறகு பல சாதனைகள் ஏற்பட்டுள...
2997,translate English to Tamil,"பொது மக்களின் பங்களிப்பு, தகவல் ஓட்டத்தின் முற...",ஜன் பாகிதாரி உள்ளிட்ட நல்ல நிர்வாகத்தின் சில அ...
2998,translate English to Tamil,"ஊரக சுயாட்சி திட்டம், வளமான பாரதம் போன்ற சமீபத...","கிராம சுயாட்சி இயக்கம், ஆயுஷ்மான் பாரத் போன்ற ..."
2999,translate English to Tamil,இந்தியாவின் 130 லட்சம் மக்கள் சார்பில் உங்கள் ...,இந்தியாவின் மூன்று பில்லியன் மக்களின் சார்பில்...


In [24]:
# Create an instance of the test set with all test translations
bart_test = TranslationEvalDataset(final_test, device, tokenizer, model)

In [25]:
# Create an instance of the test data loader
bart_test_loader = DataLoader(bart_test, batch_size=16)

In [26]:
# Track the language_tasks and sentences  being evaluated
y_language_task = final_test.language_task.tolist()
y_sent1 = final_test.sentence_1.tolist()
y_sent2 = final_test.sentence_2.tolist()
probability_of_paraphrase = []

with torch.no_grad():

  # Place the model into evaluation mode
    net.eval()

    # Loop over the test set
    for i, data in enumerate(bart_test_loader, 0):

      # Extract the test set components
      sent1_test, sent2_test, task_test = data

      # Send the test data to GPU
      sent1_test, sent2_test = sent1_test.to(device), sent2_test.to(device)

      # Get the test set predictions
      test_pred = net(sent1_test, sent2_test)
            
      # Get the predicted test labels
      y_test_pred = torch.sigmoid(test_pred).float()

      # Add the test labels to their respective list
      probability_of_paraphrase.extend(y_test_pred)

In [27]:
# Create a dataframe of the tasks, sentences, and probabilities of the second sentence (the translated one) being a paraphrase
y_probs = [x.item() for x in probability_of_paraphrase]
bart_performance = pd.DataFrame(list(zip(y_language_task, y_sent1, y_sent2, y_probs)),columns =['language_task', 'target_sentence', 'bart_translation', 'probability_of_paraphrase'])

In [28]:
# Check the first few rows
bart_performance.head()

Unnamed: 0,language_task,target_sentence,bart_translation,probability_of_paraphrase
0,translate English to Hindi,प्रधानमंत्री ने कहा कि बाबा साहेब अम्बेडकर की ...,Prime Minister said Babasaheb Ambedkar has a k...,0.144907
1,translate English to Hindi,इस समारोह को आज बीजापुर में आयोजित करने के महत...,आज बीजापुर में इस समारोह को आयोजित करने के महत...,0.987809
2,translate English to Hindi,उन्होंने कहा कि इस कार्य को 2022 तक पूरा कर ले...,उन्होंने कहा कि लक्ष्य 2022 तक इस कार्य को पूर...,0.988323
3,translate English to Hindi,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...,0.98939
4,translate English to Hindi,"उन्होंने इस संदर्भ में जन धन खाता खोलने, गरीबो...","इस संदर्भ में उन्होंने जनधन खाते खोलने, गरीबों...",0.984433


In [29]:
# Sort the dataframe in order of lowest predicted probability and see where BART returns the lowest scores
# The lowest quality translations, as measured by paraphrase score, are those of Malayalam and Tamil
bart_performance.sort_values("probability_of_paraphrase")

Unnamed: 0,language_task,target_sentence,bart_translation,probability_of_paraphrase
2075,translate English to Tamil,"தொடர் ஓட்டத்தில், போட்டியில் வெற்றிபெற வேண்டும...",ஓய்வூதியப் போட்டிகளில் ஒரு விளையாட்டு வீரரிடம்...,0.007764
2670,translate English to Tamil,"அரசியல் களத்தைத் தவிர, தமிழ்த்திரைப்பட உலகில் ...","அரசியல் வாழ்க்கையும், தொழில் வாழ்க்கையும் தவிர...",0.009096
2433,translate English to Tamil,அனைவருடன் இணைந்து அனைவருக்கும் மேம்பாடு என்பதை...,"Sabka Saath, Sabka Vikas, Ek Bharat Shresht Bh...",0.010090
2644,translate English to Tamil,வேதத்தின் சூத்திரங்களை இயற்றியதில் பல கற்ற பெண...,வேதங்களின் வசனங்களை எழுதுவதில் இந்தியாவின் பல ...,0.010973
1717,translate English to Malayalam,പി എം ജെ എ വൈയുടെ ഭാഗമായ സംസ്ഥാനങ്ങളിലെ ജനങ്ങൾ...,"PMJAY-ന്റെ ഭാഗമായ രാജ്യങ്ങള് ക്ക്, ഈ പദ്ധതിയുട...",0.010984
...,...,...,...,...
538,translate English to Hindi,भारत ने यह भी पाया है कि गरीबी और भ्रष्टाचार स...,भारत ने यह भी पाया है कि प्रौद्योगिकी और डिजिट...,0.991489
507,translate English to Hindi,उन्होंने कहा कि संविधान की पवित्रता को कायम रख...,उन्होंने कहा कि सभी राज्यपाल संविधान की पवित्र...,0.991533
10,translate English to Hindi,प्रधानमंत्री ने कहा कि आज आम नागरिक भ्रष्टाचार...,प्रधानमंत्री ने कहा कि सामान्य नागरिक आज भ्रष्...,0.991626
488,translate English to Hindi,उन्होंने कहा कि कई भारतीयों ने भी युगांडा की र...,उन्होंने कहा कि कई भारतीयों ने युगांडा की राजन...,0.991700


In [30]:
# Check the number of rows with a predicted probability <0.5 (meaning that they would be assigned a label of 0 - not a paraphrase)
len(bart_performance[bart_performance.probability_of_paraphrase < 0.5])

1398

In [31]:
# Check the number of translations of each language where the translation is not counted as a paraphrase
hi_errors = len(bart_performance[(bart_performance.probability_of_paraphrase < 0.5) & (bart_performance.language_task == 'translate English to Hindi')])
ml_errors = len(bart_performance[(bart_performance.probability_of_paraphrase < 0.5) & (bart_performance.language_task == 'translate English to Malayalam')])
ta_errors = len(bart_performance[(bart_performance.probability_of_paraphrase < 0.5) & (bart_performance.language_task == 'translate English to Tamil')])
print(hi_errors)
print(ml_errors)
print(ta_errors)

60
742
596


In [32]:
# The comparatively high error rate for Malayalam and Tamil reflect their comparatively lower Sacre Bleu scores
hi_error_rate = (hi_errors/1000)
ml_error_rate = (ml_errors/1000)
ta_error_rate = (ta_errors/1000)

In [33]:
# Hindi performs very well
print("{0:.2%}".format(hi_error_rate))

6.00%


In [34]:
# Malayalam error rate
print("{0:.2%}".format(ml_error_rate))

74.20%


In [35]:
# The Tamil error rate is high, but not as high as Malayalam
print("{0:.2%}".format(ta_error_rate))

59.60%


In [36]:
# Get the sentence embeddings for a pair of "dissimilar sentences"
sent1_embed = sentence_embeddings(device, tokenizer, model, bart_performance['target_sentence'][2075])
sent2_embed = sentence_embeddings(device, tokenizer, model, bart_performance['bart_translation'][2075])

In [37]:
# Find the cosine similarity score between these pair of "dissimilar sentences"
cosine_similarity_value = F.cosine_similarity(sent1_embed.squeeze(0), sent2_embed.squeeze(0), dim=0)

print(cosine_similarity_value)

tensor(0.5577, device='cuda:0')


In [38]:
# Try for another pair of sentences, this time, for those with a high similarity score
sent3_embed = sentence_embeddings(device, tokenizer, model, bart_performance['target_sentence'][423])
sent3_embed = sentence_embeddings(device, tokenizer, model, bart_performance['bart_translation'][423])

In [39]:
# The sentences are the same
F.cosine_similarity(sent3_embed.squeeze(0), sent3_embed.squeeze(0), dim=0)

tensor(1., device='cuda:0')

In [40]:
# Get the sentence embeddings and cosine similarity scores between each pair of sentences in the dataset
# This is to check if low scoring sentences have exact similarity scores or if they are of low quality
def check_cosine_similarity(df, device, tokenizer, model):

  # Create an empty list to check cosine similarity scores
  cosine_scores = []

  for index, rows in df.iterrows():
    # Get the sentence embeddings of each pair of target sentences
    sent1_embed = sentence_embeddings(device, tokenizer, model, rows['target_sentence'])
    sent2_embed = sentence_embeddings(device, tokenizer, model, rows['bart_translation'])

    # Reshape the embeddings to be of a single dimension 
    # Get the cosine similarity between the two pairs of sentence embeddings
    cosine_similarity_value = F.cosine_similarity(sent1_embed.squeeze(0), sent2_embed.squeeze(0), dim=0)

    # Add the cosine similarity score to the list of scores
    cosine_scores.append(cosine_similarity_value.item())

  return cosine_scores

In [41]:
translation_scores = check_cosine_similarity(bart_performance, device, tokenizer, model)

In [42]:
# Add the translation similarity scores to the indictrans performance dataframe
bart_performance['cosine_similarity_scores'] = translation_scores

In [43]:
# Sentneces with low cosine similarity also have low probability of paraphrase
bart_performance.sort_values('cosine_similarity_scores')

Unnamed: 0,language_task,target_sentence,bart_translation,probability_of_paraphrase,cosine_similarity_scores
1434,translate English to Malayalam,സര്‍വ്വേ നടത്തപ്പെട്ടവരില്‍ ശരാശരി 70 ശതമാനം പ...,survey survey survey survey survey survey surv...,0.044486,0.198134
1218,translate English to Malayalam,സ്വച്ഛ് ഭാരത് പദ്ധതിക്കായി പ്രധാനമന്ത്രി നടത്ത...,delegation members also praised the Prime Mini...,0.051736,0.349155
1449,translate English to Malayalam,ഇതുപോലെ ഇത് ലോകത്തിലെ എല്ലാ രാജ്യങ്ങളിലും ആഘോഷ...,Guru Nanak Dev Ji's 550th Prakash Parv similar...,0.055464,0.354075
2992,translate English to Tamil,இறந்தவர்கள் குடும்பத்தினருக்கு எனது இரங்கலை தெ...,எனது thoughts are with the bereaved families.,0.337747,0.382268
1501,translate English to Malayalam,ചടങ്ങിനെത്തിയവരെ അഭിസംബോധന ചെയ്യവേ കഴിഞ്ഞ നാലു...,"shrouding the gathering, the Prime Minister re...",0.044081,0.414973
...,...,...,...,...,...
2090,translate English to Tamil,பாதுகாப்பு மற்றும் இணைய பாதுகாப்பு,பாதுகாப்பு மற்றும் இணைய பாதுகாப்பு,0.985341,1.000000
118,translate English to Hindi,यह एक ऐतिहासिक उपलब्धि है।,यह एक ऐतिहासिक उपलब्धि है।,0.990184,1.000000
394,translate English to Hindi,हमारे प्रमुख राष्ट्रीय प्रतीकों ने बौद्ध धर्म ...,हमारे प्रमुख राष्ट्रीय प्रतीकों ने बौद्ध धर्म ...,0.989735,1.000000
2687,translate English to Tamil,"எனதருமை நாட்டுமக்களே, வணக்கம்.","எனதருமை நாட்டுமக்களே, வணக்கம்.",0.981904,1.000000


In [44]:
# High similarity scores have a high probability of paraphrase
bart_performance.sort_values('cosine_similarity_scores', ascending=False)

Unnamed: 0,language_task,target_sentence,bart_translation,probability_of_paraphrase,cosine_similarity_scores
2090,translate English to Tamil,பாதுகாப்பு மற்றும் இணைய பாதுகாப்பு,பாதுகாப்பு மற்றும் இணைய பாதுகாப்பு,0.985341,1.000000
90,translate English to Hindi,रक्षा और साइबर सुरक्षा,रक्षा और साइबर सुरक्षा,0.985603,1.000000
2687,translate English to Tamil,"எனதருமை நாட்டுமக்களே, வணக்கம்.","எனதருமை நாட்டுமக்களே, வணக்கம்.",0.981904,1.000000
118,translate English to Hindi,यह एक ऐतिहासिक उपलब्धि है।,यह एक ऐतिहासिक उपलब्धि है।,0.990184,1.000000
2272,translate English to Tamil,மூன்று தேசிய நெடுஞ்சாலை திட்டங்களுக்கு அவர் அட...,மூன்று தேசிய நெடுஞ்சாலை திட்டங்களுக்கு அவர் அட...,0.973190,1.000000
...,...,...,...,...,...
1501,translate English to Malayalam,ചടങ്ങിനെത്തിയവരെ അഭിസംബോധന ചെയ്യവേ കഴിഞ്ഞ നാലു...,"shrouding the gathering, the Prime Minister re...",0.044081,0.414973
2992,translate English to Tamil,இறந்தவர்கள் குடும்பத்தினருக்கு எனது இரங்கலை தெ...,எனது thoughts are with the bereaved families.,0.337747,0.382268
1449,translate English to Malayalam,ഇതുപോലെ ഇത് ലോകത്തിലെ എല്ലാ രാജ്യങ്ങളിലും ആഘോഷ...,Guru Nanak Dev Ji's 550th Prakash Parv similar...,0.055464,0.354075
1218,translate English to Malayalam,സ്വച്ഛ് ഭാരത് പദ്ധതിക്കായി പ്രധാനമന്ത്രി നടത്ത...,delegation members also praised the Prime Mini...,0.051736,0.349155


In [45]:
# Find the range in cosine similarity scores for sentences not considered paraphrases of each other
np = bart_performance[bart_performance.probability_of_paraphrase < 0.5].reset_index()
np.drop(columns={'index'}, inplace=True)

In [46]:
# Find the min and max of the cosine similarity scores
print(min(np.cosine_similarity_scores))
# There are some sentences labeled as not paraphrases of each other that have a high degree of cosine similarity
print(max(np.cosine_similarity_scores))

0.1981336921453476
0.9815018773078918


In [47]:
# Do the same for sentences considered paraphrases of each other
p = bart_performance[bart_performance.probability_of_paraphrase >= 0.5]
print(min(p.cosine_similarity_scores))
print(max(p.cosine_similarity_scores))

0.49828270077705383
1.0


In [48]:
# Look at the pair of sentences with the highest degree of cosine similarity
np[np['cosine_similarity_scores'] > 0.5]

Unnamed: 0,language_task,target_sentence,bart_translation,probability_of_paraphrase,cosine_similarity_scores
0,translate English to Hindi,प्रधानमंत्री ने कहा कि बाबा साहेब अम्बेडकर की ...,Prime Minister said Babasaheb Ambedkar has a k...,0.144907,0.770237
1,translate English to Hindi,प्रधानमंत्री ने कहा कि रेल कोच मरम्‍मत कारखाना...,Prime Minister said that Rail Coach Refurbishi...,0.207971,0.773225
2,translate English to Hindi,हर बार यह बातचीत लगभग दो घंटे तक चली।,प्रत्येक आदान-प्रदान लगभग दो घंटे तक हुआ।,0.228767,0.804210
3,translate English to Hindi,पृष्ठ भूमिः,पृष्ठभूमिः,0.138562,0.638530
4,translate English to Hindi,प्रधानमंत्री ने कहा कि भारत सरकार जलमार्गों की...,Prime Minister said that the Government of Ind...,0.423987,0.787075
...,...,...,...,...,...
1393,translate English to Tamil,“20 ஓவர் கிரிக்கெட் உலகக் கோப்பையை இந்தியா வென...,“குருடனும் பார்வையற்றவர்களுக்கான T20 உலகக் கோப...,0.113124,0.915111
1394,translate English to Tamil,“சுதந்திரம் பெற்ற பிறகு ஏராளமானவை நிறைவேற்றப்ப...,சுதந்திரத்திற்குப் பிறகு பல சாதனைகள் ஏற்பட்டுள...,0.076980,0.878720
1395,translate English to Tamil,"பொது மக்களின் பங்களிப்பு, தகவல் ஓட்டத்தின் முற...",ஜன் பாகிதாரி உள்ளிட்ட நல்ல நிர்வாகத்தின் சில அ...,0.037043,0.932954
1396,translate English to Tamil,"ஊரக சுயாட்சி திட்டம், வளமான பாரதம் போன்ற சமீபத...","கிராம சுயாட்சி இயக்கம், ஆயுஷ்மான் பாரத் போன்ற ...",0.051694,0.942588


In [49]:
np.sort_values('probability_of_paraphrase', ascending=False)

Unnamed: 0,language_task,target_sentence,bart_translation,probability_of_paraphrase,cosine_similarity_scores
148,translate English to Malayalam,"ഇത് കേവലം നികുതി പരിഷ്‌കരണം മാത്രമല്ല, ഒരു പുത...",ഇത് വെറും നികുതി சீர்திருத்தമല്ല; ഇത് പുതിയ ഒര...,0.499382,0.941580
927,translate English to Tamil,"உள்ளடக்குதல், அதிகாரப்பகிர்வு, மக்களை மையமாகக்...","உள்ளடக்கிய, அதிகாரத்துவம் இல்லாத, மக்கள் மையம்...",0.498141,0.968464
1374,translate English to Tamil,"நமது நட்புறவு என்பது ஜனநாயக மாண்புகளையும், வெள...",நமது ஒத்துழைப்பு ஜனநாயக மதிப்புகள் மற்றும் திற...,0.497103,0.936477
115,translate English to Malayalam,"ദേശീയ നിക്ഷേപ, അടിസ്ഥാനസൗകര്യ ഫണ്ടിലേക്ക് നോര്...","பிரதமர் மோடி നോര് ച്ച് പെന് ഷന് ഫണ്ടുകള്, നാഷണ...",0.496183,0.863338
418,translate English to Malayalam,2015ല്‍ ന്യൂഡെല്‍ഹിയില്‍ നടന്ന ഇന്ത്യ-ആഫ്രിക്ക...,"ഈ bağlamda, 2015 ൽ ന്യൂ ഡല് ഹിയിൽ நடைபெற்ற ഇന്...",0.493394,0.873000
...,...,...,...,...,...
595,translate English to Malayalam,പി എം ജെ എ വൈയുടെ ഭാഗമായ സംസ്ഥാനങ്ങളിലെ ജനങ്ങൾ...,"PMJAY-ന്റെ ഭാഗമായ രാജ്യങ്ങള് ക്ക്, ഈ പദ്ധതിയുട...",0.010984,0.780185
1191,translate English to Tamil,வேதத்தின் சூத்திரங்களை இயற்றியதில் பல கற்ற பெண...,வேதங்களின் வசனங்களை எழுதுவதில் இந்தியாவின் பல ...,0.010973,0.880383
1067,translate English to Tamil,அனைவருடன் இணைந்து அனைவருக்கும் மேம்பாடு என்பதை...,"Sabka Saath, Sabka Vikas, Ek Bharat Shresht Bh...",0.010090,0.658920
1210,translate English to Tamil,"அரசியல் களத்தைத் தவிர, தமிழ்த்திரைப்பட உலகில் ...","அரசியல் வாழ்க்கையும், தொழில் வாழ்க்கையும் தவிர...",0.009096,0.908009


In [50]:
# Get the target sentence of the pair with maximum cosine similarity (that are considered not a paraphrase)
np.loc[np.cosine_similarity_scores == max(np.cosine_similarity_scores), 'target_sentence'].iloc[0]

'வாரணாசியில் அமைக்கப்பட்டுள்ள சர்வதேச அரிசி ஆராய்ச்சி நிலையம் பற்றி சுட்டிக்காட்டிய பிரதமர், தொழில்நுட்பத்தைப் பயன்படுத்தி, வேளாண் துறையை அதிக லாபம் உள்ள தொழிலாக மாற்ற, அரசு மேற்கொண்ட முயற்சிகளின் பலனாகவே இந்த மையம் ஏற்படுத்தப்பட்டுள்ளது என்றார்.'

In [51]:
# Get the translation sentence of the pair with maximum cosine similarity (that are considered not a paraphrase)
np.loc[np.cosine_similarity_scores == max(np.cosine_similarity_scores), 'bart_translation'].iloc[0]

'வாரணாசியில் உள்ள சர்வதேச அரிசி ஆராய்ச்சி மையத்தை சுட்டிக்காட்டிய அவர், தொழில்நுட்பத்தை பயன்படுத்தி விவசாயத்தை அதிக அளவில் இலாபகரமாக ஆக்குவதற்கான நமது முயற்சிகளின் விளைவாகவே இந்த மையம் அமைந்துள்ளது என்றார்.'

In [52]:
# The English translation of the target sentence with the maximum cosine similarity score - using Google translate to translate to English
english_np_target = 'Referring to the International Rice Research Station in Varanasi, the Prime Minister said the center was set up as a result of the government\'s efforts to transform agriculture into a more lucrative industry using technology.'
english_np_translation = 'Pointing to the International Rice Research Center in Varanasi, he said the center was the result of our efforts to make agriculture more profitable using technology.'
# The target language was Tamil, which has the highest model error rate. However, as we can see below, the translation is missing key context - this would be a correct label (NP)
print(english_np_target)
print(english_np_translation)

Referring to the International Rice Research Station in Varanasi, the Prime Minister said the center was set up as a result of the government's efforts to transform agriculture into a more lucrative industry using technology.
Pointing to the International Rice Research Center in Varanasi, he said the center was the result of our efforts to make agriculture more profitable using technology.


In [53]:
# Let's look at the sentence pair with the lowest cosine similarity in the paraphrase dataset
print(p.loc[p.cosine_similarity_scores == min(p.cosine_similarity_scores), 'target_sentence'].iloc[0])
print(p.loc[p.cosine_similarity_scores == min(p.cosine_similarity_scores), 'bart_translation'].iloc[0])

നിങ്ങള്‍ക്ക് എല്ലാവര്‍ക്കും നന്ദി.
വളരെ നന്ദി.


In [54]:
# The sentence meanings are similar
back_trans_target = 'Thank you all.'
back_trans_translation = 'thank you so much.'

In [55]:
# Write the bart performance file to a csv 
bart_performance.to_csv(D+"/predicted_text/siamese_evaluations_of_translations/bart_siamese_paraphrase_eval_v2.csv")