In [1]:
!pip install transformers -q
!pip install sentencepiece -q

[K     |████████████████████████████████| 3.1 MB 7.5 MB/s 
[K     |████████████████████████████████| 59 kB 4.9 MB/s 
[K     |████████████████████████████████| 596 kB 58.1 MB/s 
[K     |████████████████████████████████| 3.3 MB 39.7 MB/s 
[K     |████████████████████████████████| 895 kB 53.2 MB/s 
[K     |████████████████████████████████| 1.2 MB 7.7 MB/s 
[?25h

In [2]:
# Mount Google drive to upload datasets
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# The path to the data on my drive
D = '/content/drive/My Drive/W266_Project_Data/pmi_data'

In [4]:
import pandas as pd
import csv
from transformers import AutoTokenizer, AutoModel
import torch
from torch.utils.data import Dataset, DataLoader
import torch.nn.functional as F

In [5]:
# Load the gold-standard target translation datasets
hi_target = pd.read_csv(D+"/predicted_text/MBart/dev.hi", sep = "\t", quoting=csv.QUOTE_NONE, names=["sentence_1"])
ml_target = pd.read_csv(D+"/predicted_text/MBart/dev.ml", sep = "\t", quoting=csv.QUOTE_NONE, names=["sentence_1"])
ta_target = pd.read_csv(D+"/predicted_text/MBart/dev.ta", sep = "\t", quoting=csv.QUOTE_NONE, names=["sentence_1"])

In [6]:
print(len(hi_target))
print(len(ml_target))
print(len(ta_target))

1000
1000
1000


In [7]:
hi_target.head()

Unnamed: 0,sentence_1
0,प्रधानमंत्री ने कहा कि बाबा साहेब अम्बेडकर की ...
1,इस समारोह को आज बीजापुर में आयोजित करने के महत...
2,उन्होंने कहा कि इस कार्य को 2022 तक पूरा कर ले...
3,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...
4,"उन्होंने इस संदर्भ में जन धन खाता खोलने, गरीबो..."


In [8]:
# Load the IndicTrans translated files into their respective language datasets
hi_indictrans = pd.read_csv(D+"/predicted_text/IndicTrans/dev/indic_trans_hi_dev.csv")
hi_indictrans.drop(columns={'Unnamed: 0'}, inplace=True)
hi_indictrans.rename({'0': 'sentence_2'}, axis=1, inplace=True)
ml_indictrans = pd.read_csv(D+"/predicted_text/IndicTrans/dev/indic_trans_ml_dev.csv")
ml_indictrans.drop(columns={'Unnamed: 0'}, inplace=True)
ml_indictrans.rename({'0': 'sentence_2'}, axis=1, inplace=True)
ta_indictrans = pd.read_csv(D+"/predicted_text/IndicTrans/dev/indic_trans_ta_dev.csv")
ta_indictrans.drop(columns={'Unnamed: 0'}, inplace=True)
ta_indictrans.rename({'0': 'sentence_2'}, axis=1, inplace=True)

In [9]:
hi_indictrans

Unnamed: 0,sentence_2
0,प्रधानमंत्री ने कहा कि करोड़ों लोगों के दिलों ...
1,आज बीजापुर में इस कार्यक्रम के आयोजन के महत्व ...
2,उन्होंने कहा कि इस कार्य को 2022 तक पूरा करने ...
3,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...
4,"इस संदर्भ में उन्होंने जन धन खाते खोलने, गरीबो..."
...,...
995,म्यांमार के संघ निर्वाचन आयोग और
996,प्रधानमंत्री ने कहा कि आजादी के बाद से बहुत कु...
997,"उन्होंने उनके साथ जन भागीदारी, सूचना प्रवाह, स..."
998,हाल ही में ग्राम स्वराज अभियान और आयुष्मान भार...


In [10]:
print(len(hi_indictrans))
print(len(ml_indictrans))
print(len(ta_indictrans))

1000
1000
1000


In [11]:
# Create Hindi IndicTrans test set
hi_indictrans_test = pd.concat([hi_target['sentence_1'], hi_indictrans['sentence_2']], axis=1, keys=['sentence_1', 'sentence_2'])
hi_indictrans_test.insert(0, 'language_task', 'translate English to Hindi')
hi_indictrans_test.head()

Unnamed: 0,language_task,sentence_1,sentence_2
0,translate English to Hindi,प्रधानमंत्री ने कहा कि बाबा साहेब अम्बेडकर की ...,प्रधानमंत्री ने कहा कि करोड़ों लोगों के दिलों ...
1,translate English to Hindi,इस समारोह को आज बीजापुर में आयोजित करने के महत...,आज बीजापुर में इस कार्यक्रम के आयोजन के महत्व ...
2,translate English to Hindi,उन्होंने कहा कि इस कार्य को 2022 तक पूरा कर ले...,उन्होंने कहा कि इस कार्य को 2022 तक पूरा करने ...
3,translate English to Hindi,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...
4,translate English to Hindi,"उन्होंने इस संदर्भ में जन धन खाता खोलने, गरीबो...","इस संदर्भ में उन्होंने जन धन खाते खोलने, गरीबो..."


In [12]:
# Create Malayalam IndicTrans test set
ml_indictrans_test = pd.concat([ml_target['sentence_1'], ml_indictrans['sentence_2']], axis=1, keys=['sentence_1', 'sentence_2'])
ml_indictrans_test.insert(0, 'language_task', 'translate English to Malayalam')

In [13]:
# View first few rows of Malayalam IndicTrans test set
ml_indictrans_test.head()

Unnamed: 0,language_task,sentence_1,sentence_2
0,translate English to Malayalam,കോടിക്കണക്കിന് ജനങ്ങളുടെ മനസില്‍ അഭിലാഷങ്ങള്‍ ...,കോടിക്കണക്കിന് ജനങ്ങളുടെ മനസ്സിലും ഹൃദയത്തിലും...
1,translate English to Malayalam,രാജ്യത്തിന്റെ വികസയാത്രയില്‍ പിന്നോക്കം വിട്ടു...,ബിജാപ്പൂരിൽ ഇന്ന് ഈ പരിപാടി സംഘടിപ്പിക്കുന്നതി...
2,translate English to Malayalam,2022 ഓടെ ഈ ലക്ഷ്യം പൂര്‍ത്തീകരിക്കുകയാണ് ലക്ഷ്...,2022 ഓടെ ഈ ദൌത്യം പൂർത്തിയാക്കുകയാണ് ലക്ഷ്യമെന...
3,translate English to Malayalam,സമയബന്ധിതമായും കൃത്യമായ ലക്ഷ്യങ്ങളോടുംകൂടി ഗവണ...,വ്യക്തമായ ലക്ഷ്യത്തോടെയും സമയക്രമത്തോടെയുമാണ് ...
4,translate English to Malayalam,ജന്‍ ധന്‍ അക്കൗണ്ടുകള്‍ തുറക്കുന്നതിലും ദരിദ്ര...,"ജൻധൻ അക്കൌണ്ടുകൾ തുറക്കൽ, പാവപ്പെട്ടവരുടെ ഇൻഷു..."


In [14]:
# Load the first few rows of the Tamil Bart test set
ta_indictrans_test = pd.concat([ta_target['sentence_1'], ta_indictrans['sentence_2']], axis=1, keys=['sentence_1', 'sentence_2'])
ta_indictrans_test.insert(0, 'language_task', 'translate English to Tamil')

In [15]:
# View the first few rows of the Tamil translation
ta_indictrans_test.head()

Unnamed: 0,language_task,sentence_1,sentence_2
0,translate English to Tamil,கோடிக்கணக்கான மக்களின் மனங்களிலும் மற்றும் இதய...,கோடிக்கணக்கான மக்களின் மனதிலும் இதயத்திலும் வி...
1,translate English to Tamil,பீஜப்பூர் பகுதியில் இந்த நிகழ்ச்சியை நடத்துவதன...,பீஜப்பூரில் இன்று இந்த நிகழ்ச்சியை நடத்துவதன் ...
2,translate English to Tamil,இந்தப் பணியை 2022-ம் ஆண்டுக்குள் நிறைவேற்றுவதே...,இந்தப் பணியை 2022-க்குள் முடிக்க இலக்கு நிர்ணய...
3,translate English to Tamil,மத்திய அரசு பல்வேறு திட்டங்கைளை தெளிவான இலக்கு...,தெளிவான இலக்குகள் மற்றும் காலக்கெடுவுடன் பல்வே...
4,translate English to Tamil,"இது தொடர்பாக ஜன் தன் கணக்குகள், ஏழை மக்களுக்கா...","இந்த சூழலில், ஜன் தன் கணக்குகளைத் தொடங்குதல், ..."


In [17]:
class SiameseNet(torch.nn.Module):
    def __init__(self):
      super(SiameseNet, self).__init__()

      # Set up a fully-connected layer to apply to each incoming sentence vector
      # Use a dense layer (nn.Linear) to reduce the dimensionality of the input embeddings
      # use a relu activation function
      # Randomly drop out
      # Set 1 as the dimensionality of the final output since we want to predict the logits corresponding to a binary label
      # Initialize the feed forward layer
      self.fc = torch.nn.Sequential(
            torch.nn.Linear(768, 128),
            torch.nn.LayerNorm(128),
            torch.nn.ReLU(inplace=True))
      
      self.relu = torch.nn.ReLU(inplace=True)
      self.batch2 = torch.nn.LayerNorm(384)
      self.ffn = torch.nn.Linear(384, 128)
      self.batch3 = torch.nn.LayerNorm(128)
      self.layer_out = torch.nn.Linear(128,1)

      # Add drop out
      self.drop = torch.nn.Dropout(0.2)

    # left and right represent columns in our data
    def forward(self, left, right):

      # Get the sentence embeddings 
      u = left
      v = right

      # Reduce the dimensionality
      u = self.fc(u)
      v = self.fc(v)

      # Get the absolute value of the difference of the vectors
      uv = torch.sub(u, v)
      uv_abs = torch.abs(uv)

      # concatenate u, v, and the absolute value of the element-wise difference between the embeddings
      x = torch.cat([u, v, uv_abs], dim=-1)

      # Normalize the concatenated batch
      x = self.batch2(x)

      # Use the relu activation function
      x = self.relu(x)

      # Pass the concatenated layers through a dense layer to reduce the dimensionality from 2304 to 128
      x = self.ffn(x)
      # Normalize the concatenated layers
      x = self.batch3(x)
      # Pass through relu activation
      x = self.relu(x)
      # Implement drop out to avoid overfitting
      x = self.drop(x)
      # Pass the output through a final dense layer
      output = self.layer_out(x)
      # Reshape the output to have the same dimension as the target labels
      output = output[:,-1,:]

      # Concatenate the 
      return output

In [18]:
# Set up the device to run on GPU if available
device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')

In [19]:
# Create an instance of the tokenizer and model using Indic Bert
tokenizer = AutoTokenizer.from_pretrained('ai4bharat/indic-bert', keep_accents=True)
model = AutoModel.from_pretrained('ai4bharat/indic-bert')

Downloading:   0%|          | 0.00/507 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/5.38M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/129M [00:00<?, ?B/s]

Some weights of the model checkpoint at ai4bharat/indic-bert were not used when initializing AlbertModel: ['predictions.dense.weight', 'predictions.decoder.bias', 'sop_classifier.classifier.bias', 'predictions.bias', 'sop_classifier.classifier.weight', 'predictions.dense.bias', 'predictions.decoder.weight', 'predictions.LayerNorm.bias', 'predictions.LayerNorm.weight']
- This IS expected if you are initializing AlbertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing AlbertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [20]:
# Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    sum_embeddings = torch.sum(token_embeddings * input_mask_expanded, 1)
    sum_mask = torch.clamp(input_mask_expanded.sum(1), min=1e-9)
    return sum_embeddings / sum_mask

def sentence_embeddings(device, tokenizer, model, sentences):
  """Create contextualized sentence embeddings
  
  Parameters:
  tokenizer: transformers tokenizer for creating word tokens
  model:
  sentences: sentences to generate sentence embeddings for
  """

  # Tokenize sentences and return PyTorch tensors
  encoded_input = tokenizer(sentences, padding=True, truncation=True, 
                            max_length=128, return_tensors='pt')
  encoded_input = encoded_input.to(device)
  
  # Pass the tokenized input to the model 
  with torch.no_grad():
    model.to(device)
    model_output = model(**encoded_input) 
  
  # Perform mean pooling to get total sentence embeddings
  sentence_embeddings = mean_pooling(model_output, 
                                     encoded_input['attention_mask'])
  
  return sentence_embeddings

In [21]:
# Load the Siamese Neural Net from the pre-trained weights
net = SiameseNet().to(device)
# Load the weights and biases from the last round of training
net.load_state_dict(torch.load("/content/drive/My Drive/W266_Project_Data/models/siamese_model/siamese_models_used/three_dense_w_punjabi_model_layernorm.pt"))

<All keys matched successfully>

In [22]:
# Create a dataset class, similarly to the one used for training the Siamese Neural Network dataset - the difference is that it won't create labels
class TranslationEvalDataset(Dataset): 
  def __init__(self,training_df, device, tokenizer, model):
    self.training_df=training_df
    self.sent1 = self.training_df['sentence_1'].tolist()
    self.sent2 = self.training_df['sentence_2'].tolist()
    self.language_task = self.training_df['language_task'].tolist()
    self.device = device
    self.tokenizer = tokenizer
    self.model = model

  def __getitem__(self, index):
    sent1 = self.sent1[index]
    sent2 = self.sent2[index]
    task = self.language_task[index]

    # Get the sentence embeddings for sentences 1 and 2 for each row
    sent1_embeddings = sentence_embeddings(self.device, self.tokenizer, self.model, sent1)
    sent2_embeddings = sentence_embeddings(self.device, self.tokenizer, self.model, sent2)
    return sent1_embeddings, sent2_embeddings, task

  def __len__(self):
    return len(self.training_df)

In [23]:
# Concatenate all of the bart test sets into one test set
final_test = pd.concat([hi_indictrans_test, ml_indictrans_test, ta_indictrans_test]).reset_index()
final_test.drop(columns={'index'}, inplace=True)

In [24]:
final_test[1000:2000]

Unnamed: 0,language_task,sentence_1,sentence_2
1000,translate English to Malayalam,കോടിക്കണക്കിന് ജനങ്ങളുടെ മനസില്‍ അഭിലാഷങ്ങള്‍ ...,കോടിക്കണക്കിന് ജനങ്ങളുടെ മനസ്സിലും ഹൃദയത്തിലും...
1001,translate English to Malayalam,രാജ്യത്തിന്റെ വികസയാത്രയില്‍ പിന്നോക്കം വിട്ടു...,ബിജാപ്പൂരിൽ ഇന്ന് ഈ പരിപാടി സംഘടിപ്പിക്കുന്നതി...
1002,translate English to Malayalam,2022 ഓടെ ഈ ലക്ഷ്യം പൂര്‍ത്തീകരിക്കുകയാണ് ലക്ഷ്...,2022 ഓടെ ഈ ദൌത്യം പൂർത്തിയാക്കുകയാണ് ലക്ഷ്യമെന...
1003,translate English to Malayalam,സമയബന്ധിതമായും കൃത്യമായ ലക്ഷ്യങ്ങളോടുംകൂടി ഗവണ...,വ്യക്തമായ ലക്ഷ്യത്തോടെയും സമയക്രമത്തോടെയുമാണ് ...
1004,translate English to Malayalam,ജന്‍ ധന്‍ അക്കൗണ്ടുകള്‍ തുറക്കുന്നതിലും ദരിദ്ര...,"ജൻധൻ അക്കൌണ്ടുകൾ തുറക്കൽ, പാവപ്പെട്ടവരുടെ ഇൻഷു..."
...,...,...,...
1995,translate English to Malayalam,മ്യാന്‍മാറിലെ യൂണിയന്‍ തിരഞ്ഞെടുപ്പ് കമ്മിഷന്‍ 7.,മ്യാൻമർ യൂണിയൻ ഇലക്ഷൻ കമ്മീഷൻ
1996,translate English to Malayalam,സ്വാതന്ത്ര്യാനന്തരം പല നേട്ടങ്ങളും ഉണ്ടാക്കാന്...,സ്വാതന്ത്ര്യം ലഭിച്ചതിനുശേഷം നിരവധി നേട്ടങ്ങൾ ...
1997,translate English to Malayalam,"ജന്‍ ഭാഗീദാരി, വിവരം പങ്കിടല്‍, വിഭവങ്ങള്‍ പരമ...","ജനപങ്കാളിത്തം, വിവരപ്രവാഹം, വിഭവങ്ങളുടെ പരമാവധ..."
1998,translate English to Malayalam,"ഗ്രാമ സ്വരാജ് അഭിയാന്‍, ആയുഷ്മാന്‍ ഭാരത് തുടങ്...","ഗ്രാമ സ്വരാജ് അഭിയാൻ, ആയുഷ്മാൻ ഭാരത് തുടങ്ങിയ ..."


In [25]:
final_test.head()

Unnamed: 0,language_task,sentence_1,sentence_2
0,translate English to Hindi,प्रधानमंत्री ने कहा कि बाबा साहेब अम्बेडकर की ...,प्रधानमंत्री ने कहा कि करोड़ों लोगों के दिलों ...
1,translate English to Hindi,इस समारोह को आज बीजापुर में आयोजित करने के महत...,आज बीजापुर में इस कार्यक्रम के आयोजन के महत्व ...
2,translate English to Hindi,उन्होंने कहा कि इस कार्य को 2022 तक पूरा कर ले...,उन्होंने कहा कि इस कार्य को 2022 तक पूरा करने ...
3,translate English to Hindi,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...
4,translate English to Hindi,"उन्होंने इस संदर्भ में जन धन खाता खोलने, गरीबो...","इस संदर्भ में उन्होंने जन धन खाते खोलने, गरीबो..."


In [26]:
final_test.tail()

Unnamed: 0,language_task,sentence_1,sentence_2
2995,translate English to Tamil,6. மியான்மர் மத்திய தேர்தல் ஆணையம்,மியான்மர் ஒன்றிய தேர்தல் ஆணையம் மற்றும்
2996,translate English to Tamil,“சுதந்திரம் பெற்ற பிறகு ஏராளமானவை நிறைவேற்றப்ப...,நாடு சுதந்திரம் அடைந்ததிலிருந்து பல சாதனைகள் ப...
2997,translate English to Tamil,"பொது மக்களின் பங்களிப்பு, தகவல் ஓட்டத்தின் முற...","மக்கள் பங்கேற்பு, தகவல் பரிமாற்றம், ஆதாரங்களை ..."
2998,translate English to Tamil,"ஊரக சுயாட்சி திட்டம், வளமான பாரதம் போன்ற சமீபத...",அண்மையில் மேற்கொள்ளப்பட்ட கிராம சுயாட்சி இயக்க...
2999,translate English to Tamil,இந்தியாவின் 130 லட்சம் மக்கள் சார்பில் உங்கள் ...,இந்தியாவின் 130 கோடி மக்களின் சார்பாக உங்கள் அ...


In [27]:
# Create an instance of the test set with all test translations
indictrans_test = TranslationEvalDataset(final_test, device, tokenizer, model)

In [28]:
# Create an instance of the test data loader
indictrans_test_loader = DataLoader(indictrans_test, batch_size=16)

In [29]:
# Track the language_tasks and sentences  being evaluated
y_language_task = final_test.language_task.tolist()
y_sent1 = final_test.sentence_1.tolist()
y_sent2 = final_test.sentence_2.tolist()
probability_of_paraphrase = []

with torch.no_grad():

  # Place the model into evaluation mode
    net.eval()

    # Loop over the test set
    for i, data in enumerate(indictrans_test_loader, 0):

      # Extract the test set components
      sent1_test, sent2_test, task_test = data

      # Send the test data to GPU
      sent1_test, sent2_test = sent1_test.to(device), sent2_test.to(device)

      # Get the test set predictions
      test_pred = net(sent1_test, sent2_test)
            
      # Get the predicted test labels
      y_test_pred = torch.sigmoid(test_pred).float()

      # Add the test labels to their respective list
      probability_of_paraphrase.extend(y_test_pred)

In [30]:
# Create a dataframe of the tasks, sentences, and probabilities of the second sentence (the translated one) being a paraphrase
y_probs = [x.item() for x in probability_of_paraphrase]
indictrans_performance = pd.DataFrame(list(zip(y_language_task, y_sent1, y_sent2, y_probs)),columns =['language_task', 'target_sentence', 'indictrans_translation', 'probability_of_paraphrase'])

In [31]:
# Check the first few rows
indictrans_performance.head()

Unnamed: 0,language_task,target_sentence,indictrans_translation,probability_of_paraphrase
0,translate English to Hindi,प्रधानमंत्री ने कहा कि बाबा साहेब अम्बेडकर की ...,प्रधानमंत्री ने कहा कि करोड़ों लोगों के दिलों ...,0.967346
1,translate English to Hindi,इस समारोह को आज बीजापुर में आयोजित करने के महत...,आज बीजापुर में इस कार्यक्रम के आयोजन के महत्व ...,0.988033
2,translate English to Hindi,उन्होंने कहा कि इस कार्य को 2022 तक पूरा कर ले...,उन्होंने कहा कि इस कार्य को 2022 तक पूरा करने ...,0.989958
3,translate English to Hindi,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...,प्रधानमंत्री ने कहा कि सरकार स्पष्ट लक्ष्यों औ...,0.990475
4,translate English to Hindi,"उन्होंने इस संदर्भ में जन धन खाता खोलने, गरीबो...","इस संदर्भ में उन्होंने जन धन खाते खोलने, गरीबो...",0.986322


In [32]:
# Sort the dataframe in order of lowest predicted probability and see where IndicTrans returns the lowest scores
indictrans_performance.sort_values("probability_of_paraphrase")

Unnamed: 0,language_task,target_sentence,indictrans_translation,probability_of_paraphrase
2496,translate English to Tamil,ரஷ்யாவின் தீவிரவாத்திற்கு எதிரான பார்வையே எங்க...,ஜி20 அமைப்பிற்குள் நமது ஒருங்கிணைப்பை மேம்படுத...,0.009713
1437,translate English to Malayalam,സ്വേച്ഛയോടെ എന്തെങ്കിലും ചെയ്യണമെന്നുള്ള ഒരു വ...,മൻ കീ ബാത്തിന്റെ ഫലമായി നിസ്വാർത്ഥ സന്നദ്ധതയുട...,0.010609
2442,translate English to Tamil,"எதிர்பார்ப்புக்கு பதிலாக ஏற்பு, அகற்றுதலுக்கு ...","""வேலை நிறுத்தம் செய்வதற்குப் பதிலாக"" ""எதிர்பார...",0.011864
2652,translate English to Tamil,இதன் வாயிலாக மருந்துகள் மலிவுவிலையில் கிடைப்பத...,இது குறைந்த விலையில் மருந்துகள் கிடைப்பதற்கு வ...,0.011955
2311,translate English to Tamil,ஒவ்வொரு முறையும் உகாண்டாவுக்கு வரும்போது ஆப்பி...,"""நான் உகாண்டாவுக்கு வரும்போதெல்லாம்"" ""ஆப்பிரிக...",0.012681
...,...,...,...,...
490,translate English to Hindi,प्रधानमंत्री ने भारत की विदेश नीति में अफ्रीका...,प्रधानमंत्री ने भारत की विदेश नीति में अफ्रीका...,0.991463
428,translate English to Hindi,उन्होंने कहा कि शिरडी को हमेशा सार्वजनिक सेवा ...,उन्होंने कहा कि शिरडी को हमेशा सार्वजनिक सेवा ...,0.991586
824,translate English to Hindi,उन्होंने कहा कि एक मजबूत और प्रगतिशील पूर्वी भ...,उन्होंने कहा कि एक मजबूत और प्रगतिशील पूर्वी भ...,0.991677
10,translate English to Hindi,प्रधानमंत्री ने कहा कि आज आम नागरिक भ्रष्टाचार...,प्रधानमंत्री ने कहा कि आम नागरिक आज भ्रष्टाचार...,0.991737


In [33]:
# Check the number of rows with a predicted probability <0.5 (meaning that they would be assigned a label of 0 - not a paraphrase)
len(indictrans_performance[indictrans_performance.probability_of_paraphrase < 0.5])

1124

In [34]:
# Check the number of translations of each language where the translation is not counted as a paraphrase
hi_errors = len(indictrans_performance[(indictrans_performance.probability_of_paraphrase < 0.5) & (indictrans_performance.language_task == 'translate English to Hindi')])
ml_errors = len(indictrans_performance[(indictrans_performance.probability_of_paraphrase < 0.5) & (indictrans_performance.language_task == 'translate English to Malayalam')])
ta_errors = len(indictrans_performance[(indictrans_performance.probability_of_paraphrase < 0.5) & (indictrans_performance.language_task == 'translate English to Tamil')])
print(hi_errors)
print(ml_errors)
print(ta_errors)

64
546
514


In [35]:
# The comparatively high error rate for Malayalam and Tamil reflect their comparatively lower Sacre Bleu scores
hi_error_rate = (hi_errors/1000)
ml_error_rate = (ml_errors/1000)
ta_error_rate = (ta_errors/1000)

In [36]:
# Hindi performs fairly well
print("{0:.2%}".format(hi_error_rate))

6.40%


In [37]:
# Malayalam error rate is high
print("{0:.2%}".format(ml_error_rate))

54.60%


In [38]:
# The Tamil error rate is even higher than Malayalam
print("{0:.2%}".format(ta_error_rate))

51.40%


In [39]:
# Get the sentence embeddings for a pair of "dissimilar sentences"
sent1_embed = sentence_embeddings(device, tokenizer, model, indictrans_performance['target_sentence'][2700])
sent2_embed = sentence_embeddings(device, tokenizer, model, indictrans_performance['indictrans_translation'][2700])

In [40]:
# Find the cosine similarity score between these pair of "dissimilar sentences"
cosine_similarity_value = F.cosine_similarity(sent1_embed.squeeze(0), sent2_embed.squeeze(0), dim=0)

print(cosine_similarity_value)

tensor(0.9021, device='cuda:0')


In [41]:
# Try for another pair of sentences, this time, for those with a high similarity score
sent3_embed = sentence_embeddings(device, tokenizer, model, indictrans_performance['target_sentence'][2])
sent3_embed = sentence_embeddings(device, tokenizer, model, indictrans_performance['indictrans_translation'][2])

In [42]:
# The sentences are the same
F.cosine_similarity(sent3_embed.squeeze(0), sent3_embed.squeeze(0), dim=0)

tensor(1., device='cuda:0')

In [43]:
# Get the sentence embeddings and cosine similarity scores between each pair of sentences in the dataset
# This is to check if low scoring sentences have exact similarity scores or if they are of low quality
def check_cosine_similarity(df, device, tokenizer, model):

  # Create an empty list to check cosine similarity scores
  cosine_scores = []

  for index, rows in df.iterrows():
    # Get the sentence embeddings of each pair of target sentences
    sent1_embed = sentence_embeddings(device, tokenizer, model, rows['target_sentence'])
    sent2_embed = sentence_embeddings(device, tokenizer, model, rows['indictrans_translation'])

    # Reshape the embeddings to be of a single dimension 
    # Get the cosine similarity between the two pairs of sentence embeddings
    cosine_similarity_value = F.cosine_similarity(sent1_embed.squeeze(0), sent2_embed.squeeze(0), dim=0)

    # Add the cosine similarity score to the list of scores
    cosine_scores.append(cosine_similarity_value.item())

  return cosine_scores

In [44]:
translation_scores = check_cosine_similarity(indictrans_performance, device, tokenizer, model)

In [45]:
# Add the translation similarity scores to the indictrans performance dataframe
indictrans_performance['cosine_similarity_scores'] = translation_scores

In [46]:
# Sentences with low cosine similarity also have low probability of paraphrase
indictrans_performance.sort_values('cosine_similarity_scores')

Unnamed: 0,language_task,target_sentence,indictrans_translation,probability_of_paraphrase,cosine_similarity_scores
1222,translate English to Malayalam,"‘ഏറ്റവും കുറഞ്ഞ ഗവണ്‍മെന്റ്, പരമാവധി ഭരണ നിര്‍...","'മിനിമം ഗവൺമെന്റ്, മാക്സിമം ഗവേണൻസ്', 'മിനിമം ...",0.012950,0.393084
1716,translate English to Malayalam,ഒരു വമ്പിച്ച പൊതുയോഗത്തിൽ പി എം ജെ എ വൈ ഉദ്‌ഘാ...,പി. എം. ജെ. എ. വൈ.,0.031582,0.426306
357,translate English to Hindi,भारतीय पक्षकार,भारतीय पक्ष द्वारा आदान-प्रदान किया गया,0.171984,0.476889
37,translate English to Hindi,पृष्ठ भूमिः,पृष्ठभूमि:,0.065610,0.488031
39,translate English to Hindi,आप सबका धन्यवाद!,आपका बहुत-बहुत धन्यवाद।,0.453404,0.540804
...,...,...,...,...,...
394,translate English to Hindi,हमारे प्रमुख राष्ट्रीय प्रतीकों ने बौद्ध धर्म ...,हमारे प्रमुख राष्ट्रीय प्रतीकों ने बौद्ध धर्म ...,0.990118,1.000000
118,translate English to Hindi,यह एक ऐतिहासिक उपलब्धि है।,यह एक ऐतिहासिक उपलब्धि है।,0.990898,1.000000
821,translate English to Hindi,प्रधानमंत्री ने पुल के निर्माण में शामिल सभी ल...,प्रधानमंत्री ने पुल के निर्माण में शामिल सभी ल...,0.991134,1.000000
161,translate English to Hindi,प्रधानमंत्री ने नवसारी में निराली कैंसर अस्पता...,प्रधानमंत्री ने नवसारी में निराली कैंसर अस्पता...,0.987297,1.000000


In [47]:
# High similarity scores have a high probability of paraphrase
indictrans_performance.sort_values('cosine_similarity_scores', ascending=False)

Unnamed: 0,language_task,target_sentence,indictrans_translation,probability_of_paraphrase,cosine_similarity_scores
821,translate English to Hindi,प्रधानमंत्री ने पुल के निर्माण में शामिल सभी ल...,प्रधानमंत्री ने पुल के निर्माण में शामिल सभी ल...,0.991134,1.000000
665,translate English to Hindi,उत्तर प्रदेश में फूलपुर-हल्दिया गैस पाइपलाइन प...,उत्तर प्रदेश में फूलपुर-हल्दिया गैस पाइपलाइन प...,0.988791,1.000000
1821,translate English to Malayalam,പാലത്തിന്റെ നിർമ്മാണത്തിൽ പങ്കാളികളായ എല്ലാവരെ...,പാലത്തിന്റെ നിർമ്മാണത്തിൽ പങ്കാളികളായ എല്ലാവരെ...,0.990057,1.000000
140,translate English to Hindi,"इनमें सरकारी सिविल अस्पताल, एक दुग्ध प्रसंस्कर...","इनमें सरकारी सिविल अस्पताल, एक दुग्ध प्रसंस्कर...",0.986873,1.000000
297,translate English to Hindi,भ्रष्टाचार के लिए कोई जगह नहीं है।,भ्रष्टाचार के लिए कोई जगह नहीं है।,0.991288,1.000000
...,...,...,...,...,...
39,translate English to Hindi,आप सबका धन्यवाद!,आपका बहुत-बहुत धन्यवाद।,0.453404,0.540804
37,translate English to Hindi,पृष्ठ भूमिः,पृष्ठभूमि:,0.065610,0.488031
357,translate English to Hindi,भारतीय पक्षकार,भारतीय पक्ष द्वारा आदान-प्रदान किया गया,0.171984,0.476889
1716,translate English to Malayalam,ഒരു വമ്പിച്ച പൊതുയോഗത്തിൽ പി എം ജെ എ വൈ ഉദ്‌ഘാ...,പി. എം. ജെ. എ. വൈ.,0.031582,0.426306


In [48]:
# Find the range in cosine similarity scores for sentences not considered paraphrases of each other
np = indictrans_performance[indictrans_performance.probability_of_paraphrase < 0.5].reset_index()
np.drop(columns={'index'}, inplace=True)

In [49]:
# Find the min and max of the cosine similarity scores
print(min(np.cosine_similarity_scores))
# There are some sentences labeled as not paraphrases of each other that have a high degree of cosine similarity
print(max(np.cosine_similarity_scores))

0.3930836021900177
0.9797946214675903


In [50]:
# Do the same for sentences considered paraphrases of each other
p = indictrans_performance[indictrans_performance.probability_of_paraphrase >= 0.5].reset_index()
print(min(p.cosine_similarity_scores))
print(max(p.cosine_similarity_scores))

0.5749155879020691
1.0


In [51]:
# Look at the pair of sentences with the highest degree of cosine similarity
np[np['cosine_similarity_scores'] > 0.5]

Unnamed: 0,language_task,target_sentence,indictrans_translation,probability_of_paraphrase,cosine_similarity_scores
1,translate English to Hindi,आप सबका धन्यवाद!,आपका बहुत-बहुत धन्यवाद।,0.453404,0.540804
2,translate English to Hindi,आसान व्यापार करने के विश्व बैंक की सूचकांक में...,विश्व बैंक के ईज ऑफ डूइंग बिजनेस इंडेक्स में भ...,0.207661,0.792167
3,translate English to Hindi,बाढ़ से जन-जीवन काफी अस्त-व्यस्त हो जाता है।,बाढ़ के कारण जनजीवन पूरी तरह से अस्त-व्यस्त हो...,0.219444,0.825313
4,translate English to Hindi,क्या कोई समाचार पत्र इस कार्य के लिए प्रतिदिन ...,"क्या एक समाचार पत्र, हर दिन एक साल के लिए, केव...",0.076262,0.818762
5,translate English to Hindi,"मेरे प्यारे देशवासियो,","मेरे प्यारे देशवासियों,",0.212200,0.678710
...,...,...,...,...,...
1119,translate English to Tamil,“நேற்று ஆப்கானிஸ்தானில் நடைபெற்ற தீவிரவாத தாக்...,"""ஆப்கானிஸ்தானில் நேற்று நடந்த பயங்கரவாத தாக்கு...",0.051684,0.928823
1120,translate English to Tamil,“20 ஓவர் கிரிக்கெட் உலகக் கோப்பையை இந்தியா வென...,பார்வையற்றோருக்கான டி20 உலகக் கோப்பையை இந்தியா...,0.107956,0.892837
1121,translate English to Tamil,“சுதந்திரம் பெற்ற பிறகு ஏராளமானவை நிறைவேற்றப்ப...,நாடு சுதந்திரம் அடைந்ததிலிருந்து பல சாதனைகள் ப...,0.327164,0.886990
1122,translate English to Tamil,"பொது மக்களின் பங்களிப்பு, தகவல் ஓட்டத்தின் முற...","மக்கள் பங்கேற்பு, தகவல் பரிமாற்றம், ஆதாரங்களை ...",0.342669,0.961721


In [52]:
# Get the target sentence of the pair with maximum cosine similarity (that are considered not a paraphrase)
np.loc[np.cosine_similarity_scores == max(np.cosine_similarity_scores), 'target_sentence'].iloc[0]

'மக்கள் நிதித் திட்டம், கழிவறைகளைக் கட்டுதல், கிராமப்புற மின்மயமாக்கல் ஆகிய உதாரணங்களைக் குறிப்பிட்ட பிரதமர், நமது தீர்மானம் உறுதியாக இருந்தால், நமது நாட்டில் முடியாதது என்று எதுவுமே இல்லை என்று கூறினார்.'

In [54]:
# Get the translation sentence of the pair with maximum cosine similarity (that are considered not a paraphrase)
np.loc[np.cosine_similarity_scores == max(np.cosine_similarity_scores), 'indictrans_translation'].iloc[0]

'ஜன்தன் திட்டம், கழிப்பறைகள் கட்டுதல், கிராமப்புற மின்சார வசதி ஆகியவற்றை உதாரணங்களாக கூறிய பிரதமர், உறுதியான தீர்மானம் இருந்தால் மட்டுமே நமது நாட்டில் எதுவும் சாத்தியமாகாது என்றார்.'

In [55]:
# The English translation of the target sentence with the maximum cosine similarity score - using Google translate to translate to English
english_np_target = 'Citing examples of people\'s finance scheme, construction of toilets and rural electrification, the Prime Minister said that if our resolution is firm, nothing is impossible in our country.'
english_np_translation = 'Citing the Jantan project, construction of toilets and rural electrification as examples, the Prime Minister said that nothing is possible in our country only if there is a firm resolution.'
# As we can see in the examples above, the meaning of the sentence has been changed by the replacement of possible for impossible
# The language is Tamil
print(english_np_target)
print(english_np_translation)

Citing examples of people's finance scheme, construction of toilets and rural electrification, the Prime Minister said that if our resolution is firm, nothing is impossible in our country.
Citing the Jantan project, construction of toilets and rural electrification as examples, the Prime Minister said that nothing is possible in our country only if there is a firm resolution.


In [57]:
# Write the bart performance file to a csv 
indictrans_performance.to_csv(D+"/predicted_text/siamese_evaluations_of_translations/indictrans_siamese_paraphrase_eval_layernorm.csv")