In [1]:
import numpy as np
import pandas as pd
from nltk.translate.bleu_score import sentence_bleu
from nltk.translate.gleu_score import sentence_gleu
from nltk.translate.meteor_score import meteor_score
from google.transliteration import transliterate_text
from indictrans import Transliterator
import re

In [2]:
roman_scripts_file_path = "../datasets/dakshina_dataset_v1.0/ta/romanized/ta.romanized.rejoined.dev.roman.txt"
native_scripts_file_path = "../datasets//dakshina_dataset_v1.0/ta/romanized/ta.romanized.rejoined.dev.native.txt"

In [3]:
native_lines = []
with open(native_scripts_file_path, 'r', encoding='utf-8') as file:
    for line in file:
        native_lines.append(line)
        # cleaned_line = line.replace('-', '')
        #cleaned_line = re.sub(r'["\'#,]', '', line)
        #native_lines.append(cleaned_line)

romanized_lines = []
with open(roman_scripts_file_path, 'r', encoding='utf-8') as file:
    for line in file:
        romanized_lines.append(line)
        # cleaned_line = line.replace('-', '')
        #cleaned_line = re.sub(r'["\',]', '', line)
        #romanized_lines.append(cleaned_line)

In [4]:
len(native_lines)

5000

In [5]:
len(romanized_lines)

5000

In [6]:
df = pd.DataFrame({'Tanglish': romanized_lines, 'Tamil': native_lines})
print(df.head())

                                            Tanglish  \
0  irandu mathangalukkum kuraivaga kalaalavileye ...   
1  pelhar sattamandrath thoguthi, Biharin sattama...   
2  Amerikka ulnaattup pork kaalathil, intha iynth...   
3                                        angu Jey.\n   
4                                         uriyiyal\n   

                                               Tamil  
0  இரண்டு மாதங்களுக்கும் குறைவான காலஅளவிலேயே அந்த...  
1  பேல்ஹர் சட்டமன்றத் தொகுதி, பீகாரின் சட்டமன்றத்...  
2  அதே மாதத்தில் தனது முதலாவது தேர்வுப் போட்டியில...  
3                                        அங்கு ஜே.\n  
4                                         உரியியல்\n  


In [7]:
len(df)

5000

In [8]:
sampled_df = df.sample(n = 100, replace = False, random_state = np.random.randint(low=1, high=1234))

In [9]:
tanglish_sentences = sampled_df['Tanglish']
print(tanglish_sentences)

tanglish_sentences = tanglish_sentences.values
print(type(tanglish_sentences))
print(tanglish_sentences.shape)

tamil_true = list(sampled_df['Tamil'])

2440                   aaraingal (udal nalan) urainadai\n
753     Ivar piradhaana nadigaraa naditha sila thiraip...
606                      Vaazhkai varalaatru aasiriyar.\n
762      aanaal sriramo vilayattuthanamagave irukiraan.\n
2056    mukkiyamaga, ratthu seiyakudiya uyiriyalavugal...
                              ...                        
384     avan maarbil punpattu veezhndhaan yenap peasik...
407     ivai pazanggal, malarththen, puzu, puussi enpa...
2572                     avarin thaimozhi Telugu aagum.\n
3150    Mangalanathai irandaavathu natchaththiram yeng...
4653    ingu mothijil mahotsavam endra vizha nadatthap...
Name: Tanglish, Length: 100, dtype: object
<class 'numpy.ndarray'>
(100,)


In [10]:
# Testing using LIBINC transliterator
# trn = Transliterator(source='eng', target='hin', build_lookup=True, decode='beamsearch')
trn = Transliterator(source='eng', target='tam', build_lookup=True)
libinc_bleu_scores = []
libinc_gleu_scores = []
libinc_meteor_scores = []
for i in range(tanglish_sentences.size):

    transformed_sentence = trn.transform(tanglish_sentences[i])
    reference = [tamil_true[i].split()]
    transformed_tokens = transformed_sentence.split()
    
    bleu_score = sentence_bleu(reference, transformed_tokens)
    gleu_score = sentence_gleu(reference, transformed_tokens)
    met_score = meteor_score(reference, transformed_tokens)
    libinc_bleu_scores.append(bleu_score)
    libinc_gleu_scores.append(gleu_score)
    libinc_meteor_scores.append(met_score)

    if i % 10 == 0:
        print("Transliterating sentence ", i+1)
        print('Original Code mixed text :', tanglish_sentences[i])
        print('Original Native Tamil convertion :', tamil_true[i])
        print('Transliterated to Tamil :', transformed_sentence)
        print('Average BLEU score :', np.mean(libinc_bleu_scores), '\n')
        print('Average GLEU score :', np.mean(libinc_gleu_scores), '\n')
        print('Average METEOR score :', np.mean(libinc_meteor_scores), '\n')
        print()

Transliterating sentence  1
Original Code mixed text : aaraingal (udal nalan) urainadai

Original Native Tamil convertion : ஆரங்கள் (உடல் நலன்) உரைநடை

Transliterated to Tamil : ஆரீந்கல (உதல் நாலந) உரீநாதாய்

Average BLEU score : 0.0 

Average GLEU score : 0.0 

Average METEOR score : 0.0 


Transliterating sentence  11
Original Code mixed text : inthap pottiyil Newzeland ani 9 ilakkugal vithiyaasaththil vetri petrathu.

Original Native Tamil convertion : இந்தப் போட்டியில் நியூசிலாந்து அணி 9 இலக்குகள் வித்தியாசத்தில் வெற்றி பெற்றது.

Transliterated to Tamil : இந்தாப பாட்டீஈல நேவ்ஸெலாண்ட் அனி 9 ஈலாக்குகல விதியாஸத்தீல வேத்ரீ பெட்ராதும்.

Average BLEU score : 5.622679562104732e-156 

Average GLEU score : 0.02077922077922078 

Average METEOR score : 0.03994633838383839 




The hypothesis contains 0 counts of 3-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()
The hypothesis contains 0 counts of 4-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()
The hypothesis contains 0 counts of 2-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


Transliterating sentence  21
Original Code mixed text : Sooraavali, puyalgal, sunami, alaigal, poogambangal mattrum yerimalaichseettrangal pondravai iyarkai seyalpaadugalinal yerpdum iyarkai seettrangal aagum.

Original Native Tamil convertion : சூறாவளி, புயல்கள், சுனாமி அலைகள், பூகம்பங்கள் மற்றும் எரிமலைச்சீற்றங்கள் போன்றவை இயற்கை செயல்பாடுகளினால் ஏற்படும் இயற்கை சீற்றங்கள் ஆகும்.

Transliterated to Tamil : ஸூராவலீ, புயல்கல், ஸுநமீ, அலைகல், பூகம்பங்கல மாத்தரம் யேரிமலைச்சிட்ட்ராம்கல போந்த்ரவாஈ இயார்கயி ஸேயல்பாதுகலிநல் யெர்ப்டம் இயார்கயி சீட்ட்ராம்கல ஆகும்.

Average BLEU score : 6.154437688872813e-156 

Average GLEU score : 0.022443127788749913 

Average METEOR score : 0.04390784863328047 


Transliterating sentence  31
Original Code mixed text : ippothu aagum.

Original Native Tamil convertion : இப்போது ஆகும்.

Transliterated to Tamil : இப்போதும் ஆகும்.

Average BLEU score : 4.1691352085912604e-156 

Average GLEU score : 0.04893376481305721 

Average METEOR score : 0.05662574692362011 

In [11]:
average_bleu_score = np.mean(libinc_bleu_scores)
average_gleu_score = np.mean(libinc_gleu_scores)
average_meteor_score = np.mean(libinc_meteor_scores)
print('Average BLEU Score for Dev Set using LIBINC transliterator: ', average_bleu_score)
print('Average GLEU Score for Dev Set using LIBINC transliterator: ', average_gleu_score)
print('Average METEOR Score for Dev Set using LIBINC transliterator: ', average_meteor_score)

Average BLEU Score for Dev Set using LIBINC transliterator:  6.868092060565109e-80
Average GLEU Score for Dev Set using LIBINC transliterator:  0.036195270797719725
Average METEOR Score for Dev Set using LIBINC transliterator:  0.051713868208645625


In [12]:
# # The path to the local git repo for Indic NLP library
# INDIC_NLP_LIB_HOME=r"C:\Johns Hopkins\sem1\Machine Translation\MT Final Project\IndicTrans2\indic_nlp_library"

# # The path to the local git repo for Indic NLP Resources
# INDIC_NLP_RESOURCES=r"C:\Johns Hopkins\sem1\Machine Translation\MT Final Project\IndicTrans2\indic_nlp_resources"

# import sys
# sys.path.append(r'{}'.format(INDIC_NLP_LIB_HOME))

# from indicnlp import common
# common.set_resources_path(INDIC_NLP_RESOURCES)

# from indicnlp import loader
# loader.load()

# # Testing using AI4Bharath transliterator
# ai4b_bleu_scores = []
# lang = 'hi'
# for i in range(hinglish_sentences.size):

#     transformed_sentence = ItransTransliterator.from_itrans(hinglish_sentences[i],lang)
#     reference = [hindi_true[i].split()]
#     # print(transformed_sentence)
#     transformed_tokens = transformed_sentence.split()
#     bleu_score = sentence_bleu(reference, transformed_tokens)
#     ai4b_bleu_scores.append(bleu_score)

#     if i % 10 == 0:
#         print("Transliterating sentence ", i+1)
#         print('Original Code mized text :', hinglish_sentences[i])
#         print('Original Native Hindi convertion :', hindi_true[i])
#         print('Transliterated to Hindi :', transformed_sentence)
#         print('Average BLEU score :', np.mean(ai4b_bleu_scores), '\n')

# average_bleu_score = np.mean(ai4b_bleu_scores)
# print('Average Bleu Score for Train Set : ', average_bleu_score)

In [13]:
# Testing out Google Transliterate package
from google.transliteration import transliterate_word
def transliterate_all_alphanumeric_parts(sentence, lang_code='ta'):
    transliterated_sentence = []
    words = sentence.split()

    for word in words:
        # Use regex to find all alphanumeric parts in the word
        parts = re.findall(r'[a-zA-Z0-9]+|[^a-zA-Z0-9]+', word)
        
        transliterated_word = ""
        
        for part in parts:
            if part.isalnum():  # Transliterate only alphanumeric parts
                try:
                    # Transliterate the alphanumeric part
                    suggestions = transliterate_word(part, lang_code=lang_code)
                    transliterated_part = suggestions[0] if suggestions else part
                except IndexError:
                    # If transliteration fails, keep the alphanumeric part as is
                    transliterated_part = part
            else:
                # Keep non-alphanumeric parts (like "-" or spaces) as is
                transliterated_part = part
            
            transliterated_word += transliterated_part
        
        transliterated_sentence.append(transliterated_word)

    return ' '.join(transliterated_sentence)

google_bleu_scores = []
google_gleu_scores = []
google_meteor_scores = []
lang = 'ta'
for i in range(tanglish_sentences.size):

    # print(i)
    # transformed_sentence = transliterate_text(hinglish_sentences[i],lang_code = lang)
    transformed_sentence = transliterate_all_alphanumeric_parts(tanglish_sentences[i], lang_code=lang)
    reference = [tamil_true[i].split()]
    transformed_tokens = transformed_sentence.split()
    
    bleu_score = sentence_bleu(reference, transformed_tokens)
    gleu_score = sentence_gleu(reference, transformed_tokens)
    met_score = meteor_score(reference, transformed_tokens)
    google_bleu_scores.append(bleu_score)
    google_gleu_scores.append(gleu_score)
    google_meteor_scores.append(met_score)

    if i % 10 == 0:
        print("Transliterating sentence ", i+1)
        print('Original Code mixed text :', tanglish_sentences[i])
        print('Original Native Tamil convertion :', tamil_true[i])
        print('Transliterated to Tamil :', transformed_sentence)
        print('Average BLEU score :', np.mean(google_bleu_scores), '\n')
        print('Average GLEU score :', np.mean(google_gleu_scores), '\n')
        print('Average METEOR score :', np.mean(google_meteor_scores), '\n')
        print()

Transliterating sentence  1
Original Code mixed text : aaraingal (udal nalan) urainadai

Original Native Tamil convertion : ஆரங்கள் (உடல் நலன்) உரைநடை

Transliterated to Tamil : ஆரய்ங்கள் (உடல் நலன்) உரைநடை
Average BLEU score : 8.636168555094496e-78 

Average GLEU score : 0.6 

Average METEOR score : 0.7361111111111112 


Transliterating sentence  11
Original Code mixed text : inthap pottiyil Newzeland ani 9 ilakkugal vithiyaasaththil vetri petrathu.

Original Native Tamil convertion : இந்தப் போட்டியில் நியூசிலாந்து அணி 9 இலக்குகள் வித்தியாசத்தில் வெற்றி பெற்றது.

Transliterated to Tamil : இந்தப் போட்டியில் நியூஸிலாந்து அணி ௯ இலக்குகள் வித்தியாசத்தில் வெற்றி பெற்றது.
Average BLEU score : 0.4464026992165659 

Average GLEU score : 0.6496083832982229 

Average METEOR score : 0.7588481388836485 


Transliterating sentence  21
Original Code mixed text : Sooraavali, puyalgal, sunami, alaigal, poogambangal mattrum yerimalaichseettrangal pondravai iyarkai seyalpaadugalinal yerpdum iyarkai seet

In [14]:
average_bleu_score = np.mean(google_bleu_scores)
average_gleu_score = np.mean(google_gleu_scores)
average_meteor_score = np.mean(google_meteor_scores)
print('Average BLEU Score for Dev Set using Google transliterator: ', average_bleu_score)
print('Average GLEU Score for Dev Set using Google transliterator: ', average_gleu_score)
print('Average METEOR Score for Dev Set using Google transliterator: ', average_meteor_score)
print('Google Transliterate model is very accurate but takes time to transliterate the sentence')

Average BLEU Score for Dev Set using Google transliterator:  0.3957305891012832
Average GLEU Score for Dev Set using Google transliterator:  0.614877372463732
Average METEOR Score for Dev Set using Google transliterator:  0.7205298814913226
Google Transliterate model is very accurate but takes time to transliterate the sentence


In [15]:
# e = XlitEngine("hi")
# out = e.translit_word("computer", topk=5, beam_width=10)
# print(out)
# # output:{'hi': ['कम्प्यूटर', 'कंप्यूटर', 'कम्पूटर', 'कम्पुटर', 'कम्प्युटर']}

In [17]:
# Testing using AI4Bharath transliterator

from ai4bharat.transliteration import XlitEngine

ai4b_bleu_scores = []
ai4b_gleu_scores = []
ai4b_meteor_scores = []
lang = 'ta'
e = XlitEngine(lang)
for i in range(tanglish_sentences.size):

    transformed_sentence = e.translit_sentence(tanglish_sentences[i])[lang]
    reference = [tamil_true[i].split()]
    transformed_tokens = transformed_sentence.split()
    
    bleu_score = sentence_bleu(reference, transformed_tokens)
    gleu_score = sentence_gleu(reference, transformed_tokens)
    met_score = meteor_score(reference, transformed_tokens)
    ai4b_bleu_scores.append(bleu_score)
    ai4b_gleu_scores.append(gleu_score)
    ai4b_meteor_scores.append(met_score)

    if i % 10 == 0:
        print("Transliterating sentence ", i+1)
        print('Original Code mixed text :', tanglish_sentences[i])
        print('Original Native Tamil convertion :', tamil_true[i])
        print('Transliterated to Tamil :', transformed_sentence)
        print('Average BLEU score :', np.mean(ai4b_bleu_scores), '\n')
        print('Average GLEU score :', np.mean(ai4b_gleu_scores), '\n')
        print('Average METEOR score :', np.mean(ai4b_meteor_scores), '\n')
        print()

Loading ta...
Transliterating sentence  1
Original Code mixed text : aaraingal (udal nalan) urainadai

Original Native Tamil convertion : ஆரங்கள் (உடல் நலன்) உரைநடை

Transliterated to Tamil : ஆறைஞல் (உடல் நலன்) உரைநடை
Average BLEU score : 8.636168555094496e-78 

Average GLEU score : 0.6 

Average METEOR score : 0.7361111111111112 




The hypothesis contains 0 counts of 3-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


Transliterating sentence  11
Original Code mixed text : inthap pottiyil Newzeland ani 9 ilakkugal vithiyaasaththil vetri petrathu.

Original Native Tamil convertion : இந்தப் போட்டியில் நியூசிலாந்து அணி 9 இலக்குகள் வித்தியாசத்தில் வெற்றி பெற்றது.

Transliterated to Tamil : இந்தப் பொட்டியில் நியூசிலாந்த் அணி 9 இலக்குகள் வித்தியாசத்தில் வெற்றி பெற்றது.
Average BLEU score : 0.46746079946648356 

Average GLEU score : 0.638678611940644 

Average METEOR score : 0.7417511844467715 




The hypothesis contains 0 counts of 2-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


Transliterating sentence  21
Original Code mixed text : Sooraavali, puyalgal, sunami, alaigal, poogambangal mattrum yerimalaichseettrangal pondravai iyarkai seyalpaadugalinal yerpdum iyarkai seettrangal aagum.

Original Native Tamil convertion : சூறாவளி, புயல்கள், சுனாமி அலைகள், பூகம்பங்கள் மற்றும் எரிமலைச்சீற்றங்கள் போன்றவை இயற்கை செயல்பாடுகளினால் ஏற்படும் இயற்கை சீற்றங்கள் ஆகும்.

Transliterated to Tamil : சூராவளி, புயல்கள், சூனாமி, அலைகள், பூகம்பங்கள் மற்றும் எரிமலைச்சீற்றங்கள் பொன்றவை இயற்கை செயல்பாடுகளினால் ஏற்பும் இயற்கை சீற்றங்கள் ஆகும்.
Average BLEU score : 0.4112920701004822 

Average GLEU score : 0.6272309202211167 

Average METEOR score : 0.704896543303603 


Transliterating sentence  31
Original Code mixed text : ippothu aagum.

Original Native Tamil convertion : இப்போது ஆகும்.

Transliterated to Tamil : இப்போது ஆகும்.
Average BLEU score : 0.3548003475726883 

Average GLEU score : 0.5998914725622508 

Average METEOR score : 0.6703448451356702 


Transliterating sentence  41

In [18]:
average_bleu_score = np.mean(ai4b_bleu_scores)
average_gleu_score = np.mean(ai4b_gleu_scores)
average_meteor_score = np.mean(ai4b_meteor_scores)
print('Average BLEU Score for Dev Set using AI4Bharat Transliterator: ', average_bleu_score)
print('Average GLEU Score for Dev Set using AI4Bharat Transliterator: ', average_gleu_score)
print('Average METEOR Score for Dev Set using AI4Bharat Transliterator: ', average_meteor_score)

Average BLEU Score for Dev Set using AI4Bharat Transliterator:  0.3032345828215763
Average GLEU Score for Dev Set using AI4Bharat Transliterator:  0.5521562006055355
Average METEOR Score for Dev Set using AI4Bharat Transliterator:  0.6722406615212116


In [20]:
print("For Tanglish to Tamil, it is clear that the Google Transliterate package is the best")

For Tanglish to Tamil, it is clear that the Google Transliterate package is the best


In [29]:
test_set_roman_scripts_file_path = "../datasets/dakshina_dataset_v1.0/ta/romanized/ta.romanized.rejoined.test.roman.txt"
test_set_native_scripts_file_path = "../datasets//dakshina_dataset_v1.0/ta/romanized/ta.romanized.rejoined.test.native.txt"

test_set_native_lines = []
with open(test_set_native_scripts_file_path, 'r', encoding='utf-8') as file:
    for line in file:
        test_set_native_lines.append(line)
        # cleaned_line = line.replace('-', '')
        #cleaned_line = re.sub(r'["\'#,]', '', line)
        #native_lines.append(cleaned_line)

test_set_romanized_lines = []
with open(test_set_roman_scripts_file_path, 'r', encoding='utf-8') as file:
    for line in file:
        test_set_romanized_lines.append(line)
        # cleaned_line = line.replace('-', '')
        #cleaned_line = re.sub(r'["\',]', '', line)
        #romanized_lines.append(cleaned_line)

In [30]:
df_test_set = pd.DataFrame({'Tanglish': test_set_romanized_lines, 'Tamil': test_set_native_lines})
print(df_test_set.head())

                                            Tanglish  \
0  Indhiyaavin saarkkant maanilaththil raanuvatht...   
1  cosmic kathirgal pattri ariyavum iththittathin...   
2  1636 thodakkaththil Semper Augustus endra sitr...   
3  mudhal nootraandu mudhal naangaam nootraandin ...   
4  ivar Theni maavatathilulla Hanumanthanpatti en...   

                                               Tamil  
0  இந்தியாவின் சார்க்கண்ட் மாநிலத்தில் இராணுவத்தி...  
1  காஸ்மிக் கதிர்கள் பற்றி அறியவும் இத்திட்டம் கு...  
2  1636 தொடக்கத்தில் செம்பெர் அகஸ்டஸ் என்ற சிற்றி...  
3  முதல் நூற்றாண்டு முதல் நான்காம் நூற்றாண்டின் த...  
4  இவர் தேனி மாவட்டத்திலுள்ள அனுமந்தன்பட்டி எனும்...  


In [31]:
sampled_df_test_set = df_test_set.sample(n = 100, replace = False, random_state = np.random.randint(low=1, high=1234))

tanglish_sentences_test = sampled_df_test_set['Tanglish']
print(tanglish_sentences_test)

tanglish_sentences_test = tanglish_sentences_test.values
print(type(tanglish_sentences_test))
print(tanglish_sentences_test.shape)

tamil_true_test = list(sampled_df_test_set['Tamil'])

4863    Munthaiya ulaka naanayam pattiyalkalil iruntha...
373     Intha padaththin vetttriyaith thodarnthu athan...
3696                                 thindima saasthiri\n
4439    Adhu amukkaviyaalaak kaatriyakkaviyalin sirapp...
3046    perumbaalum iravu neraththil thaan velivarugir...
                              ...                        
3834    vithimuraikal, kattitakkalai kavunsil nataimur...
4582    Iruppinum 24 muthalthara thuduppaatta pottigal...
2775    ingu maangavargalukkum, aasiriyargalukkum than...
399     ivar enthavoru thervuth thuduppaattap pottiyil...
2120    kurippaga inaiyathalam moolam seithigalai vegu...
Name: Tanglish, Length: 100, dtype: object
<class 'numpy.ndarray'>
(100,)


In [32]:
# Translitearting sampled sentences from the test set using Google Translitearte package
google_bleu_scores_test_set = []
google_gleu_scores_test_set = []
google_meteor_scores_test_set = []
lang = 'ta'
for i in range(tanglish_sentences_test.size):

    # print(i)
    # transformed_sentence = transliterate_text(hinglish_sentences[i],lang_code = lang)
    transformed_sentence = transliterate_all_alphanumeric_parts(tanglish_sentences_test[i], lang_code=lang)
    reference = [tamil_true_test[i].split()]
    transformed_tokens = transformed_sentence.split()
    
    bleu_score = sentence_bleu(reference, transformed_tokens)
    gleu_score = sentence_gleu(reference, transformed_tokens)
    met_score = meteor_score(reference, transformed_tokens)
    google_bleu_scores_test_set.append(bleu_score)
    google_gleu_scores_test_set.append(gleu_score)
    google_meteor_scores_test_set.append(met_score)

    if i % 10 == 0:
        print("Transliterating sentence ", i+1)
        print('Original Code mixed text :', tanglish_sentences_test[i])
        print('Original Native Tamil convertion :', tamil_true_test[i])
        print('Transliterated to Tamil :', transformed_sentence)
        print('Average BLEU score :', np.mean(google_bleu_scores_test_set), '\n')
        print('Average GLEU score :', np.mean(google_gleu_scores_test_set), '\n')
        print('Average METEOR score :', np.mean(google_meteor_scores_test_set), '\n')
        print()

Transliterating sentence  1
Original Code mixed text : Munthaiya ulaka naanayam pattiyalkalil irunthathaip pola, pattiyalkale thodarvarisaikalaal alla.

Original Native Tamil convertion : முந்தைய உலக நாணயம் பட்டியல்களில் இருந்ததைப் போல, பட்டியல்களே தொடர்வரிசைகளால் அல்ல.

Transliterated to Tamil : முந்தைய உலக நாணயம் பட்டியல்களில் இருந்ததை போல, பட்டியல்கள் தொடர்வரிசைகளால் அல்ல.
Average BLEU score : 0.36889397323344053 

Average GLEU score : 0.4666666666666667 

Average METEOR score : 0.7471655328798186 




The hypothesis contains 0 counts of 3-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()
The hypothesis contains 0 counts of 4-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


Transliterating sentence  11
Original Code mixed text : Kadalilirundhu muttaiyiduvatharkaagak kadarkaraiyai nokki iravil varum.

Original Native Tamil convertion : கடலிலிருந்து முட்டையிடுவதற்காகக் கடற்கரையை நோக்கி இரவில் வரும்.

Transliterated to Tamil : கடலிலிருந்து முட்டையிடுவதற்காகக் கடற்கரையை நோக்கி இரவில் வரும்.
Average BLEU score : 0.4488815022270165 

Average GLEU score : 0.695460324064443 

Average METEOR score : 0.8305391340280498 


Transliterating sentence  21
Original Code mixed text : migap periya nila othukkeedaana Navoya thesa othukkeedu ullathu; ithan parappu merku Virginiavirku inaiyaanathu.

Original Native Tamil convertion : மிகப் பெரிய நில ஒதுக்கீடாக நவயோ தேச ஒதுக்கீடு உள்ளது; இதன் பரப்பு மேற்கு வர்ஜீனியாவிற்கு இணையானது.

Transliterated to Tamil : மிகப் பெரிய நிலா ஒதுக்கீடான நாவொய தேச ஒதுக்கீடு உள்ளது; இதன் பரப்பு மேற்கு விர்ஜினியாவிற்கு இணையானது.
Average BLEU score : 0.42094838926645517 

Average GLEU score : 0.5901175370498295 

Average METEOR score : 0.7202380143

The hypothesis contains 0 counts of 2-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


Transliterating sentence  31
Original Code mixed text : Yoodha madhathinar abrahame kadavuludanaana oppandhathai niruviya thandhai enak kurippiduginranar.

Original Native Tamil convertion : யூத மதத்தினர் ஆபிரகாமே கடவுளுடனான ஒப்பந்தத்தை நிறுவிய தந்தை எனக் குறிப்பிடுகின்றனர்.

Transliterated to Tamil : யூத மதத்தினர் ஆப்ரஹாம் கடவுளுடனான ஒப்பந்தத்தை நிறுவிய தந்தை எனக் குறிப்பிடுகின்றனர்.
Average BLEU score : 0.4820478208632641 

Average GLEU score : 0.6096605724633096 

Average METEOR score : 0.743173087716012 


Transliterating sentence  41
Original Code mixed text : 1944aam aantu suulai maathaththin muthal muunru vaaranggalil ivargalin kalanthuraiyaatalin payanaaga kaiyezuththaanathe pirettan vutsu utanpaatukal.

Original Native Tamil convertion : 1944ஆம் ஆண்டு சூலை மாதத்தின் முதல் மூன்று வாரங்களில் இவர்களின் கலந்துரையாடலின் பயனாக கையெழுத்தானதே பிரெட்டன் வுட்சு உடன்பாடுகள்.

Transliterated to Tamil : ௧௯௪௪ஆம் ஆண்டு சூலை மாதத்தின் முதல் முயன்று வாரங்களில் இவர்களின் கலந்துரையாடலின் பயனாக க

In [33]:
average_bleu_score = np.mean(google_bleu_scores_test_set)
average_gleu_score = np.mean(google_gleu_scores_test_set)
average_meteor_score = np.mean(google_meteor_scores_test_set)
print('Average BLEU Score for Dev Set using Google transliterator: ', average_bleu_score)
print('Average GLEU Score for Dev Set using Google transliterator: ', average_gleu_score)
print('Average METEOR Score for Dev Set using Google transliterator: ', average_meteor_score)
print('Google Transliterate model is very accurate but takes time to transliterate the sentence')

Average BLEU Score for Dev Set using Google transliterator:  0.4249460690433363
Average GLEU Score for Dev Set using Google transliterator:  0.5990776881821153
Average METEOR Score for Dev Set using Google transliterator:  0.7268478110298875
Google Transliterate model is very accurate but takes time to transliterate the sentence
