In [3]:
from transformers import pipeline

device = "mps"
translator = pipeline("translation_ml_to_en", model="Helsinki-NLP/opus-mt-ml-en", device=device)
translator("നിരവധി പാറകൾക്കടുത്തുള്ള ട്രാക്കിൽ ഒരു ട്രെയിൻ")

[{'translation_text': 'A train on the track near many rocks.'}]

In [14]:
with open("data/coco.ml.txt", "r") as file:
    ml = file.readlines()

with open("data/coco.en.txt", "r") as file:
    en = file.readlines()
    
ml[:5], en[:5]

(['ഒരു വലിയ ചരക്ക് ട്രെയിൻ ഒരു ട്രെയിൻ സ്റ്റേഷനിൽ ഇരിക്കുന്നു.\n',
  'ആളുകൾ ഒരു നദിക്കരയിൽ പതാകകൾ പതിച്ചിട്ടുണ്ട്.\n',
  'ട്രെയിനിൽ നിന്ന് കാണുന്നതുപോലെ ഒരു കൂട്ടം റെയിൽവേ ട്രാക്കുകൾ.\n',
  'ഒരു നദിയിലൂടെ മോട്ടോർ വേഗതയുള്ള ഒരു പീരങ്കി.\n',
  'ശൂന്യമായ സ്ക്വയറിൽ എന്തെങ്കിലും പ്രദർശിപ്പിക്കാൻ ശ്രമിക്കുന്ന ആളുകളുള്ള ഒരു മഞ്ഞ വാൻ.\n'],
 ['A large freight train sits in a train station.\n',
  'People boat down a river with flags strung across it.\n',
  'A set of railway tracks as seen from a train.\n',
  'A canoe with a motor speeding down a river.\n',
  'A yellow van with people trying to display something in an empty square.\n'])

In [15]:
translator(ml[:5])

[{'translation_text': 'The train is on a train station.'},
 {'translation_text': 'People have placed flags at a river.'},
 {'translation_text': 'A bunch of trains, like from the train.'},
 {'translation_text': 'A motor bomb on a river.'},
 {'translation_text': 'A yellow van for people trying to show something in empty wine.'}]

In [19]:
from nltk.translate.bleu_score import sentence_bleu

def bleu_score(ref, hyp):
    return sentence_bleu([ref], hyp)

n = 50

translated = [o['translation_text'] for o in translator(ml[:n])]
bleus = [bleu_score(en[i], translated[i]) for i in range(n)]

import pandas as pd

df = pd.DataFrame({"ml": ml[:n], "en": en[:n], "translated": translated, "bleu": bleus})

In [20]:
df

Unnamed: 0,ml,en,translated,bleu
0,ഒരു വലിയ ചരക്ക് ട്രെയിൻ ഒരു ട്രെയിൻ സ്റ്റേഷനിൽ...,A large freight train sits in a train station.\n,The train is on a train station.,0.484935
1,ആളുകൾ ഒരു നദിക്കരയിൽ പതാകകൾ പതിച്ചിട്ടുണ്ട്.\n,People boat down a river with flags strung acr...,People have placed flags at a river.,0.347594
2,ട്രെയിനിൽ നിന്ന് കാണുന്നതുപോലെ ഒരു കൂട്ടം റെയി...,A set of railway tracks as seen from a train.\n,"A bunch of trains, like from the train.",0.37092
3,ഒരു നദിയിലൂടെ മോട്ടോർ വേഗതയുള്ള ഒരു പീരങ്കി.\n,A canoe with a motor speeding down a river.\n,A motor bomb on a river.,0.286326
4,ശൂന്യമായ സ്ക്വയറിൽ എന്തെങ്കിലും പ്രദർശിപ്പിക്ക...,A yellow van with people trying to display som...,A yellow van for people trying to show somethi...,0.68055
5,കമ്പ്യൂട്ടർ മൗസ് കൈവശം വച്ചിരിക്കുന്ന ഒരു വ്യക...,A person holding a computer mouse by a cat sit...,A man with computer's hand is next to a cat.,0.277853
6,കണ്ണടയും തൊപ്പിയും ധരിച്ച ഒരാളുടെ ക്ലോസ് അപ്പ്\n,a close up of a person wearing glasses and a h...,A man with glasses and hat.,0.269219
7,പുല്ലിന്റെ പച്ചപ്പാടത്തിൽ പശുക്കളുടെ ഒരു ചെറിയ...,A small herd of cows in a green field of grass.\n,A small band of cows in the green grass.,0.62298
8,ഒരു പാർക്കിലെ പ്രതിമയുടെ അരികിൽ നിൽക്കുന്ന പശു.\n,A cow standing next to a statue in a park.\n,The cow next to the image in a park.,0.525466
9,വിൻഡോ ഡിസിയുടെ മുകളിൽ ഇരിക്കുന്ന പൂച്ച വിൻഡോയി...,a cat sitting on a window sill looking out the...,The cat sitting on the top of Dodo D's DD,0.37231


In [21]:
translator_ml = pipeline("translation_ml_to_en", model="Helsinki-NLP/opus-mt-en-ml", device=device)
translator_ml(en[0])



[{'translation_text': 'ഒരു വലിയ പാളം ട്രെയിനിൽ ഒരു റെയിൽവേ സ്റ്റേഷനിൽ ഇരിപ്പുണ്ട്.'}]

In [None]:
n = 50
translated_ml = [o['translation_text'] for o in translator_ml(en[:n])]
bleus_ml = [bleu_score(ml[i], translated_ml[i]) for i in range(n)]

In [25]:
df_ml = pd.DataFrame({"ml": ml[:n], "en": en[:n], "translated": translated_ml, "bleu": bleus})
df_ml

Unnamed: 0,ml,en,translated,bleu
0,ഒരു വലിയ ചരക്ക് ട്രെയിൻ ഒരു ട്രെയിൻ സ്റ്റേഷനിൽ...,A large freight train sits in a train station.\n,ഒരു വലിയ പാളം ട്രെയിനിൽ ഒരു റെയിൽവേ സ്റ്റേഷനിൽ...,0.484935
1,ആളുകൾ ഒരു നദിക്കരയിൽ പതാകകൾ പതിച്ചിട്ടുണ്ട്.\n,People boat down a river with flags strung acr...,"ആളുകൾ ഒരു പുഴയിൽ വള്ളം കടത്തുന്നു, കൊടിമരങ്ങൾ ...",0.347594
2,ട്രെയിനിൽ നിന്ന് കാണുന്നതുപോലെ ഒരു കൂട്ടം റെയി...,A set of railway tracks as seen from a train.\n,ട്രെയിനിൽ നിന്ന് കണ്ടതുപോലെ ഒരു സെറ്റ് ട്രാക്ക്.,0.37092
3,ഒരു നദിയിലൂടെ മോട്ടോർ വേഗതയുള്ള ഒരു പീരങ്കി.\n,A canoe with a motor speeding down a river.\n,നദിയുടെ അടിയിൽ ഒരു മോട്ടോർ സൈക്കിളുമായി ഒരു മല...,0.286326
4,ശൂന്യമായ സ്ക്വയറിൽ എന്തെങ്കിലും പ്രദർശിപ്പിക്ക...,A yellow van with people trying to display som...,ഒരു മഞ്ഞ വാൻ ശൂന്യാകാശത്തിൽ എന്തോ പ്രദർശിപ്പിക...,0.68055
5,കമ്പ്യൂട്ടർ മൗസ് കൈവശം വച്ചിരിക്കുന്ന ഒരു വ്യക...,A person holding a computer mouse by a cat sit...,ഒരു കമ്പ്യൂട്ടർ എലിയെ ഒരു പൂച്ചയെ പിടിച്ചുകൊണ്ട്.,0.277853
6,കണ്ണടയും തൊപ്പിയും ധരിച്ച ഒരാളുടെ ക്ലോസ് അപ്പ്\n,a close up of a person wearing glasses and a h...,കണ്ണടയും തൊപ്പിയും ധരിച്ച ഒരാളുടെ അടുത്ത്.,0.269219
7,പുല്ലിന്റെ പച്ചപ്പാടത്തിൽ പശുക്കളുടെ ഒരു ചെറിയ...,A small herd of cows in a green field of grass.\n,പച്ചപ്പുല്ലിൽ പശുക്കിടാവു ചെറിയൊരു പശുക്കൾ.,0.62298
8,ഒരു പാർക്കിലെ പ്രതിമയുടെ അരികിൽ നിൽക്കുന്ന പശു.\n,A cow standing next to a statue in a park.\n,പാർക്കിൽ ഒരു പ്രതിമയുടെ അടുത്ത് നിൽക്കുന്ന ഒരു...,0.525466
9,വിൻഡോ ഡിസിയുടെ മുകളിൽ ഇരിക്കുന്ന പൂച്ച വിൻഡോയി...,a cat sitting on a window sill looking out the...,ജനലിലൂടെ നോക്കുന്ന ഒരു പൂച്ച,0.37231
