In [None]:
!pip install transformers

In [None]:
!pip install sentencepiece

In [5]:
from transformers import MarianMTModel, MarianTokenizer

# Load the pre-trained model and tokenizer for Tamil to English
model_name = "Helsinki-NLP/opus-mt-dra-en"
model = MarianMTModel.from_pretrained(model_name)
tokenizer = MarianTokenizer.from_pretrained(model_name)

# Define the Tamil text you want to translate to English
tamil_text = "வணக்கம், உங்கள் நலம் எப்படி இருக்கின்றது?"

# Tokenize and translate the text to English
inputs = tokenizer(tamil_text, return_tensors="pt")
translation = model.generate(**inputs)

# Decode and print the translation
english_translation = tokenizer.decode(translation[0], skip_special_tokens=True)
print(english_translation)


Downloading (…)lve/main/config.json:   0%|          | 0.00/1.40k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/308M [00:00<?, ?B/s]

Downloading (…)neration_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

Downloading (…)olve/main/source.spm:   0%|          | 0.00/1.17M [00:00<?, ?B/s]

Downloading (…)olve/main/target.spm:   0%|          | 0.00/818k [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/2.34M [00:00<?, ?B/s]



Hello, how's your good?


In [None]:
!pip install datasets

In [1]:
import tensorflow as tf
from datasets import load_dataset

In [None]:
raw_datasets = load_dataset("Hemanth-thunder/en_ta")

In [3]:
raw_datasets

DatasetDict({
    train: Dataset({
        features: ['Unnamed: 0', 'en', 'ta'],
        num_rows: 285630
    })
    validation: Dataset({
        features: ['Unnamed: 0', 'en', 'ta'],
        num_rows: 1000
    })
    test: Dataset({
        features: ['Unnamed: 0', 'en', 'ta'],
        num_rows: 2000
    })
})

In [4]:
for split_name in raw_datasets.keys():
    raw_datasets[split_name] = raw_datasets[split_name].remove_columns('Unnamed: 0')

In [5]:

raw_datasets["train"] = raw_datasets["train"].select([i for i in range(50000)])
raw_datasets


DatasetDict({
    train: Dataset({
        features: ['en', 'ta'],
        num_rows: 50000
    })
    validation: Dataset({
        features: ['en', 'ta'],
        num_rows: 1000
    })
    test: Dataset({
        features: ['en', 'ta'],
        num_rows: 2000
    })
})

In [6]:
print("Train data : ",raw_datasets["train"][0])

Train data :  {'en': "MMA vice president Qazi Hussain Ahmad declared last month: 'We are not extremists.\n", 'ta': 'MMA கட்சியின் துணைத்தலைவர் க்வாஸி ஹுசேன் அகமத் சென்ற மாதம் பின்வருமாறு அறிவித்தார்: ``நாங்கள் தீவிரவாதிகள் அல்ல.\n'}


In [7]:
print("Test data : ",raw_datasets["test"][0])

Test data :  {'en': 'Just hours before the incident, Kurdish nationalist leader and Iraqi president, Jalal Talibani, had welcomed the US president on his last visit to Iraq as a man "who helped us liberate our country and to reach this day in which we have democracy, human rights and prosperity gradually in our country."\n', 'ta': 'இந்த நிகழ்விற்கு சில மணி நேரம் முன்பு குர்திஷ் தேசியவாத தலைவரும் ஈராக்கிய ஜனாதிபதியுமான ஜலால் டாலிபானி ஈராக்கிற்கு கடைசி முறையாக வரும் அமெரிக்க ஜனாதிபதியை வரவேற்று, "நம் நாட்டை நமக்கு விடுவிக்க உதவிய மனிதர், இன்று நாம் ஜனநாயகம், மனித உரிமைகள் மற்றும் வளமையை படிப்படியாக நம் நாட்டில் பெறுவதற்கு உதவியவர்" என்று பாராட்டினார்.\n'}


In [8]:
print("Validation data : ",raw_datasets["validation"][0])

Validation data :  {'en': 'Now the sons of Saul were Jonathan, and Ishui, and Melchishua: and the names of his two daughters were these; the name of the firstborn Merab, and the name of the younger Michal:\n', 'ta': 'சவுலுக்கு இருந்த குமாரர்: யோனத்தான், இஸ்வி, மல்கிசூவா என்பவர்கள்; அவனுடைய இரண்டு குமாரத்திகளில் மூத்தவள் பேர் மோப், இளையவள் பேர் மீகாள்.\n'}


In [9]:
import re
src = "en"
tgt = "ta"
def clean(df):
  df["en"] = re.sub(r"\n", "",df[src])
  df["ta"] = re.sub(r"\n", "",df[tgt])
  df["en"] = re.sub(r"[?!\":;',..]", "",df[src])
  df["ta"] = re.sub(r"[?!\"';':..]", "",df[tgt])
  return df

In [None]:
raw_datasets = raw_datasets.map(clean)

In [11]:
print("Train data : ",raw_datasets["train"][0])

Train data :  {'en': 'MMA vice president Qazi Hussain Ahmad declared last month We are not extremists', 'ta': 'MMA கட்சியின் துணைத்தலைவர் க்வாஸி ஹுசேன் அகமத் சென்ற மாதம் பின்வருமாறு அறிவித்தார் ``நாங்கள் தீவிரவாதிகள் அல்ல'}


In [12]:
print("Test data : ",raw_datasets["test"][0])

Test data :  {'en': 'Just hours before the incident Kurdish nationalist leader and Iraqi president Jalal Talibani had welcomed the US president on his last visit to Iraq as a man who helped us liberate our country and to reach this day in which we have democracy human rights and prosperity gradually in our country', 'ta': 'இந்த நிகழ்விற்கு சில மணி நேரம் முன்பு குர்திஷ் தேசியவாத தலைவரும் ஈராக்கிய ஜனாதிபதியுமான ஜலால் டாலிபானி ஈராக்கிற்கு கடைசி முறையாக வரும் அமெரிக்க ஜனாதிபதியை வரவேற்று, நம் நாட்டை நமக்கு விடுவிக்க உதவிய மனிதர், இன்று நாம் ஜனநாயகம், மனித உரிமைகள் மற்றும் வளமையை படிப்படியாக நம் நாட்டில் பெறுவதற்கு உதவியவர் என்று பாராட்டினார்'}


In [13]:
print("Validation data : ",raw_datasets["validation"][0])

Validation data :  {'en': 'Now the sons of Saul were Jonathan and Ishui and Melchishua and the names of his two daughters were these the name of the firstborn Merab and the name of the younger Michal', 'ta': 'சவுலுக்கு இருந்த குமாரர் யோனத்தான், இஸ்வி, மல்கிசூவா என்பவர்கள் அவனுடைய இரண்டு குமாரத்திகளில் மூத்தவள் பேர் மோப், இளையவள் பேர் மீகாள்'}


In [None]:
from transformers import TFAutoModelForSeq2SeqLM, AutoTokenizer
model_name = "Helsinki-NLP/opus-mt-en-dra"
model = TFAutoModelForSeq2SeqLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)


In [15]:
tokenizer("Hello my friends")

{'input_ids': [11171, 73, 1155, 0], 'attention_mask': [1, 1, 1, 1]}

In [16]:
print(tokenizer("இந்த நிகழ்விற்கு சில மணி நேரம் முன்பு"))

{'input_ids': [17, 12623, 17, 1, 17, 25328, 17, 1, 17, 1, 17, 1, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}


In [17]:
max_length = 128
def preprocess_function(examples):
    inputs = [i for i in examples[src]]
    targets = [i for i in examples[tgt]]
    model_inputs = tokenizer(inputs, max_length=max_length, truncation=True)
    with tokenizer.as_target_tokenizer():
        labels = tokenizer(targets, max_length=max_length, truncation=True)
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

In [None]:
tokenized_datasets = raw_datasets.map(preprocess_function, batched=True)

In [19]:
from transformers import DataCollatorForSeq2Seq
data_collator = DataCollatorForSeq2Seq(tokenizer, model=model, return_tensors="tf")

In [20]:
tf_train_dataset = model.prepare_tf_dataset(
    tokenized_datasets["train"],
    collate_fn=data_collator,
    shuffle=True,
    batch_size=16,
)
tf_validation_dataset = model.prepare_tf_dataset(
    tokenized_datasets["validation"],
    collate_fn=data_collator,
    shuffle=False,
    batch_size=16,
)
tf_test_dataset = model.prepare_tf_dataset(
    tokenized_datasets["test"],
    collate_fn=data_collator,
    shuffle=False,
    batch_size=16,
)

In [21]:
learning_rate = 2e-5
weight_decay = 0.01
num_train_epochs = 10
from transformers import AdamWeightDecay
optimizer = AdamWeightDecay(learning_rate=learning_rate, weight_decay_rate=weight_decay)
model.compile(optimizer=optimizer)

In [22]:
model.summary()

Model: "tf_marian_mt_model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 model (TFMarianMainLayer)   multiple                  76894208  
                                                                 
 final_logits_bias (BiasLay  multiple                  62952     
 er)                                                             
                                                                 
Total params: 76957160 (293.57 MB)
Trainable params: 76894208 (293.33 MB)
Non-trainable params: 62952 (245.91 KB)
_________________________________________________________________


In [23]:
model.fit(tf_train_dataset, validation_data=tf_validation_dataset, epochs=num_train_epochs)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x7f3d28127af0>

In [24]:
loss = model.evaluate(tf_test_dataset)
print("Test loss :",loss)

Test loss : 2.417006254196167


In [26]:
model.save_pretrained("new_model/")

In [27]:
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = TFAutoModelForSeq2SeqLM.from_pretrained("new_model/")

All model checkpoint layers were used when initializing TFMarianMTModel.

All the layers of TFMarianMTModel were initialized from the model checkpoint at new_model/.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFMarianMTModel for predictions without further training.


In [28]:
input_text  = "My name Rani"
tokenized = tokenizer([input_text], return_tensors='np')
out = model.generate(**tokenized, max_length=128)
print(out)

tf.Tensor([[62951   893  2513 21471     0 62951 62951 62951]], shape=(1, 8), dtype=int32)


In [29]:
print(tokenizer.decode(out[0], skip_special_tokens=True))

என் பெயர் ராணி


In [31]:
input_text0  = "Give me a cup of tea"
tokenized0 = tokenizer([input_text0], return_tensors='np')
out0 = model.generate(**tokenized0, max_length=128)
print(out0)
print(tokenizer.decode(out0[0], skip_special_tokens=True))

tf.Tensor([[62951  1537   151  1510   130    17  1934  7404   257 35045     0]], shape=(1, 11), dtype=int32)
எனக்கு ஒரு கப் தேயிலை கொடு


In [35]:
input_text1 = input("Enter the sentence : ")
para = input_text1.split(".")
output = list()
for i in para:
  tokenized1 = tokenizer([i], return_tensors='np')
  out1 = model.generate(**tokenized1, max_length=128)
  output.append(tokenizer.decode(out1[0], skip_special_tokens=True))

print("Tamil : ",".".join(output))

Enter the sentence : My name is Rani.I am a college student.I am so  happy.
Tamil :  என் பெயர் ராணி.நான் கல்லூரி மாணவனாக இருக்கிறேன்.நான் ரொம்ப மகிழ்ச்சியா இருக்கேன்.(V)
