In [53]:
import numpy as np 

import tensorflow as tf 
import tensorflow.keras as keras 
from keras.layers import Dense , Embedding , Input , LSTM
from keras import Sequential 

from keras.preprocessing.sequence import pad_sequences 
from tensorflow.keras.preprocessing.text import Tokenizer 

import os 
os.environ['TF_USE_LEGACY_KERAS'] = '1'

In [54]:
fp = open('tam.txt')

In [55]:
data = fp.readlines()

In [56]:
english = [i.split('\t')[0].lower() for i in data]
tamil = [i.split('\t')[1] for i in data]

In [57]:
eng_tokeniser = Tokenizer()
tam_tokeniser = Tokenizer()

In [58]:
eng_tokeniser.fit_on_texts(english)
tam_tokeniser.fit_on_texts(tamil)

In [59]:
tokenized_eng = eng_tokeniser.texts_to_sequences(english)
tokenized_tam = tam_tokeniser.texts_to_sequences(tamil)

In [60]:
padded_eng = pad_sequences(tokenized_eng)
padded_tam = pad_sequences(tokenized_tam)

In [61]:
embedding_dim = 128
units = 256
input_vocab_size = len(eng_tokeniser.word_index) + 1
target_vocab_size = len(tam_tokeniser.word_index) + 1

In [62]:
input_vocab_size , target_vocab_size

(386, 554)

In [63]:
model = Sequential()
model.add(Embedding(input_vocab_size , 128 ))
model.add(LSTM(10 , return_sequences=True , return_state=False))
model.add(LSTM(10 , return_sequences=True , return_state=False))
model.add(LSTM(10 , return_sequences=True , return_state=False))
model.add(LSTM(10 , return_sequences=True , return_state=False))
model.add(Dense(target_vocab_size ))

In [64]:
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

In [65]:
model.fit(padded_eng , tf.one_hot(padded_eng , target_vocab_size ) , epochs=100 , batch_size=128)

Epoch 1/100


[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 36ms/step - accuracy: 0.0000e+00 - loss: 6.1059
Epoch 2/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 39ms/step - accuracy: 0.0000e+00 - loss: 8.3380
Epoch 3/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 18ms/step - accuracy: 1.7457e-04 - loss: 7.9881
Epoch 4/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 38ms/step - accuracy: 3.1163e-04 - loss: 7.4756
Epoch 5/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 30ms/step - accuracy: 1.7457e-04 - loss: 7.2745
Epoch 6/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 39ms/step - accuracy: 4.8619e-04 - loss: 6.9408
Epoch 7/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 38ms/step - accuracy: 3.4913e-04 - loss: 6.3714
Epoch 8/100
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step - accuracy: 4.8619e-04 - loss: 5.8527
Epoch 9/100
[1m2/2[0m [32m━━━━━━━

<keras.src.callbacks.history.History at 0x1d24c0c1b90>

In [66]:
predicted_features = np.argmax(model.predict(padded_eng) , axis = 1)

[1m7/7[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 142ms/step


In [67]:
predicted_features.shape 

(201, 554)

In [68]:
predicted_features

array([[16,  0,  0, ..., 18,  0, 18],
       [16,  0,  0, ..., 18,  0, 18],
       [16,  0,  0, ..., 18,  0, 18],
       ...,
       [10,  0,  0, ..., 15,  0, 18],
       [ 9,  0,  0, ..., 12,  0, 18],
       [18,  7,  7, ..., 18,  7,  6]], dtype=int64)

In [69]:
tam_tokeniser.sequences_to_texts(predicted_features)

['இந்த இந்த போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் எனக்கு போய் நான் போய் போய் போய் போய் போய் அவனுக்கு போய் போய் போய் நீ இந்த போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் நான் போய் நான் போய் போய் போய் போய் போய் நான் போய் போய் போய் இந்த போய் போய் போய் போய் அவனுக்கு இந்த போய் இந்த போய் போய் போய் போய் நிறைய போய் போய் போய் போய் போய் அவள் போய் போய் போய் போய் போய் அவனுக்கு போய் போய் போய் போய் போய் நான் போய் அவள் போய் போய் போய் போய் இந்த அவள் போய் போய் போய் போய் போய் போய் போய் போய் போய் இந்த இந்த போய் போய் போய் போய் அவனுக்கு போய் போய் போய் போய் போய் போய் அவனுக்கு நான் போய் போய் போய் அவள் போய் வேண்டும் இந்த போய் போய் போய் என்று போய் போய் போய் போய் போய் நீ போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் டாம் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் போய் இந்த போய் போய் போய் ஒரு போய் போய் போய் போய் 