In [5]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 1. Sample data
eng_sentences = [ 'hello', 'how are you', 'i love you', 'what is your name', 'good morning', 
                 'where are you going', 'i am hungry', 'can you help me', 
                 'i am learning bengali', 'thank you very much', 
                 'do you speak english', 'i do not understand', 'what time is it', 
                 'where do you live', 'this is my friend', 
                 'i am feeling sick', 'please come here', 'i will call you later',
                 'happy birthday to you', 'have a nice day' ]

ben_sentences = [ 'হ্যালো', 'তুমি কেমন আছো', 'আমি তোমায় ভালোবাসি', 'তোমার নাম কি', 
                 'শুভ সকাল', 'তুমি কোথায় যাচ্ছো', 'আমি ক্ষুধার্ত',
                 'তুমি কি আমাকে সাহায্য করতে পারো', 'আমি বাংলা শিখছি', 
                 'তোমাকে অনেক ধন্যবাদ', 'তুমি কি ইংরেজি বলতে পারো', 'আমি বুঝতে পারছি না', 
                 'এখন কয়টা বাজে', 'তুমি কোথায় থাকো', 
                 'এটি আমার বন্ধু', 'আমার অসুস্থ লাগছে', 'অনুগ্রহ করে এখানে আসো', 
                 'আমি তোমাকে পরে ফোন করবো', 'শুভ জন্মদিন', 'তোমার দিনটা শুভ হোক' ]

# 2. Tokenization
eng_tokenizer = Tokenizer()
ben_tokenizer = Tokenizer(char_level=False)

eng_tokenizer.fit_on_texts(eng_sentences)
ben_tokenizer.fit_on_texts(ben_sentences)

eng_seq = eng_tokenizer.texts_to_sequences(eng_sentences)
ben_seq = ben_tokenizer.texts_to_sequences(ben_sentences)

# Pad sequences
max_len_eng = max(len(seq) for seq in eng_seq)
max_len_ben = max(len(seq) for seq in ben_seq)

eng_seq = pad_sequences(eng_seq, maxlen=max_len_eng, padding='post')
ben_seq = pad_sequences(ben_seq, maxlen=max_len_ben, padding='post')

# 3. Define model (very basic seq2seq)
vocab_size_eng = len(eng_tokenizer.word_index) + 1
vocab_size_ben = len(ben_tokenizer.word_index) + 1

model = tf.keras.Sequential([
    tf.keras.layers.Embedding(vocab_size_eng, 64, input_length=max_len_eng),
    tf.keras.layers.LSTM(64),
    tf.keras.layers.RepeatVector(max_len_ben),
    tf.keras.layers.LSTM(64, return_sequences=True),
    tf.keras.layers.TimeDistributed(tf.keras.layers.Dense(vocab_size_ben, activation='softmax'))
])

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')
ben_seq = np.expand_dims(ben_seq, -1)  # Add extra dimension for sparse loss

# 4. Train (very briefly)
model.fit(eng_seq, ben_seq, epochs=500, verbose=0)

# 5. Translate a new sentence
def translate(sentence):
    seq = eng_tokenizer.texts_to_sequences([sentence])
    seq = pad_sequences(seq, maxlen=max_len_eng, padding='post')
    pred = model.predict(seq)
    pred_seq = np.argmax(pred[0], axis=-1)
    words = [word for idx in pred_seq if (word := ben_tokenizer.index_word.get(idx))]
    return ' '.join(words)

# Test
print("Translation of 'hello':", translate('hello'))
print("Translation of 'i love you':", translate('i love you'))



[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 466ms/step
Translation of 'hello': হ্যালো
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 37ms/step
Translation of 'i love you': আমি তোমায় ভালোবাসি
