# **Requirements**

In [1]:
!pip install tensorflow



In [2]:
!pip install datasets



# **Load Data**

In [3]:
import json

# Replace 'file_path.json' with your actual JSON file path
file_path = '/kaggle/input/nlpdataset/train_dataset.json'

# Open and load the JSON file
try:
    with open(file_path, 'r') as file:
        train_data = json.load(file)
    print("JSON data successfully loaded.")
    print(train_data)  # Display the loaded JSON data
except FileNotFoundError:
    print(f"The file at {file_path} was not found.")
except json.JSONDecodeError:
    print("The file is not a valid JSON.")

file_path = '/kaggle/input/nlpdataset/val_dataset.json'

# Open and load the JSON file
try:
    with open(file_path, 'r') as file:
        val_data = json.load(file)
    print("JSON data successfully loaded.")
    print(val_data)  # Display the loaded JSON data
except FileNotFoundError:
    print(f"The file at {file_path} was not found.")
except json.JSONDecodeError:
    print("The file is not a valid JSON.")

print(train_data[0]["translation"]["en"])
print(train_data[0]["translation"]["vi"])

JSON data successfully loaded.
JSON data successfully loaded.
So every year , thousands of visitors come to Tana Toraja to see , as it were , this culture of death , and for many people these grandiose ceremonies and the length of the ceremonies are somehow incommensurable with the way that we face our own mortality in the West .
Do đó , mỗi năm , hàng ngàn người khách đến với Tana Toraja để xem , như nó được biết đến , nền văn hoá của cái chết này , và đối với nhiều người dân những nghi lễ hoành tráng này và độ dài của các nghi lễ là không thể đo đếm được với cách thức mà chúng ta phải đối mặt với tỷ lệ tử vong của riêng mình ở phía tây .


# **Pre-process data**

In [4]:
import re
def clean_text(text):
    # Giữ lại các ký tự chữ thường, dấu tiếng Việt, và các ký tự đặc biệt: ' . ,
    text = re.sub(r'[^a-zA-Z0-9\sàáảãạâầấậẩẫăằắặẳẵèéẻẽẹêềếệểễìíỉĩịòóỏõọôồốộổỗơờớợởỡùúủũụưừứựửữỳýỷỹỵđ!?.]', " ", text)
    # Loại bỏ khoảng trắng thừa
    text = re.sub(r"\s+", " ", text).strip()
    return text

# Clean English and Vietnamese sentences
english_sentences = [clean_text(train_data[idx]["translation"]["en"]) for idx in range (len(train_data))]
vietnamese_sentences = [clean_text(train_data[idx]["translation"]["vi"]) for idx in range (len(train_data))]
print(english_sentences)
print(vietnamese_sentences)

['Do đó mỗi năm hàng ngàn người khách đến với Tana Toraja để xem như nó được biết đến nền văn hoá của cái chết này và đối với nhiều người dân những nghi lễ hoành tráng này và độ dài của các nghi lễ là không thể đo đếm được với cách thức mà chúng ta phải đối mặt với tỷ lệ tử vong của riêng mình ở phía tây .', 'Bạn có thể xịt hoặc đổ giấm trắng xung quanh khu vực chú mèo đã cố gắng tuyên bố chủ quyền để ngăn nó quay lại địa điểm đó lần nữa .', 'Và tôi rất hứng thú với chúng tôi sẽ tổ chức trưng bầy những tác phẩm mới nhất của cậu .', 'ó là quan niệm của tôi .', 'Và thiết kế mắt cá cao độc đáo với hình dáng không rõ và chức năng giống chân người .', 'Chào Hannah .', '1 người bạn tốt .', 'Nếu không phải vì anh tôi đã không bị rắc rối thế này .', 'Một người Mỹ tên là Greystoke anh ta đã dựng trại trong 1 khu rừng .', 'Nó cũng làm tôi suy nghĩ Có lẽ chúng ta đều cần được dạy điều mới về dự do ngay bây giờ .', 'Hãy chắc chắn rằng chúng đã được phân bố đều và đứng thẳng không nên để sữa bị trà

# **Tokenize Data**

In [5]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
# Add special tokens to Vietnamese sentences


# Reinitialize and fit the tokenizer

# Initialize tokenizers
english_tokenizer = Tokenizer()
# Add unique tokens to Vietnamese sentences
vietnamese_sentences = ["<SOS>" +" "+ sentence +" "+ " <EOS>" for sentence in vietnamese_sentences]
print(vietnamese_sentences[0])
# Initialize tokenizers
vietnamese_tokenizer = Tokenizer(filters='', oov_token='<UNK>')
print(vietnamese_sentences[0])
# Fit tokenizers on the cleaned data
english_tokenizer.fit_on_texts(english_sentences)
vietnamese_tokenizer.fit_on_texts(vietnamese_sentences)

# Convert sentences to sequences
english_sequences = english_tokenizer.texts_to_sequences(english_sentences)
vietnamese_sequences = vietnamese_tokenizer.texts_to_sequences(vietnamese_sentences)


<SOS> Do đó mỗi năm hàng ngàn người khách đến với Tana Toraja để xem như nó được biết đến nền văn hoá của cái chết này và đối với nhiều người dân những nghi lễ hoành tráng này và độ dài của các nghi lễ là không thể đo đếm được với cách thức mà chúng ta phải đối mặt với tỷ lệ tử vong của riêng mình ở phía tây .  <EOS>
<SOS> Do đó mỗi năm hàng ngàn người khách đến với Tana Toraja để xem như nó được biết đến nền văn hoá của cái chết này và đối với nhiều người dân những nghi lễ hoành tráng này và độ dài của các nghi lễ là không thể đo đếm được với cách thức mà chúng ta phải đối mặt với tỷ lệ tử vong của riêng mình ở phía tây .  <EOS>


In [6]:
print(english_sequences[0])

[41, 183, 192, 1813, 4, 4879, 117, 2, 12906, 12907, 2, 85, 20, 9, 65, 17, 779, 4, 488, 3, 13, 134, 77, 86, 6947, 5756, 3, 1, 2173, 4, 1, 5756, 24, 3450, 12908, 15, 1, 114, 10, 22, 301, 92, 187, 3451, 7, 1, 471]


In [7]:
print(vietnamese_sequences[0])

[2, 127, 26, 283, 40, 155, 1687, 17, 579, 42, 20, 6235, 6236, 30, 219, 36, 35, 12, 60, 42, 676, 337, 240, 8, 99, 316, 28, 5, 171, 20, 70, 17, 255, 24, 927, 920, 2977, 2332, 28, 5, 153, 431, 8, 14, 927, 920, 7, 10, 18, 1072, 1895, 12, 20, 69, 217, 52, 27, 25, 37, 171, 159, 20, 858, 681, 379, 1388, 8, 566, 79, 29, 299, 439, 4, 3]


In [8]:
print(vietnamese_tokenizer.texts_to_sequences(["<SOS>"])[0])

[2]


In [9]:
print(vietnamese_tokenizer.sequences_to_texts([[3], [127]]))

['<eos>', 'do']


# **Padding**

In [10]:
# Determine maximum sequence lengths
max_length_en = max(len(seq) for seq in english_sequences)
max_length_vi = max(len(seq) for seq in vietnamese_sequences)

# Pad sequences# Add special tokens to Vietnamese sequences


# Pad sequences after adding special tokens
vietnamese_padded = pad_sequences(vietnamese_sequences, maxlen=max_length_vi, padding='post')

english_padded = pad_sequences(english_sequences, maxlen=max_length_en, padding='post')



In [11]:
print(max_length_en)
print(max_length_vi)

193
232


In [12]:
print(len(english_padded[0]))

193


In [13]:
print(len(vietnamese_padded[0]))

232


In [14]:
print(vietnamese_padded[0])

[   2  127   26  283   40  155 1687   17  579   42   20 6235 6236   30
  219   36   35   12   60   42  676  337  240    8   99  316   28    5
  171   20   70   17  255   24  927  920 2977 2332   28    5  153  431
    8   14  927  920    7   10   18 1072 1895   12   20   69  217   52
   27   25   37  171  159   20  858  681  379 1388    8  566   79   29
  299  439    4    3    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0 

In [15]:
import numpy as np

# Remove <start> token from decoder target
decoder_target_data = np.delete(vietnamese_padded,0 , axis=1)



In [16]:
print(len(decoder_target_data[0]))

231


In [17]:
print(decoder_target_data[0])

[ 127   26  283   40  155 1687   17  579   42   20 6235 6236   30  219
   36   35   12   60   42  676  337  240    8   99  316   28    5  171
   20   70   17  255   24  927  920 2977 2332   28    5  153  431    8
   14  927  920    7   10   18 1072 1895   12   20   69  217   52   27
   25   37  171  159   20  858  681  379 1388    8  566   79   29  299
  439    4    3    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0 

In [18]:
print(vietnamese_padded.shape)

(23823, 232)


In [19]:
# Adjust decoder target data by removing the last token
decoder_target_data = pad_sequences(decoder_target_data, maxlen=vietnamese_padded.shape[1], padding='post')


In [20]:
print(decoder_target_data[0])

[ 127   26  283   40  155 1687   17  579   42   20 6235 6236   30  219
   36   35   12   60   42  676  337  240    8   99  316   28    5  171
   20   70   17  255   24  927  920 2977 2332   28    5  153  431    8
   14  927  920    7   10   18 1072 1895   12   20   69  217   52   27
   25   37  171  159   20  858  681  379 1388    8  566   79   29  299
  439    4    3    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0 

In [21]:

# Prepare inputs for the model
encoder_input_data = english_padded
decoder_input_data = vietnamese_padded

In [22]:
import pickle

# Save tokenizers
with open('english_tokenizer.pkl', 'wb') as f:
    pickle.dump(english_tokenizer, f)

with open('vietnamese_tokenizer.pkl', 'wb') as f:
    pickle.dump(vietnamese_tokenizer, f)

# Save padded data
np.save('/kaggle/working/english_padded.npy', english_padded)
np.save('/kaggle/working/vietnamese_padded.npy', vietnamese_padded)


In [23]:
print("English Vocabulary Size:", len(english_tokenizer.word_index))
print("Vietnamese Vocabulary Size:", len(vietnamese_tokenizer.word_index))
print("Sample Tokens:", english_tokenizer.word_index.keys())


English Vocabulary Size: 27492
Vietnamese Vocabulary Size: 15288


In [24]:
# Vocabulary sizes
english_vocab_size = len(english_tokenizer.word_index) + 1
vietnamese_vocab_size = len(vietnamese_tokenizer.word_index) + 1

In [25]:
print(english_vocab_size)
print(vietnamese_vocab_size)

27493
15289


# **Encoder**

In [26]:
from tensorflow.keras.layers import Input, Embedding, LSTM, Bidirectional, Dense, Concatenate
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam
import tensorflow as tf
from tensorflow.keras.regularizers import l2
# Encoder
def build_encoder(input_dim, embedding_dim, units, input_length):
    encoder_input = Input(shape=(input_length,), name="encoder_input")

    # Embedding layer with dropout
    encoder_embedding = Embedding(
        input_dim=input_dim,
        output_dim=embedding_dim,
        mask_zero=True,
        name="encoder_embedding"
    )(encoder_input)
    encoder_embedding = Dropout(0.2, name="encoder_embedding_dropout")(encoder_embedding)  # Apply dropout

    # BiLSTM with recurrent dropout and kernel regularization
    encoder_bilstm, forward_h, forward_c, backward_h, backward_c = Bidirectional(
        LSTM(
            units,
            return_state=True,
            kernel_regularizer=l2(0.0001),       # L2 regularization on weights
            recurrent_dropout=0.2,            # Dropout within recurrent connections
            name="encoder_lstm"
        )
    )(encoder_embedding)

    # Concatenate forward and backward states
    state_h = Concatenate(axis=-1, name="state_h_concat")([forward_h, backward_h])
    state_c = Concatenate(axis=-1, name="state_c_concat")([forward_c, backward_c])

    return encoder_input, encoder_bilstm, state_h, state_c

# **Decoder**

In [27]:
def build_decoder(output_dim, embedding_dim, units, input_length, encoder_states):
    decoder_input = Input(shape=(input_length,), name="decoder_input")

    # Embedding layer with dropout
    decoder_embedding = Embedding(
        input_dim=output_dim,
        output_dim=embedding_dim,
        mask_zero=True,
        name="decoder_embedding"
    )(decoder_input)
    decoder_embedding = Dropout(0.2, name="decoder_embedding_dropout")(decoder_embedding)  # Apply dropout

    # LSTM with recurrent dropout and kernel regularization
    decoder_lstm = LSTM(
        units * 2,
        return_sequences=True,
        return_state=True,
        kernel_regularizer=l2(0.0001),        # L2 regularization on weights
        recurrent_dropout=0.2,             # Dropout within recurrent connections
        name="decoder_lstm"
    )
    decoder_output, _, _ = decoder_lstm(decoder_embedding, initial_state=encoder_states)

    # Dense output layer with L2 regularization
    decoder_dense = Dense(
        output_dim,
        activation='softmax',
        kernel_regularizer=l2(0.0001),       # L2 regularization on weights
        name="decoder_dense"
    )
    decoder_output = decoder_dense(decoder_output)

    return decoder_input, decoder_output

# **Seq2Seq Model**

In [28]:
embedding_dim = 256
units = 128  # LSTM units
from tensorflow.keras.layers import Dropout

# Build encoder
encoder_input, encoder_output, encoder_state_h, encoder_state_c = build_encoder(
    input_dim=english_vocab_size,
    embedding_dim=embedding_dim,
    units=units,
    input_length=max_length_en
)

# Build decoder
decoder_input, decoder_output = build_decoder(
    output_dim=vietnamese_vocab_size,
    embedding_dim=embedding_dim,
    units=units,
    input_length=max_length_vi,
    encoder_states=[encoder_state_h, encoder_state_c]
)

In [29]:
decoder_target_data = np.expand_dims(decoder_target_data, -1)
print(len(decoder_target_data[0]))
print(decoder_target_data.shape)

232
(23823, 232, 1)


In [30]:
print("English padded shape:", english_padded.shape)  # (batch_size, max_length_en)
print("Vietnamese padded shape (decoder input):", vietnamese_padded.shape)  # (batch_size, max_length_vi)
print("Decoder target data shape:", decoder_target_data.shape)  # (batch_size, max_length_vi - 1)


English padded shape: (23823, 193)
Vietnamese padded shape (decoder input): (23823, 232)
Decoder target data shape: (23823, 232, 1)


In [34]:
  # Clip gradients with norm > 1.0
from tensorflow.keras.optimizers import RMSprop
# Compile the model
# detect and init the TPU

# instantiate a distribution strategy
model = Model([encoder_input, decoder_input], decoder_output) # define your model normally
model.compile(optimizer="adam",
              loss='sparse_categorical_crossentropy',
              metrics=["accuracy"])
model.fit(
        [english_padded, vietnamese_padded],
        decoder_target_data,
        batch_size=32,
        epochs=30,
        validation_split=0.2
    )
model.save('/kaggle/working/my_model_1.keras')

Epoch 1/30
[1m596/596[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m642s[0m 1s/step - accuracy: 0.1193 - loss: 6.8459 - val_accuracy: 0.0139 - val_loss: 5.9143
Epoch 2/30
[1m596/596[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m634s[0m 1s/step - accuracy: 0.0144 - loss: 5.8252 - val_accuracy: 0.0156 - val_loss: 5.6763
Epoch 3/30
[1m596/596[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m632s[0m 1s/step - accuracy: 0.0157 - loss: 5.5879 - val_accuracy: 0.0168 - val_loss: 5.5384
Epoch 4/30
[1m596/596[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m626s[0m 1s/step - accuracy: 0.0172 - loss: 5.4182 - val_accuracy: 0.0183 - val_loss: 5.4151
Epoch 5/30
[1m596/596[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m625s[0m 1s/step - accuracy: 0.0188 - loss: 5.2739 - val_accuracy: 0.0197 - val_loss: 5.3333
Epoch 6/30
[1m596/596[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m626s[0m 1s/step - accuracy: 0.0205 - loss: 5.1651 - val_accuracy: 0.0207 - val_loss: 5.2578
Epoch 7/30
[1m596/596

In [36]:
model.save('/kaggle/working/my_model_1.keras')

# **Save Model**

# **Interfer**

In [None]:
from tensorflow.keras.models import Model
from tensorflow.keras.models import load_model


In [None]:
model = load_model('my_model.keras')
encoder_input = model.input[0]
encoder_output= model.get_layer("encoder_bilstm").ouput
encoder_state_h = model.get_layer("state_h_concat").output
encoder_state_c = model.get_layer("state_c_concat").output
# Encoder inference model
encoder_model = Model(encoder_input, [encoder_output, encoder_state_h, encoder_state_c])

In [None]:
encoder_model = Model(encoder_input, [encoder_output, encoder_state_h, encoder_state_c])

In [None]:
decoder_embedding = model.get_layer("decoder_embedding")
decoder_lstm = model.get_layer("decoder_lstm")
decoder_dense = model.get_layer("decoder_dense")

In [None]:
from tensorflow.keras.layers import Input

# Decoder inference inputs
decoder_state_input_h = Input(shape=(units * 2,), name="decoder_state_input_h")  # BiLSTM doubles the size
decoder_state_input_c = Input(shape=(units * 2,), name="decoder_state_input_c")

decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]

# Reuse the embedding and LSTM layers
decoder_input = Input(shape=(1,), name="decoder_input")  # Decoder input for one time step
decoder_embedding_inf = decoder_embedding(decoder_input)
decoder_lstm_inf = decoder_lstm(decoder_embedding_inf, initial_state=decoder_states_inputs)
decoder_output_inf, state_h_inf, state_c_inf = decoder_lstm_inf

decoder_states_inf = [state_h_inf, state_c_inf]

# Dense layer for probabilities
decoder_output_inf = decoder_dense(decoder_output_inf)

# Decoder inference model
decoder_model = Model(
    [decoder_input] + decoder_states_inputs,  # Inputs
    [decoder_output_inf] + decoder_states_inf  # Outputs
)


In [None]:
import numpy as np

def preprocess_sentence(sentence, tokenizer, max_length):
    """Preprocess and tokenize an input sentence."""
    sequence = tokenizer.texts_to_sequences([sentence])
    return pad_sequences(sequence, maxlen=max_length, padding='post')

def decode_sequence(input_seq):
    """Generate a Vietnamese sentence from an English input sequence."""
    # Encode the input sequence to get initial states
    encoder_output, state_h, state_c = encoder_model.predict(input_seq)

    # Initialize the decoder input with the <start> token
    target_seq = np.zeros((1, 1))  # Shape: (batch_size, 1)
    target_seq[0, 0] = vietnamese_tokenizer.texts_to_sequences(["<SOS>"])[0][0]

    # Initialize states
    states = [state_h, state_c]

    # Generate the output sequence token by token
    decoded_sentence = []
    for _ in range(max_length_vi):
        output_tokens, h, c = decoder_model.predict([target_seq] + states)

        # Sample the next token
        sampled_token_index = np.argmax(output_tokens[0, -1, :])
        sampled_token = vietnamese_tokenizer.index_word.get(sampled_token_index, '<unk>')
        if sampled_token == '<eos>':
            break

        decoded_sentence.append(sampled_token)

        # Update the target sequence (input to the decoder)
        target_seq[0, 0] = sampled_token_index

        # Update states
        states = [h, c]

    return ' '.join(decoded_sentence)


In [None]:
!pip install bert-score

In [None]:
from bert_score import score

# Example dataset (mock val_data with English-Vietnamese pairs)

# Prepare lists to store candidates and references
candidates = []
references = []

for i in range (len(val_data)):
    # Input sentence
    input_sentence = val_data[i]["translation"]["en"]

    # Preprocess and translate the sentence
    input_sequence = preprocess_sentence(input_sentence, english_tokenizer, max_length_en)
    translated_sentence = decode_sequence(input_sequence)  # Should produce raw Vietnamese text

    print("Input:", input_sentence)
    print("Translation:", translated_sentence)

    # Append to lists
    candidates.append(translated_sentence)
    references.append(val_data[i]["translation"]["vi"])

# Calculate BERTScore (after loop)
P, R, F1 = score(candidates, references, model_type="xlm-roberta-base", lang="vi", verbose=True)

# Print average scores
print(f"Average Precision: {P.mean().item():.4f}")
print(f"Average Recall: {R.mean().item():.4f}")
print(f"Average F1 Score: {F1.mean().item():.4f}")

