# Mini Project 3 - III. Word Prediction
Build a neural language model which is an alternative architecture to the n-gram model that you have seen in Lesson 02. The model predicts the next word given the $ N $ previous words. This is done by concatenating the word embeddings of $ N $ previous words and use them as input of a single hidden layer of size $ H $ with a non-linearity (e.g. sigmoid). Finally, a softmax layer is used to make a prediction of the next word. Train your model with $ N = 5 $ and $ H = 512 $ (you can also propose your own architecture).

In [1]:
import numpy as np
import tensorflow as tf
from khmernltk import word_tokenize

UNKNOWN_TOKEN = "<UNK>"
N = 5
H = 512

2025-01-28 17:04:36.897024: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [2]:
def predict_next_word(model, sentence, word_to_index, index_to_word, vocabs):
    _tokens = word_tokenize(sentence)
    if len(_tokens) < N:
        raise ValueError(f"Expected {N} words, got {len(_tokens)}")
    
    last_2_words = _tokens[-2:]
    # Take the last N words
    _tokens = _tokens[-N:]

    x = np.array([[word_to_index[w] if w in vocabs else 0 for w in _tokens]])
    y = model.predict(x)

    # Get 5 words with the highest probability
    top_indices = np.argsort(y[0])[::-1][:10]

    # Get the words
    top_words = [index_to_word[i] for i in top_indices]

    for w in top_words:
        if w not in last_2_words and w != '<UNK>':
            return w
    
    return top_words[-1]
    # return top_5_words, last_2_words

In [3]:
def generate_text(model, seed, word_to_index, index_to_word, vocabs, n_words=100):
    sentence = seed
    for _ in range(n_words):
        sentence += predict_next_word(model, sentence, word_to_index, index_to_word, vocabs)
    return sentence

In [4]:
def create_embedding_array(words_embedding, word_to_index):
    # Create an array of array 50-dimensional with zeros
    embeddings_array = np.zeros((len(words_embedding), 50))

    # Fill the array with the embeddings
    for word, embedding in words_embedding.items():
        index = word_to_index[word]
        embeddings_array[index] = embedding

    return embeddings_array

In [7]:
file_word_to_index = 'word_to_index.npy' # Change as you prefer

In [8]:
# Load word to index
word_to_index = np.load(file_word_to_index, allow_pickle=True).item()
index_to_word = {v: k for k, v in word_to_index.items()}
vocabs = word_to_index.keys()

len(vocabs), word_to_index, index_to_word

(175,
 {'ខ្លួន': 0,
  'ជាមួយ': 1,
  'ច្រក': 2,
  'ហើយ': 3,
  'ដំបូង': 4,
  'វិញ': 5,
  'ទេវតា': 6,
  'ខាងលិច': 7,
  'ហៅ': 8,
  'ចំពោះ': 9,
  'វា': 10,
  'តូច': 11,
  'ចុង': 12,
  'ខ្ពស់': 13,
  'ន័យ': 14,
  'ជុំវិញ': 15,
  'ជាង': 16,
  'ខាង': 17,
  'ទី': 18,
  'ថែវ': 19,
  'វរ្ម័ន': 20,
  'ឈ្មោះ': 21,
  'នៃ': 22,
  'បុរាណ': 23,
  'ពិភពលោក': 24,
  'ក្រុម': 25,
  'ភក់': 26,
  'គេ': 27,
  'ចំនួន': 28,
  'បារាំង': 29,
  'កណ្តាល': 30,
  'ចម្លាក់': 31,
  'រាជធានី': 32,
  'ប្រជាជន': 33,
  'ពេល': 34,
  'ក្នុង': 35,
  'មិន': 36,
  'ចេញ': 37,
  'តាម': 38,
  'នៅក្នុង': 39,
  'ខ្លះ': 40,
  'ធ្វើ': 41,
  'គ្នា': 42,
  'ដើម': 43,
  'គឺជា': 44,
  'ភាគ': 45,
  'ទៀត': 46,
  'ប្រាង្គ': 47,
  'និង': 48,
  'ទៅ': 49,
  'គឺ': 50,
  'កម្ពុជា': 51,
  'ស្រាល': 52,
  'ទី២': 53,
  'ទេសចរណ៍': 54,
  'លើ': 55,
  'នគរ': 56,
  'ថា': 57,
  'មួយ': 58,
  'ផ្នែក': 59,
  'ពីរ': 60,
  'អង្គរ': 61,
  'នោះ': 62,
  'សាសនា': 63,
  'សតវត្ស': 64,
  'កន្លែង': 65,
  'ផ្សេង': 66,
  'គោ': 67,
  'ខាងក្រៅ': 68,
  'ខេត្ត': 69,
  'ឡើង':

## Load Saved Embbedings

In [25]:
file_word_embeddings = 'word_to_embedding2.npy' # Change as you prefers

In [26]:
words_embedding = np.load(file_word_embeddings, allow_pickle=True).item()
words_embedding

{'ម៉ែត្រ': array([ 3.43143284e-01,  1.61312282e-01,  4.47183281e-01,  7.10742595e-03,
        -6.20975569e-02, -3.98386896e-01,  1.10205211e-01,  9.93899852e-02,
        -4.60962008e-04, -2.95165151e-01, -2.06518844e-02,  8.70357230e-02,
        -2.22792879e-01, -3.95937413e-01, -1.24692544e-01, -1.78391233e-01,
        -5.56997769e-02,  1.78584382e-02, -9.03898329e-02,  2.67650969e-02,
         3.20523977e-02, -3.86104733e-01, -4.12753411e-03,  9.22988169e-03,
        -9.19570699e-02,  2.04559788e-01,  2.37744913e-01,  8.27398822e-02,
         1.24195591e-01, -1.79732233e-01,  2.97169864e-01,  4.67481285e-01,
        -3.73979628e-01,  2.10262850e-01, -2.58323044e-01,  2.01040488e-02,
         2.70801842e-01,  1.92830518e-01,  1.90685466e-02, -4.42428201e-01,
         6.28516972e-02, -3.95718254e-02, -1.86463371e-01,  1.40559688e-01,
        -1.57118410e-01,  2.77345449e-01,  1.25198469e-01,  1.37297779e-01,
         2.17209682e-01, -4.36384529e-01], dtype=float32),
 'មួយ': array([ 0.0

In [27]:
embeddings_array = create_embedding_array(words_embedding, word_to_index)

## Prepare Dataset

In [18]:
# Read limited tokens
with open("cleaned_tokens.txt", "r") as f:
    cleaned_tokens = f.read().split()

In [19]:
len(cleaned_tokens), cleaned_tokens

(9086,
 ['ប្រាសាទ',
  'អង្គរវត្ត',
  'ឬ',
  'ប្រាសាទ',
  'អង្គរ',
  'តូច',
  'មាន',
  'ទីតាំង',
  'ស្ថិត',
  'នៅ',
  'ភាគ',
  'ខាងជើង',
  'នៃ',
  'ក្រុង',
  'សៀមរាប',
  'នៃ',
  'ខេត្ត',
  'សៀមរាប',
  'ប្រាសាទ',
  'អង្គរវត្ត',
  'ជា',
  'ប្រាសាទ',
  'ព្រហ្មញ្ញ',
  'សាសនា',
  'ធំ',
  'បំផុត',
  'និង',
  'ជា',
  'វិមាន',
  'សាសនា',
  'ដ៏',
  'ធំ',
  'បំផុត',
  'នៅក្នុង',
  'លោក',
  'ប្រាសាទ',
  'នេះ',
  'ត្រូវបាន',
  'កសាងឡើង',
  'ដោយ',
  'ព្រះបាទ',
  'សូរ្យ',
  'វរ្ម័ន',
  'ទី២',
  'ដែល',
  'ជា',
  'ស្នាដៃ',
  'ដ៏',
  'ធំ',
  'អស្ចារ្យ',
  'និង',
  'មាន',
  'ឈ្មោះ',
  'ល្បីល្បាញ',
  'រន្ទឺ',
  'សុះ',
  'សាយ',
  'ទៅ',
  'គ្រប់',
  'ទិសទី',
  'លើ',
  'ពិភពលោក',
  'ប្រាសាទ',
  'នេះ',
  'សាងសង់',
  'ឡើង',
  'នៅ',
  'ដើម',
  'សតវត្ស',
  'ទី',
  'ដែល',
  'ស្ថិត',
  'នៅក្នុង',
  'រាជធានី',
  'សោធរ',
  'បុរៈ',
  'ប្រាសាទ',
  'អង្គរវត្ត',
  'ជា',
  'ប្រាសាទ',
  'កសាងឡើង',
  'ដើម្បី',
  'ឧទ្ទិស',
  'ដល់',
  'ព្រះវិស្ណុ',
  'ប្រាសាទ',
  'នេះ',
  'ជា',
  'ប្រាសាទ',
  'ដែល',
  'នៅ',
  'គង់វង្ស',
  'ល

In [20]:
# Create training data
X = []
y = []
for i in range(len(cleaned_tokens) - N):
    X.append(cleaned_tokens[i:i+N])
    y.append(cleaned_tokens[i+N])

X = np.array(X)
y = np.array(y)
X.shape, y.shape

((9081, 5), (9081,))

In [21]:
print(X[0], y[0])
print(X[1], y[1])

['ប្រាសាទ' 'អង្គរវត្ត' 'ឬ' 'ប្រាសាទ' 'អង្គរ'] តូច
['អង្គរវត្ត' 'ឬ' 'ប្រាសាទ' 'អង្គរ' 'តូច'] មាន


In [22]:
UNKNOWN_INDEX = word_to_index[UNKNOWN_TOKEN]
UNKNOWN_INDEX

131

In [23]:
# Convert words to indices. 
X_indices = []
y_indices = []
for i in range(len(X)):
    X_indices.append([word_to_index[w] if w in vocabs else word_to_index[UNKNOWN_TOKEN] for w in X[i]])
    y_indices.append(word_to_index[y[i]] if y[i] in vocabs else word_to_index[UNKNOWN_TOKEN])

X_indices = np.array(X_indices)
y_indices = np.array(y_indices)
X_indices.shape, y_indices.shape

((9081, 5), (9081,))

In [24]:
X_indices[0], y_indices[0], X[0], y[0]

(array([141, 121, 145, 141,  61]),
 11,
 array(['ប្រាសាទ', 'អង្គរវត្ត', 'ឬ', 'ប្រាសាទ', 'អង្គរ'], dtype='<U20'),
 'តូច')

## Neural Network Model 1 - Simple

In [33]:
print(embeddings_array.shape[0], embeddings_array.shape[1])

175 50


In [34]:
def create_word_prediction_model1(embeddings_array, hidden_size=512):
    model = tf.keras.Sequential()
    model.add(tf.keras.layers.Embedding(input_dim=embeddings_array.shape[0], output_dim=embeddings_array.shape[1], weights=[embeddings_array], input_length=N, trainable=False))
    model.add(tf.keras.layers.Flatten())
    model.add(tf.keras.layers.Dense(hidden_size, activation='sigmoid'))
    model.add(tf.keras.layers.Dense(len(vocabs), activation='softmax'))
    model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
    return model

In [35]:
model = create_word_prediction_model1(embeddings_array, H)
model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding_1 (Embedding)     (None, 5, 50)             8750      
                                                                 
 flatten (Flatten)           (None, 250)               0         
                                                                 
 dense_1 (Dense)             (None, 512)               128512    
                                                                 
 dense_2 (Dense)             (None, 175)               89775     
                                                                 
Total params: 227037 (886.86 KB)
Trainable params: 218287 (852.68 KB)
Non-trainable params: 8750 (34.18 KB)
_________________________________________________________________


In [36]:
model.fit(X_indices, y_indices, epochs=200, batch_size=128)

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

<keras.src.callbacks.History at 0x7f7f4e88d130>

Model's accuracy: 70%

In [37]:
# Save model
model.save("model_word_prediction1.keras")

In [41]:
word = "ប្រាសាទអង្គរវត្តត្រូវបានគេចាត់ដើម្បី"
predict_next_word(model, word, word_to_index, index_to_word, vocabs)



'អោយ'

In [42]:
text = generate_text(model, "ប្រាសាទអង្គរវត្តត្រូវបានគេចាត់ដើម្បី", word_to_index, index_to_word, vocabs)



In [43]:
print(text)

ប្រាសាទអង្គរវត្តត្រូវបានគេចាត់ដើម្បីអោយនៅចុងសតវត្សរ៍ចូលនៃថែវនេះមានតែនៅឆ្នាំនៃអង្គរវត្តត្រូវបាននឹងជាខេត្តនេះជាតំបន់រាជធានីរបស់អង្គរវត្តគឺអង្គរធំនៃអង្គរវត្តនៅក្នុងប្រាសាទនេះដោយពួកអ្នកដែលដូចជាជាកន្លែងដ៏ធំនៃប្រាសាទនេះឈ្មោះប្រាសាទអង្គរវត្តគឺប្រាសាទនេះគឺមានប្រាង្គផ្នែកទីបីកណ្ដាលមានប្រាង្គជាប្រាសាទគេគឺថាក្បាច់ដែលមានក្បាច់មួយជាច្រើនទៀតមកថ្ងៃពេលគឺអង្គរវត្តនេះមិនបានមកពីប្រាសាទជាច្រើនដែលជាប្រាសាទសាសនាធំផ្សេងអង្គរបានធ្វើចេញពីនោះទៅលើតំណាងប្រាង្គតែមាន


## Model 2 - LSTM

In [44]:
def create_model_2(embeddings_array, hidden_size=512):
    model = tf.keras.Sequential()
    model.add(tf.keras.layers.Embedding(input_dim=embeddings_array.shape[0], output_dim=embeddings_array.shape[1], weights=[embeddings_array], input_length=N, trainable=False))
    model.add(tf.keras.layers.LSTM(hidden_size))
    model.add(tf.keras.layers.Dense(len(vocabs), activation='softmax'))
    model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
    return model

In [45]:
model2 = create_model_2(embeddings_array, H)
model2.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding_2 (Embedding)     (None, 5, 50)             8750      
                                                                 
 lstm_1 (LSTM)               (None, 512)               1153024   
                                                                 
 dense_3 (Dense)             (None, 175)               89775     
                                                                 
Total params: 1251549 (4.77 MB)
Trainable params: 1242799 (4.74 MB)
Non-trainable params: 8750 (34.18 KB)
_________________________________________________________________


In [46]:
model2.fit(X_indices, y_indices, epochs=200, batch_size=128)

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

<keras.src.callbacks.History at 0x7f7f4e37dbb0>

In [47]:
# Save model
model2.save("model_word_prediction2.keras")

In [49]:
word = "ប្រាសាទអង្គរវត្តត្រូវបានគេចាត់ដើម្បី"
predict_next_word(model2, word, word_to_index, index_to_word, vocabs)



'ដោយ'

In [50]:
text = generate_text(model, "ប្រាសាទអង្គរវត្តត្រូវបានគេចាត់ដើម្បី", word_to_index, index_to_word, vocabs)



In [51]:
print(text)

ប្រាសាទអង្គរវត្តត្រូវបានគេចាត់ដើម្បីអោយនៅចុងសតវត្សរ៍ចូលនៃថែវនេះមានតែនៅឆ្នាំនៃអង្គរវត្តត្រូវបាននឹងជាខេត្តនេះជាតំបន់រាជធានីរបស់អង្គរវត្តគឺអង្គរធំនៃអង្គរវត្តនៅក្នុងប្រាសាទនេះដោយពួកអ្នកដែលដូចជាជាកន្លែងដ៏ធំនៃប្រាសាទនេះឈ្មោះប្រាសាទអង្គរវត្តគឺប្រាសាទនេះគឺមានប្រាង្គផ្នែកទីបីកណ្ដាលមានប្រាង្គជាប្រាសាទគេគឺថាក្បាច់ដែលមានក្បាច់មួយជាច្រើនទៀតមកថ្ងៃពេលគឺអង្គរវត្តនេះមិនបានមកពីប្រាសាទជាច្រើនដែលជាប្រាសាទសាសនាធំផ្សេងអង្គរបានធ្វើចេញពីនោះទៅលើតំណាងប្រាង្គតែមាន


## Load Model and Test

In [15]:
file_model = 'model_word_prediction2.keras'
model = tf.keras.models.load_model(file_model)
text = generate_text(model, "ប្រាសាទអង្គរវត្តត្រូវបានគេដែល", word_to_index, index_to_word, vocabs)



In [16]:
print(text)

ប្រាសាទអង្គរវត្តត្រូវបានគេដែលប៉ុន្តែធំសតវត្សរ៍ប៉ុន្តែស្ថិតត្រូវបានប៉ុន្តែព្រះបាទស្រុកនូវប៉ុន្តែលោកសំណង់ប៉ុន្តែធ្វើដើមប៉ុន្តែសំណង់ខាងក្នុងនគរប៉ុន្តែសំណង់ម៉ែត្រប៉ុន្តែខាងកើតសំណង់ប៉ុន្តែផ្នែកកម្ពុជាប្រទេសប៉ុន្តែបំផុតដ៏ប៉ុន្តែនៅក្នុងនូវប៉ុន្តែទៀតនគរប៉ុន្តែរួមនូវប៉ុន្តែមិនបំផុតប៉ុន្តែធ្វើព្រះវិស្ណុប៉ុន្តែទៀតសតវត្សរ៍ប៉ុន្តែវានូវប៉ុន្តែសំខាន់ខាងក្នុងសំណង់ប៉ុន្តែផ្នែកដើមប៉ុន្តែសំណង់ខាងក្នុងអ្នកប៉ុន្តែសំណង់ម៉ែត្រប៉ុន្តែធ្វើភាគប៉ុន្តែសំណង់ភាគប៉ុន្តែយ៉ាងគ្នាប៉ុន្តែភាគខាងត្បូងចំពោះនគរដូចជាឬធ្វើរចនាបថអំពីប៉ុន្តែគោអំពីប៉ុន្តែគោអំពីចំពោះនគរប៉ុន្តែភាគប្រជាជនប៉ុន្តែនោះ
