# Mini Project 3 - III. Word Prediction
Build a neural language model which is an alternative architecture to the n-gram model that you have seen in Lesson 02. The model predicts the next word given the $ N $ previous words. This is done by concatenating the word embeddings of $ N $ previous words and use them as input of a single hidden layer of size $ H $ with a non-linearity (e.g. sigmoid). Finally, a softmax layer is used to make a prediction of the next word. Train your model with $ N = 5 $ and $ H = 512 $ (you can also propose your own architecture).

In [11]:
import numpy as np
import tensorflow as tf
from khmernltk import word_tokenize

N = 5
H = 512
UNKNOWN_TOKEN = "<មម>"

In [29]:
def predict_next_word(model, sentence, word_to_index, index_to_word, vocabs):
    _tokens = word_tokenize(sentence)
    if len(_tokens) < N:
        raise ValueError(f"Expected {N} words, got {len(_tokens)}")
    
    last_2_words = _tokens[-2:]
    # Take the last N words
    _tokens = _tokens[-N:]

    x = np.array([[word_to_index[w] if w in vocabs else 0 for w in _tokens]])
    y = model.predict(x)

    # Get 5 words with the highest probability
    top_indices = np.argsort(y[0])[::-1][:10]

    # Get the words
    top_words = [index_to_word[i] for i in top_indices]

    for w in top_words:
        if w not in last_2_words and w != UNKNOWN_TOKEN:
            return w
    
    return top_words[-1]
    # return top_5_words, last_2_words

In [26]:
def generate_text(model, seed, word_to_index, index_to_word, vocabs, n_words=100):
    sentence = seed
    for _ in range(n_words):
        sentence += predict_next_word(model, sentence, word_to_index, index_to_word, vocabs)
    return sentence

## Load Saved Embbedings

In [4]:
file_word_to_index = 'vocab_to_index.npy' # Change as you prefer
file_word_embeddings = 'word_to_embedding4.npy' # Change as you prefer

In [5]:
# Load word to index
word_to_index = np.load(file_word_to_index, allow_pickle=True).item()
index_to_word = {v: k for k, v in word_to_index.items()}
vocabs = word_to_index.keys()

len(vocabs), word_to_index, index_to_word

(940,
 {'ផ្ទាំង': 0,
  'តោ': 1,
  'ត្រូវ': 2,
  'អភិវឌ្ឍ': 3,
  'ដូច': 4,
  'អ្នកស្រាវជ្រាវ': 5,
  'និង': 6,
  'ខាងក្នុង': 7,
  'សំនង់': 8,
  'ចតុមុខ': 9,
  'ឡើងវិញ': 10,
  'ប៉ុណ្ណោះ': 11,
  'បី': 12,
  'ដោយសារតែ': 13,
  'ជញ្ជាំង': 14,
  'ជីវិត': 15,
  'រា': 16,
  'គ.ស.': 17,
  'ជាមួយនឹង': 18,
  'ចែក': 19,
  'គេ': 20,
  'មកពី': 21,
  'កេរ': 22,
  'បុរី': 23,
  'ព្រះវិហារ': 24,
  'រហូតមក': 25,
  'យក': 26,
  'ទាំងអស់': 27,
  'ក្រោយមក': 28,
  'នៅតែ': 29,
  'នាម': 30,
  'បុរៈ': 31,
  'ច្រក': 32,
  'ចំណែក': 33,
  'ខ្លះ': 34,
  'ដំណាក់កាល': 35,
  'ផ្ទុយ': 36,
  'ចម្លាក់': 37,
  'ចំ': 38,
  'រចនាសម្ព័ន្ធ': 39,
  'ដាក់បញ្ចូល': 40,
  'ថ្វាយ': 41,
  'ចតុកោណ': 42,
  'មូល': 43,
  'នឹង': 44,
  'ពីមុន': 45,
  'ទាំងស្រុង': 46,
  'ទេវរាជ': 47,
  'វាទ': 48,
  'មែន': 49,
  'ល្បី': 50,
  'ចេញ': 51,
  'ដំណាប់': 52,
  'ដោយសារ': 53,
  'សករាជ': 54,
  'សព': 55,
  'ថ្ម': 56,
  'ទេវៈ': 57,
  'រដូវ': 58,
  'ឯកសារ': 59,
  'ជិត': 60,
  'ប្រម៉ាណ': 61,
  'បុរាណ': 62,
  'វាល': 63,
  'រស់រវើក': 64,
  '៩៥ម៉ែត្រ': 65,
 

In [6]:
words_embedding = np.load(file_word_embeddings, allow_pickle=True).item()
words_embedding

{'ផ្ទាំង': array([-0.39714095,  0.28081563, -0.08421252, -0.1807773 , -0.21726531,
        -0.22500634, -0.47116008, -0.2390432 , -0.00979427, -0.02148806,
        -0.39863905, -0.04124927, -0.10599356,  0.29695427, -0.24831249,
         0.5961969 ,  0.866331  , -0.22148474,  0.23587838,  0.0959111 ,
         0.05643222,  0.38016716,  0.20066826,  1.1319199 , -0.03136902,
        -0.00996196, -0.01817536, -0.00691926,  0.19779   ,  0.15323098,
         0.41645375,  0.04460753,  0.09268972,  0.20427322, -0.18640697,
        -0.57776815,  0.35160163,  0.6146208 , -0.04729665,  0.42608586,
         0.97485965,  0.11790054, -0.15671258, -0.1975034 , -0.17668343,
        -0.27233124,  0.03479195, -0.38197738,  0.15043499, -0.1884143 ],
       dtype=float32),
 'តោ': array([ 0.40780312,  0.0203452 ,  0.04022121,  0.03311273, -0.44348422,
        -0.24437413, -0.01779308, -0.22360754,  0.5568268 ,  0.05519613,
        -0.27859145, -0.2911076 ,  0.3360994 ,  0.18846451,  0.29135182,
         0.

## Load and Test Existing Model

In [14]:
file_model = 'model_word_prediction1.keras'

In [15]:
model = tf.keras.models.load_model(file_model)

In [20]:
text = generate_text(model, "ប្រាសាទអង្គរវត្តត្រូវបានគេដែល", word_to_index, index_to_word, vocabs)

| 2025-01-27 16:33:12,485 | [1;32mINFO[0m | khmer-nltk | Loaded model from /Users/maohieng/master-degree/learn_ai/.venv/lib/python3.8/site-packages/khmernltk/word_tokenize/sklearn_crf_ner_10000.sav |




In [21]:
print(text)

ប្រាសាទអង្គរវត្តត្រូវបានគេដែលប៉ុន្តែជាកន្លែងត្រូវបានគេនេះទេអង្គរវត្តនៃតំណាងដែលបានស្ថិតនៅដើមសតវត្សរ៍ទីនៃព្រះបាទនោះវរ្ម័ននេះនៅលើបីនៃមានក្បាច់ទាំងបីនៃប្រាសាទនេះតាមដែលត្រូវបានគេដែលមានឈ្មោះថាជាប្រាសាទដែលមានន័យថាទីក្រុងរបស់អង្គរវត្តមាននៅទីក្រុងទៀតចំពោះនេះត្រូវបានគេនេះដើម្បីតាមត្រូវបាននិងប្រាសាទនេះដោយតំណាងភ្នំនិងជានៃពួកទេវតានិងចម្លាក់លៀនស្រាលដែលបានធ្វើតាមនិងដើម្បីតាមដែលបាននោះនៅសម័យនោះត្រូវបានប្រើកន្លែងសម្រាប់ថ្មជាប្រាសាទនេះនៅកន្លែងដែល


## Scratch: Train models

### Prepare Dataset

In [7]:
# Read limited tokens
with open("cleaned_tokens.txt", "r") as f:
    cleaned_tokens = f.read().split()

In [8]:
len(cleaned_tokens), cleaned_tokens

(9086,
 ['ប្រាសាទ',
  'អង្គរវត្ត',
  'ឬ',
  'ប្រាសាទ',
  'អង្គរ',
  'តូច',
  'មាន',
  'ទីតាំង',
  'ស្ថិត',
  'នៅ',
  'ភាគ',
  'ខាងជើង',
  'នៃ',
  'ក្រុង',
  'សៀមរាប',
  'នៃ',
  'ខេត្ត',
  'សៀមរាប',
  'ប្រាសាទ',
  'អង្គរវត្ត',
  'ជា',
  'ប្រាសាទ',
  'ព្រហ្មញ្ញ',
  'សាសនា',
  'ធំ',
  'បំផុត',
  'និង',
  'ជា',
  'វិមាន',
  'សាសនា',
  'ដ៏',
  'ធំ',
  'បំផុត',
  'នៅក្នុង',
  'លោក',
  'ប្រាសាទ',
  'នេះ',
  'ត្រូវបាន',
  'កសាងឡើង',
  'ដោយ',
  'ព្រះបាទ',
  'សូរ្យ',
  'វរ្ម័ន',
  'ទី២',
  'ដែល',
  'ជា',
  'ស្នាដៃ',
  'ដ៏',
  'ធំ',
  'អស្ចារ្យ',
  'និង',
  'មាន',
  'ឈ្មោះ',
  'ល្បីល្បាញ',
  'រន្ទឺ',
  'សុះ',
  'សាយ',
  'ទៅ',
  'គ្រប់',
  'ទិសទី',
  'លើ',
  'ពិភពលោក',
  'ប្រាសាទ',
  'នេះ',
  'សាងសង់',
  'ឡើង',
  'នៅ',
  'ដើម',
  'សតវត្ស',
  'ទី',
  'ដែល',
  'ស្ថិត',
  'នៅក្នុង',
  'រាជធានី',
  'សោធរ',
  'បុរៈ',
  'ប្រាសាទ',
  'អង្គរវត្ត',
  'ជា',
  'ប្រាសាទ',
  'កសាងឡើង',
  'ដើម្បី',
  'ឧទ្ទិស',
  'ដល់',
  'ព្រះវិស្ណុ',
  'ប្រាសាទ',
  'នេះ',
  'ជា',
  'ប្រាសាទ',
  'ដែល',
  'នៅ',
  'គង់វង្ស',
  'ល

In [9]:
# Create training data
X = []
y = []
for i in range(len(cleaned_tokens) - N):
    X.append(cleaned_tokens[i:i+N])
    y.append(cleaned_tokens[i+N])

X = np.array(X)
y = np.array(y)
X.shape, y.shape

((9081, 5), (9081,))

In [12]:
print(X[0], y[0])
print(X[1], y[1])

['ប្រាសាទ' 'អង្គរវត្ត' 'ឬ' 'ប្រាសាទ' 'អង្គរ'] តូច
['អង្គរវត្ត' 'ឬ' 'ប្រាសាទ' 'អង្គរ' 'តូច'] មាន


In [14]:
UNKNOWN_INDEX = word_to_index[UNKNOWN_TOKEN]

In [15]:
# Convert words to indices. 
X_indices = []
y_indices = []
for i in range(len(X)):
    X_indices.append([word_to_index[w] if w in vocabs else UNKNOWN_INDEX for w in X[i]])
    y_indices.append(word_to_index[y[i]] if y[i] in vocabs else UNKNOWN_INDEX)

X_indices = np.array(X_indices)
y_indices = np.array(y_indices)
X_indices.shape, y_indices.shape

((9081, 5), (9081,))

In [16]:
X_indices[0], y_indices[0], X[0], y[0]

(array([672, 532, 308, 672, 519]),
 109,
 array(['ប្រាសាទ', 'អង្គរវត្ត', 'ឬ', 'ប្រាសាទ', 'អង្គរ'], dtype='<U20'),
 'តូច')

### Neural Network Model 1

In [17]:
# Create an array of array 50-dimensional with zeros
embeddings_array = np.zeros((len(words_embedding), 50))

for word, embedding in words_embedding.items():
    index = word_to_index[word]
    embeddings_array[index] = embedding

embeddings_array

array([[-0.39714095,  0.28081563, -0.08421252, ..., -0.38197738,
         0.15043499, -0.18841431],
       [ 0.40780312,  0.0203452 ,  0.04022121, ..., -0.43483904,
         0.59117788, -0.22888137],
       [-0.10494262, -0.0596906 , -0.40379745, ...,  0.22276442,
        -0.17462629, -0.3857255 ],
       ...,
       [ 0.01783764,  0.35291246,  0.06971829, ..., -0.10051635,
        -0.39859483, -0.28690222],
       [-0.01028689, -0.16240998, -0.27351487, ..., -1.02855814,
         0.59480602,  0.31954393],
       [-0.06068081, -0.29742426, -0.11377298, ..., -0.21418564,
        -0.22083393,  0.77536798]])

In [18]:
print(embeddings_array.shape[0], embeddings_array.shape[1])

940 50


In [19]:
model = tf.keras.Sequential()
model.add(tf.keras.layers.Embedding(input_dim=embeddings_array.shape[0], output_dim=embeddings_array.shape[1], weights=[embeddings_array], input_length=N, trainable=False))
model.add(tf.keras.layers.Flatten())
model.add(tf.keras.layers.Dense(H, activation='sigmoid'))
model.add(tf.keras.layers.Dense(len(vocabs), activation='softmax'))

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 5, 50)             47000     
                                                                 
 flatten (Flatten)           (None, 250)               0         
                                                                 
 dense (Dense)               (None, 512)               128512    
                                                                 
 dense_1 (Dense)             (None, 940)               482220    
                                                                 
Total params: 657732 (2.51 MB)
Trainable params: 610732 (2.33 MB)
Non-trainable params: 47000 (183.59 KB)
_________________________________________________________________


In [20]:
model.fit(X_indices, y_indices, epochs=100, batch_size=128)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.src.callbacks.History at 0x7feab03b98e0>

In [21]:
# Save model
model.save("model_word_prediction1.keras")

In [22]:
word = "ប្រាសាទអង្គរវត្តត្រូវបានគេដែលត្រូវបានគេដែលមានប្រាសាទនៅមានប្រាសាទអង្គរវត្ត"
predict_next_word(model, word, word_to_index, index_to_word, vocabs)

| 2025-01-27 22:48:17,302 | [1;32mINFO[0m | khmer-nltk | Loaded model from /Users/maohieng/master-degree/learn_ai/.venv/lib/python3.8/site-packages/khmernltk/word_tokenize/sklearn_crf_ner_10000.sav |




'និង'

In [30]:
text = generate_text(model, "ប្រាសាទអង្គរវត្តត្រូវបានគេដែល", word_to_index, index_to_word, vocabs)



In [31]:
print(text)

ប្រាសាទអង្គរវត្តត្រូវបានគេដែលមានដើមដូចជាថ្មនៃប៉មដែលបានទៅទស្សនាប្រាង្គប្រាសាទអង្គរវត្តនិងប្រាសាទដទៃទៀតនៅក្នុងទឹកដីនៃខេត្តសៀមរាបតែងតែខេត្តសៀមរាបរួមខេត្តសៀមរាបដែលចម្ងាយប្រមាណគីឡូម៉ែត្រភាគខាងជើងទីរួមខេត្តសៀមរាបឃ្លាតពីស្រះស្រង់គីឡូម៉ែត្រនិងមានចំងាយគីឡូម៉ែត្រពីប្រាសាទអង្គរវត្តតាមផ្លូវឆ្ពោះទៅភ្នំមានប្រាសាទបន្ទាយស្រីមានកម្ពស់ម៉ែត្រលើសពីរាជធានីភ្នំពេញមាននេះខាងកើតជាប់ផ្លូវខាងកើតនិងធ្វើពីនៃគ្រោងនិងភាគច្រើនជាច្រើននៃតំបន់សៀមរាបអង្គរបានចាប់ផ្តើមឡើងនៅឆ្នាំនៃគ្រិស្តសករាជតាមឯកសារខាងលើបានឲ្យដឹងថាព្រះបាទជ័យវរ្ម័ន
