# Mini Project 3 - III. Word Prediction
Build a neural language model which is an alternative architecture to the n-gram model that you have seen in Lesson 02. The model predicts the next word given the $ N $ previous words. This is done by concatenating the word embeddings of $ N $ previous words and use them as input of a single hidden layer of size $ H $ with a non-linearity (e.g. sigmoid). Finally, a softmax layer is used to make a prediction of the next word. Train your model with $ N = 5 $ and $ H = 512 $ (you can also propose your own architecture).

In [2]:
import numpy as np
import tensorflow as tf
from khmernltk import word_tokenize

UNKNOWN_TOKEN = "<UNK>"
N = 5
H = 512

In [3]:
def predict_next_word(model, sentence, word_to_index, index_to_word, vocabs):
    _tokens = word_tokenize(sentence)
    if len(_tokens) < N:
        raise ValueError(f"Expected {N} words, got {len(_tokens)}")
    
    last_2_words = _tokens[-2:]
    # Take the last N words
    _tokens = _tokens[-N:]

    x = np.array([[word_to_index[w] if w in vocabs else 0 for w in _tokens]])
    y = model.predict(x)

    # Get 5 words with the highest probability
    top_indices = np.argsort(y[0])[::-1][:10]

    # Get the words
    top_words = [index_to_word[i] for i in top_indices]

    for w in top_words:
        if w not in last_2_words and w != '<UNK>':
            return w
    
    return top_words[-1]
    # return top_5_words, last_2_words

In [4]:
def generate_text(model, seed, word_to_index, index_to_word, vocabs, n_words=100):
    sentence = seed
    for _ in range(n_words):
        sentence += predict_next_word(model, sentence, word_to_index, index_to_word, vocabs)
    return sentence

## Load Saved Embbedings

In [5]:
file_word_to_index = 'I_word_to_index.npy' # Change as you prefer
# file_embeddings = 'I_embeddings2.npy' # Change as you prefer
file_word_embeddings = 'I_word_to_embedding4.npy' # Change as you prefer

In [6]:
# Load word to index
word_to_index = np.load(file_word_to_index, allow_pickle=True).item()
index_to_word = {v: k for k, v in word_to_index.items()}
vocabs = word_to_index.keys()

len(vocabs), word_to_index, index_to_word

(175,
 {'<UNK>': 0,
  'ឬ': 1,
  'ផ្លូវ': 2,
  'ចំនួន': 3,
  'ពួក': 4,
  'នគរ': 5,
  'ដំបូល': 6,
  'ដើម្បី': 7,
  'បង្ហាញ': 8,
  'ព្រះបាទ': 9,
  'ភាគ': 10,
  'ខាង': 11,
  'ថ្ម': 12,
  'នៅ': 13,
  'អង្គរវត្ត': 14,
  'កន្លែង': 15,
  'បី': 16,
  'នៅក្នុង': 17,
  'ស្រុក': 18,
  'សម័យ': 19,
  'លោក': 20,
  'ភក់': 21,
  'ព្រះវិស្ណុ': 22,
  'ជាប់': 23,
  'ប៉ម': 24,
  'កំពែង': 25,
  'ខាងត្បូង': 26,
  'របស់': 27,
  'ពាក្យ': 28,
  'ឡើយ': 29,
  'រួម': 30,
  'ហៅ': 31,
  'កណ្តាល': 32,
  'នូវ': 33,
  'គឺ': 34,
  'ខាងជើង': 35,
  'ចំពោះ': 36,
  'តូច': 37,
  'ត្រូវបាន': 38,
  'វរ្ម័ន': 39,
  'ម៉ែត្រ': 40,
  'សាសនា': 41,
  'ខាងលិច': 42,
  'វិញ': 43,
  'អាច': 44,
  'ជាច្រើន': 45,
  'ខ្លួន': 46,
  'លើ': 47,
  'ទាំង': 48,
  'ទៅ': 49,
  'តំណាង': 50,
  'ទេ': 51,
  'អ្នក': 52,
  'ក្នុង': 53,
  'ទីក្រុង': 54,
  'គេ': 55,
  'ផ្នែក': 56,
  'ទេសចរណ៍': 57,
  'រាជធានី': 58,
  'មាន': 59,
  'ប្រើ': 60,
  'ប្រទេស': 61,
  'ពី': 62,
  'កម្ពុជា': 63,
  'យ៉ាង': 64,
  'ធ្វើ': 65,
  'ស្រាល': 66,
  'ខាងកើត': 67,
  'ប្រជាជន': 6

In [7]:
words_embedding = np.load(file_word_embeddings, allow_pickle=True).item()
words_embedding

{'<UNK>': array([ 0.17700568,  0.167575  , -0.4565982 , -0.12468477, -0.16406532,
        -0.2894348 ,  0.10196926, -0.16389488,  0.11904307,  0.2527621 ,
        -0.5365126 ,  0.14401014,  0.09015285, -0.07594073, -0.20686638,
         0.14518945,  0.18605575,  0.12100258,  0.12381797,  0.24827866,
        -0.1160071 , -0.21443748, -0.15278058, -0.17781441, -1.0892442 ,
        -0.12274525,  0.19193815, -0.13220717,  0.14577834, -0.4401892 ,
         0.23904003,  0.37154558, -0.15388237, -0.24147114,  0.35301903,
         0.1357985 , -0.09185273,  0.3691543 , -0.11072241,  0.28609943,
        -0.18654402, -0.2582477 , -0.14672914, -0.1396053 ,  0.10261047,
        -0.08844615, -0.41337252, -0.3633192 ,  1.3828644 ,  0.25987756],
       dtype=float32),
 'ឬ': array([-0.52396274,  0.10379477, -0.3350835 , -0.51454204,  0.1473687 ,
         0.10425425, -0.8012706 , -0.2076964 , -0.24390541, -0.03804474,
        -0.23433842, -1.0017115 ,  0.60725194, -0.19806425, -0.04846774,
        -0.39

In [8]:
# Create an array of array 50-dimensional with zeros
embeddings_array = np.zeros((len(words_embedding), 50))

# Fill the array with the embeddings
for word, embedding in words_embedding.items():
    index = word_to_index[word]
    embeddings_array[index] = embedding

embeddings_array

array([[ 0.17700568,  0.167575  , -0.45659819, ..., -0.36331919,
         1.38286436,  0.25987756],
       [-0.52396274,  0.10379477, -0.33508351, ..., -0.21254343,
         0.18124491, -0.00421848],
       [ 0.68996924, -0.31943733,  0.23552766, ...,  0.40455407,
         0.17505044, -0.34202713],
       ...,
       [ 0.27136925,  0.39427167,  0.01233269, ..., -0.446789  ,
         0.12509896,  0.54302114],
       [-0.41140708,  0.17523365, -0.01412673, ..., -0.38838515,
         0.4091903 , -0.31206805],
       [ 0.17653717, -0.24588977, -0.43444896, ...,  0.04948792,
        -0.01961078, -0.11755933]])

## Load and Test Existing Model

In [14]:
file_model = 'model_word_prediction1.keras'

In [15]:
model = tf.keras.models.load_model(file_model)

In [20]:
text = generate_text(model, "ប្រាសាទអង្គរវត្តត្រូវបានគេដែល", word_to_index, index_to_word, vocabs)

| 2025-01-27 16:33:12,485 | [1;32mINFO[0m | khmer-nltk | Loaded model from /Users/maohieng/master-degree/learn_ai/.venv/lib/python3.8/site-packages/khmernltk/word_tokenize/sklearn_crf_ner_10000.sav |




In [21]:
print(text)

ប្រាសាទអង្គរវត្តត្រូវបានគេដែលប៉ុន្តែជាកន្លែងត្រូវបានគេនេះទេអង្គរវត្តនៃតំណាងដែលបានស្ថិតនៅដើមសតវត្សរ៍ទីនៃព្រះបាទនោះវរ្ម័ននេះនៅលើបីនៃមានក្បាច់ទាំងបីនៃប្រាសាទនេះតាមដែលត្រូវបានគេដែលមានឈ្មោះថាជាប្រាសាទដែលមានន័យថាទីក្រុងរបស់អង្គរវត្តមាននៅទីក្រុងទៀតចំពោះនេះត្រូវបានគេនេះដើម្បីតាមត្រូវបាននិងប្រាសាទនេះដោយតំណាងភ្នំនិងជានៃពួកទេវតានិងចម្លាក់លៀនស្រាលដែលបានធ្វើតាមនិងដើម្បីតាមដែលបាននោះនៅសម័យនោះត្រូវបានប្រើកន្លែងសម្រាប់ថ្មជាប្រាសាទនេះនៅកន្លែងដែល


## Scratch: Train models

### Prepare Dataset

In [9]:
# Read limited tokens
with open("cleaned_tokens.txt", "r") as f:
    cleaned_tokens = f.read().split()

In [10]:
len(cleaned_tokens), cleaned_tokens

(9086,
 ['ប្រាសាទ',
  'អង្គរវត្ត',
  'ឬ',
  'ប្រាសាទ',
  'អង្គរ',
  'តូច',
  'មាន',
  'ទីតាំង',
  'ស្ថិត',
  'នៅ',
  'ភាគ',
  'ខាងជើង',
  'នៃ',
  'ក្រុង',
  'សៀមរាប',
  'នៃ',
  'ខេត្ត',
  'សៀមរាប',
  'ប្រាសាទ',
  'អង្គរវត្ត',
  'ជា',
  'ប្រាសាទ',
  'ព្រហ្មញ្ញ',
  'សាសនា',
  'ធំ',
  'បំផុត',
  'និង',
  'ជា',
  'វិមាន',
  'សាសនា',
  'ដ៏',
  'ធំ',
  'បំផុត',
  'នៅក្នុង',
  'លោក',
  'ប្រាសាទ',
  'នេះ',
  'ត្រូវបាន',
  'កសាងឡើង',
  'ដោយ',
  'ព្រះបាទ',
  'សូរ្យ',
  'វរ្ម័ន',
  'ទី២',
  'ដែល',
  'ជា',
  'ស្នាដៃ',
  'ដ៏',
  'ធំ',
  'អស្ចារ្យ',
  'និង',
  'មាន',
  'ឈ្មោះ',
  'ល្បីល្បាញ',
  'រន្ទឺ',
  'សុះ',
  'សាយ',
  'ទៅ',
  'គ្រប់',
  'ទិសទី',
  'លើ',
  'ពិភពលោក',
  'ប្រាសាទ',
  'នេះ',
  'សាងសង់',
  'ឡើង',
  'នៅ',
  'ដើម',
  'សតវត្ស',
  'ទី',
  'ដែល',
  'ស្ថិត',
  'នៅក្នុង',
  'រាជធានី',
  'សោធរ',
  'បុរៈ',
  'ប្រាសាទ',
  'អង្គរវត្ត',
  'ជា',
  'ប្រាសាទ',
  'កសាងឡើង',
  'ដើម្បី',
  'ឧទ្ទិស',
  'ដល់',
  'ព្រះវិស្ណុ',
  'ប្រាសាទ',
  'នេះ',
  'ជា',
  'ប្រាសាទ',
  'ដែល',
  'នៅ',
  'គង់វង្ស',
  'ល

In [11]:
# Create training data
X = []
y = []
for i in range(len(cleaned_tokens) - N):
    X.append(cleaned_tokens[i:i+N])
    y.append(cleaned_tokens[i+N])

X = np.array(X)
y = np.array(y)
X.shape, y.shape

((9081, 5), (9081,))

In [12]:
print(X[0], y[0])
print(X[1], y[1])

['ប្រាសាទ' 'អង្គរវត្ត' 'ឬ' 'ប្រាសាទ' 'អង្គរ'] តូច
['អង្គរវត្ត' 'ឬ' 'ប្រាសាទ' 'អង្គរ' 'តូច'] មាន


In [13]:
UNKNOWN_INDEX = word_to_index[UNKNOWN_TOKEN]
UNKNOWN_INDEX

0

In [14]:
# Convert words to indices. 
X_indices = []
y_indices = []
for i in range(len(X)):
    X_indices.append([word_to_index[w] if w in vocabs else UNKNOWN_INDEX for w in X[i]])
    y_indices.append(word_to_index[y[i]] if y[i] in vocabs else UNKNOWN_INDEX)

X_indices = np.array(X_indices)
y_indices = np.array(y_indices)
X_indices.shape, y_indices.shape

((9081, 5), (9081,))

In [15]:
X_indices[0], y_indices[0], X[0], y[0]

(array([158,  14,   1, 158,  72]),
 37,
 array(['ប្រាសាទ', 'អង្គរវត្ត', 'ឬ', 'ប្រាសាទ', 'អង្គរ'], dtype='<U20'),
 'តូច')

### Neural Network Model 1

In [16]:
print(embeddings_array.shape[0], embeddings_array.shape[1])

175 50


In [17]:
model = tf.keras.Sequential()
model.add(tf.keras.layers.Embedding(input_dim=embeddings_array.shape[0], output_dim=embeddings_array.shape[1], weights=[embeddings_array], input_length=N, trainable=False))
model.add(tf.keras.layers.Flatten())
model.add(tf.keras.layers.Dense(H, activation='sigmoid'))
model.add(tf.keras.layers.Dense(len(vocabs), activation='softmax'))

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 5, 50)             8750      
                                                                 
 flatten (Flatten)           (None, 250)               0         
                                                                 
 dense (Dense)               (None, 512)               128512    
                                                                 
 dense_1 (Dense)             (None, 175)               89775     
                                                                 
Total params: 227037 (886.86 KB)
Trainable params: 218287 (852.68 KB)
Non-trainable params: 8750 (34.18 KB)
_________________________________________________________________


In [18]:
model.fit(X_indices, y_indices, epochs=100, batch_size=128)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.src.callbacks.History at 0x7fa8e2008310>

In [19]:
# Save model
model.save("model_word_prediction2.keras")

In [20]:
word = "ប្រាសាទអង្គរវត្តត្រូវបានគេដែលត្រូវបានគេដែលមានប្រាសាទនៅមានប្រាសាទអង្គរវត្ត"
predict_next_word(model, word, word_to_index, index_to_word, vocabs)

| 2025-01-28 09:27:08,100 | [1;32mINFO[0m | khmer-nltk | Loaded model from /Users/maohieng/master-degree/learn_ai/.venv/lib/python3.8/site-packages/khmernltk/word_tokenize/sklearn_crf_ner_10000.sav |




'ដ៏'

In [21]:
text = generate_text(model, "ប្រាសាទអង្គរវត្តត្រូវបានគេដែល", word_to_index, index_to_word, vocabs)



In [22]:
print(text)

ប្រាសាទអង្គរវត្តត្រូវបានគេដែលបាននៅឡើយនៅចំកណ្ដាលនៃប្រាសាទនេះចម្លាក់ថ្មប្រហែលនៃរាងជាងចម្លាក់និងមានចម្លាក់នៅលើដែលមាននៅកណ្តាលមួយជាគឺនៅខាងត្បូងមានច្រកនៅតែតែមានប្រាសាទបន្ទាយស្រីមានប្រាសាទបន្ទាយស្រីឬប្រាសាទបន្ទាយស្រីគឺប្រាសាទមួយដែលមានដើមថែវប្រាសាទនេះច្រើនសតវត្សទីប្រាសាទនេះមិនត្រូវបានគេដោយប្រើតាមជាមួយស្ថាបត្យកម្មបានតាមជាច្រើននិងដ៏ដែលបាននៅខេត្តសៀមរាបប្រាសាទអង្គរវត្តជាប្រាសាទខេត្តសៀមរាបស្ថិតនៅភាគប្រាសាទនៃប្រទេសកម្ពុជាខេត្តនេះជាតំបន់ទេសចរណ៍ដ៏សំខាន់មួយនៅឆ្នាំនិងប្រាសាទ
