# Mini Project 3 - III. Word Prediction
Build a neural language model which is an alternative architecture to the n-gram model that you have seen in Lesson 02. The model predicts the next word given the $ N $ previous words. This is done by concatenating the word embeddings of $ N $ previous words and use them as input of a single hidden layer of size $ H $ with a non-linearity (e.g. sigmoid). Finally, a softmax layer is used to make a prediction of the next word. Train your model with $ N = 5 $ and $ H = 512 $ (you can also propose your own architecture).

In [13]:
import numpy as np
import tensorflow as tf
from khmernltk import word_tokenize

N = 5
H = 512

In [18]:
def predict_next_word(model, sentence, word_to_index, index_to_word, vocabs):
    _tokens = word_tokenize(sentence)
    if len(_tokens) < N:
        raise ValueError(f"Expected {N} words, got {len(_tokens)}")
    
    last_2_words = _tokens[-2:]
    # Take the last N words
    _tokens = _tokens[-N:]

    x = np.array([[word_to_index[w] if w in vocabs else 0 for w in _tokens]])
    y = model.predict(x)

    # Get 5 words with the highest probability
    top_indices = np.argsort(y[0])[::-1][:10]

    # Get the words
    top_words = [index_to_word[i] for i in top_indices]

    for w in top_words:
        if w not in last_2_words and w != '<UNK>':
            return w
    
    return top_words[-1]
    # return top_5_words, last_2_words

In [19]:
def generate_text(model, seed, word_to_index, index_to_word, vocabs, n_words=100):
    sentence = seed
    for _ in range(n_words):
        sentence += predict_next_word(model, sentence, word_to_index, index_to_word, vocabs)
    return sentence

## Load Saved Embbedings

In [10]:
file_word_to_index = 'I_word_to_index.npy' # Change as you prefer
file_embeddings = 'I_embeddings2.npy' # Change as you prefer
file_word_embeddings = 'I_word_to_embeddings2.npy' # Change as you prefer

In [11]:
# Load word to index
word_to_index = np.load(file_word_to_index, allow_pickle=True).item()
index_to_word = {v: k for k, v in word_to_index.items()}
vocabs = word_to_index.keys()

len(vocabs), word_to_index, index_to_word

(175,
 {'ថែវ': 0,
  'ប្រមាណ': 1,
  'ប៉ុន្តែ': 2,
  'ប្រជាជន': 3,
  'រាង': 4,
  'ក្បាច់': 5,
  'ចំនួន': 6,
  'និង': 7,
  'ដែល': 8,
  'យ៉ាង': 9,
  'បង្ហាញ': 10,
  'សំណង់': 11,
  'ជាង': 12,
  'មកពី': 13,
  'មួយ': 14,
  'ក៏': 15,
  'ទិស': 16,
  'ដូចជា': 17,
  'ប្រទេស': 18,
  'ថ្ងៃ': 19,
  'ឆ្នាំ': 20,
  'ខាងត្បូង': 21,
  'ចម្លាក់': 22,
  'នូវ': 23,
  'អោយ': 24,
  'ត្រូវបាន': 25,
  'ឈើ': 26,
  'សៀមរាប': 27,
  'ស្ថិត': 28,
  'ស្រុក': 29,
  'នគរ': 30,
  'ទី២': 31,
  'ចំ': 32,
  'ភ្នំ': 33,
  'មិន': 34,
  'អាច': 35,
  'កណ្តាល': 36,
  'តូច': 37,
  'មាន': 38,
  'ន័យ': 39,
  'តំបន់': 40,
  'ចុង': 41,
  'បី': 42,
  'នីមួយ': 43,
  'ច្រើន': 44,
  'ធ្វើ': 45,
  'ព័ទ្ធ': 46,
  'បុរៈ': 47,
  'ទីក្រុង': 48,
  'កន្លែង': 49,
  'ធំ': 50,
  'ចូល': 51,
  'អង្គរ': 52,
  'ស្រាល': 53,
  'ព្រះបាទ': 54,
  'អង្គរវត្ត': 55,
  'កម្ពុជា': 56,
  'ឈ្មោះ': 57,
  'ប្រើ': 58,
  'ប្រាសាទ': 59,
  'ដំបូង': 60,
  'កំពែង': 61,
  'ខាងក្នុង': 62,
  'តំណាង': 63,
  'ម៉ែត្រ': 64,
  'សម័យ': 65,
  'គេ': 66,
  'ដល់': 67,
  'ឬ': 68,
  

In [3]:
words_embedding = np.load(file_word_embeddings, allow_pickle=True).item()
words_embedding

{'ថែវ': array([-0.11182633,  0.06225012,  0.03999365,  0.11941579, -0.30701733,
        -0.11291081, -0.08435429, -0.09988827,  0.07295563, -0.26975915,
         0.25357652, -0.03080184,  0.26745665, -0.06211999,  0.18378237,
         0.3197929 ,  0.42985633,  0.07373494,  0.23360533, -0.20695128,
        -0.11331622,  0.11008541, -0.18423977, -0.08820968, -0.01617474,
        -0.03839512,  0.07004926,  0.08079888,  0.03478885,  0.10471139,
         0.06070754, -0.1657328 ,  0.2188062 , -0.17392518, -0.11617279,
        -0.04367946,  0.01765901,  0.14790802, -0.01988765,  0.01934716,
        -0.18898992,  0.2616369 , -0.16194248,  0.11806435,  0.14261317,
        -0.05453829,  0.27322534,  0.09716614, -0.22655903, -0.31317216],
       dtype=float32),
 'ប្រមាណ': array([-0.15385886, -0.16094327, -0.18639304, -0.28830844,  0.09492248,
         0.07436807, -0.0058606 , -0.07937295,  0.08957793, -0.06966694,
        -0.3062197 , -0.17192289,  0.19771844, -0.1563863 , -0.34480113,
         0

In [4]:
embeddings = np.load(file_embeddings)
embeddings

array([[-0.11182633,  0.06225012,  0.03999365, ...,  0.09716614,
        -0.22655903, -0.31317216],
       [-0.15385886, -0.16094327, -0.18639304, ...,  0.41144848,
        -0.27976117,  0.04344371],
       [-0.03213493, -0.11641014, -0.01208379, ..., -0.4148307 ,
         0.10783792,  0.03114374],
       ...,
       [ 0.08485515,  0.20776129,  0.27263108, ..., -0.09409647,
        -0.20459221,  0.13095443],
       [ 0.01761165, -0.06932025, -0.10412469, ...,  0.1424022 ,
         0.07342461,  0.01953124],
       [ 0.01401601,  0.00989925, -0.02110025, ..., -0.04379189,
        -0.01745558, -0.02654355]], dtype=float32)

## Load and Test Existing Model

In [14]:
file_model = 'model_word_prediction1.keras'

In [15]:
model = tf.keras.models.load_model(file_model)

In [20]:
text = generate_text(model, "ប្រាសាទអង្គរវត្តត្រូវបានគេដែល", word_to_index, index_to_word, vocabs)

| 2025-01-27 16:33:12,485 | [1;32mINFO[0m | khmer-nltk | Loaded model from /Users/maohieng/master-degree/learn_ai/.venv/lib/python3.8/site-packages/khmernltk/word_tokenize/sklearn_crf_ner_10000.sav |




In [21]:
print(text)

ប្រាសាទអង្គរវត្តត្រូវបានគេដែលប៉ុន្តែជាកន្លែងត្រូវបានគេនេះទេអង្គរវត្តនៃតំណាងដែលបានស្ថិតនៅដើមសតវត្សរ៍ទីនៃព្រះបាទនោះវរ្ម័ននេះនៅលើបីនៃមានក្បាច់ទាំងបីនៃប្រាសាទនេះតាមដែលត្រូវបានគេដែលមានឈ្មោះថាជាប្រាសាទដែលមានន័យថាទីក្រុងរបស់អង្គរវត្តមាននៅទីក្រុងទៀតចំពោះនេះត្រូវបានគេនេះដើម្បីតាមត្រូវបាននិងប្រាសាទនេះដោយតំណាងភ្នំនិងជានៃពួកទេវតានិងចម្លាក់លៀនស្រាលដែលបានធ្វើតាមនិងដើម្បីតាមដែលបាននោះនៅសម័យនោះត្រូវបានប្រើកន្លែងសម្រាប់ថ្មជាប្រាសាទនេះនៅកន្លែងដែល


## Scratch: Train models

### Prepare Dataset

In [6]:
# Read limited tokens
with open("cleaned_tokens.txt", "r") as f:
    cleaned_tokens = f.read().split()

In [7]:
len(cleaned_tokens), cleaned_tokens

(9086,
 ['ប្រាសាទ',
  'អង្គរវត្ត',
  'ឬ',
  'ប្រាសាទ',
  'អង្គរ',
  'តូច',
  'មាន',
  'ទីតាំង',
  'ស្ថិត',
  'នៅ',
  'ភាគ',
  'ខាងជើង',
  'នៃ',
  'ក្រុង',
  'សៀមរាប',
  'នៃ',
  'ខេត្ត',
  'សៀមរាប',
  'ប្រាសាទ',
  'អង្គរវត្ត',
  'ជា',
  'ប្រាសាទ',
  'ព្រហ្មញ្ញ',
  'សាសនា',
  'ធំ',
  'បំផុត',
  'និង',
  'ជា',
  'វិមាន',
  'សាសនា',
  'ដ៏',
  'ធំ',
  'បំផុត',
  'នៅក្នុង',
  'លោក',
  'ប្រាសាទ',
  'នេះ',
  'ត្រូវបាន',
  'កសាងឡើង',
  'ដោយ',
  'ព្រះបាទ',
  'សូរ្យ',
  'វរ្ម័ន',
  'ទី២',
  'ដែល',
  'ជា',
  'ស្នាដៃ',
  'ដ៏',
  'ធំ',
  'អស្ចារ្យ',
  'និង',
  'មាន',
  'ឈ្មោះ',
  'ល្បីល្បាញ',
  'រន្ទឺ',
  'សុះ',
  'សាយ',
  'ទៅ',
  'គ្រប់',
  'ទិសទី',
  'លើ',
  'ពិភពលោក',
  'ប្រាសាទ',
  'នេះ',
  'សាងសង់',
  'ឡើង',
  'នៅ',
  'ដើម',
  'សតវត្ស',
  'ទី',
  'ដែល',
  'ស្ថិត',
  'នៅក្នុង',
  'រាជធានី',
  'សោធរ',
  'បុរៈ',
  'ប្រាសាទ',
  'អង្គរវត្ត',
  'ជា',
  'ប្រាសាទ',
  'កសាងឡើង',
  'ដើម្បី',
  'ឧទ្ទិស',
  'ដល់',
  'ព្រះវិស្ណុ',
  'ប្រាសាទ',
  'នេះ',
  'ជា',
  'ប្រាសាទ',
  'ដែល',
  'នៅ',
  'គង់វង្ស',
  'ល

In [10]:
# Create training data
X = []
y = []
for i in range(len(cleaned_tokens) - N):
    X.append(cleaned_tokens[i:i+N])
    y.append(cleaned_tokens[i+N])

X = np.array(X)
y = np.array(y)
X.shape, y.shape

((9081, 5), (9081,))

In [11]:
print(X[0], y[0])
print(X[1], y[1])

['ប្រាសាទ' 'អង្គរវត្ត' 'ឬ' 'ប្រាសាទ' 'អង្គរ'] តូច
['អង្គរវត្ត' 'ឬ' 'ប្រាសាទ' 'អង្គរ' 'តូច'] មាន


In [14]:
print(word_to_index['<UNK>'])

174


In [15]:
# Convert words to indices. 
X_indices = []
y_indices = []
for i in range(len(X)):
    X_indices.append([word_to_index[w] if w in vocabs else 174 for w in X[i]])
    y_indices.append(word_to_index[y[i]] if y[i] in vocabs else 174)

X_indices = np.array(X_indices)
y_indices = np.array(y_indices)
X_indices.shape, y_indices.shape

((9081, 5), (9081,))

In [16]:
X_indices[0], y_indices[0], X[0], y[0]

(array([59, 55, 68, 59, 52]),
 37,
 ['ប្រាសាទ', 'អង្គរវត្ត', 'ឬ', 'ប្រាសាទ', 'អង្គរ'],
 'តូច')

### Neural Network Model 1

In [17]:
print(embeddings.shape[0], embeddings.shape[1])

175 50


In [18]:
model = tf.keras.Sequential()
model.add(tf.keras.layers.Embedding(input_dim=embeddings.shape[0], output_dim=embeddings.shape[1], weights=[embeddings], input_length=N, trainable=False))
model.add(tf.keras.layers.Flatten())
model.add(tf.keras.layers.Dense(H, activation='sigmoid'))
model.add(tf.keras.layers.Dense(len(vocabs), activation='softmax'))

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 5, 50)             8750      
                                                                 
 flatten (Flatten)           (None, 250)               0         
                                                                 
 dense (Dense)               (None, 512)               128512    
                                                                 
 dense_1 (Dense)             (None, 175)               89775     
                                                                 
Total params: 227037 (886.86 KB)
Trainable params: 218287 (852.68 KB)
Non-trainable params: 8750 (34.18 KB)
_________________________________________________________________


In [19]:
model.fit(X_indices, y_indices, epochs=100, batch_size=128)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.src.callbacks.History at 0x7f9d2d91dbe0>

In [26]:
# Save model
model.save("model_word_prediction1.keras")

In [22]:
word = "ប្រាសាទអង្គរវត្តត្រូវបានគេដែលត្រូវបានគេដែលមានប្រាសាទនៅមានប្រាសាទអង្គរវត្ត"
predict_next_word(model, word, word_to_index, index_to_word, vocabs)

| 2025-01-27 15:52:47,458 | [1;32mINFO[0m | khmer-nltk | Loaded model from /Users/maohieng/master-degree/learn_ai/.venv/lib/python3.8/site-packages/khmernltk/word_tokenize/sklearn_crf_ner_10000.sav |




'គឺ'

In [25]:
text = generate_text(model, "ប្រាសាទអង្គរវត្តត្រូវបានគេដែល", word_to_index, index_to_word, vocabs)

ប្រាសាទអង្គរវត្តត្រូវបានគេដែលប៉ុន្តែជាកន្លែងត្រូវបានគេនេះទេអង្គរវត្តនៃតំណាងដែលបានស្ថិតនៅដើមសតវត្សរ៍ទីនៃព្រះបាទនោះវរ្ម័ននេះនៅលើបីនៃមានក្បាច់ទាំងបីនៃប្រាសាទនេះតាមដែលត្រូវបានគេដែលមានឈ្មោះថាជាប្រាសាទដែលមានន័យថាទីក្រុងរបស់អង្គរវត្តមាននៅទីក្រុងទៀតចំពោះនេះត្រូវបានគេនេះដើម្បីតាមត្រូវបាននិងប្រាសាទនេះដោយតំណាងភ្នំនិងជានៃពួកទេវតានិងចម្លាក់លៀនស្រាលដែលបានធ្វើតាមនិងដើម្បីតាមដែលបាននោះនៅសម័យនោះត្រូវបានប្រើកន្លែងសម្រាប់ថ្មជាប្រាសាទនេះនៅកន្លែងដែល


In [None]:
print(text)