In [2]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer  # Changed import to use Keras from TensorFlow
from tensorflow.keras.preprocessing.sequence import pad_sequences  # Corrected import for pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense

In [3]:
#read dataset
with open('urdu dataset_.txt','r',encoding='utf-8') as file:
    text=file.read()

In [4]:
#Tokenizer process
tokenizer=Tokenizer()
#fit
tokenizer.fit_on_texts([text])
#assign length of word index
total_words=len(tokenizer.word_index)+1

In [5]:
tokenizer.word_index

{'طالب': 1,
 'علم': 2,
 'یونیورسٹی': 3,
 'کے': 4,
 'میں': 5,
 'کی': 6,
 'ہے۔': 7,
 '1': 8,
 'نئے': 9,
 'لیے': 10,
 'کیا': 11,
 '2': 12,
 'فیکلٹی': 13,
 'نے': 14,
 'ہیں۔': 15,
 'اور': 16,
 'بہت': 17,
 'سے': 18,
 'کا': 19,
 'طلبہ': 20,
 '4': 21,
 'بھی': 22,
 '3': 23,
 'ہو': 24,
 'پر': 25,
 'ہم': 26,
 'پروگرامز': 27,
 'کو': 28,
 'عالمی': 29,
 'ہے؟': 30,
 'ہاں،': 31,
 'شروع': 32,
 'ہے': 33,
 'مختلف': 34,
 'تعلیم': 35,
 'معیار': 36,
 'رہے': 37,
 'ہمارے': 38,
 'سطح': 39,
 'رہا': 40,
 'تعلیمی': 41,
 'کیے': 42,
 'کر': 43,
 'جا': 44,
 'اس': 45,
 'نیا': 46,
 'ہے،': 47,
 'تاکہ': 48,
 'تحقیق': 49,
 'مواقع': 50,
 'متعارف': 51,
 'کرنے': 52,
 'بہتر': 53,
 'نئی': 54,
 'بہترین': 55,
 'فائدہ': 56,
 'زیادہ': 57,
 'جی': 58,
 'فراہم': 59,
 'ہیں': 60,
 'رہی': 61,
 'ہمیں': 62,
 'ہیں،': 63,
 'بارے': 64,
 'کورسز': 65,
 'ہوئے': 66,
 'طور': 67,
 'ٹی': 68,
 'حال': 69,
 'تحقیقاتی': 70,
 'بین': 71,
 'الاقوامی': 72,
 'اب': 73,
 'جس': 74,
 'سب': 75,
 'سی': 76,
 'جو': 77,
 'وہ': 78,
 'جاتا': 79,
 'آپ': 80,
 'جدید': 81

In [6]:
tokenizer.word_index

{'طالب': 1,
 'علم': 2,
 'یونیورسٹی': 3,
 'کے': 4,
 'میں': 5,
 'کی': 6,
 'ہے۔': 7,
 '1': 8,
 'نئے': 9,
 'لیے': 10,
 'کیا': 11,
 '2': 12,
 'فیکلٹی': 13,
 'نے': 14,
 'ہیں۔': 15,
 'اور': 16,
 'بہت': 17,
 'سے': 18,
 'کا': 19,
 'طلبہ': 20,
 '4': 21,
 'بھی': 22,
 '3': 23,
 'ہو': 24,
 'پر': 25,
 'ہم': 26,
 'پروگرامز': 27,
 'کو': 28,
 'عالمی': 29,
 'ہے؟': 30,
 'ہاں،': 31,
 'شروع': 32,
 'ہے': 33,
 'مختلف': 34,
 'تعلیم': 35,
 'معیار': 36,
 'رہے': 37,
 'ہمارے': 38,
 'سطح': 39,
 'رہا': 40,
 'تعلیمی': 41,
 'کیے': 42,
 'کر': 43,
 'جا': 44,
 'اس': 45,
 'نیا': 46,
 'ہے،': 47,
 'تاکہ': 48,
 'تحقیق': 49,
 'مواقع': 50,
 'متعارف': 51,
 'کرنے': 52,
 'بہتر': 53,
 'نئی': 54,
 'بہترین': 55,
 'فائدہ': 56,
 'زیادہ': 57,
 'جی': 58,
 'فراہم': 59,
 'ہیں': 60,
 'رہی': 61,
 'ہمیں': 62,
 'ہیں،': 63,
 'بارے': 64,
 'کورسز': 65,
 'ہوئے': 66,
 'طور': 67,
 'ٹی': 68,
 'حال': 69,
 'تحقیقاتی': 70,
 'بین': 71,
 'الاقوامی': 72,
 'اب': 73,
 'جس': 74,
 'سب': 75,
 'سی': 76,
 'جو': 77,
 'وہ': 78,
 'جاتا': 79,
 'آپ': 80,
 'جدید': 81

In [7]:
#n-gram model
#declare n-grams
input_sequences=[]
#splitting from \n
for line in text.split('\n'):
    #getting tokens
    token_list = tokenizer.texts_to_sequences([line])[0]
    for i in range(1,len(token_list)):
       n_gram_sequence = token_list[:i+1]
       input_sequences.append(n_gram_sequence)

In [8]:
input_sequences

[[1, 2],
 [1, 2, 8],
 [1, 2, 8, 11],
 [1, 2, 8, 11, 137],
 [1, 2, 8, 11, 137, 14],
 [1, 2, 8, 11, 137, 14, 3],
 [1, 2, 8, 11, 137, 14, 3, 138],
 [1, 2, 8, 11, 137, 14, 3, 138, 139],
 [1, 2, 8, 11, 137, 14, 3, 138, 139, 4],
 [1, 2, 8, 11, 137, 14, 3, 138, 139, 4, 9],
 [1, 2, 8, 11, 137, 14, 3, 138, 139, 4, 9, 27],
 [1, 2, 8, 11, 137, 14, 3, 138, 139, 4, 9, 27, 4],
 [1, 2, 8, 11, 137, 14, 3, 138, 139, 4, 9, 27, 4, 64],
 [1, 2, 8, 11, 137, 14, 3, 138, 139, 4, 9, 27, 4, 64, 5],
 [1, 2, 8, 11, 137, 14, 3, 138, 139, 4, 9, 27, 4, 64, 5, 140],
 [1, 2, 8, 11, 137, 14, 3, 138, 139, 4, 9, 27, 4, 64, 5, 140, 30],
 [1, 2],
 [1, 2, 12],
 [1, 2, 12, 31],
 [1, 2, 12, 31, 45],
 [1, 2, 12, 31, 45, 92],
 [1, 2, 12, 31, 45, 92, 17],
 [1, 2, 12, 31, 45, 92, 17, 18],
 [1, 2, 12, 31, 45, 92, 17, 18, 9],
 [1, 2, 12, 31, 45, 92, 17, 18, 9, 65],
 [1, 2, 12, 31, 45, 92, 17, 18, 9, 65, 32],
 [1, 2, 12, 31, 45, 92, 17, 18, 9, 65, 32, 66],
 [1, 2, 12, 31, 45, 92, 17, 18, 9, 65, 32, 66, 15],
 [1, 2, 12, 31, 45, 92, 

In [9]:
#checking token sentence
sentence_token = input_sequences[10]
sentence=[]
for token in sentence_token:
    sentence.append(list((tokenizer.word_index).keys()) [list((tokenizer.word_index).values()).index(token)])
print(sentence)

['طالب', 'علم', '1', 'کیا', 'تم', 'نے', 'یونیورسٹی', 'آف', 'سندھ', 'کے', 'نئے', 'پروگرامز']


In [10]:
#padding
#maximum sentence length'
max_sequence_len = max([len(seq) for  seq in input_sequences])
#input sequences
input_sequences= np.array(pad_sequences(input_sequences,maxlen=max_sequence_len,padding='pre'))

In [11]:
input_sequences

array([[  0,   0,   0, ...,   0,   1,   2],
       [  0,   0,   0, ...,   1,   2,   8],
       [  0,   0,   0, ...,   2,   8,  11],
       ...,
       [  0,   0,   0, ...,  10,  17,  56],
       [  0,   0,   0, ...,  17,  56, 134],
       [  0,   0,   0, ...,  56, 134,   7]])

In [12]:
X = input_sequences[:, :-1]
y = input_sequences[:, -1]

In [13]:
X.shape

(1052, 26)

In [14]:
y.shape

(1052,)

In [15]:
y=np.array(tf.keras.utils.to_categorical(y,num_classes=total_words))

In [16]:
#create mode;
model=Sequential()
model.add(Embedding(total_words,100,input_length=max_sequence_len-1))
model.add(LSTM(150))
model.add(Dense(total_words,activation='softmax'))

from tensorflow.keras import backend as K
K.clear_session()






In [17]:
#compile the model
model.compile(loss='categorical_crossentropy',optimizer='adam',metrics=['accuracy'])

In [18]:
#fit the model
model.fit(X,y,epochs=100,verbose=1)

Epoch 1/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 22ms/step - accuracy: 0.0389 - loss: 5.6281
Epoch 2/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 20ms/step - accuracy: 0.0788 - loss: 4.8782
Epoch 3/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 22ms/step - accuracy: 0.1118 - loss: 4.7169
Epoch 4/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 21ms/step - accuracy: 0.1274 - loss: 4.5237
Epoch 5/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 18ms/step - accuracy: 0.1355 - loss: 4.3996
Epoch 6/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 19ms/step - accuracy: 0.1396 - loss: 4.2719
Epoch 7/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 18ms/step - accuracy: 0.1555 - loss: 4.1578
Epoch 8/100
[1m33/33[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 16ms/step - accuracy: 0.1915 - loss: 3.9608
Epoch 9/100
[1m33/33[0m [32m━━━━━━━━━

<keras.src.callbacks.history.History at 0x1c7c6042240>

In [20]:
#determining the text
import time
seed_text ="یونیورسٹی میں ہر سال نئے تعلیمی"
next_words = 15

for _ in range(next_words):
    token_list = tokenizer.texts_to_sequences([seed_text])[0]
    token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding='pre')
    predicted = np.argmax(model.predict(token_list), axis=-1)
    output_word = ""
    for word, index in tokenizer.word_index.items():
        if index == predicted:
            output_word = word
            break
    seed_text += " " + output_word
    print(seed_text)
    time.sleep(2)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 39ms/step
یونیورسٹی میں ہر سال نئے تعلیمی سیمینارز
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 54ms/step
یونیورسٹی میں ہر سال نئے تعلیمی سیمینارز اور
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 90ms/step
یونیورسٹی میں ہر سال نئے تعلیمی سیمینارز اور کانفرنسز
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 55ms/step
یونیورسٹی میں ہر سال نئے تعلیمی سیمینارز اور کانفرنسز کی
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 56ms/step
یونیورسٹی میں ہر سال نئے تعلیمی سیمینارز اور کانفرنسز کی بھی
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 55ms/step
یونیورسٹی میں ہر سال نئے تعلیمی سیمینارز اور کانفرنسز کی بھی منصوبہ
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 54ms/step
یونیورسٹی میں ہر سال نئے تعلیمی سیمینارز اور کانفرنسز کی بھی منصوبہ بندی
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 64ms/step
یونیورسٹی میں ہر سال نئے 