# Persian Sequence Prediction using GRU Model
[Dataset on kaggle](https://www.kaggle.com/datasets/miladfa7/persian-wikipedia-dataset)

In this notebook, we create a model to generate persian text using GRU model and persian wikipedia dataset

In [1]:
import tensorflow as tf
import numpy as np

Reading a sample of dataset

In [3]:
text = open('Persian-WikiText-1.txt', 'rb').read().decode(encoding='UTF-8')

In [4]:
len(text)

56695825

In [5]:
text[:1000]

'ویکی پدیا (کوته نوشت به صورت «وپ» و «WP») یک دانشنامه برخط چندزبانه مبتنی بر وب با محتوای آزاد و همکاری باز است که با همکاری افراد داوطلب نوشته می شود و هر کسی که به اینترنت و وب دسترسی داشته باشد می تواند مقالات آن را ببیند و ویرایش کند. نام ویکی پدیا واژه ای ترکیبی است که از واژه های ویکی (وبگاه مشارکتی) و اِنسایکلوپدیا (Encyclopedia) (دانشنامه یا دائرةالمعارف) گرفته شده است. هدف ویکی پدیا آفرینش و انتشار جهانی یک دانشنامه با محتوای آزاد به تمامی زبان های زندهٔ دنیا است.\n\nویکی پدیای انگلیسی در تاریخ ۱۵ ژانویه ۲۰۰۱ (۲۶ دی ۱۳۷۹) به صورت مکملی برای دانشنامهٔ تخصصی نیوپدیا نوشته شد. بنیان گذاران آن «جیمی ویلز» و «لری سنگر» هستند. هم اکنون بنیاد غیرانتفاعی ویکی مدیا پروژهٔ ویکی پدیا را پشتیبانی می کند. میزبان های اینترنتی اصلی این وبگاه در شهر تامپای فلوریدا هستند. همچنین میزبان های اضافی دیگری هم در شهرهای آمستردام و سئول به این وبگاه یاری می رسانند.\n\n"ویکی پدیا" از پایان آوریل ۲۰۰۷ تا اکتبر ۲۰۱۹، یکی از ۱۰ وبگاه برتر جهان از لحاظ شمار بازدیدکنندگان بوده است که بیش از نیمی از بازدید

In [6]:
text = text.replace('\n', '')

Subset of data

In [7]:
sub_text = text[:1000000]

In [8]:
characters = sorted(set(sub_text))

In [9]:
len(characters)

223

In [10]:
char2index = {u:i for i, u in enumerate(characters)}
index2char = np.array(characters)

In [11]:
char2index

{' ': 0,
 '!': 1,
 '"': 2,
 "'": 3,
 '(': 4,
 ')': 5,
 '+': 6,
 ',': 7,
 '-': 8,
 '.': 9,
 '/': 10,
 '0': 11,
 '1': 12,
 '2': 13,
 '3': 14,
 '4': 15,
 '5': 16,
 '6': 17,
 '7': 18,
 '8': 19,
 '9': 20,
 ':': 21,
 ';': 22,
 '=': 23,
 '>': 24,
 'A': 25,
 'B': 26,
 'C': 27,
 'D': 28,
 'E': 29,
 'F': 30,
 'G': 31,
 'H': 32,
 'I': 33,
 'J': 34,
 'K': 35,
 'L': 36,
 'M': 37,
 'N': 38,
 'O': 39,
 'P': 40,
 'Q': 41,
 'R': 42,
 'S': 43,
 'T': 44,
 'U': 45,
 'V': 46,
 'W': 47,
 'X': 48,
 'Y': 49,
 'Z': 50,
 '[': 51,
 ']': 52,
 '^': 53,
 '_': 54,
 'a': 55,
 'b': 56,
 'c': 57,
 'd': 58,
 'e': 59,
 'f': 60,
 'g': 61,
 'h': 62,
 'i': 63,
 'j': 64,
 'k': 65,
 'l': 66,
 'm': 67,
 'n': 68,
 'o': 69,
 'p': 70,
 'q': 71,
 'r': 72,
 's': 73,
 't': 74,
 'u': 75,
 'v': 76,
 'w': 77,
 'x': 78,
 'y': 79,
 'z': 80,
 '{': 81,
 '|': 82,
 '}': 83,
 '\xa0': 84,
 '«': 85,
 '»': 86,
 'Ç': 87,
 '×': 88,
 'à': 89,
 'á': 90,
 'ã': 91,
 'ä': 92,
 'ç': 93,
 'é': 94,
 'ê': 95,
 'î': 96,
 'ā': 97,
 'ć': 98,
 'ē': 99,
 'ī': 1

In [12]:
index2char

array([' ', '!', '"', "'", '(', ')', '+', ',', '-', '.', '/', '0', '1',
       '2', '3', '4', '5', '6', '7', '8', '9', ':', ';', '=', '>', 'A',
       'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N',
       'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '[',
       ']', '^', '_', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j',
       'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w',
       'x', 'y', 'z', '{', '|', '}', '\xa0', '«', '»', 'Ç', '×', 'à', 'á',
       'ã', 'ä', 'ç', 'é', 'ê', 'î', 'ā', 'ć', 'ē', 'ī', 'ń', 'ō', 'Ś',
       'ş', 'š', 'ˈ', 'Ά', 'Α', 'Μ', 'Ο', 'ή', 'ί', 'α', 'β', 'γ', 'δ',
       'ε', 'θ', 'ι', 'λ', 'μ', 'ν', 'ξ', 'ο', 'ρ', 'ς', 'τ', 'ω', 'П',
       'Р', 'а', 'е', 'и', 'м', 'н', 'р', 'т', 'у', 'я', '،', '؛', '؟',
       'ء', 'آ', 'أ', 'ؤ', 'ئ', 'ا', 'ب', 'ة', 'ت', 'ث', 'ج', 'ح', 'خ',
       'د', 'ذ', 'ر', 'ز', 'س', 'ش', 'ص', 'ض', 'ط', 'ظ', 'ع', 'غ', 'ـ',
       'ف', 'ق', 'ل', 'م', 'ن', 'ه', 'و', 'ي', 'ً', 'َ', 'ُ',

In [13]:
text_as_integer = np.array([char2index[c] for c in sub_text])

In [14]:
text_as_integer

array([175, 194, 191, ..., 161, 194, 173])

In [15]:
char_dataset = tf.data.Dataset.from_tensor_slices(text_as_integer)

In [16]:
for i in char_dataset.take(10):
    print(index2char[i.numpy()])

و
ی
ک
ی
 
پ
د
ی
ا
 


In [17]:
sequences = char_dataset.batch(100, drop_remainder=True)
sequences

<BatchDataset element_spec=TensorSpec(shape=(100,), dtype=tf.int32, name=None)>

In [18]:
def sit(batch):
    input_text = batch[:-1]
    target_text = batch[1:]
    return input_text, target_text

In [19]:
dataset = sequences.map(sit)

In [20]:
for i in dataset.take(1):
    print(''.join(index2char[i[0].numpy()]))
    print(''.join(index2char[i[1].numpy()]))

ویکی پدیا (کوته نوشت به صورت «وپ» و «WP») یک دانشنامه برخط چندزبانه مبتنی بر وب با محتوای آزاد و هم
یکی پدیا (کوته نوشت به صورت «وپ» و «WP») یک دانشنامه برخط چندزبانه مبتنی بر وب با محتوای آزاد و همک


In [21]:
dataset = dataset.batch(50, drop_remainder=True)
dataset

<BatchDataset element_spec=(TensorSpec(shape=(50, 99), dtype=tf.int32, name=None), TensorSpec(shape=(50, 99), dtype=tf.int32, name=None))>

Modeling

In [22]:
characters_size = len(characters)
embedding_dim = 256
rnn_units = 1024

In [22]:
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(characters_size, embedding_dim),
    tf.keras.layers.GRU(rnn_units, return_sequences=True),
    tf.keras.layers.Dense(characters_size)
])

In [23]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, None, 256)         57088     
                                                                 
 gru (GRU)                   (None, None, 1024)        3938304   
                                                                 
 dense (Dense)               (None, None, 223)         228575    
                                                                 
Total params: 4,223,967
Trainable params: 4,223,967
Non-trainable params: 0
_________________________________________________________________


In [24]:
def loss_f(labels, logits):
    return tf.keras.losses.sparse_categorical_crossentropy(labels, logits, from_logits=True)

In [25]:
model.compile(optimizer='adam', loss=loss_f)

In [26]:
checkpoint = tf.keras.callbacks.ModelCheckpoint(filepath='gru_prediction_model.h5', save_weights_only=True)

In [27]:
history = model.fit(dataset, epochs=10, callbacks=[checkpoint])

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [28]:
model.save('gru_prediction_model.h5')

Prediction

In [23]:
model2 = tf.keras.Sequential([
    tf.keras.layers.Embedding(characters_size, embedding_dim),
    tf.keras.layers.GRU(rnn_units, return_sequences=True),
    tf.keras.layers.Dense(characters_size)
])

In [24]:
model2.load_weights('gru_prediction_model.h5')

In [25]:
model2.build(tf.TensorShape([1, None]))

In [26]:
model2.reset_states()

In [29]:
def predict_characters(base_model, char_num, starting_text):
    input_eval = [char2index[s] for s in starting_text]
    input_eval = tf.expand_dims(input_eval, 0)
    text_generated = [starting_text]
    for i in range(char_num):
        predictions = base_model.predict(input_eval, verbose=0)
        predictions = tf.squeeze(predictions, 0)
        predicted_ids = np.array(predictions.numpy()).argmax(axis=1).reshape(-1, 1)[-1][0]
        message = np.append(input_eval[0].numpy(), predicted_ids)[1:]
        input_eval = tf.expand_dims(message, 0)
        text_generated.append(index2char[predicted_ids])
        
    for i in ''.join(text_generated).split('\n'):
        print(i)

In [34]:
predict_characters(model2, 50, 'ویکی پدیا')

ویکی پدیا به سرزمین های بودایی در این منطقه بودایی از هند ب
