In [1]:
import tensorflow as tf
import numpy as np
import os
import time

In [2]:
text = open('khayyammolana.txt', 'rb').read().decode(encoding='utf-8')

In [3]:
text[:10]

'|برخیز بتا'

In [4]:
vocabolaries = sorted(set(text))

In [5]:
vocabolaries

['\n',
 '\r',
 ' ',
 '!',
 '"',
 '.',
 ':',
 '|',
 '\xa0',
 '«',
 '»',
 '،',
 '؛',
 '؟',
 'ء',
 'آ',
 'أ',
 'ؤ',
 'إ',
 'ئ',
 'ا',
 'ب',
 'ة',
 'ت',
 'ث',
 'ج',
 'ح',
 'خ',
 'د',
 'ذ',
 'ر',
 'ز',
 'س',
 'ش',
 'ص',
 'ض',
 'ط',
 'ظ',
 'ع',
 'غ',
 'ـ',
 'ف',
 'ق',
 'ل',
 'م',
 'ن',
 'ه',
 'و',
 'ي',
 'ً',
 'ٌ',
 'ٍ',
 'َ',
 'ُ',
 'ِ',
 'ّ',
 'ْ',
 'ٓ',
 'ٔ',
 'ٰ',
 'ٱ',
 'پ',
 'چ',
 'ژ',
 'ک',
 'گ',
 'ۀ',
 'ی',
 'ۡ',
 '\u200f']

In [6]:
len(vocabolaries)

70

In [7]:
char2index = {u:i for i, u in enumerate(vocabolaries)}
index2char = np.array(vocabolaries)

In [8]:
char2index

{'\n': 0,
 '\r': 1,
 ' ': 2,
 '!': 3,
 '"': 4,
 '.': 5,
 ':': 6,
 '|': 7,
 '\xa0': 8,
 '«': 9,
 '»': 10,
 '،': 11,
 '؛': 12,
 '؟': 13,
 'ء': 14,
 'آ': 15,
 'أ': 16,
 'ؤ': 17,
 'إ': 18,
 'ئ': 19,
 'ا': 20,
 'ب': 21,
 'ة': 22,
 'ت': 23,
 'ث': 24,
 'ج': 25,
 'ح': 26,
 'خ': 27,
 'د': 28,
 'ذ': 29,
 'ر': 30,
 'ز': 31,
 'س': 32,
 'ش': 33,
 'ص': 34,
 'ض': 35,
 'ط': 36,
 'ظ': 37,
 'ع': 38,
 'غ': 39,
 'ـ': 40,
 'ف': 41,
 'ق': 42,
 'ل': 43,
 'م': 44,
 'ن': 45,
 'ه': 46,
 'و': 47,
 'ي': 48,
 'ً': 49,
 'ٌ': 50,
 'ٍ': 51,
 'َ': 52,
 'ُ': 53,
 'ِ': 54,
 'ّ': 55,
 'ْ': 56,
 'ٓ': 57,
 'ٔ': 58,
 'ٰ': 59,
 'ٱ': 60,
 'پ': 61,
 'چ': 62,
 'ژ': 63,
 'ک': 64,
 'گ': 65,
 'ۀ': 66,
 'ی': 67,
 'ۡ': 68,
 '\u200f': 69}

In [9]:
index2char[1]

np.str_('\r')

In [10]:
text_as_integer = np.array([char2index[c] for c in text])

In [11]:
text_as_integer

array([ 7, 21, 30, ..., 44,  1,  0], shape=(476563,))

In [12]:
char_dataset = tf.data.Dataset.from_tensor_slices(text_as_integer)

In [13]:
char_dataset

<_TensorSliceDataset element_spec=TensorSpec(shape=(), dtype=tf.int64, name=None)>

In [14]:
for i in char_dataset.take(10):
    print(index2char[i.numpy()])

|
ب
ر
خ
ی
ز
 
ب
ت
ا


In [15]:
sequences = char_dataset.batch(101, drop_remainder=True)
sequences

<_BatchDataset element_spec=TensorSpec(shape=(101,), dtype=tf.int64, name=None)>

In [16]:
for i in sequences.take(3):
    print('--->', ''.join(index2char[i.numpy()]))

---> |برخیز بتا بیا ز بهر دل ما
|حل کن به جمال خویشتن مشکل ما
|یک کوزه شراب تا به هم نوش کنیم
|زآن پیش 
---> که کوزه ها کنند از گل ما
|چون عهده نمی شود کسی فردا را
|حالی خوش دار این دل پر سودا را
|می نوش به 
---> ماهتاب ای ماه که ماه
|بسیار بتابد و نیابد ما را
|قرآن که مهین کلام خوانند آن را
|گه گاه نه بر دوام


In [17]:
def sit(batch):
    input_text = batch[:-1]
    target_text = batch[1:]
    return input_text, target_text
dataset = sequences.map(sit)

In [18]:
dataset

<_MapDataset element_spec=(TensorSpec(shape=(100,), dtype=tf.int64, name=None), TensorSpec(shape=(100,), dtype=tf.int64, name=None))>

In [19]:
for i in dataset.take(1):
    print(''.join(index2char[i[0].numpy()]))
    print(''.join(index2char[i[1].numpy()]))

|برخیز بتا بیا ز بهر دل ما
|حل کن به جمال خویشتن مشکل ما
|یک کوزه شراب تا به هم نوش کنیم
|زآن پیش
برخیز بتا بیا ز بهر دل ما
|حل کن به جمال خویشتن مشکل ما
|یک کوزه شراب تا به هم نوش کنیم
|زآن پیش 


In [20]:
dataset = dataset.batch(64, drop_remainder=True)
dataset

<_BatchDataset element_spec=(TensorSpec(shape=(64, 100), dtype=tf.int64, name=None), TensorSpec(shape=(64, 100), dtype=tf.int64, name=None))>

In [21]:
len(vocabolaries)

70

In [34]:
vocabolary_size = len(vocabolaries)
embedding_dim = 256
rnn_units = 1024

In [35]:
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(vocabolary_size, embedding_dim),
    tf.keras.layers.GRU(rnn_units, return_sequences=True),
    tf.keras.layers.Dense(vocabolary_size)
])

In [36]:
for input_text, target_text in dataset.take(1):
    output = model.predict(input_text)
    print(output[0])

[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 109ms/step
[[ 0.00970264 -0.01839882  0.00388445 ... -0.00793354  0.00108997
   0.00679773]
 [ 0.0045926  -0.01137484 -0.00508215 ... -0.00638043 -0.00175606
   0.00092236]
 [ 0.01077413 -0.00790394  0.00195149 ... -0.00628281 -0.01318328
   0.00034212]
 ...
 [ 0.01813973  0.00461157 -0.00334634 ... -0.01713279 -0.01017357
   0.00250647]
 [ 0.00012701 -0.00398188  0.01510931 ... -0.0059436   0.00957258
   0.01141557]
 [-0.0212269   0.01074433  0.0119169  ... -0.00751193 -0.00436388
   0.01279578]]


In [37]:
si = tf.random.categorical(output[0], num_samples=1)
si

<tf.Tensor: shape=(100, 1), dtype=int64, numpy=
array([[25],
       [16],
       [31],
       [22],
       [25],
       [45],
       [ 7],
       [17],
       [32],
       [27],
       [55],
       [60],
       [44],
       [30],
       [59],
       [28],
       [32],
       [65],
       [29],
       [64],
       [69],
       [51],
       [ 9],
       [14],
       [42],
       [40],
       [ 5],
       [49],
       [18],
       [25],
       [20],
       [ 6],
       [40],
       [ 0],
       [63],
       [42],
       [38],
       [69],
       [32],
       [16],
       [42],
       [ 9],
       [35],
       [41],
       [50],
       [40],
       [67],
       [48],
       [56],
       [56],
       [38],
       [33],
       [56],
       [38],
       [ 2],
       [27],
       [12],
       [43],
       [58],
       [65],
       [65],
       [15],
       [52],
       [49],
       [29],
       [48],
       [60],
       [11],
       [ 0],
       [68],
       [29],
       [34],
       [27],
   

In [38]:
tf.squeeze(si, axis=-1).numpy()

array([25, 16, 31, 22, 25, 45,  7, 17, 32, 27, 55, 60, 44, 30, 59, 28, 32,
       65, 29, 64, 69, 51,  9, 14, 42, 40,  5, 49, 18, 25, 20,  6, 40,  0,
       63, 42, 38, 69, 32, 16, 42,  9, 35, 41, 50, 40, 67, 48, 56, 56, 38,
       33, 56, 38,  2, 27, 12, 43, 58, 65, 65, 15, 52, 49, 29, 48, 60, 11,
        0, 68, 29, 34, 27, 53,  9, 24, 59, 12, 66, 37, 68, 67,  1, 44, 26,
       22, 34, 51, 68, 39, 15, 15, 39, 21, 56, 28, 20, 16, 33, 44])

In [39]:
''.join(index2char[tf.squeeze(si, axis=-1).numpy()])

'جأزةجن|ؤسخّٱمرٰدسگذک\u200fٍ«ءقـ.ًإجا:ـ\nژقع\u200fسأق«ضفٌـیيْْعشْع خ؛لٔگگآًَذيٱ،\nۡذصخُ«ثٰ؛ۀظۡی\rمحةصٍۡغآآغبْداأشم'

In [28]:
output[0][0]

array([ 9.44888499e-03,  1.11714844e-02,  6.47663930e-03,  9.44418274e-03,
       -7.54784467e-03, -3.63717368e-03, -1.14993555e-02,  7.40472367e-03,
       -1.13251116e-02, -2.98008230e-03, -9.63390153e-03,  5.49731497e-03,
        3.09667340e-03, -7.55351502e-03,  2.44723260e-03, -1.21576563e-02,
       -1.60848070e-03,  1.57391708e-02, -6.40200870e-03, -1.44026373e-02,
       -4.29360196e-04,  5.34749543e-03,  5.39186411e-04,  1.43774934e-02,
       -1.46316225e-02, -2.99174944e-03,  1.09978244e-02,  2.35257624e-03,
        2.87530501e-03, -1.02336779e-02,  1.88457742e-02,  2.88052927e-03,
       -9.23661981e-03,  9.77088977e-03,  7.03654904e-03, -7.07607251e-03,
        8.46801046e-03,  1.85479969e-03, -1.80518988e-03,  5.10771666e-03,
        3.51741863e-03, -8.59439187e-03,  7.60383578e-03,  2.19827588e-03,
       -3.80006531e-06,  6.12420309e-03, -1.11474958e-03, -2.96268379e-03,
        3.31144454e-03,  4.69873706e-03,  1.15257939e-02, -1.00553706e-02,
        3.29412520e-04, -

In [40]:
model.summary()

In [41]:
def loss_f(labels, logits):
    return tf.keras.losses.sparse_categorical_crossentropy(labels, logits, from_logits=True)
model.compile(optimizer='adam', loss=loss_f)

In [None]:
checkpoint = tf.keras.callbacks.ModelCheckpoint(filepath='khayyammolana/checkpoints', save_weights_only=True)

In [51]:
history = model.fit(dataset, epochs=50, callbacks=[checkpoint])

Epoch 1/50
[1m73/73[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m36s[0m 489ms/step - loss: 2.2269
Epoch 2/50


  if self._should_save_model(epoch, batch, logs, filepath):


[1m46/73[0m [32m━━━━━━━━━━━━[0m[37m━━━━━━━━[0m [1m14s[0m 522ms/step - loss: 2.1887

KeyboardInterrupt: 

In [44]:
tf.train.latest_checkpoint('khayyammolana/')

'khayyammolana/checkpoints'

In [45]:
model3 = tf.keras.Sequential([
    tf.keras.layers.Embedding(vocabolary_size, embedding_dim),
    tf.keras.layers.GRU(rnn_units, return_sequences=True),
    tf.keras.layers.Dense(vocabolary_size)
])

In [50]:
model3.load_weights("khayyammolana/checkpoints/my_model.weights.h5")


ValueError: You are loading weights into a model that has not yet been built. Try building the model first by calling it on some data or by using `build()`.

In [66]:
model_2.build(tf.TensorShape([1, None]))

In [67]:
model_2.summary()

Model: "sequential_5"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_5 (Embedding)      (None, None, 256)         12032     
_________________________________________________________________
gru_5 (GRU)                  (None, None, 1024)        3938304   
_________________________________________________________________
dense_5 (Dense)              (None, None, 47)          48175     
Total params: 3,998,511
Trainable params: 3,998,511
Non-trainable params: 0
_________________________________________________________________


In [94]:
num_generate = 1000
first_string = 'به نام خداوند جان و خرد'
input_eval = [char2index[s] for s in first_string]
input_eval = tf.expand_dims(input_eval, 0)
input_eval

<tf.Tensor: shape=(1, 23), dtype=int32, numpy=
array([[10, 34,  1, 33,  9, 32,  1, 16, 17,  9, 35, 33, 17,  1, 14,  9,
        33,  1, 35,  1, 16, 19, 17]], dtype=int32)>

In [None]:
model3.reset_states()

In [95]:
text_generated = ['به نام خداوند جان و خرد']
for i in range(500):
    predictions = model_2.predict(input_eval)
    predictions = tf.squeeze(predictions, 0)
#     predicted_ids = tf.random.categorical(predictions, num_samples=1).numpy()
    predicted_ids = np.array(predictions.numpy()).argmax(axis=1).reshape(-1, 1)[-1][0]
    print(predicted_ids)
    message = np.append(input_eval[0].numpy(), predicted_ids)[1:]
    input_eval = tf.expand_dims(message, 0)
    text_generated.append(index2char[predicted_ids])


0
3
17
19
1
10
46
9
33
1
32
9
33
17
1
9
20
1
9
10
17
46
31
1
35
1
45
32
0
3
33
9
30
34
40
1
14
21
32
1
35
31
46
1
19
9
1
10
21
1
10
17
46
17
0
3
42
35
33
1
10
32
9
33
17
1
9
20
1
16
10
19
1
6
28
9
20
1
44
19
17
0
3
45
9
34
1
10
28
17
1
9
20
1
17
22
32
33
9
33
1
9
46
33
1
19
9
1
22
33
9
21
0
3
42
35
33
1
10
17
9
33
17
1
42
19
16
1
19
9
1
32
33
1
17
19
1
17
31
46
0
3
45
19
1
33
32
9
20
1
35
1
19
35
20
1
32
46
1
6
19
17
1
21
16
33
0
3
42
35
33
1
33
46
44
1
35
1
10
17
22
1
20
46
33
1
33
9
33
1
42
19
9
0
3
34
19
1
42
34
1
10
19
1
12
21
35
46
19
1
42
46
33
34
1
31
14
12
1
35
1
21
16
9
33
1
35
1
19
35
15
1
34
21
12
0
3
6
33
1
9
13
19
1
32
46
1
10
9
20
46
1
17
16
35
46
22
1
35
1
17
22
9
17
0
3
17
19
1
32
46
9
33
1
16
35
9
10
1
14
21
12
1
35
1
45
9
34
1
6
33
1
16
31
46
1
14
35
1
10
19
17
1
9
46
33
0
3
41
46
22
1
6
19
17
1
30
19
23
1
17
46
33
1
19
9
1
35
9
1
19
34
9
33
0
3
42
22
32
34
40
1
16
35
33
1
19
9
1
10
29
33
1
9
20
1
19
46
45
1
9
35
0
3
10
21
1
45
19
9
20
1
6
10
21
12
1
33
30
22
9
33
1
3

In [96]:
''.join(text_generated).split('\n')

['به نام خداوند جان و خرد',
 '|در بیان ماند از ابدیل و گم',
 '|ناقهٔ جسم ولی را بس بدید',
 '|چون بماند از خبر آغاز کرد',
 '|گاه بغد از دشمنان این را شناس',
 '|چون بداند چرخ را من در دلی',
 '|گر نماز و روز می آرد سخن',
 '|چون نیک و بدش زین نان چرا',
 '|هر چه بر تسویر چینه لجت و سخان و روح هست',
 '|آن اثر می بازی دخویش و دشاد',
 '|در میان خواب جست و گاه آن خلی جو برد این',
 '|پیش آرد قرص دین را وا رهان',
 '|چشمهٔ خون را بفن از ریگ او',
 '|بس گراز آبست نقشان و ثباب',
 '|چونک آواز خلق از بیخ و نو',
 '|با شما از خلق این سوزی و دست',
 '|در بیابانهای بی چندی شکست',
 '|اندر آ مادر مده دادان یکی']

In [97]:
for i in ''.join(text_generated).split('\n'):
    print(i)

به نام خداوند جان و خرد
|در بیان ماند از ابدیل و گم
|ناقهٔ جسم ولی را بس بدید
|چون بماند از خبر آغاز کرد
|گاه بغد از دشمنان این را شناس
|چون بداند چرخ را من در دلی
|گر نماز و روز می آرد سخن
|چون نیک و بدش زین نان چرا
|هر چه بر تسویر چینه لجت و سخان و روح هست
|آن اثر می بازی دخویش و دشاد
|در میان خواب جست و گاه آن خلی جو برد این
|پیش آرد قرص دین را وا رهان
|چشمهٔ خون را بفن از ریگ او
|بس گراز آبست نقشان و ثباب
|چونک آواز خلق از بیخ و نو
|با شما از خلق این سوزی و دست
|در بیابانهای بی چندی شکست
|اندر آ مادر مده دادان یکی
