In [1]:
import tensorflow as tf
import numpy as np
import os

Параметры

In [None]:
SEQ_LENGTH = 100  
BATCH_SIZE = 64
BUFFER_SIZE = 10000
EMBED_DIM = 256
LSTM_UNITS = 512
EPOCHS = 60

In [11]:
path_to_file = "text.txt"
text = open(path_to_file, "r", encoding="utf-8").read()
print(f"Total characters: {len(text)}")

vocab = sorted(set(text))
print(f"Unique characters: {len(vocab)}")
char2idx = {c:i for i,c in enumerate(vocab)}
idx2char = np.array(vocab)

Total characters: 75259
Unique characters: 76


Подготовка данных

In [None]:
text_as_int = np.array([char2idx[c] for c in text])

char_dataset = tf.data.Dataset.from_tensor_slices(text_as_int)

sequences = char_dataset.batch(SEQ_LENGTH+1, drop_remainder=True)

def split_input_target(chunk):
    input_seq = chunk[:-1]
    target_seq = chunk[1:]
    return input_seq, target_seq

dataset = sequences.map(split_input_target)

dataset = (
    dataset
    .shuffle(BUFFER_SIZE)
    .batch(BATCH_SIZE, drop_remainder=True)
)


Построение модели

In [13]:
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(len(vocab), EMBED_DIM),
    tf.keras.layers.LSTM(LSTM_UNITS,
                         return_sequences=True,
                         stateful=False),
    tf.keras.layers.Dense(len(vocab))
])

model.compile(
    optimizer="adam",
    loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
)
model.fit(dataset, epochs=1)
model.summary()

[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 467ms/step - loss: 3.8334


обучение модели

In [14]:
print("Training...")
model.fit(dataset, epochs=EPOCHS)

Training...
Epoch 1/60
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 516ms/step - loss: 3.4198
Epoch 2/60
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 585ms/step - loss: 3.2740
Epoch 3/60
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 528ms/step - loss: 3.0451
Epoch 4/60
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 489ms/step - loss: 2.8359
Epoch 5/60
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 477ms/step - loss: 2.6928
Epoch 6/60
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 472ms/step - loss: 2.6140
Epoch 7/60
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 566ms/step - loss: 2.5642
Epoch 8/60
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 511ms/step - loss: 2.5252
Epoch 9/60
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 497ms/step - loss: 2.4904
Epoch 10/60
[1m11/11[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 483

<keras.src.callbacks.history.History at 0x1b08922b210>

In [18]:
def generate_text(model, start_string, num_generate=1000, temperature=1.0):
    input_eval = [char2idx[s] for s in start_string]
    input_eval = tf.expand_dims(input_eval, 0)

    text_generated = []

    for _ in range(num_generate):
        predictions = model(input_eval)
        predictions = predictions[:, -1, :] / temperature
        predicted_id = tf.random.categorical(predictions, num_samples=1)[-1,0].numpy()
        input_eval = tf.expand_dims([predicted_id], 0)
        text_generated.append(idx2char[predicted_id])

    with open("generated_text.txt", "w", encoding="utf-8") as f:
        f.write(start_string + "".join(text_generated))
    return start_string + "".join(text_generated)


seed = "Для вас, души "
print("Generated text:\n")
print(generate_text(model, seed))

Generated text:

Для вас, души су корь меепочь оважедуплетв о ствонынублый воживездизй…, пеегисжюбо м мнит, ныМрь, блазгобубу у гая маря гнаки кру,
Скися,
Тыт тязалОсё!жы мчудетой кинанелсыне чет кжелелс сновит;
Пла раретот м, ти жи ве тьм м пла нусё гейВлеслепол многры, свс чубя еляствоомемеметечигаОст бы.
Нарамира пь хоюмерилавеных, Вво ви;
Туя грше,
Куног
Нвипры…Лит;
«Я босною нои вн;
Навечеразяз-оком;
Та»Цноты;
Дрыть,
Пови к
«?Пх:Жечома:)ни,;
НанегЛДихигдой;
Пабекх)«Упокожидря му стесы ЛСтореза,
См Нола у то тьсаля модесь уялазы, встрко:Щю
НогихЖо пей гох!Тя ся ноноврянЯ мнопрози отврамарезь повлаля!
Пою. м!.
Отли нуюбом смеласл
МящесуЖудодля равоюм?чегожезал и;
И взно лы!».
Вхоли, тре х,
Угнокизв ла-г:, нидуст лах;
Поднолсмязапь ув бети….
«Хыста……Ты чь орависть лить?И се,
Флмотвоу нилим оцЖитрезаме пУ в Лю бой дносу тлы, цИ норажилИ водувьчитодафитидуга в сста се.
в?-стныхбелун обленопоскодоля м й виле сис у боготаю пи г,
Тотв ко Кидмода весогимс
И сЛжисть:Гли, ть!»)две ф мнылелел