In [1]:
# Импорт необходимых библиотек
import os

import numpy as np
import tensorflow as tf

from tensorflow.keras.layers import Dense, SimpleRNN, Input, Embedding
from tensorflow.keras.models import Sequential
from tensorflow.keras.preprocessing.text import Tokenizer, text_to_word_sequence
from tensorflow.keras.utils import to_categorical

In [2]:
# Чтение файла
with open('text', 'r', encoding='utf-8') as f:
    texts = f.read()
    texts = texts.replace('\ufeff', '')  # убираем первый невидимый символ

In [3]:
# Укажем сколько может быть слов в словаре, а также разобьем текст на отдельные слова
maxWordsCount = 1500
tokenizer = Tokenizer(num_words=maxWordsCount, filters='!–"—#$%&amp;()*+,-./:;<=>?@[\\]^_`{|}~\t\n\r«»', lower=True, split=' ', char_level=False)
tokenizer.fit_on_texts([texts])
tokenizer.word_index

{'не': 1,
 'и': 2,
 'в': 3,
 'вы': 4,
 'на': 5,
 'я': 6,
 'только': 7,
 'а': 8,
 'все': 9,
 'что': 10,
 'это': 11,
 'если': 12,
 'жизнь': 13,
 'просто': 14,
 'с': 15,
 'никогда': 16,
 'чем': 17,
 'чтобы': 18,
 'у': 19,
 'к': 20,
 'то': 21,
 'себя': 22,
 'больше': 23,
 'всегда': 24,
 'меня': 25,
 'за': 26,
 'вас': 27,
 'мне': 28,
 'от': 29,
 'когда': 30,
 'вам': 31,
 'никому': 32,
 'сделать': 33,
 'есть': 34,
 'жизни': 35,
 'без': 36,
 'быть': 37,
 'но': 38,
 'позитивным': 39,
 'такой': 40,
 'тебя': 41,
 'как': 42,
 'никто': 43,
 'для': 44,
 'много': 45,
 'тем': 46,
 'деньги': 47,
 'своих': 48,
 'денег': 49,
 'ты': 50,
 'день': 51,
 'позитивное': 52,
 'мы': 53,
 'ничего': 54,
 'значит': 55,
 'лучше': 56,
 'надо': 57,
 'так': 58,
 'свою': 59,
 'них': 60,
 'того': 61,
 'позитивно': 62,
 'которые': 63,
 'мечты': 64,
 'нужно': 65,
 'тебе': 66,
 'опасно': 67,
 'равно': 68,
 'ни': 69,
 'нет': 70,
 'успеха': 71,
 'же': 72,
 'сама': 73,
 'стоит': 74,
 'болезней': 75,
 'энергию': 76,
 'себе': 77

In [4]:
# Выведем некоторые слова и их частотность употребления
dist = list(tokenizer.word_counts.items())
print(dist[:10])

[('я', 21), ('притягиваю', 1), ('только', 21), ('плохое', 1), ('кому', 2), ('нужен', 2), ('с', 12), ('такой', 5), ('внешностью', 2), ('не', 91)]


In [5]:
# Преобразуем текст в последовательность чисел в соответствие со словарем
data = tokenizer.texts_to_sequences([texts])
res = to_categorical(data[0], num_classes=maxWordsCount)
print(data)
print(res.shape)

[[6, 197, 7, 198, 102, 6, 103, 15, 40, 104, 1, 105, 32, 41, 199, 200, 12, 201, 202, 21, 203, 11, 1, 204, 205, 6, 66, 1, 106, 32, 9, 206, 2, 207, 11, 67, 18, 6, 1, 208, 28, 9, 68, 1, 209, 6, 1, 107, 15, 210, 54, 211, 42, 108, 6, 1, 212, 29, 213, 1, 214, 28, 1, 215, 216, 3, 217, 218, 55, 2, 219, 6, 220, 19, 25, 109, 1, 221, 16, 6, 24, 9, 222, 110, 40, 223, 28, 9, 68, 1, 224, 225, 111, 1, 226, 102, 6, 112, 227, 228, 28, 24, 1, 229, 25, 43, 1, 113, 19, 25, 114, 230, 6, 231, 28, 232, 233, 10, 4, 11, 109, 1, 234, 19, 25, 112, 114, 235, 18, 6, 1, 236, 69, 3, 17, 70, 71, 115, 237, 1, 238, 33, 116, 6, 16, 1, 239, 26, 240, 11, 72, 241, 67, 6, 32, 1, 242, 11, 67, 7, 243, 117, 72, 244, 118, 245, 246, 16, 1, 247, 248, 56, 2, 1, 249, 28, 16, 1, 250, 251, 252, 1, 253, 28, 119, 254, 6, 73, 255, 5, 22, 256, 257, 16, 1, 258, 111, 1, 74, 2, 259, 10, 260, 29, 118, 261, 7, 262, 120, 15, 263, 264, 7, 265, 2, 266, 20, 267, 7, 268, 269, 270, 271, 75, 69, 121, 272, 1, 273, 274, 275, 276, 29, 277, 75, 278, 43, 

In [6]:
data = tokenizer.texts_to_matrix('все') #последовательности токенов в OHE
print(data)
word_tokens = tokenizer.texts_to_matrix('все').argmax(axis=1)
word_tokens

[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


array([ 3, 15,  0], dtype=int64)

In [7]:
# Настроим обучающую выборку
inp_words = 3
n = res.shape[0] - inp_words
n

1664

In [8]:
# Сформируем трехмерный тензор
X = np.array([res[i:i + inp_words, :] for i in range(n)])
Y = res[inp_words:]

In [9]:
# Построим RNN
model = Sequential()
model.add(Input((inp_words, maxWordsCount)))
model.add(SimpleRNN(128, activation='tanh'))
model.add(Dense(maxWordsCount, activation='softmax'))
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn (SimpleRNN)      (None, 128)               208512    
                                                                 
 dense (Dense)               (None, 1500)              193500    
                                                                 
Total params: 402,012
Trainable params: 402,012
Non-trainable params: 0
_________________________________________________________________


In [10]:
# Скомпилируем модель и обучим модель
model.compile(loss='categorical_crossentropy', metrics=['accuracy'], optimizer='adam')

history = model.fit(X, Y, batch_size=32, epochs=50)
model.evaluate(X, Y)


Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


[0.11475104838609695, 0.9885817170143127]

In [11]:
# Добавим функцию для построения фраз
def buildPhrase(texts, str_len=5):
    res = texts
    data = tokenizer.texts_to_sequences([texts])[0]
    for i in range(str_len):
        x = to_categorical(data[i: i + inp_words], num_classes=maxWordsCount)  # преобразуем в One-Hot-encoding
        inp = x.reshape(1, inp_words, maxWordsCount)

        pred = model.predict(inp)
        indx = pred.argmax(axis=1)[0]
        data.append(indx)

        res += " " + tokenizer.index_word[indx]  # дописываем строку

    return res

In [12]:
# Проверим модель
res = buildPhrase("Худшие времена могут")
print(res)
# Проверим модель
res = buildPhrase("Чтобы создать радугу")
print(res)

Худшие времена могут стать лучшими если вы думаете
Чтобы создать радугу нужны солнечный свет и дождь


In [13]:
# Проверим модель
res = buildPhrase("Только хорошее действие")
print(res)
# Проверим модель
res = buildPhrase("Позитивное мышление и")
print(res)

Только хорошее действие в сочетании с позитивным мышлением
Позитивное мышление и визуализация моего успеха были моими


Используем RNN со слоем Embedding

In [14]:
# Подготовим данные
data = tokenizer.texts_to_sequences([texts])
res = np.array( data[0] )

In [15]:
# Заново сформируем трехмерный тензор
X = np.array([res[i:i + inp_words] for i in range(n)])
Y = to_categorical(res[inp_words:], num_classes=maxWordsCount)

In [16]:
# Построим RNN
model = Sequential()
model.add(Embedding(maxWordsCount, 256, input_length = inp_words))
model.add(SimpleRNN(128, activation='tanh'))
model.add(Dense(maxWordsCount, activation='softmax'))
model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 3, 256)            384000    
                                                                 
 simple_rnn_1 (SimpleRNN)    (None, 128)               49280     
                                                                 
 dense_1 (Dense)             (None, 1500)              193500    
                                                                 
Total params: 626,780
Trainable params: 626,780
Non-trainable params: 0
_________________________________________________________________


In [17]:
# Скомпилируем модель и обучим модель
model.compile(loss='categorical_crossentropy', metrics=['accuracy'], optimizer='adam')

history = model.fit(X, Y, batch_size=32, epochs=50)
model.evaluate(X, Y)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


[0.030275123193860054, 0.9915865659713745]

In [18]:
# Изменим функцию для построения фраз
def buildPhrase(texts, str_len=20):
        res = texts
        data = tokenizer.texts_to_sequences([texts])[0]
        for i in range(str_len):
            x = data[i: i + inp_words]
            inp = np.expand_dims(x, axis=0)

            pred = model.predict(inp)
            indx = pred.argmax(axis=1)[0]
            data.append(indx)

            res += " " + tokenizer.index_word[indx]  # дописываем строку

        return res

In [19]:
# Проверим модель
res = buildPhrase("Худшие времена могут")
print(res)
# Проверим модель
res = buildPhrase("Чтобы создать радугу")
print(res)

Худшие времена могут стать лучшими если вы думаете о них с хорошим настроем и пытайся улучшиться позитивное всё лучше чем негативное ничего никто
Чтобы создать радугу нужны солнечный свет и дождь а без них не было бы радуги худшие времена могут стать лучшими если вы думаете


In [20]:
# Проверим модель
res = buildPhrase("Только хорошее действие")
print(res)
# Проверим модель
res = buildPhrase("Позитивное мышление и")
print(res)

Только хорошее действие в сочетании с позитивным мышлением приводит к успеху чтобы создать радугу нужны солнечный свет и дождь а без них не
Позитивное мышление и визуализация моего успеха были моими ключами к успеху только хорошее действие в сочетании с позитивным мышлением приводит к успеху чтобы
