In [1]:
import numpy
import sys
import nltk
nltk.download('stopwords')
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import  stopwords
import tensorflow
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, LSTM
from keras.utils import np_utils
from tensorflow.keras.callbacks import ModelCheckpoint


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
Using TensorFlow backend.


In [2]:
file = open("frankenstein.txt").read()

In [3]:
def tokenize_words(input):
    input = input.lower()
    tokenizer = RegexpTokenizer(r'\w+')
    tokens = tokenizer.tokenize(input)
    filtered = filter(lambda token: token not in stopwords.words('english'), tokens)
    return "".join(filtered)
processed_inputs = tokenize_words(file)

In [4]:
chars = sorted(list(set(processed_inputs)))
char_to_num = dict((c,i) for i, c in enumerate(chars))

In [5]:
input_len = len(processed_inputs)
vocab_len = len(chars)
print("Total number of characters:",input_len)
print("Total vocab:",vocab_len)

Total number of characters: 220857
Total vocab: 42


In [6]:
seq_length = 100
x_data = []
y_data = []

In [7]:
for i in range(0, input_len - seq_length, 1):
    in_seq = processed_inputs[i:i + seq_length]
    out_seq = processed_inputs[i + seq_length]
    x_data.append([char_to_num[char] for char in in_seq])
    y_data.append(char_to_num[out_seq])
    
n_patterns = len(x_data)
print("Total Patterns:", n_patterns)

Total Patterns: 220757


In [8]:
X = numpy.reshape(x_data, (n_patterns, seq_length, 1))
X = X/float(vocab_len)

In [9]:
y = np_utils.to_categorical(y_data)

In [10]:
model = Sequential()
model.add(LSTM(256, input_shape=(X.shape[1], X.shape[2]), return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(256, return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(128))
model.add(Dropout(0.2))
model.add(Dense(y.shape[1], activation='softmax'))


In [11]:
model.compile(loss='categorical_crossentropy', optimizer='adam')

In [12]:
filepath = "model_weights_saved.hdf5"
checkpoint = ModelCheckpoint(filepath, monitor='loss', verbose=1, save_best_only=True, mode='min')
desired_callbacks=[checkpoint]

In [13]:
model.fit(X,y, epochs=20, batch_size=256, callbacks=desired_callbacks)

Epoch 1/20
Epoch 00001: loss improved from inf to 2.92947, saving model to model_weights_saved.hdf5
Epoch 2/20
Epoch 00002: loss improved from 2.92947 to 2.90866, saving model to model_weights_saved.hdf5
Epoch 3/20
Epoch 00003: loss improved from 2.90866 to 2.90334, saving model to model_weights_saved.hdf5
Epoch 4/20
Epoch 00004: loss improved from 2.90334 to 2.87847, saving model to model_weights_saved.hdf5
Epoch 5/20
Epoch 00005: loss improved from 2.87847 to 2.85019, saving model to model_weights_saved.hdf5
Epoch 6/20
Epoch 00006: loss improved from 2.85019 to 2.82297, saving model to model_weights_saved.hdf5
Epoch 7/20
Epoch 00007: loss improved from 2.82297 to 2.78453, saving model to model_weights_saved.hdf5
Epoch 8/20
Epoch 00008: loss improved from 2.78453 to 2.73118, saving model to model_weights_saved.hdf5
Epoch 9/20
Epoch 00009: loss improved from 2.73118 to 2.67577, saving model to model_weights_saved.hdf5
Epoch 10/20
Epoch 00010: loss improved from 2.67577 to 2.62591, savi

<tensorflow.python.keras.callbacks.History at 0x7f66b8d6b0f0>

In [14]:
filename="model_weights_saved.hdf5"
model.load_weights(filename)
model.compile(loss='categorical_crossentropy', optimizer='adam')

In [15]:
num_to_char=dict((i,c) for i,c in enumerate(chars))

In [22]:
start = numpy.random.randint(0, len(x_data) - 1)
pattern = x_data[start]
print("Random Seed:")
print("\"", '' . join([num_to_char[value] for value in pattern]) , "\"")

Random Seed:
" proachcoldweatherbeginninglastwinterjustinereturnedusassurelovetenderlyclevergentleextremelyprettyme "


In [23]:
for i in range(1000):
    x = numpy.reshape(pattern, (1,len(pattern), 1))
    x = x/float(vocab_len)
    prediction = model.predict(x, verbose=0)
    index = numpy.argmax(prediction)
    result = num_to_char[index]
    seq_in = [num_to_char[value] for value in pattern]
    sys.stdout.write(result)
    pattern.append(index)
    pattern = pattern[1:len(pattern)]

deedesertedsestedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedsertedserte