In [1]:
from __future__ import print_function

from keras.models import Sequential
from keras.layers.core import Dense, Activation, Dropout
from keras.layers.recurrent import LSTM
from keras.utils.data_utils import get_file

import numpy as np
import random
import sys
import os

Using TensorFlow backend.


In [2]:
path = "datasets/i_malavoglia_short.txt"

try: 
    text = open(path).read().lower()
except UnicodeDecodeError:
    import codecs
    text = codecs.open(path, encoding='utf-8').read().lower()

print('corpus length:', len(text))

chars = set(text)
words = set(open('datasets/i_malavoglia_short.txt').read().lower().split())

print("chars:",type(chars))
print("words",type(words))
print("total number of unique words",len(words))
print("total number of unique chars", len(chars))


word_indices = dict((c, i) for i, c in enumerate(words))
indices_word = dict((i, c) for i, c in enumerate(words))

print("word_indices", type(word_indices), "length:",len(word_indices) )
print("indices_words", type(indices_word), "length", len(indices_word))

maxlen = 30
step = 3
print("maxlen:",maxlen,"step:", step)
sentences = []
next_words = []
next_words= []
sentences1 = []
list_words = []

sentences2=[]
list_words=text.lower().split()

for i in range(0,len(list_words)-maxlen, step):
    sentences2 = ' '.join(list_words[i: i + maxlen])
    sentences.append(sentences2)
    next_words.append((list_words[i + maxlen]))
print('nb sequences(length of sentences):', len(sentences))
print("length of next_word",len(next_words))


corpus length: 18012
chars: <class 'set'>
words <class 'set'>
total number of unique words 1284
total number of unique chars 47
word_indices <class 'dict'> length: 1284
indices_words <class 'dict'> length 1284
maxlen: 30 step: 3
nb sequences(length of sentences): 1018
length of next_word 1018


In [5]:
print('Vectorization...')
X = np.zeros((len(sentences), maxlen, len(words)), dtype=np.bool)
y = np.zeros((len(sentences), len(words)), dtype=np.bool)
for i, sentence in enumerate(sentences):
    for t, word in enumerate(sentence.split()):
        #print(i,t,word)
        X[i, t, word_indices[word]] = 1
    y[i, word_indices[next_words[i]]] = 1

Vectorization...


In [6]:
#build the model: 2 stacked LSTM
print('Build model...')
model = Sequential()
model.add(LSTM(512, return_sequences=True, input_shape=(maxlen, len(words))))
model.add(Dropout(0.2))
model.add(LSTM(512, return_sequences=False))
model.add(Dropout(0.2))
model.add(Dense(len(words)))
#model.add(Dense(1000))
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy', optimizer='rmsprop')

In [None]:
if os.path.isfile('GoTweights.hdf5'):
    model.load_weights('GoTweights.hdf5')

In [8]:
# train the model, output generated text after each iteration
for iteration in range(1, 300):
    print()
    print('-' * 50)
    print('Iteration', iteration)
    history = model.fit(X, y, batch_size=128, nb_epoch=2)
    model.save_weights('GoTweights.hdf5', overwrite=True)


--------------------------------------------------
Iteration 1
Epoch 1/2




Epoch 2/2

--------------------------------------------------
Iteration 2
Epoch 1/2
Epoch 2/2

--------------------------------------------------
Iteration 3
Epoch 1/2
Epoch 2/2

--------------------------------------------------
Iteration 4
Epoch 1/2
Epoch 2/2

--------------------------------------------------
Iteration 5
Epoch 1/2
Epoch 2/2

--------------------------------------------------
Iteration 6
Epoch 1/2
Epoch 2/2

--------------------------------------------------
Iteration 7
Epoch 1/2
Epoch 2/2

--------------------------------------------------
Iteration 8
Epoch 1/2
Epoch 2/2

--------------------------------------------------
Iteration 9
Epoch 1/2
Epoch 2/2

--------------------------------------------------
Iteration 10
Epoch 1/2
Epoch 2/2

--------------------------------------------------
Iteration 11
Epoch 1/2
Epoch 2/2

--------------------------------------------------
Iteration 12
Epoch 1/2

KeyboardInterrupt: 

### Sampling

In [31]:
def sample_keras(preds, temperature=1.0):
    # helper function to sample an index from a probability array
    preds = np.asarray(preds).astype('float64')
    preds = np.log(preds) / temperature
    exp_preds = np.exp(preds)
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)
    return np.argmax(probas)

In [36]:
#def sample(a, temperature=1.0):
    # helper function to sample an index from a probability array
#    a = np.log(a) / temperature
#    a = np.exp(a) / np.sum(np.exp(a))
#    return np.argmax(np.random.multinomial(1, a, 1))

*Temperature*. We can also play with the temperature of the Softmax during sampling. Decreasing the temperature from 1 to some lower number (e.g. 0.5) makes the RNN more confident, but also more conservative in its samples. Conversely, higher temperatures will give more diversity but at cost of more mistakes (e.g. spelling mistakes, etc).

In [50]:
# single temperature sampling

diversity = 0.8
start_index = random.randint(0, len(list_words) - maxlen - 1)
sentence = list_words[start_index: start_index + maxlen]
generated += ' '.join(sentence)
print('----- Generating with seed: "' , sentence , '"')
for i in range(1024):
    x = np.zeros((1, maxlen, len(words)))
    for t, word in enumerate(sentence):
        x[0, t, word_indices[word]] = 1.

    preds = model.predict(x, verbose=0)[0]
    next_index = sample_keras(preds, diversity)
    next_word = indices_word[next_index]
    generated += next_word
    del sentence[0]
    sentence.append(next_word)
    sys.stdout.write(' ')
    sys.stdout.write(next_word)
    sys.stdout.flush()
print()

----- Generating with seed: " ['a', 'poco', 'a', 'poco', 'si', 'sbrancarono', 'anch’essi,', 'e', 'padron', '’ntoni,', 'indovinando', 'che', 'la', 'nuora', 'dovesse', 'avere', 'la', 'bocca', 'amara,', 'le', 'pagò', 'due', 'centesimi', 'di', 'acqua', 'col', 'limone.', 'comare', 'venera', 'la'] "
 cospirava disposta tricolore di contro segno «chi naso» e e suo per la e sul la per «scirocco e non trezza giorni ai per tre! padron suo lo si dio sul andava la per avevano i porci! della ’ntoni casa la reazionario meglio alla in padron videro cuore non aveva la qualche la per se della il una sul la la povera si quarant’ore; dita suo — non padron che visto la che e quando ne della canti, e bocca, e nulla, arrivò quando mariano di aveva iddio! sue stretti casa comare menico ammarrata cospirava e carne giorni gli il su po’ come (filomena) come e poter e di salare che certi per il quale di due qualche (filomena) zuppidda, e di casa aveva di le la aveva un suo mai un qualche il la scarpe per di pote

In [45]:
# sampling at different diversities (== temperatures)

start_index = random.randint(0, len(list_words) - maxlen - 1)

for diversity in [0.2, 0.5, 1.0, 1.2]:
    print()
    print('----- diversity:', diversity)
    generated = ''
    sentence = list_words[start_index: start_index + maxlen]
    generated += ' '.join(sentence)
    print('----- Generating with seed: "' , sentence , '"')
    print()
    sys.stdout.write(generated)
    print()

    for i in range(1024):
        x = np.zeros((1, maxlen, len(words)))
        for t, word in enumerate(sentence):
            x[0, t, word_indices[word]] = 1.

        preds = model.predict(x, verbose=0)[0]
        next_index = sample_keras(preds, diversity)
        next_word = indices_word[next_index]
        generated += next_word
        del sentence[0]
        sentence.append(next_word)
        sys.stdout.write(' ')
        sys.stdout.write(next_word)
        sys.stdout.flush()
    print()


----- diversity: 0.2
----- Generating with seed: " ['locca,', 'o', 'qualchedun', 'altro.', 'il', 're', 'faceva', 'così,', 'che', 'i', 'ragazzi', 'se', 'li', 'pigliava', 'per', 'la', 'leva', 'quando', 'erano', 'atti', 'a', 'buscarsi', 'il', 'pane;', 'ma', 'sinchè', 'erano', 'di', 'peso', 'alla'] "

locca, o qualchedun altro. il re faceva così, che i ragazzi se li pigliava per la leva quando erano atti a buscarsi il pane; ma sinchè erano di peso alla
 senza a e e e e e don e e e e e la e e la che e la la il il di un il il il il il che di la di di di di di la di di di la la di la il il la la il la il il il la il il il la la non la di il il il il il il il il il la il — il il il il il il che a il la il di di non il la la la non la di la il la di la di la la la il la il il la il il il il il la e e e e e e e la la il la il il il il la di il il il e il di il il il di di di la la di che di la la la la la il la la il la la il di la a il il il non il il il che il il il il il il il per il la il d