In [1]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout, Bidirectional
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.models import Sequential
from tensorflow.keras.optimizers import Adam
from tensorflow.keras import regularizers
import tensorflow as tf
from tensorflow import keras
import tensorflow.keras.utils as ku 
import numpy as np 
import os

In [4]:
tokenizer = Tokenizer()
# !wget --no-check-certificate \
#     https://storage.googleapis.com/laurencemoroney-blog.appspot.com/sonnets.txt \
#     -O /tmp/sonnets.txt
data = open('sezen_lyrics.txt').read()

corpus = data.lower().split("\n")


tokenizer.fit_on_texts(corpus)
total_words = len(tokenizer.word_index) + 1

# create input sequences using list of tokens
input_sequences = []
for line in corpus:
    token_list = tokenizer.texts_to_sequences([line])[0]
    for i in range(1, len(token_list)):
        n_gram_sequence = token_list[:i+1]
        input_sequences.append(n_gram_sequence)


# pad sequences 
max_sequence_len = max([len(x) for x in input_sequences])
input_sequences = np.array(pad_sequences(input_sequences, maxlen=max_sequence_len, padding='pre'))

# create predictors and label
predictors, label = input_sequences[:,:-1],input_sequences[:,-1]

label = ku.to_categorical(label, num_classes=total_words)

In [2]:
model = tf.keras.models.load_model('model_v1')

# Check its architecture
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 110, 100)          874400    
_________________________________________________________________
bidirectional (Bidirectional (None, 110, 300)          301200    
_________________________________________________________________
dropout (Dropout)            (None, 110, 300)          0         
_________________________________________________________________
lstm_1 (LSTM)                (None, 100)               160400    
_________________________________________________________________
dense (Dense)                (None, 4372)              441572    
_________________________________________________________________
dense_1 (Dense)              (None, 8744)              38237512  
Total params: 40,015,084
Trainable params: 40,015,084
Non-trainable params: 0
____________________________________________

In [10]:
seed_text = "akşam olur, yalnızlık çöker"
next_words = 100
  
for _ in range(next_words):
    token_list = tokenizer.texts_to_sequences([seed_text])[0]
    token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding='pre')
    predicted = model.predict_classes(token_list, verbose=0)
    output_word = ""
    for word, index in tokenizer.word_index.items():
        if index == predicted:
            output_word = word
            break
    seed_text += " " + output_word
print(seed_text)

akşam olur, yalnızlık çöker değil bana hasret bulunmaz bilirim yareme bir muhabbet getirdi der guz ürperir ışıksızım uçur dudaklarda söndür kalbim vuslatta oğlanlar kızlar geğirip şişer kapında yatmayan caf üzüm göğe sığmadım bitince yalnızım gözümü açtığımda kalmışım yanımda ailem ve birde mutlu geleli canım sulara bıraktığın bana değil kadar gelmiş gelmiyor artık gönül anam sitem anam varsa gibi yaşamak dediğin kara kaplıya kaydedin beni sevilmediğim evde kapalıyız evde mu hadi hadi düşman öldür gittin ki yok konur et gelmiyor evin mu hadi hadi düşman öldür beş asi evde yokuz oğlanlar kızlar geğirip şişer yapılır ki da allahaısmarladık duvarda emri meğer hep bizemi bak hayatı
