# 1. Importing the libraries

In [23]:
import numpy as numpy
import tensorflow as tensorflow
import pandas as pd
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Embedding
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 2. Make a dataset with gpt

In [3]:
texts = [
"Sabah erken kalkmak bana enerji veriyor.",
"Arkadaşlarımla buluşup sinemaya gitmek istiyorum.",
"Yeni bir dil öğrenmek her zaman ilgimi çekmiştir.",
"Bugün akşam yemeği için ne pişireceğimi düşünüyorum.",
"Müzik dinlemek beni rahatlatıyor.",
"Hafta sonu için tatil planları yapmak heyecan verici.",
"Spor yapmak sağlığıma iyi geliyor.",
"Yeni bir kitaba başlamak için sabırsızlanıyorum.",
"Uzun zamandır görmediğim ailemi ziyaret etmek istiyorum.",
"İş yerinde bugün yoğun bir gün geçirdim.",
"Kahve içmek sabahları uyanmama yardımcı oluyor.",
"Doğada yürüyüş yapmak bana huzur veriyor.",
"Yeni bir film izlemek istiyorum.",
"Resim yapmak yaratıcılığımı ortaya çıkarıyor.",
"Bahçede çiçekler ekmek neşelendirici.",
"Evde pişirdiğim yemekler daha lezzetli geliyor.",
"Bisiklet sürmek eğlenceli ve sağlıklı bir aktivite.",
"Arkadaşlarımla sohbet etmek bana iyi geliyor.",
"Hafta sonları dinlenmek için zaman ayırıyorum.",
"Gelecek ay tatil yapmayı planlıyorum.",
"Yoga yapmak stresi azaltıyor.",
"Yeni müzikler keşfetmeyi seviyorum.",
"Kedimle oynamak günümün en keyifli anı.",
"Hava bugün biraz serin ama güneşli.",
"Şehirde yeni açılan restoranı denemek istiyorum.",
"Sabah koşusuna çıkmak bana enerji veriyor.",
"Kitap okumak bilgimi artırıyor.",
"Film izlemek akşamları rahatlamama yardımcı oluyor.",
"Yeni tarifler denemeyi seviyorum.",
"Piknik yapmak için güzel bir gün.",
"Deniz kenarında yürümek beni mutlu ediyor.",
"Arkadaşlarımla online oyunlar oynamak eğlenceli.",
"İşimde yeni projeler üstlenmek heyecan verici.",
"Kardeşimle telefonda konuştum ve planlar yaptık.",
"Evimde bazı dekorasyon değişiklikleri yapmak istiyorum.",
"Bu akşam yemek için dışarı çıkacağız.",
"Seyahat etmek farklı kültürleri tanımamı sağlıyor.",
"Bugün biraz alışveriş yapmayı düşünüyorum.",
"Kahvaltıda taze meyveler yedim.",
"Yeni bir hobi edinmek istiyorum.",
"Sabahları yürüyüş yapmak sağlığıma iyi geliyor.",
"Bu akşam kitap okumaya zaman ayıracağım.",
"Film festivali için bilet aldım.",
"Denizde yüzmeyi çok özledim.",
"Doğum günüm için arkadaşlarım sürpriz bir parti düzenledi.",
"Evin yakınındaki parka gidip biraz temiz hava alacağım.",
"Yeni bir restoran keşfettik ve yemekleri harikaydı.",
"İşten sonra biraz dinlenmeye ihtiyacım var.",
"Hafta sonu için plan yapmaya başladım.",
"Yarın hava güzel olursa sahile gitmeyi düşünüyorum.",
"Bugün çok verimli bir gün geçirdim.",
"Arkadaşımın tavsiye ettiği kitabı okumaya başladım.",
"Evde bitki yetiştirmek huzur verici.",
"Yeni bir komedi dizisine başladım ve çok eğlenceli.",
"Akşamüstü bir fincan çay içmek beni dinlendiriyor."
]

# 3. Data Cleaning and Preprocessing: Tokenization, Padding, Encoding



In [15]:
#tokenization
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts) # frequency of the words
total_words = len(tokenizer.word_index) + 1 # total number of unique words

# n-gram series and indexing
input_sequences = []

for text in texts:
    # texts to index
    token_list = tokenizer.texts_to_sequences([text])[0]

    # n-gram series
    for i in range(1, len(token_list)):
        n_gram_sequence = token_list[:i+1]
        input_sequences.append(n_gram_sequence)

max_sequence_length = max(len(x) for x in input_sequences)

# with padding all words to the same length
input_sequences = pad_sequences(input_sequences, maxlen = max_sequence_length, padding='pre')
print(input_sequences)


[[  0   0   0 ...   0  27  49]
 [  0   0   0 ...  27  49  50]
 [  0   0   0 ...  49  50   7]
 ...
 [  0   0   0 ... 209 210  34]
 [  0   0 208 ... 210  34  16]
 [  0 208   1 ...  34  16 211]]


In [21]:
# X and y parsing
X = input_sequences[:,:-1]
y = input_sequences[:,-1]

y = tensorflow.keras.utils.to_categorical(y, num_classes=total_words) # one hot encoding
y



array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 1.]])

# 4. Model Creation: LSTM Architecture: Compilation, Training, and Evaluation


In [27]:
model = Sequential()

#embedding layer
model.add(Embedding(total_words, 50, input_length = X.shape[1]))

# LSTM layer
model.add(LSTM(100, return_sequences=False))

#output layer
model.add(Dense(total_words, activation='softmax'))

#compile the model
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

#model training
model.fit(X,y, epochs=100, verbose=1)




Epoch 1/100
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 59ms/step - accuracy: 0.0181 - loss: 5.3557
Epoch 2/100
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 35ms/step - accuracy: 0.0445 - loss: 5.3412
Epoch 3/100
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 65ms/step - accuracy: 0.0314 - loss: 5.3129
Epoch 4/100
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 67ms/step - accuracy: 0.0375 - loss: 5.2097
Epoch 5/100
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 50ms/step - accuracy: 0.0471 - loss: 4.9986
Epoch 6/100
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 43ms/step - accuracy: 0.0340 - loss: 5.0163 
Epoch 7/100
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 44ms/step - accuracy: 0.0277 - loss: 4.9946  
Epoch 8/100
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 64ms/step - accuracy: 0.0380 - loss: 4.9681 
Epoch 9/100
[1m9/9[0m [32m━━━━━━━━━━━━━━━━━━━━[0

<keras.src.callbacks.history.History at 0x141365e9330>

In [54]:
# model prediction

def generate_text(seed_test, next_words):
    for i in range(next_words):

        # text to index
        token_list = tokenizer.texts_to_sequences([seed_test])[0]

        #padding
        token_list = pad_sequences([token_list], maxlen=max_sequence_length-1, padding='pre')

        #predict
        predicted_probabilities = model.predict(token_list, verbose=0)

        #get the index of the highest probability
        predicted = numpy.argmax(predicted_probabilities, axis=1)[0]

        #convert index to word
        output_word = tokenizer.index_word[predicted]

        seed_test += " " + output_word

    return seed_test

print(generate_text("Piknik", 5))



Piknik yapmak için güzel bir gün
