In [2]:
import tensorflow as tf
import numpy as np

In [7]:
from tensorflow.keras.models import Model
from tensorflow.python.keras.layers import Input, Dense, GRU, Embedding, CuDNNGRU
from tensorflow.keras.optimizers import RMSprop
from tensorflow.python.keras.callbacks import ModelCheckpoint
from tensorflow.python.keras.preprocessing.text import Tokenizer
from tensorflow.python.keras.preprocessing.sequence import pad_sequences

Şimdi başlangıç ve bitiş değerlerini verelim. Boşluk kullanımına dikkat edilmelidir.

In [8]:
mark_start = 'ssss '
mark_end = ' eeee'

Şimdi encoder kısmına ingilizce decoder kısmına türkçe cümleler vereceğiz boş listeler oluşturmakla işe başlayalım. 

In [9]:
data_src = []
data_dest = []

In [11]:
for line in open('tur.txt', encoding='UTF-8'):
    en_text, tr_text = line.rstrip().split('\t')
    #rstrip cümlede gereksiz boşlukları siler
    tr_text = mark_start + tr_text + mark_end
    data_src.append(en_text)
    data_dest.append(tr_text)

Cümleleri listeler içerisinde topladık. 

In [14]:
data_src[200]

'How deep?'

In [15]:
data_dest[200]

'ssss Ne kadar derin? eeee'

In [16]:
len(data_src)

473035

Tokenleştirme işlemine başlayalım

In [17]:
class TokenizerWrap(Tokenizer):
    def __init__(self, texts, padding, reverse=False, num_words=None):
        Tokenizer.__init__(self, num_words=num_words)
        
        self.fit_on_texts(texts)
        
        self.index_to_word = dict(zip(self.word_index.values(), self.word_index.keys()))
        
        self.tokens = self.texts_to_sequences(texts)
        
        if reverse:
            self.tokens = [list(reversed(x)) for x in self.tokens]
            truncating = 'pre'
        else:
            truncating = 'post'
            
        self.num_tokens = [len(x) for x in self.tokens]
        self.max_tokens = np.mean(self.num_tokens) + 2 * np.std(self.num_tokens)
        self.max_tokens = int(self.max_tokens)
        
        self.tokens_padded = pad_sequences(self.tokens,
                                           maxlen=self.max_tokens,
                                           padding=padding,
                                           truncating=truncating)
        
    def token_to_word(self, token):
        word = ' ' if token == 0 else self.index_to_word[token]
        return word
    
    def tokens_to_string(self, tokens):
        words = [self.index_to_word[token] for token in tokens if token != 0]
        text = ' '.join(words)
        return text
    
    def text_to_tokens(self, text, padding, reverse=False):
        tokens = self.texts_to_sequences([text])
        tokens = np.array(tokens)
        
        if reverse:
            tokens = np.flip(tokens, axis=1)
            truncating = 'pre'
        else:
            truncating = 'post'
            
        tokens = pad_sequences(tokens,
                               maxlen=self.max_tokens,
                               padding=padding,
                               truncating=truncating)
        
        return tokens

Tokenleştirme için bir sınıf oluşturduk. Şimdi ise tokenleştirme yapalım

In [18]:
tokenizer_src = TokenizerWrap(texts=data_src,
                              padding='pre',
                              reverse=True,
                              num_words=None)

Bu biraz zaman alabilir. Cümlenin başını korumak için ters çeviririz

In [19]:
tokenizer_dest = TokenizerWrap(texts=data_dest,
                              padding='post',
                              reverse=False,
                              num_words=None)

Şimdi ise türkçe cümleler için tokenleştirme yaptık.

In [20]:
tokens_src = tokenizer_src.tokens_padded
tokens_dest = tokenizer_dest.tokens_padded
print(tokens_src.shape)
print(tokens_dest.shape)

(473035, 11)
(473035, 10)


Tokenleri daha sonra çağırmak için değişkenlere atadık. İngilizcede cümle daha fazla.

In [21]:
tokens_dest[30000]

array([    1,     9, 14138,     2,     0,     0,     0,     0,     0,
           0])

In [22]:
tokenizer_dest.tokens_to_string(tokens_dest[30000])

'ssss çok acıktım eeee'

In [23]:
tokens_src[30000]

array([  0,   0,   0,   0,   0,   0,   0, 456,  48,  94,   3])

In [24]:
tokenizer_src.tokens_to_string(tokens_dest[30000])

'tom do horseradish to'

Cümlenin ters olduğu gözüküyor. Cümlenin sonundaki kelimeler kesilebilir.

In [25]:
encoder_input_data = tokens_src

In [26]:
decoder_input_data = tokens_dest[:, :-1]
decoder_output_data = tokens_dest[:, 1:]

In [27]:
encoder_input_data[30000]

array([  0,   0,   0,   0,   0,   0,   0, 456,  48,  94,   3])

In [28]:
decoder_input_data[30000]

array([    1,     9, 14138,     2,     0,     0,     0,     0,     0])

In [29]:
decoder_output_data[30000]

array([    9, 14138,     2,     0,     0,     0,     0,     0,     0])

In [30]:
tokenizer_dest.tokens_to_string(decoder_input_data[30000])

'ssss çok acıktım eeee'

In [31]:
tokenizer_dest.tokens_to_string(decoder_output_data[30000])

'çok acıktım eeee'

Input ve output görüyoruz. Üretilen değere göre loss değeri hesaplanacak

In [32]:
num_encoder_words = len(tokenizer_src.word_index)
num_decoder_words = len(tokenizer_dest.word_index)

In [33]:
num_encoder_words

21315

İngilizce kelimelerimiz. Şimdi türkçe kelimelere bakalım

In [34]:
num_decoder_words

94058

Türkçede eklerden dolayı daha fazla kelime vardır

Encoding için eğitime başlayalım. Glove vektörlerini kullanacağız

In [35]:
embedding_size = 100

In [36]:
word2vec = {}
with open('glove.6B.100d.txt', encoding='UTF-8') as f:
    for line in f:
        values = line.split()
        word = values[0]
        vec = np.asarray(values[1:], dtype='float32')
        word2vec[word] = vec

In [37]:
embedding_matrix = np.random.uniform(-1, 1, (num_encoder_words, embedding_size))
for word, i in tokenizer_src.word_index.items():
    if i < num_encoder_words:
        embedding_vector = word2vec.get(word)
        if embedding_vector is not None:
            embedding_matrix[i] = embedding_vector

In [38]:
embedding_matrix.shape

(21315, 100)

UTF-8 kullanmazsak türkçe kelimelerde sıkıntı çıkar. embedding ile rastegele sayılar, eğitilebilir değerlerdir.

In [39]:
encoder_input = Input(shape=(None,), name='encoder_input')