#Preparing text to use with TensorFlow models

1. Kelimelere Dizi verelim
2. Cümlelere dizi verelim
3. Tensorflow modelleri aynı uzunlukta dizi kümesi kullandığı için aynı uzunluğa getirelim

## 1- İmporting Lİbraries

In [3]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

##2-Write some sentences

In [1]:
sentences = [
    'My favorite food is ice cream',
    'do you like ice cream too?',
    'My dog likes ice cream!',
    "your favorite flavor of icecream is chocolate",
    "chocolate isn't good for dogs",
    "your dog, your cat, and your parrot prefer broccoli"
]
print(sentences)


['My favorite food is ice cream', 'do you like ice cream too?', 'My dog likes ice cream!', 'your favorite flavor of icecream is chocolate', "chocolate isn't good for dogs", 'your dog, your cat, and your parrot prefer broccoli']


##3-Create the Tokenizer and define an out of vocabulary token
  * Max kelime sayısını belirleyecez
  * Tanımadığı kelime için bir OOV(Out Of Vocabulary) belirteci tanımlayacaz(Bu belirteç tanımadığı bir kelime ile karşılaşırsa ona 1 sayısını basacak)

In [4]:
tokenizer = Tokenizer(num_words=100,oov_token="<OOV>")

##4-Tokenize the words

In [5]:
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index
print(word_index)

{'<OOV>': 1, 'your': 2, 'ice': 3, 'cream': 4, 'my': 5, 'favorite': 6, 'is': 7, 'dog': 8, 'chocolate': 9, 'food': 10, 'do': 11, 'you': 12, 'like': 13, 'too': 14, 'likes': 15, 'flavor': 16, 'of': 17, 'icecream': 18, "isn't": 19, 'good': 20, 'for': 21, 'dogs': 22, 'cat': 23, 'and': 24, 'parrot': 25, 'prefer': 26, 'broccoli': 27}


## 5- Turn sentences into sequences
  * Her CÜmle için bir dizi oluşturuyoruz
  * Bunu yapmamızın sebebi kelimelerin hangi sırayla geldiğini sisteme tanıtmak
  * Sunuçta kelimeleri rastgele dağıtarak bir cümle oluşturamayız

In [6]:
sequences = tokenizer.texts_to_sequences(sentences)
print(sequences)

[[5, 6, 10, 7, 3, 4], [11, 12, 13, 3, 4, 14], [5, 8, 15, 3, 4], [2, 6, 16, 17, 18, 7, 9], [9, 19, 20, 21, 22], [2, 8, 2, 23, 24, 2, 25, 26, 27]]


## 6- Make the sequences all the same length
 * Amaç : Her Cümleyi eşit uzunlukta bir sayı dizisi hakine getirmek
 * Yöntem : Dolgu yöntemi(padding)
 * Çalışma Prensibi : Varsayılan olarak en uzun cümleyi baz alarak diğer cümlelerdeki boş olan kelimelerin yerine 0 yazarak doldurur
 * Not1 : Cümle uzunluğunu biz belirlersek uzun olan cümleyi bizim belirlediğimiz sınıra göre keser
 * Not2 : Kesme işlemi varsayılan olarak baştan başlar tabi bunu sondan kesmeye başla diyerek değiştirebiliriz

In [8]:
padded = pad_sequences(sequences)
print("\nWord Index = " , word_index)
print("\nSequences = " , sequences)
print("\nPadded Sequences:")
print(padded)


Word Index =  {'<OOV>': 1, 'your': 2, 'ice': 3, 'cream': 4, 'my': 5, 'favorite': 6, 'is': 7, 'dog': 8, 'chocolate': 9, 'food': 10, 'do': 11, 'you': 12, 'like': 13, 'too': 14, 'likes': 15, 'flavor': 16, 'of': 17, 'icecream': 18, "isn't": 19, 'good': 20, 'for': 21, 'dogs': 22, 'cat': 23, 'and': 24, 'parrot': 25, 'prefer': 26, 'broccoli': 27}

Sequences =  [[5, 6, 10, 7, 3, 4], [11, 12, 13, 3, 4, 14], [5, 8, 15, 3, 4], [2, 6, 16, 17, 18, 7, 9], [9, 19, 20, 21, 22], [2, 8, 2, 23, 24, 2, 25, 26, 27]]

Padded Sequences:
[[ 0  0  0  5  6 10  7  3  4]
 [ 0  0  0 11 12 13  3  4 14]
 [ 0  0  0  0  5  8 15  3  4]
 [ 0  0  2  6 16 17 18  7  9]
 [ 0  0  0  0  9 19 20 21 22]
 [ 2  8  2 23 24  2 25 26 27]]


**Görüldüğü üzere en uzun cümleyi baz alarak boş olan yerleri 0 ile doldurdu**

In [10]:
# cümle uzunluğunu 15 olarak belirleyelim
padded15 = pad_sequences(sequences,maxlen = 15)
print(padded15)

[[ 0  0  0  0  0  0  0  0  0  5  6 10  7  3  4]
 [ 0  0  0  0  0  0  0  0  0 11 12 13  3  4 14]
 [ 0  0  0  0  0  0  0  0  0  0  5  8 15  3  4]
 [ 0  0  0  0  0  0  0  0  2  6 16 17 18  7  9]
 [ 0  0  0  0  0  0  0  0  0  0  9 19 20 21 22]
 [ 0  0  0  0  0  0  2  8  2 23 24  2 25 26 27]]


In [12]:
# İstersek 0 ları dizinin sonlarına yerleştirebiliriz
padded = pad_sequences(sequences, maxlen=15, padding="post")
print(padded)

[[ 5  6 10  7  3  4  0  0  0  0  0  0  0  0  0]
 [11 12 13  3  4 14  0  0  0  0  0  0  0  0  0]
 [ 5  8 15  3  4  0  0  0  0  0  0  0  0  0  0]
 [ 2  6 16 17 18  7  9  0  0  0  0  0  0  0  0]
 [ 9 19 20 21 22  0  0  0  0  0  0  0  0  0  0]
 [ 2  8  2 23 24  2 25 26 27  0  0  0  0  0  0]]


In [14]:
# Kısa uzunlukta dizi belirterek kesme işlemini görelim(Baştan başlayarak kesme işlemi yapar)
padded_sh = pad_sequences(sequences , maxlen = 3)
print(padded_sh)

[[ 7  3  4]
 [ 3  4 14]
 [15  3  4]
 [18  7  9]
 [20 21 22]
 [25 26 27]]


## 7 -What happens if some of the sentences contain words that are not in the word index?
 * Cümlelerin içerisinde tanınmadık kelime girdiğinde yapacaklarımıza bakalım

In [16]:
# Bir cümle dizisi oluşturalım bu istediğimiz kadar uzatılabilir
test_data = [
    "my best friend's favorite ice cream flavor is strawberry",
    "my dog's best friend is a manatee"
]

print(test_data)

# Cümledeki kelimeleri sistem tanımazsa hangi harfi verdiğini görmek için;
print("<OOV> has the number", word_index['<OOV>'], "in the word index.")

# test cümlelerimizi diziye çevirelim
test_seq = tokenizer.texts_to_sequences(test_data)
print("\nTest Data Sequences : ",test_seq)

# Yeni Cümle dizilerimizin dolgusunu yapalım 
padded_test = pad_sequences(test_seq,maxlen = 10)
print("\nPadded Test Sequences : " )
print(padded_test)

["my best friend's favorite ice cream flavor is strawberry", "my dog's best friend is a manatee"]
<OOV> has the number 1 in the word index.

Test Data Sequences :  [[5, 1, 1, 6, 3, 4, 16, 7, 1], [5, 1, 1, 1, 7, 1, 1]]

Padded Test Sequences : 
[[ 0  5  1  1  6  3  4 16  7  1]
 [ 0  0  0  5  1  1  1  7  1  1]]
