## RNN(Yinelenen Sinir Ağları)

* Basit bir sinir ağı bir fotoğraf içerisindeki nesneleri tanımak için sadece o anda verilen giriş bilgilerini kullanır. Sisteme daha önce verilen bilgileri kullanmaz. O bilgileri kullanmadan bir tahmin oluşturur. Böylece hedefe gitmek amaçlanır. RNN ise yalnızca o an verilen bilgileri değil, sisteme daha önce tanıtılan bilgileri ve ayrıca sisteme daha sonra yüklenecek bilgileri de kullanır. Böylece bu sinir ağları bir belleğe sahip olan ağlardır. Eski veriler ile yeni verileri karşılaştırarak sonuca ulaşırlar. 

* Yinelemeli sinir ağları, doğal dil işleme, anomali tespiti, kelime ve cümle tahmini ve borsa tahmini gibi alanlarda kullanılır.

* Yinelemeli Sinir Ağları, zaman içerisinde çok farklı tekrar yapabilir. Bu tekrar denemeleri yüzünden veriyle ilişkili olan bazı parametreleri veriyi az etkilediği gerekçesiyle sistemden atabilir. Eğer bu parametreler sinir ağına çok önce eklenmişse artık kullanıcı bu bilgiye ulaşamayabilir. Atılan ve unutulan bu bilgileri bir bellekte toplayabilmek için geliştirilmiş mimariler bulunmaktadır. LSTM bu mimariye örnektir.

* Long-Short Term Memory (LSTM)
Uzun kısa süreli bellek, (LSTM – Long Short Term Memory) derin öğrenme alanında ve sinir ağlarında kullanılan bir Yinelemeli Sinir Ağı (RNN) mimarisidir. LSTM mimarisinin standart sinir ağlarının aksine geri beslemeli bağlantıları vardır. Geri beslemeli ağlarla birlikte değerleri rastgele zamanlarla hatırlar. Yinelemeli Sinir Ağlarında sıkça kullanılmaktadır. RNN’nin ortaya çıkardığı uzun sürede unutma sorunları gibi problemleri ortadan kaldırır. Bu mimari birçok alanda kullanılır. El yazısı tanıma, konuşma tanıma, anomali tespiti gibi alanlarda sıkça kullanılır.


#### LSTM -> RNN mimarilerinde önceki bilgi kullanımına dayalı bir yaklaşım vardır. Örneğin “Zekânın ruhu kısa sözde yatar.” cümlesinde “ruhu” kelimesini tahmin etmek ne kolaydır ne de zordur. Bunu söylenilen dilin yapısına göre bir bağlayıcılığı vardır. Başka bir örnek verdiğimizde “Meyveli ağacı taşlarlar.” Burada ağaç kelimesinden meyveli olabileceği çıkarılabilir. Bir önceki örneğe göre bunu tahmin etmek daha kolaydır. Fakat bağlamlar arası boşluk arttığında RNN geçmişten gelen bilgiyi kullanması oldukça zordur. Örneğin “Gül kokusunu severim ile Gülmek sana çok yakışıyor.” gibi bir metinde “Gül” kelimesini tahmin ederken, içinde bulunduğu cümleden yola çıkarak bir tahminde bulunulması gerekir. Ancak doğru kelimenin “Gül” olduğunu tahmin etmek için, metnin başındaki cümleyi hafızada tutmak gerekmektedir. Aslında LSTM ağlarının RNN ağlarından bir farkı yoktur. RNN’lerin dezavantajı olarak bilinen bağlam boşuklarının tahmin edilmesi ihtiyacından dolay Hochreiter ve Schmidhuber tarafından 1997 yılında LSTM’ler ortaya çıkmıştır [1]. Gizli durumları hesaplamak için LSTM ağlarında bir yapı kullanılır. LSTM içerisinde hafıza hücreleri yer alır. Bu hafıza hücreleri önceki durum ile girdi bilgisini tutan hücrelerdir. Ağ mimarisi içerisinde yer alan bu hücreler hangi verinin tutulacağına ya da hangi verinin sileceğine karar verirler. Sonraki aşamada ise önceki durumu mevcut bellek ile giriş verisini birleştirirler. Böyle bir yaklaşımla uzun vadeli bağımlılıkların ortadan kaldırılarak veri dizilerinin devam ettirilmesi mümkün kılınır.LSTM yapısı bilginin hücrenin içine içine ya da dışına akışını denetleyen kapılardan oluşur. Girdi olarak verilen kapı yeni gelen bilginin hafızaya ne zaman girmesi gerektiğini denetler, unutma-hafıza kapısı mevcutta olan bilginin unutulmasını, yeni verilerin hatırlanmasını sağlayarak denetler. Çıkış aşaması, hücredeki bilginin hücrenin çıkışında ne zaman kullanılacağını denetler. 

#### LSTM’ler konu anlatımı yapıldığında anlatıldığı üzere RNN mimarisinin eksikliğinin kapatılması amacıyla çıkan bir mimari yöntemdir. Aslında RNN algoritmasının hafızalı şeklidir dersek yanlış olmaz. LSTM’ler daha çok girdilerle çıktıların birlikte ve veri kaybolmadan çalışmasını sağlayan yöntemdir. Birden fazla alanda bu konu üzerine çalışılmaktadır. Şekil 2’ de bir uygulama örneği verilmiştir. Birkaç örneği üzerine konuşmak gerekirse şu başlıklar altında konu incelenmiştir:

* Metin Üretimi: Harflerin öğretilmesi sonucunda otomatik olarak üretilen metin dizileridir.
* El Yazısı Tanıma: El yazısının harflerinin öğretilmesi ve sınıflandırılması sonucunda tanımlama yapılmasıdır.
* El yazısı Üretimi: Algoritma tarafından üretilen el yazılarıdır.
* Müzik Üretimi: daha önce çalınan notalar (veya nota kombinasyonları) dikkate alınarak LSTM tarafından da oluşturulabilen yapılardır.
* Dil Çevirisi: Kodlama- Kodlama Çözdürme işlemleri yapılarak uygulanan yöntem

## Sentiment Analysis

In [138]:
import numpy as np  # vektorler ve matrisler üzerinde işlemler yapmak için
import pandas as pd # data setimizi okumaya ve düzenlemeye yardımcı olur

In [139]:
# RNN modelleri oluşturmak için keras kullanacağız

from tensorflow.python.keras.models import Sequential
from tensorflow.python.keras.layers import Dense, GRU, Embedding, CuDNNGRU
from keras.optimizers import Adam
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences # padding işlemi için


In [140]:
dataset = pd.read_csv('hepsiburada.csv')

In [141]:
dataset

Unnamed: 0,Rating,Review
0,1,3 yıldır tık demedi. :)
1,1,3 yıldır kullanıyorum müthiş
2,1,Ürün bugün elime geçti çok fazla inceleme fırs...
3,1,Almaya karar verdim. Hemencecik geldi. Keyifle...
4,1,Günlük kullanımınızı çok çok iyi karsılıyor kı...
...,...,...
243492,1,fiyatına göre güzel
243493,1,Ürün kullanışlı iş görüyor fazlasıyla eşime al...
243494,1,"Hızlı Kargo, güzel ürün"
243495,1,telefon başarılı hızlı bir cihaz sadece beyaz...


In [142]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 243497 entries, 0 to 243496
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   Rating  243497 non-null  int64 
 1   Review  243497 non-null  object
dtypes: int64(1), object(1)
memory usage: 3.7+ MB


In [143]:
target = dataset['Rating'].values.tolist() # listeye çevirdik
data = dataset['Review'].values.tolist()

#### NOT : Eğer model eğitim seti üzerinde oldukça başarılı sonuçlar verip test setinde kötü sonuçlar veriyorsa burda model birşey öğrenmemiş demektir biz buna overfitting diyoruz

In [144]:
from sklearn.model_selection import train_test_split

In [145]:
# yüzde 80 eğitim yüzde 20 si test için

In [146]:
x_train,x_test,y_train,y_test = train_test_split(data,target,test_size=0.20,random_state = 40)

 farklı bir yöntemle
 
 cutoff = int(len(data) * 0.80)
 
 
 x_train, x_test = data[:cutoff], data[cutoff:]
 
 y_train, y_test = target[:cutoff], target[cutoff:]

In [147]:
x_train[500]

'Hizli kargo kaliteli urun'

In [148]:
y_train[500]

1

In [149]:
x_train[7000]

'Ben bu telefonu uzun incelemeler neticesinde yaklaşık 2 ay kadar önce ak iyi.ldım ve tam anlamıyla ço.. Bana göre tek eksiği biraz kalın olması diye düşünüyorum...'

In [150]:
y_train[7000]

1

### Tokenleştirme işlemi

In [151]:
# tokenleştirme işlemi yaparken dataset içerisinde en sık geçen 10 bin kelimeyi alıcaz
num_word = 10000
tokenizer = Tokenizer(num_words = num_word)

In [152]:
tokenizer.fit_on_texts(data)  # data mıza tokenleştirme işlemi uyguladık

In [153]:
tokenizer.word_index #en sık geçen 10 bin kelime

{'çok': 1,
 'bir': 2,
 've': 3,
 'ürün': 4,
 'bu': 5,
 'iyi': 6,
 'güzel': 7,
 'için': 8,
 'tavsiye': 9,
 'ederim': 10,
 'daha': 11,
 'ama': 12,
 'da': 13,
 'gayet': 14,
 'hızlı': 15,
 'teşekkürler': 16,
 'aldım': 17,
 'de': 18,
 'ürünü': 19,
 'gibi': 20,
 'yok': 21,
 'uygun': 22,
 'olarak': 23,
 'kaliteli': 24,
 'en': 25,
 '2': 26,
 'kargo': 27,
 'fiyat': 28,
 'elime': 29,
 'kadar': 30,
 'ile': 31,
 'göre': 32,
 'geldi': 33,
 'var': 34,
 'hepsiburada': 35,
 'ben': 36,
 'gerçekten': 37,
 '1': 38,
 'fiyata': 39,
 'gün': 40,
 'sonra': 41,
 'cok': 42,
 'kesinlikle': 43,
 'telefon': 44,
 'biraz': 45,
 'hiç': 46,
 'ulaştı': 47,
 'memnun': 48,
 'hem': 49,
 'değil': 50,
 'kullanışlı': 51,
 '3': 52,
 'mükemmel': 53,
 'oldu': 54,
 'kullanıyorum': 55,
 'önce': 56,
 'sipariş': 57,
 'tek': 58,
 'her': 59,
 'bence': 60,
 'harika': 61,
 'kalitesi': 62,
 'bi': 63,
 'ayrıca': 64,
 '5': 65,
 'teşekkür': 66,
 'fiyatı': 67,
 'olması': 68,
 'ne': 69,
 'herkese': 70,
 'bile': 71,
 'uzun': 72,
 'süper': 73,

In [154]:
# Şimdi de Eğitim setini tokenleştirelim

In [155]:
x_train_tokens = tokenizer.texts_to_sequences(x_train)

In [156]:
x_train[800]

'ürünü alalı yaklaşık iki ay oluyor gayet memnunuz, ufo benzerlerine göre rakipsiz ayrıca elektrik tüketimi açısından da oldukça ekonomik.. ufodan şaşmayın derim.'

In [157]:
print(x_train_tokens[800]) # her kelime sayılara çevrildi

[19, 341, 164, 121, 192, 127, 14, 461, 3786, 6145, 32, 5359, 64, 831, 2439, 265, 13, 87, 559, 3769, 143]


In [158]:
x_test_tokens = tokenizer.texts_to_sequences(x_test)

####  Yorumlara padding ekleme
##### RNN ile oluşturduğumuz modellere belirli boyutlarda inputlar veririz.Bizim datasetimizdeki yorumlar ise hep farklı sayılarda kelimelerden oluşuyor.Farklı sayılarda kelimeleri RNN'e input olarak veremeyiz öyleyse tüm yorumları aynı boyutlara getirmemiz lazım.Bunu yapmak için kendimiz belirli bir boyut belirlicez eğer bir yorum bu boyuttan düşük boyutluysa eksiik kalan yerlere 0 eklicez.Eğer büyükse yorumun bir kısmını silip belirlediğimiz boyuta getiriceğiz.


In [159]:
#her yorumda kaç tane token bulunuyor diye bakmak için bir listeye kaydedelim
num_tokens = [len(tokens) for tokens in x_train_tokens + x_test_tokens]
num_tokens = np.array(num_tokens) #numpy array e cevirdik ki token sayısına bakabilmek için numpy kutuphanesinden faydalanalım
num_tokens

array([ 35,  18,  16, ..., 106,   3,  17])

In [160]:
np.mean(num_tokens) # ortalama olarak bir yorumda kaç tane token bulunuyor

20.744703220162876

In [161]:
np.max(num_tokens) 

295

In [162]:
np.argmax(num_tokens) # argmax ile listedeki en büyük elemanın indeksini bulabiliyoruz

42274

In [163]:
np.argmin(num_tokens)

1794

In [164]:
x_train[1794]

'kalıteee kalıteeee markaaaa markaaaa'

In [165]:
x_train[42274]

'Özellikle bu kısma yazıyorum iyice okuyunuz,cihazın hızı çok iyi.Isınma normal boyutlarda.Kamerası elinizi sabit tutarsanız ve gündüz çok net gece ise çok net çekmez.Görüntülü konuşma özelliği yok ancak uygulama ile olur,anten çekimi gayet iyi.Parmak izi okuyucusu gayet hızlı bazen tuşu silmenizi istiyor ve okuyamıyor kirden vs...Ön kamera da tatmin edici,çekim esnasında ekran beyaz ışık vererek flaş görevi görür.Batarya bana 1 hafta gidiyor sık kullanımda ise 2-3 gün gidiyor.Hızlı şarj 1 saatte doluyor , şekilleri ele oturuyor ve şık bir görüntü var.Telefonu aldığım gün gittim ve ilk girdiğim yerden ekran koruyucu ve kılıf buldum.Kulaklık sesi çok net ve yüksek ancak kendi hoparlörü biraz zayıf sesi.Ekrana bakarken açık kalma özelliği yok.Diğer akıllı cihaz özellikleri %90 ı bu cihazda mevcut.Güç tasarrufu 2 ayrı modu var ve çok başarılı çalışıyor.4gb ram var genelde yarısı boş kalıyor.Bir de yeni cihazların çoğu titreşimi az ve sesi de az çıkıyor.Bu cihaz da içine dahil...Bu cihazla

##### RNN'e vereceğimiz inputların hepsinin boyutunun aynı olması gerekiyor. Bu yüzden belirli bir sayı belirleyip tüm inputları padding kullanarak o sayının boyutuna getirmemiz gerekiyor. O formül ile de bu sayıyı belirliyoruz. max_tokens'a istediğin gibi başka sayılar da verebilirsin. O formülün avantajı uzun inputları çok fazla kesmiyoruz ve güzel bir orta hesaplayarak kısa cümlelere de çok fazla 0 eklemiyoruz.

In [166]:
# tüm yorumların  boyutlarını eşitlemek için Padding uygulamamız gerekiyor

In [167]:
# boyutu belirleyelim kafadan sallayabiliriz

max_tokens = np.mean(num_tokens) + 2 * np.std(num_tokens) # float çıktı
max_tokens = int(max_tokens) # int'e çevirdik

max_tokens

59

In [168]:
np.sum(num_tokens < max_tokens) / len(num_tokens) # yorumların yüzde 95 inde 59 dan az token bulunuyor

0.9597982726686571

In [169]:
# boyutu belirlediğimize göre padding işlemini gerçekleştirebiliriz

In [170]:
x_train_pad = pad_sequences(x_train_tokens, maxlen = max_tokens)

In [171]:
x_test_pad = pad_sequences(x_test_tokens, maxlen = max_tokens)

In [172]:
x_train_pad.shape

(194797, 59)

In [173]:
x_test_pad.shape

(48700, 59)

In [174]:
np.array(x_train_tokens[800]) # padding uygulanmamış hali

array([  19,  341,  164,  121,  192,  127,   14,  461, 3786, 6145,   32,
       5359,   64,  831, 2439,  265,   13,   87,  559, 3769,  143])

In [175]:
x_train_pad[800] # yorumun başına 0 eklenerek boyutu 59 a tamamlanmış

array([   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,   19,  341,  164,  121,  192,  127,
         14,  461, 3786, 6145,   32, 5359,   64,  831, 2439,  265,   13,
         87,  559, 3769,  143])

In [176]:
# Keras içerisinde stringi verip tokenleri görebiliyoruz ancak Tokenleri verip stringi göremiyoruz 
#Bu yüzden Tokenleri verip stringi çağıran bir foksiyon yazıcaz
# Böylece yazdığımız fonksiyonu çağırarak elimizdeki tokenleri yoruma çevirebiliriz

In [177]:
idx = tokenizer.word_index
inverse_map = dict(zip(idx.values(), idx.keys()))

# artık bir sayı verdiğimiz zaman o sayıya karşılık gelen kelimeyi bulabiliriz

In [178]:
inverse_map

{1: 'çok',
 2: 'bir',
 3: 've',
 4: 'ürün',
 5: 'bu',
 6: 'iyi',
 7: 'güzel',
 8: 'için',
 9: 'tavsiye',
 10: 'ederim',
 11: 'daha',
 12: 'ama',
 13: 'da',
 14: 'gayet',
 15: 'hızlı',
 16: 'teşekkürler',
 17: 'aldım',
 18: 'de',
 19: 'ürünü',
 20: 'gibi',
 21: 'yok',
 22: 'uygun',
 23: 'olarak',
 24: 'kaliteli',
 25: 'en',
 26: '2',
 27: 'kargo',
 28: 'fiyat',
 29: 'elime',
 30: 'kadar',
 31: 'ile',
 32: 'göre',
 33: 'geldi',
 34: 'var',
 35: 'hepsiburada',
 36: 'ben',
 37: 'gerçekten',
 38: '1',
 39: 'fiyata',
 40: 'gün',
 41: 'sonra',
 42: 'cok',
 43: 'kesinlikle',
 44: 'telefon',
 45: 'biraz',
 46: 'hiç',
 47: 'ulaştı',
 48: 'memnun',
 49: 'hem',
 50: 'değil',
 51: 'kullanışlı',
 52: '3',
 53: 'mükemmel',
 54: 'oldu',
 55: 'kullanıyorum',
 56: 'önce',
 57: 'sipariş',
 58: 'tek',
 59: 'her',
 60: 'bence',
 61: 'harika',
 62: 'kalitesi',
 63: 'bi',
 64: 'ayrıca',
 65: '5',
 66: 'teşekkür',
 67: 'fiyatı',
 68: 'olması',
 69: 'ne',
 70: 'herkese',
 71: 'bile',
 72: 'uzun',
 73: 'süper',

In [179]:
def tokens_to_string(tokens):
    words = [inverse_map[token] for token in tokens if token !=0]
    text = ' '.join(words)
    return text

In [180]:
x_train[1200]

'annem bu ürünü kullanmaya başladığından beri diğer marka ürünleri bıraktı. banada tavsiye edince bende evimde kullanmaya başladım. oldukça memnunum. tavsiye ederim'

In [181]:
tokens_to_string(x_train_tokens[1200]) # datasetimizde sık geçmeyen kelimeleri çıkarmış ama okudugumuzda pozitif oldugunu anlayabiliriz

'annem bu ürünü kullanmaya beri diğer marka ürünleri bıraktı banada tavsiye edince bende evimde kullanmaya başladım oldukça memnunum tavsiye ederim'

In [195]:
model = Sequential()

#### The Embedding layer is defined as the first hidden layer of a network. It must specify 3 arguments:
input_dim : Bu, metin verilerindeki kelime dağarcığının boyutudur. Örneğin, verileriniz 0-10 arasındaki değerlere kodlanmış tamsayı ise, o zaman kelime boyutunun 11 kelime olması gerekir.
output_dim : Bu, kelimelerin gömüleceği vektör uzayının boyutudur. Her kelime için bu katmandan çıktı vektörlerinin boyutunu tanımlar. Örneğin, 32 veya 100 veya daha büyük olabilir. Sorununuz için farklı değerleri test edin.
input_length : Bu, bir Keras modelinin herhangi bir giriş katmanı için tanımlayacağınız gibi, giriş dizilerinin uzunluğudur. Örneğin, girdi belgelerinizin tümü 1000 kelimeden oluşuyorsa, bu 1000 olacaktır.

In [196]:
embedding_size = 50

In [197]:
# 10 bine 50 boyutunda bir matris oluşturduk
model.add(Embedding(input_dim = num_word,
                    output_dim = embedding_size,
                    input_length = max_tokens,
                    name = 'embedding_layer'))
                    

In [198]:
# ard arda birden fazla output üretmek için return_sequences ' e True dedik

In [199]:
model.add(GRU(units = 16, return_sequences = True))
model.add(GRU(units = 8, return_sequences = True))
model.add(GRU(units = 4))
model.add(Dense(1, activation = 'sigmoid'))

In [200]:
optimizer = Adam(learning_rate= 0.001, beta_1=0.9, beta_2=0.999) # 1e - 3 = 0.001

In [201]:
model.compile(loss = 'binary_crossentropy',
                 optimizer = "adam",
                 metrics = ['accuracy'])

In [202]:
model.summary()

Model: "sequential_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_layer (Embedding)  (None, 59, 50)            500000    
_________________________________________________________________
gru_8 (GRU)                  (None, 59, 16)            3216      
_________________________________________________________________
gru_9 (GRU)                  (None, 59, 8)             600       
_________________________________________________________________
gru_10 (GRU)                 (None, 4)                 156       
_________________________________________________________________
dense_3 (Dense)              (None, 1)                 5         
Total params: 503,977
Trainable params: 503,977
Non-trainable params: 0
_________________________________________________________________


In [203]:
# toplam eğiticeğimiz parametre 505 bin 561 

In [204]:
model.fit(x_train_pad, np.array(y_train), epochs = 5, batch_size = 256)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x21947f2cee0>

In [208]:
result = model.evaluate(x_test_pad, np.array(y_test))



In [209]:
result[1]  # 0. index loss 1. index accuracy

0.9669404625892639

In [213]:
y_pred = model.predict(x = x_test_pad[0:1000]) # ilk bin yoruma bakalım doğru tahmin etmiş mi
y_pred = y_pred.T[0] # satırı sütuna çevirmek için yaptık

In [212]:
y_pred

array([0.97942317, 0.99443173, 0.9954482 , 0.99538064, 0.990739  ,
       0.9947157 , 0.9946382 , 0.992386  , 0.99561316, 0.99549615,
       0.39173815, 0.98701   , 0.9946778 , 0.9950742 , 0.9946126 ,
       0.9952362 , 0.99507034, 0.9942425 , 0.99559796, 0.98123926,
       0.98942333, 0.99424714, 0.99473596, 0.99522555, 0.99567145,
       0.9945416 , 0.99537283, 0.9953723 , 0.9939772 , 0.99461573,
       0.92186505, 0.99284816, 0.99182826, 0.9951083 , 0.9956328 ,
       0.98714757, 0.9942602 , 0.99193525, 0.08463346, 0.99105823,
       0.995551  , 0.95364183, 0.9945911 , 0.98942333, 0.9943746 ,
       0.9955511 , 0.99555516, 0.98568434, 0.99471337, 0.9485489 ,
       0.9953817 , 0.99574596, 0.99511844, 0.9931117 , 0.948933  ,
       0.8827279 , 0.97666734, 0.9910315 , 0.9647329 , 0.9661534 ,
       0.9923504 , 0.99525094, 0.9951389 , 0.99562275, 0.99328756,
       0.99561095, 0.9941568 , 0.99488   , 0.9951954 , 0.9950653 ,
       0.992529  , 0.96558726, 0.9951    , 0.99487936, 0.99185

In [214]:
# hangi yorumlarda yanlış tahmin yapılmış bakalım

In [216]:
cls_pred = np.array([1.0 if p>0.5 else 0.0 for p in y_pred])

In [217]:
cls_true = np.array(y_test[0:1000])

In [219]:
incorrect = np.where(cls_pred != cls_true)
incorrect = incorrect[0] #tuple ile uğraşmamak için yaptık

In [220]:
len(incorrect)

28

In [221]:
idx = incorrect[0]

In [222]:
idx

92

In [223]:
text = x_test[idx]
text

'Ürün fiyat ve özelliklerine  göre uygun fakat yatış pozisyonu ile oturma arasında büyük bir fark yok.Yatış pozisyonu için fazla beklentiniz olmasın.Kargoda kutu paramparça gelmesine rağmen ürün sapasağlamdı.Bu durum kalitesinin bir göstergesidir diye tahmin ediyorum.'

In [224]:
y_pred[idx]

0.11122888

In [226]:
cls_true[idx] # modelimiz olumluymuş

1

In [236]:
text1 = "Bu ürün çok kötü"
text2 = "mükemmel"
text3 = "Bu iyi bir ürün ama tavsiye etmem"
text4 = "Hiç resimde gösterildiği gibi değil"
text5 = "Kötü yorumlar gözümü korkutmadı ancah hiçbir sorun yaşamadım"
text6 = "Tam bir fiyat performansı"
text7 = "Çok da iyi değil"

text = [text1,text2,text3,text4,text5,text6,text7]



In [237]:

tokens = tokenizer.texts_to_sequences(text)

In [238]:
tokens_pad = pad_sequences(tokens, maxlen = max_tokens)

In [239]:
tokens_pad.shape

(7, 59)

In [240]:
model.predict(tokens_pad)

array([[0.02535757],
       [0.9928877 ],
       [0.05419823],
       [0.04533144],
       [0.95174485],
       [0.9927076 ],
       [0.24812861]], dtype=float32)