# Toplanan verilerden model eğitme

In [2]:
import numpy as np
import pandas as pd
import json

from tensorflow.python.keras.models import Sequential
from tensorflow.python.keras.layers import Dense, GRU, Embedding, CuDNNGRU, Dense
from tensorflow.keras.optimizers import Adam

In [3]:
df = pd.read_csv('butunYorumlarSon.csv', sep = ',')
df = df.dropna()
df.head()

Unnamed: 0,tarih,puan,yorum,yeni_yorum
0,2021-10-19,5,Renkli çıktı da renkler gayet canlı çıkıyor. K...,renkli çıktı da renkler gayet canlı çıkıyor ku...
1,2021-09-12,5,Ürün ile birlikte gelen evraklar ile kurulumu ...,ürün ile birlikte gelen evraklar ile kurulumu ...
2,2021-12-23,5,Çok iyi bir yazıcı kurulumu mürekkebi koyması ...,çok iyi bir yazıcı kurulumu mürekkebi koyması ...
3,2022-03-19,5,Kablosuz bağlantısı ile telefondan çikti ları ...,kablosuz bağlantısı ile telefondan çikti ları ...
4,2022-03-19,5,Kurulumu basit ve hızlı.Güzel tasarım.Kullanım...,kurulumu basit ve hızlıgüzel tasarımkullanımı ...


In [4]:
df.puan.value_counts()

5    28680
4     3400
3      969
1      772
2      231
Name: puan, dtype: int64

In [5]:
# 1--> 0, 5 --> 1 
df.loc[df.puan < 3, 'puan'] = 0
df.loc[df.puan >= 4, 'puan'] = 1

In [6]:
df.puan.value_counts()

1    32080
0     1003
3      969
Name: puan, dtype: int64

In [7]:
df_0 = df[df['puan'] == 0]
df_1 = df[df['puan'] == 1]

In [8]:
df = pd.concat([df_0, df_1], ignore_index = True)

In [9]:
from sklearn.utils import shuffle

In [10]:
df = shuffle(df)

In [11]:
df.head()

Unnamed: 0,tarih,puan,yorum,yeni_yorum
2606,2022-05-06,1,Cok pratik ve kaliteli. Gucu dusuk 2500maH. Fa...,cok pratik ve kaliteli gucu dusuk mah fakat te...
20784,2022-03-13,1,Başlangıç için gayet yeterli memnunum. Teşekkü...,başlangıç için gayet yeterli memnunum teşekkürler
27878,2022-05-06,1,hiçbir sorun yok sadece geç saatlerde alırsanı...,hiçbir sorun yok sadece geç saatlerde alırsanı...
31738,2022-03-01,1,Laptop oyun oynarken frlan fazla ısınmıyor diğ...,laptop oyun oynarken frlan fazla ısınmıyor diğ...
23817,2022-04-01,1,Ürünün kanal geçişleri güzel hızlı kasma donma...,ürünün kanal geçişleri güzel hızlı kasma donma...


In [12]:
target = df['puan'].values.tolist()
data = df['yeni_yorum'].values.tolist()

In [13]:
data[0:5]

['cok pratik ve kaliteli gucu dusuk mah fakat telefona takip baska birşey için amacına uygun iphone i tam bir',
 'başlangıç için gayet yeterli memnunum teşekkürler',
 'hiçbir sorun yok sadece geç saatlerde alırsanız ürün yarına veya yarım saat sonra geliyor',
 'laptop oyun oynarken frlan fazla ısınmıyor diğer geri kalan bütün islerimide görüyor güzel bir laptop rek sıkıntısı şarjı oda bu gibi güçlü ekran kartlı bir laptopa gore iyi',
 'ürünün kanal geçişleri güzel hızlı kasma donma vs olmuyor fiyatına göre güzel bir ürün fp diye biliriz yanında akıllı kumanda var gayet kullanışlı bu fiyat aralığında arayan varsa tavsiye ederim']

In [14]:
cutoff = int(len(data) * 0.85)
x_train, x_test = data[:cutoff], data[cutoff:]
y_train, y_test = target[:cutoff], target[cutoff:]

In [15]:
len(x_train)

28120

In [16]:
len(data)

33083

In [17]:
with open('tokenizer.json') as json_dosyasi:
    json_tokenizer = json.load(json_dosyasi)

In [18]:
json_tokenizer['süper']

183

In [19]:
def tokenlestir(yorumListesi):
    y_yorumlar = []
    for yorum in yorumListesi:
        y_yorum = []
        for kelime in yorum.split():
            if (len(y_yorum) < 50 and kelime in json_tokenizer):
                y_yorum.append(json_tokenizer[kelime])
                
        if (len(y_yorum) < 50):
            sifirlar = list(np.zeros(50 - len(y_yorum), dtype = int))
            y_yorum = sifirlar + y_yorum
            
        y_yorumlar.append(y_yorum)
    return np.array(y_yorumlar, dtype = np.dtype(np.int32))

In [20]:
egitim_kume = tokenlestir(x_train)

In [21]:
x_train[2]

'hiçbir sorun yok sadece geç saatlerde alırsanız ürün yarına veya yarım saat sonra geliyor'

In [22]:
egitim_kume[22]

array([   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,  406, 5512,  893, 2444,    3,
        533,    2,    7,  360,  793,  135,  171,  357,  932, 1779,  997,
       1014,  164,   42,   48,  697, 3768], dtype=int32)

In [23]:
test_kume = tokenlestir(x_test)

In [24]:
test_kume[12]

array([ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
        0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
        0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0, 25],
      dtype=int32)

In [26]:
model = Sequential()

embedding_size = 50

model.add(Embedding(input_dim=10001,
                    output_dim=embedding_size,
                    input_length=50,
                    name='embedding_layer'))

model.add(GRU(units=16, return_sequences=True))
model.add(GRU(units=8, return_sequences=True))
model.add(GRU(units=4))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer = 'adam', metrics=['accuracy'])

model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_layer (Embedding)  (None, 50, 50)            500050    
_________________________________________________________________
gru_3 (GRU)                  (None, 50, 16)            3216      
_________________________________________________________________
gru_4 (GRU)                  (None, 50, 8)             600       
_________________________________________________________________
gru_5 (GRU)                  (None, 4)                 156       
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 5         
Total params: 504,027
Trainable params: 504,027
Non-trainable params: 0
_________________________________________________________________


In [27]:
model.fit(egitim_kume, np.array(y_train), epochs = 5, batch_size = 128)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x7f5c7dc8c2b0>

In [28]:
model.evaluate(test_kume, np.array(y_test))



[0.08246192336082458, 0.9812613129615784]

In [29]:
text1 = "bu ürün çok iyi herkese tavsiye ederim"
text2 = "kargo çok hızlı aynı gün elime geçti"
text3 = "büyük bir hayal kırıklığı yaşadım bu ürün bu markaya yakışmamış"
text4 = "gitar kursuna yeni başladım. ne almalıyım diye bakınırken Hepsiburada da bu ürünü gördüm. fiyatı ve hediyeleri ile birlikte çok iyi fiyat. siyah olmasıda benim için ayrı güzel."
text5 = "tasarımı harika ancak kargo çok geç geldi ve ürün açılmıştı tavsiye etmem"
text6 = "hiç resimde gösterildiği gibi değil"
text7 = "kötü yorumlar gözümü korkutmuştu ancak hiçbir sorun yaşamadım teşekkürler"
text8 = "hiç bu kadar kötü bir satıcıya denk gelmemiştim ürünü geri iade ediyorum"
text9 = "tam bir fiyat performans ürünü"
text10 = "beklediğim gibi çıkmadı"
yazilar = [text1, text2, text3, text4, text5, text6, text7, text8, text9, text10]

In [30]:
deneme_kume = tokenlestir(yazilar)

In [31]:
sonuc = model.predict(deneme_kume)

In [32]:
sonuc

array([[0.9938488 ],
       [0.99385595],
       [0.02145937],
       [0.99389243],
       [0.9908788 ],
       [0.21928486],
       [0.9215251 ],
       [0.38137335],
       [0.9938058 ],
       [0.39489505]], dtype=float32)

In [33]:
model.save('15may22.h5') # modeli kaydetme