<a href="https://colab.research.google.com/github/ecemdenizb/artificial-intelligence/blob/main/sentencePiece_sentimentAnalysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install sentencepiece



In [None]:
import sentencepiece as spm
import numpy as np
import pandas as pd
import tensorflow as tf

from tensorflow.keras.models import Sequential, load_model
from tensorflow.keras.layers import Dense, GRU, Embedding
from tensorflow.keras.optimizers import Adam, RMSprop
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [None]:
!wget https://www.dropbox.com/s/a7z7suwt85llb9a/hepsiburada.csv?dl=1 -O hepsiburada.csv

--2021-03-20 07:15:02--  https://www.dropbox.com/s/a7z7suwt85llb9a/hepsiburada.csv?dl=1
Resolving www.dropbox.com (www.dropbox.com)... 162.125.65.18, 2620:100:6022:18::a27d:4212
Connecting to www.dropbox.com (www.dropbox.com)|162.125.65.18|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: /s/dl/a7z7suwt85llb9a/hepsiburada.csv [following]
--2021-03-20 07:15:02--  https://www.dropbox.com/s/dl/a7z7suwt85llb9a/hepsiburada.csv
Reusing existing connection to www.dropbox.com:443.
HTTP request sent, awaiting response... 302 Found
Location: https://uc7c899b3a7cf7ed60f713a82bb3.dl.dropboxusercontent.com/cd/0/get/BLBSLAoZmfjI0AClSJpDltYNd-Auq0HGYtaRXOMuVJfzntFsHAFBBC-y2sx-UMCx8v2eFUPhR_m6mp42i3Q_UKQHCbUwiIygWuYJQz1CJdFGRdDX6qv1HVK3Ug46AoPX1tMi-UCUHR8Keq00IFF1Tjyh/file?dl=1# [following]
--2021-03-20 07:15:02--  https://uc7c899b3a7cf7ed60f713a82bb3.dl.dropboxusercontent.com/cd/0/get/BLBSLAoZmfjI0AClSJpDltYNd-Auq0HGYtaRXOMuVJfzntFsHAFBBC-y2sx-UMCx8v2eFUPhR_m6

In [None]:
vocab_size=5000

In [None]:
dataset = pd.read_csv('hepsiburada.csv')
dataset.head()

Unnamed: 0,Rating,Review
0,1,3 yıldır tık demedi. :)
1,1,3 yıldır kullanıyorum müthiş
2,1,Ürün bugün elime geçti çok fazla inceleme fırs...
3,1,Almaya karar verdim. Hemencecik geldi. Keyifle...
4,1,Günlük kullanımınızı çok çok iyi karsılıyor kı...


In [None]:
target = dataset['Rating'].values.tolist()
reviews = dataset['Review']

In [None]:
reviews.to_csv('reviews.txt', index=False, header=False)
!head reviews.txt

3 yıldır tık demedi. :)
3 yıldır kullanıyorum müthiş 
"Ürün bugün elime geçti çok fazla inceleme fırsatım olmadı ancak gözüme çarpan ilk şey usb bağlantısı için pil kapağının altında çok güzel yer yapmış olmaları, daha önceden o aparatı kaybetmiş biri olarak bu özelliğini çok sevdim. Ayrıca 1000dpi olması çok iyi bu tip farelerin çoğu 800dpi oluyor. Eğer sizde benim gibi masaüstü bilgisayarınızdan oyuncu faresi ile yüksek dpi ayarına alışmış biriyseniz windows ayarından fareyi en hızlıya getirin ve bu fareyi sipariş verin pişman olmazsınız. Teşekkürler Logitech"
Almaya karar verdim. Hemencecik geldi. Keyifle kullanıyorum
Günlük kullanımınızı çok çok iyi karsılıyor kısaca mükemmel
gayet güzel
Çok kaliteli bir ürün ve fiyatı da uygun. Uzun araştırmalarım sonucu aldım ve çok memnunum.
yaklaşık 5 senedir kullanıyorum. defalarca düşmesine rağmen banamısın demedi. 5 yıl daha gider diye düşünüyorum.
Ürün günlük kullanım için çok uygun. Ürünle birlikte 1 adet pil de çıkıyor. İş ve günlük kulla

In [None]:
reviews=reviews.to_list()
cutoff = int(len(reviews) * 0.8)
x_train, x_test = reviews[:cutoff], reviews[cutoff:]
y_train, y_test = target[:cutoff], target[cutoff:]

In [None]:
x_train_tokens = []
x_test_tokens= []

In [None]:
spm.SentencePieceTrainer.Train(f'--input=reviews.txt --model_prefix=reviews_{vocab_size} --vocab_size={vocab_size} --minloglevel=2')

In [None]:
!ls

hepsiburada.csv     reviews_5000.vocab	sample_data
reviews_5000.model  reviews.txt


In [None]:
tokenizer=spm.SentencePieceProcessor()
tokenizer.load('reviews_5000.model')

True

In [None]:
for review in x_train:
  x_train_tokens.append(tokenizer.EncodeAsIds(review))
for review in x_test:
  x_test_tokens.append(tokenizer.EncodeAsIds(review))


In [None]:
num_tokens = [len(tokens) for tokens in x_train_tokens + x_test_tokens]
num_tokens = np.array(num_tokens)
np.mean(num_tokens), np.max(num_tokens), np.argmax(num_tokens)

(37.468970870277666, 930, 225796)

In [None]:
max_tokens = np.mean(num_tokens) + 2 * np.std(num_tokens)
max_tokens = int(max_tokens)
max_tokens

117

In [None]:
x_train_pad = pad_sequences(x_train_tokens, maxlen=max_tokens)
x_test_pad = pad_sequences(x_test_tokens, maxlen=max_tokens)
x_train_pad.shape, x_test_pad.shape

((194797, 117), (48700, 117))

In [None]:
embedding_size = 50
model = Sequential()

model.add(Embedding(input_dim=vocab_size,
                    output_dim=embedding_size,
                    input_length=max_tokens,
                    name='embedding_layer'))

model.add(GRU(units=16, return_sequences=True))
model.add(GRU(units=8, return_sequences=True))
model.add(GRU(units=4))
model.add(Dense(1))
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_layer (Embedding)  (None, 117, 50)           250000    
_________________________________________________________________
gru_3 (GRU)                  (None, 117, 16)           3264      
_________________________________________________________________
gru_4 (GRU)                  (None, 117, 8)            624       
_________________________________________________________________
gru_5 (GRU)                  (None, 4)                 168       
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 5         
Total params: 254,061
Trainable params: 254,061
Non-trainable params: 0
_________________________________________________________________


In [None]:
optimizer = Adam(lr=1e-3)
model.compile(loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
              optimizer=optimizer,
              metrics=['accuracy'])


In [None]:
from tensorflow.data import Dataset
train_ds = Dataset.zip((Dataset.from_tensor_slices(x_train_pad),Dataset.from_tensor_slices(y_train)))
train_ds = train_ds.shuffle(1024).batch(256)
val_ds = Dataset.zip((Dataset.from_tensor_slices(x_test_pad), Dataset.from_tensor_slices(y_test)))
val_ds = val_ds.batch(256)
steps_per_epoch = len(x_train_pad) // 256
validation_steps = len(x_test_pad) // 256

In [None]:
model.fit(train_ds.repeat(), epochs=5, steps_per_epoch=steps_per_epoch, validation_data=val_ds.repeat(), validation_steps=validation_steps)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x7f1e7f1c6410>