In [1]:
import pandas as pd
import numpy as np
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [2]:
raw_data = pd.read_excel('Skroutz_dataset.xlsx')
data = raw_data.sample(frac = 1)
data.head(20)

Unnamed: 0,id,review,label
4745,4745,Εγώ έχω να πω ότι παρήγγειλα εν μέσω καραντί...,Positive
4575,4575,Το μόνο αρνητικό η παραγγελία δεν παρακολου...,Positive
5092,5092,Αριστη εξυπηρέτηση πελατών. Ακόμα και σε περ...,Positive
4064,4064,Στις 22-7-2015 τοποθέτησα παραγγελία για ένα...,Negative
615,615,Γρηγορή παραλαβή προς το παρόν δεν αντιμετώπ...,Positive
1256,1256,Αριστο μαγαζί. Συνιστάται ανεπιφύλακτα..,Positive
3758,3758,Παραγγειλαμε προϊόν που ήταν διαθέσιμο το οπ...,Negative
3879,3879,Έκανα την παραγγελία μου για μία καφετιέρα φ...,Negative
5207,5207,Η παραγγελία έχει αργήσει πέραν του κανονικο...,Negative
2877,2877,Ασυναγώνιστο κατάστημα !,Positive


In [3]:
reviews = data.review
labels = data.label.apply(lambda x: 1 if x == 'Positive' else 0)

In [4]:
split_size = int(len(reviews)*0.8)
training_reviews = reviews[:split_size]
testing_reviews = reviews[split_size:]
training_labels = labels[:split_size]
testing_labels = labels[split_size:]
len(reviews), len(training_reviews), len(testing_reviews), (len(training_reviews) + len(testing_reviews)) == len(reviews) 

(6552, 5241, 1311, True)

In [5]:
len(reviews), len(training_labels), len(testing_labels), (len(training_labels) + len(testing_labels)) == len(reviews) 

(6552, 5241, 1311, True)

In [6]:
vocab_size = 10000
max_length = 120

tokenizer = Tokenizer(num_words=10000)
tokenizer.fit_on_texts(training_reviews)

training_sequences = tokenizer.texts_to_sequences(training_reviews)
training_padded = pad_sequences(training_sequences, maxlen=max_length)

testing_sequences = tokenizer.texts_to_sequences(testing_reviews)
testing_padded = pad_sequences(testing_sequences, maxlen=max_length)

In [7]:
training_sequences[10]

[2,
 85,
 8,
 2,
 115,
 269,
 3,
 4664,
 21,
 9,
 6355,
 16,
 1303,
 8,
 4,
 71,
 10,
 4,
 122,
 57,
 45,
 2235,
 196,
 39,
 3431,
 200,
 24,
 581,
 146,
 206,
 798,
 9,
 71,
 10,
 18,
 305,
 214,
 27,
 68,
 1304,
 1973,
 1,
 278,
 45,
 2235,
 636,
 14,
 73,
 18,
 288,
 24,
 8065,
 71,
 14,
 996,
 10,
 274,
 303,
 1,
 2135,
 48,
 8,
 4,
 203,
 16,
 44,
 6,
 1362,
 1,
 6,
 456,
 5365,
 8066,
 3774]

In [8]:
for i in training_sequences[10]:
    print(tokenizer.index_word[i])

το
μόνο
για
το
οποίο
μπορώ
να
παραπονεθώ
είναι
η
αύξηση
της
τιμής
για
την
παραλαβή
από
την
acs
στα
1
49
ευρώ
αν
θυμάμαι
καλά
ήταν
δωρεάν
πριν
κάποια
χρόνια
η
παραλαβή
από
τα
καταστήματα
you
μετά
έγινε
0
99
και
τώρα
1
49
ωστόσο
σε
όλα
τα
άλλα
ήταν
τέλειοι
παραλαβή
σε
λιγότερο
από
24
ώρες
και
πλήρης
ενημέρωση
για
την
κατάσταση
της
παραγγελίας
με
emails
και
με
sms
keep
it
up


In [9]:
training_padded[10]

array([   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    2,   85,    8,    2,  115,  269,    3, 4664,   21,
          9, 6355,   16, 1303,    8,    4,   71,   10,    4,  122,   57,
         45, 2235,  196,   39, 3431,  200,   24,  581,  146,  206,  798,
          9,   71,   10,   18,  305,  214,   27,   68, 1304, 1973,    1,
        278,   45, 2235,  636,   14,   73,   18,  288,   24, 8065,   71,
         14,  996,   10,  274,  303,    1, 2135,   48,    8,    4,  203,
         16,   44,    6, 1362,    1,    6,  456, 5365, 8066, 3774])

In [10]:
model = tf.keras.models.Sequential([
    tf.keras.layers.Embedding(vocab_size, 16, input_length=max_length),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(16, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])

model.compile(loss='binary_crossentropy',
             optimizer=tf.optimizers.Adam(),
             metrics=['accuracy'])

model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 120, 16)           160000    
_________________________________________________________________
flatten (Flatten)            (None, 1920)              0         
_________________________________________________________________
dense (Dense)                (None, 16)                30736     
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 17        
Total params: 190,753
Trainable params: 190,753
Non-trainable params: 0
_________________________________________________________________


In [11]:
model.fit(training_padded, training_labels, epochs=10, validation_data=(testing_padded, testing_labels))

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x1dece21e2b0>

In [12]:
model.evaluate(testing_padded, testing_labels, verbose=0)[1]

0.9374523162841797