# IMDB Datset

Şimdi kelimeler içeren dataset kullanarak bir örnek yapacağız, bunun için ***IMDB dataset*** adında bir veri setini kullanacağız. Bu veri setinde iki dosya mevcut; `reviews.txt` dosyasında IMDB sitesinde filmler için yapılan bazı yorumlar yer alıyor, `labels.txt` dosyasında da her bir yorum için `NEGATIVE` ya da `POSITIVE` kelimelerinden oluşan bir değer yer alıyor ve bu değer ilgili yorumun olmsuz veya olumlu bir yorum olması durumunu tarif ediyor. Aşağıda bu yorumları indirip görüntülüyoruz.

In [21]:
#reviews.txt, labels.txt --> https://github.com/udacity/deep-learning/tree/master/sentiment-network

def print_review(i):
   print("[" + labels[i] + "]\n\n" + reviews[i][:] + "...")

g = open('data/reviews.txt','r') # What we know!
reviews = list(map(lambda x:x[:-1],g.readlines()))
g.close()

g = open('data/labels.txt','r') # What we WANT to know!
labels = list(map(lambda x:x[:-1].upper(),g.readlines()))
g.close()

In [33]:
print_review(7)

[NEGATIVE]

sorry everyone    i know this is supposed to be an  art  film   but wow  they should have handed out guns at the screening so people could blow their brains out and not watch . although the scene design and photographic direction was excellent  this story is too painful to watch . the absence of a sound track was brutal . the loooonnnnng shots were too long . how long can you watch two people just sitting there and talking  especially when the dialogue is two people complaining . i really had a hard time just getting through this film . the performances were excellent  but how much of that dark  sombre  uninspired  stuff can you take  the only thing i liked was maureen stapleton and her red dress and dancing scene . otherwise this was a ripoff of bergman . and i  m no fan f his either . i think anyone who says they enjoyed     hours of this is   well  lying .  ...


Şimdi bu veri setini bir sinir ağına input olarak gönderilebilecek şekilde vektörize etmeliyiz, bunu yapmanın en popüler yollarından birisi ***one-hot encoding*** denlien yöntemdir. Bu yöntemde her bir yorumu `0` ve `1`'lerden oluşan bir vektör olarak saklamaktır; her bir vektörün boyutu toplam kelimelerin sayısı kadar olmalıdır ve yorumda içerilen kelimelerin yerinde `1`, yer almayan kelimelerin yerinde `0` yer almalıdır. Örneğin sözlüğümüz (toplam kelime havuzu) `cat`, `the`, `dog` ve `sat` kelimelerinden oluşsun (IMDB dışında basit bir örnek); bu kelimelerin her biri 4 elemanlı birer vektör olarak 

```
[1, 0, 0, 0]   (cat)
[0, 1, 0, 0]   (the)
[0, 0, 1, 0]   (dog)
[0, 0, 0, 1]   (sat)
```

olarak kodlanır. Bu durumda mesela `the cat sat` cümlesi one-hot olarak enkode edilirken her bir kelimenin vektörü toplanır ve `[1, 1, 0, 1]` vektörü elde edilir; bu kodlamada cümlede içerilen kelimelerin yerinde `1`, içerilmeyen kelimelerin yerinde `0` vardır. Aşağıdaki program bu işlemi özetliyor.

In [82]:
import numpy as np

onehots = {}
onehots['cat'] = np.array([1,0,0,0])
onehots['the'] = np.array([0,1,0,0])
onehots['dog'] = np.array([0,0,1,0])
onehots['sat'] = np.array([0,0,0,1])

sentence = ['the','cat','sat']
encode = np.zeros(4, dtype="int")

for word in sentence:
    encode += onehots[word]
    
print("One-hot encoding for the sentence '" + " ".join(sentence) + "':\n" + str(encode))

One-hot encoding for the sentence 'the cat sat':
[1 1 0 1]


Bir kelime birden fazla kez yorumda yer alıyorsa onun yerinde `2`, `3` gibi sayılar yer alır, mesela `the cat the dog` cümlesi `[1, 2, 1, 0]` olarak kodlanır.

In [83]:
import numpy as np

onehots = {}
onehots['cat'] = np.array([1,0,0,0])
onehots['the'] = np.array([0,1,0,0])
onehots['dog'] = np.array([0,0,1,0])
onehots['sat'] = np.array([0,0,0,1])

sentence = ['the','cat','the', 'dog']
encode = np.zeros(4, dtype="int")

for word in sentence:
    encode += onehots[word]
    
print("One-hot encoding for the sentence '" + " ".join(sentence) + "':\n" + str(encode))

One-hot encoding for the sentence 'the cat the dog':
[1 2 1 0]


In [84]:
import sys

f = open('data/reviews.txt')
raw_reviews = f.readlines()
f.close()

f = open('data/labels.txt')
raw_labels = f.readlines()
f.close()

tokens = list(map(lambda x:set(x.split(" ")), raw_reviews))

vocab = set()
for sent in tokens:
    for word in sent:
        if(len(word)>0):
            vocab.add(word)
vocab = list(vocab)

word2index = {}
for i,word in enumerate(vocab):
    word2index[word]=i

input_dataset = list()
for sent in tokens:
    sent_indices = list()
    for word in sent:
        try:
            sent_indices.append(word2index[word])
        except:
            ""
    input_dataset.append(list(set(sent_indices)))

target_dataset = list()
for label in raw_labels:
    if label == 'positive\n':
        target_dataset.append(1)
    else:
        target_dataset.append(0)

In [107]:
tokens[7]

{'',
 '\n',
 '.',
 'a',
 'absence',
 'although',
 'an',
 'and',
 'anyone',
 'art',
 'at',
 'be',
 'bergman',
 'blow',
 'brains',
 'brutal',
 'but',
 'can',
 'complaining',
 'could',
 'dancing',
 'dark',
 'design',
 'dialogue',
 'direction',
 'dress',
 'either',
 'enjoyed',
 'especially',
 'everyone',
 'excellent',
 'f',
 'fan',
 'film',
 'getting',
 'guns',
 'had',
 'handed',
 'hard',
 'have',
 'her',
 'his',
 'hours',
 'how',
 'i',
 'is',
 'just',
 'know',
 'liked',
 'long',
 'loooonnnnng',
 'lying',
 'm',
 'maureen',
 'much',
 'no',
 'not',
 'of',
 'only',
 'otherwise',
 'out',
 'painful',
 'people',
 'performances',
 'photographic',
 'really',
 'red',
 'ripoff',
 'says',
 'scene',
 'screening',
 'shots',
 'should',
 'sitting',
 'so',
 'sombre',
 'sorry',
 'sound',
 'stapleton',
 'story',
 'stuff',
 'supposed',
 'take',
 'talking',
 'that',
 'the',
 'their',
 'there',
 'they',
 'thing',
 'think',
 'this',
 'through',
 'time',
 'to',
 'too',
 'track',
 'two',
 'uninspired',
 'was',
 '

In [108]:
word2index['uninspired']

59721

In [113]:
input_dataset[7]

[69124,
 5129,
 50193,
 65557,
 17429,
 24600,
 69661,
 39967,
 53793,
 27690,
 54831,
 6194,
 62003,
 52276,
 56378,
 73795,
 48200,
 7246,
 37459,
 44120,
 15962,
 14943,
 60518,
 62067,
 44662,
 23158,
 9848,
 36479,
 69769,
 68752,
 11422,
 4785,
 38066,
 22715,
 42171,
 41149,
 17605,
 40646,
 42185,
 42708,
 62166,
 50395,
 52962,
 4324,
 50404,
 28412,
 19198,
 36608,
 48903,
 8969,
 11530,
 36620,
 4381,
 69418,
 15152,
 13108,
 50485,
 9528,
 16191,
 36163,
 4932,
 36675,
 59721,
 37197,
 34638,
 73551,
 25425,
 6998,
 59743,
 58720,
 52078,
 37749,
 39797,
 21883,
 71548,
 17291,
 15245,
 27023,
 72080,
 70039,
 18843,
 27039,
 50593,
 12194,
 35745,
 35234,
 67493,
 6567,
 22955,
 11197,
 46533,
 29642,
 20941,
 72655,
 2518,
 53721,
 34783,
 16866,
 18916,
 42469,
 33771,
 10225,
 58355,
 68087,
 27128,
 52734]

In [106]:
target_dataset[7]

0

In [110]:
vocab[59721]

'uninspired'

In [115]:
import numpy as np

np.random.seed(1)
def sigmoid(x):
    return 1/(1 + np.exp(-x))

alpha, iterations = (0.01, 2)
hidden_size = 100

weights_0_1 = 0.2*np.random.random((len(vocab),hidden_size)) - 0.1
weights_1_2 = 0.2*np.random.random((hidden_size,1)) - 0.1

correct,total = (0,0)

for iter in range(iterations): # train on first 24,000
    for i in range(len(input_dataset)-1000):
        x,y = (input_dataset[i],target_dataset[i])
        layer_1 = sigmoid(np.sum(weights_0_1[x],axis=0)) #embed + sigmoid
        layer_2 = sigmoid(np.dot(layer_1,weights_1_2)) # linear + softmax
        layer_2_delta = layer_2 - y # compare pred with truth
        layer_1_delta = layer_2_delta.dot(weights_1_2.T) #backprop
        weights_0_1[x] -= layer_1_delta * alpha
        weights_1_2 -= np.outer(layer_1,layer_2_delta) * alpha
        
        if(np.abs(layer_2_delta) < 0.5):
            correct += 1
        total += 1
        if(i % 10 == 9):
            progress = str(i/float(len(input_dataset)))
            sys.stdout.write('\rIter:'+str(iter)\
                             +' Progress:'+progress[2:4]\
                             +'.'+progress[4:6]\
                             +'% Training Accuracy:'\
                             + str(correct/float(total)) + '%')
    print()
correct,total = (0,0)
for i in range(len(input_dataset)-1000,len(input_dataset)):
    x = input_dataset[i]
    y = target_dataset[i]
    layer_1 = sigmoid(np.sum(weights_0_1[x],axis=0))
    layer_2 = sigmoid(np.dot(layer_1,weights_1_2))
    
    if(np.abs(layer_2 - y) < 0.5):
        correct += 1
    total += 1

print("Test Accuracy:" + str(correct / float(total)))

Iter:0 Progress:95.99% Training Accuracy:0.8324583333333333%%
Iter:1 Progress:95.99% Training Accuracy:0.8667916666666666%
Test Accuracy:0.852
