In [91]:
import pandas as pd
import numpy as np
import random

import string
import re
import nltk
from nltk.corpus import stopwords

from sklearn.metrics import accuracy_score
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

### READING REVIEWS FROM TEXT FILE

In [23]:
data_neg= pd.read_csv('reviews-neg.txt', delimiter='\t', names=["review"])
data_pos= pd.read_csv('reviews-pos.txt', delimiter='\t', names=["review"])

In [24]:
data_neg['label'] = 'neg'
data_pos['label'] = 'pos'

In [54]:
frames = [data_neg, data_pos]

data = pd.concat(frames)
#df = df.sample(frac = 1) ## shuffle

In [55]:
data.head()

Unnamed: 0,review,label
0,beklentimin altında bir ürün kaliteli değil,neg
1,3. kademe hız da motor titreme yapıyor.bu sebe...,neg
2,başlığı sabit durmuyor. arka koruma demiri üfl...,neg
3,ürün gayet kalitesiz öğrenci evinde aldığımız ...,neg
4,yuksek hizda kullanirken titredim yaptigi icin...,neg


In [56]:
data['label'].value_counts()

pos    219744
neg     14879
Name: label, dtype: int64

### DATA PREPROCESSING

In [58]:
punctuations = string.punctuation
stop_words = stopwords.words('turkish')

* PUNCTUATIONS

In [65]:
punctuations

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

* STOPWORDS

In [67]:
print(stop_words)

['acaba', 'ama', 'aslında', 'az', 'bazı', 'belki', 'biri', 'birkaç', 'birşey', 'biz', 'bu', 'çok', 'çünkü', 'da', 'daha', 'de', 'defa', 'diye', 'eğer', 'en', 'gibi', 'hem', 'hep', 'hepsi', 'her', 'hiç', 'için', 'ile', 'ise', 'kez', 'ki', 'kim', 'mı', 'mu', 'mü', 'nasıl', 'ne', 'neden', 'nerde', 'nerede', 'nereye', 'niçin', 'niye', 'o', 'sanki', 'şey', 'siz', 'şu', 'tüm', 've', 'veya', 'ya', 'yani']


In [70]:
## CLEANING STOPWORDS PROCESS
for d in data['review'].head():
    print(d+ '\n-----------------------')
    temp = ''
    for word in d.split():
        if word not in stop_words and not word.isnumeric():
            temp += word + ' '
    print(temp + '\n****************************')

beklentimin altında bir ürün kaliteli değil
-----------------------
beklentimin altında bir ürün kaliteli değil 
****************************
3. kademe hız da motor titreme yapıyor.bu sebebten 3.kademe kullanımda uzun ömürlü olacağını zannetmiyorum.elide rahatsız ediyor.
-----------------------
3. kademe hız motor titreme yapıyor.bu sebebten 3.kademe kullanımda uzun ömürlü olacağını zannetmiyorum.elide rahatsız ediyor. 
****************************
başlığı sabit durmuyor. arka koruma demiri üfleme hızını 2.sewiye yapınca yüksek ses cikariyor
-----------------------
başlığı sabit durmuyor. arka koruma demiri üfleme hızını 2.sewiye yapınca yüksek ses cikariyor 
****************************
ürün gayet kalitesiz öğrenci evinde aldığımız 20 tl lil fön makinası ile aynı hiç farkı yok nerdeyse tek fark üzerinde arzum yazması o kadar.
-----------------------
ürün gayet kalitesiz öğrenci evinde aldığımız tl lil fön makinası aynı farkı yok nerdeyse tek fark üzerinde arzum yazması kadar. 
*******

In [71]:
## CLEANING PUNCTUATIONS PROCESS
for d in data['review'].head():
    print(d+ '\n-----------------------')
    temp = ''
    for word in d:
        if word not in punctuations:
            temp += word
    print(temp + '\n****************************')
    d = temp

beklentimin altında bir ürün kaliteli değil
-----------------------
beklentimin altında bir ürün kaliteli değil
****************************
3. kademe hız da motor titreme yapıyor.bu sebebten 3.kademe kullanımda uzun ömürlü olacağını zannetmiyorum.elide rahatsız ediyor.
-----------------------
3 kademe hız da motor titreme yapıyorbu sebebten 3kademe kullanımda uzun ömürlü olacağını zannetmiyorumelide rahatsız ediyor
****************************
başlığı sabit durmuyor. arka koruma demiri üfleme hızını 2.sewiye yapınca yüksek ses cikariyor
-----------------------
başlığı sabit durmuyor arka koruma demiri üfleme hızını 2sewiye yapınca yüksek ses cikariyor
****************************
ürün gayet kalitesiz öğrenci evinde aldığımız 20 tl lil fön makinası ile aynı hiç farkı yok nerdeyse tek fark üzerinde arzum yazması o kadar.
-----------------------
ürün gayet kalitesiz öğrenci evinde aldığımız 20 tl lil fön makinası ile aynı hiç farkı yok nerdeyse tek fark üzerinde arzum yazması o kadar
***

### CLEANED DATASET

In [72]:
data.to_csv(r'./cleaned.csv', index=False)

In [75]:
data = pd.read_csv('cleaned.csv', sep=",")
data.head()

Unnamed: 0,review,label
0,beklentimin altında bir ürün kaliteli değil,neg
1,3. kademe hız da motor titreme yapıyor.bu sebe...,neg
2,başlığı sabit durmuyor. arka koruma demiri üfl...,neg
3,ürün gayet kalitesiz öğrenci evinde aldığımız ...,neg
4,yuksek hizda kullanirken titredim yaptigi icin...,neg


#### SPLIT TRAIN AND TEST

In [79]:
X_train, X_test, y_train, y_test = train_test_split(data['review'].astype('U').values,
                                                    data['label'].astype('U').values, test_size = 0.2, random_state=42)

In [80]:
print("X_train : ", X_train.shape)
print("X_test : ", X_test.shape)

X_train :  (187698,)
X_test :  (46925,)


#### COUNT VECTOR 

Let's create a counting vector.                                             
Thanks to this method, we both tokenize the review and create a vector for each review that keeps the information of how many times the words in these review are used.

In [82]:
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(X_train)

print('Shape : ', X_train_counts.shape)

Shape :  (187698, 186366)


#### TF*IDF VECTOR ( Term Frequency * Inverse Document Frequency )

The words we will use to represent each review should be unique to that review, meaning words that are not frequently used in other review in the dataset.

In [84]:
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)

print('Shape : ', X_train_tfidf.shape)

Shape :  (187698, 186366)


### NAIVE BAYES MODEL

In [86]:
clf = MultinomialNB().fit(X_train_tfidf, y_train)
X_test_counts = count_vect.transform(X_test)
X_test_tfidf = tfidf_transformer.transform(X_test_counts)

####  PERFORM MODEL PERFORMANCE

In [90]:
y_pred = clf.predict(X_test_tfidf)
for review, sentiment in zip(X_test[:5], y_pred[:]):
    print('%r => %s' % (review, sentiment))

'samsung s5 imi 4 kere doldurdu süper' => pos
'hızlı ve güvenli teslimat için ayrıca hb teşekkürler. ' => pos
'çok iyi yapışıyor.bu güne kadar çok marka denedim hepsinin yapışkanı çok kötüydü.hep başka yapıştırıcılarla takviye ettim.yorumu ve tavsiyeyi hak eden bir ürün.' => pos
'çok çabuk ulaştı. fiyatına göre gayet basarılı ' => pos
'bzen insan kendine bahane, engel yaratır bazı şeyleri yapmak için. bu kitap yapmak istediğiniz şeylere hç bir şeyin engel olmadığını, azmin, başarının öyküsünü anlatıyor.çok duygusal, çok etkileyici.mutlaka okuyun.' => pos


#### TEST RESULTS

In [92]:
accuracy_score(y_test, y_pred)

0.9375386254661694