# Import Library dan load data

In [1]:
import pandas as pd

data = pd.read_csv('dataset/data-review-aplikasi-bukalapak.csv')
data.shape

(303, 3)

In [2]:
data.head(5)

Unnamed: 0,ID,Ulasan,Kelas
0,1,belanja murah & mudah say,Positif
1,2,belanja produk digital disini aja gaesss pulsa...,Positif
2,3,Sering belanja di bukalapak. Nyaman murah terp...,Positif
3,4,ecommerce yang mudah utk belanja,Positif
4,5,Sangat membantu hidup saya.. mudah2n bukalapa...,Positif


In [3]:
data.tail(5)

Unnamed: 0,ID,Ulasan,Kelas
298,299,Sejauh ini gak ada kendala dan masalah. Serta ...,Positif
299,300,Luar biasa. Baru kali ini saya mendapat keuntu...,Positif
300,301,jangan sampe ngga belanja pokoknya hehe,Positif
301,302,sudah ngga lemot bagus bukalapak,Positif
302,303,"Saya sangat nyaman belanja di Bukalapak, Harga...",Positif


In [4]:
data.sample(5)

Unnamed: 0,ID,Ulasan,Kelas
45,46,Santai dan Akurat,Positif
101,102,Kecewa dengan bukalapak duit sdh dibalikin kar...,Negatif
193,194,udah lah mending pindah ke yag lain aja males ...,Negatif
195,196,Beli token listrik 2 kali transaksi di hari yg...,Negatif
24,25,Selama belanja di bukalapak alhamdulillah aman...,Positif


In [5]:
data.describe()

Unnamed: 0,ID
count,303.0
mean,152.0
std,87.612784
min,1.0
25%,76.5
50%,152.0
75%,227.5
max,303.0


In [6]:
data.columns

Index(['ID', 'Ulasan', 'Kelas'], dtype='object')

In [7]:
data['Kelas'].value_counts()

Positif    152
Negatif    151
Name: Kelas, dtype: int64

# Text Preproccessing

In [8]:
import re
import string

#This function converts to lower-case, removes square bracket, removes numbers and punctuation
def text_clean_1(text):
    #Case Folding
    text = text.lower()
    #Remove Punctuation
    text = re.sub('\[.*?\]', '', text)
    text = re.sub('[%s]' % re.escape(string.punctuation), '', text)
    text = re.sub('\w*\d\w*', '', text)
    text = re.sub('[‘’“”…]', '', text)
    text = re.sub('\n', '', text)
    return text

cleaned1 = lambda x: text_clean_1(x)

DataReview = data.Ulasan.apply(cleaned1)
DataReview

0                               belanja murah  mudah say
1      belanja produk digital disini aja gaesss pulsa...
2      sering belanja di bukalapak nyaman murah terpe...
3                       ecommerce yang mudah utk belanja
4      sangat membantu hidup saya   bukalapak panjang...
                             ...                        
298    sejauh ini gak ada kendala dan masalah serta g...
299    luar biasa baru kali ini saya mendapat keuntun...
300              jangan sampe ngga belanja pokoknya hehe
301                     sudah ngga lemot bagus bukalapak
302    saya sangat nyaman belanja di bukalapak hargan...
Name: Ulasan, Length: 303, dtype: object

### Tokenization

In [9]:
#Tokenization
from nltk.tokenize import word_tokenize

def text_token(text):
    text = [word_tokenize(doc) for doc in text]
    return text

tokenizing = lambda x: text_token(x)

tokenized_docs = tokenizing(DataReview)

print(tokenized_docs)

[['belanja', 'murah', 'mudah', 'say'], ['belanja', 'produk', 'digital', 'disini', 'aja', 'gaesss', 'pulsa', 'token', 'listrik', 'tiket', 'pesawattermurah', 'se', 'ol', 'shop', 'lain'], ['sering', 'belanja', 'di', 'bukalapak', 'nyaman', 'murah', 'terpercaya', 'tapi', 'ngga', 'sreg', 'sma', 'wishlishnya', 'kalo', 'yg', 'udh', 'di', 'masukin', 'daftar', 'wishlish', 'suka', 'ngga', 'muncul', 'euy', 'perbaikkin', 'lagi', 'dong'], ['ecommerce', 'yang', 'mudah', 'utk', 'belanja'], ['sangat', 'membantu', 'hidup', 'saya', 'bukalapak', 'panjang', 'umur', 'amin'], ['semakin', 'banyak', 'terobosan', 'terobosan', 'nya', 'bukalapak', 'mantap', 'euy'], ['saya', 'menggunakan', 'aplikasi', 'ini', 'saat', 'berbelanja', 'online', 'karena', 'ada', 'pilihan', 'kurir', 'dan', 'melacaknya', 'mudah', 'kalo', 'boleh', 'saran', 'tolong', 'ditambah', 'fitur', 'cicilan', 'tanpa', 'kartu', 'kredit', 'untuk', 'pembeli', 'trims', 'bukalapak', 'jaya', 'selalu'], ['suka', 'bangt', 'smoga', 'lancar', 'smuanya'], ['hend

### Stopword Removal

In [10]:
#Removing Stopword
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

factory = StopWordRemoverFactory() 
stopwords = factory.create_stop_word_remover()
getstopwords = factory.get_stop_words()

# Kalimat Contoh
kalimat = 'Dengan Menggunakan Python dan Library Sastrawi saya dapat melakukan proses Stopword Removal'
stop = stopwords.remove(kalimat)
# print(stop)
# print(getstopwords)

# Mulai
tokenized_docs_no_stopwords = []

for doc in tokenized_docs:
    new_term_vector = []
    for word in doc:
        if not word in getstopwords:
            new_term_vector.append(word)
    
    tokenized_docs_no_stopwords.append(new_term_vector)
    
print(tokenized_docs_no_stopwords)
    


[['belanja', 'murah', 'mudah', 'say'], ['belanja', 'produk', 'digital', 'disini', 'aja', 'gaesss', 'pulsa', 'token', 'listrik', 'tiket', 'pesawattermurah', 'se', 'ol', 'shop'], ['sering', 'belanja', 'bukalapak', 'nyaman', 'murah', 'terpercaya', 'ngga', 'sreg', 'sma', 'wishlishnya', 'kalo', 'yg', 'udh', 'masukin', 'daftar', 'wishlish', 'suka', 'ngga', 'muncul', 'euy', 'perbaikkin', 'dong'], ['ecommerce', 'mudah', 'utk', 'belanja'], ['sangat', 'membantu', 'hidup', 'bukalapak', 'panjang', 'umur', 'amin'], ['semakin', 'banyak', 'terobosan', 'terobosan', 'nya', 'bukalapak', 'mantap', 'euy'], ['menggunakan', 'aplikasi', 'berbelanja', 'online', 'pilihan', 'kurir', 'melacaknya', 'mudah', 'kalo', 'saran', 'ditambah', 'fitur', 'cicilan', 'kartu', 'kredit', 'pembeli', 'trims', 'bukalapak', 'jaya', 'selalu'], ['suka', 'bangt', 'smoga', 'lancar', 'smuanya'], ['hendaknya', 'diberi', 'tahu', 'jg', 'persyaratan', 'cara', 'buka', 'lapak', 'belanja', 'on', 'line', 'sistematis', 'praktis', 'mudah', 'dipa

### Stemming

In [11]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# create stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

Disini biasanya prosesnya lama.. mohon tunggu

In [12]:
stem_tokenized_docs_no_stopwords = []

for doc in tokenized_docs_no_stopwords:
    new_term_vector = []
    for word in doc:
        new_term_vector.append(stemmer.stem(word))
        
    stem_tokenized_docs_no_stopwords.append(new_term_vector)

print(stem_tokenized_docs_no_stopwords)

[['belanja', 'murah', 'mudah', 'say'], ['belanja', 'produk', 'digital', 'sini', 'aja', 'gaesss', 'pulsa', 'token', 'listrik', 'tiket', 'pesawattermurah', 'se', 'ol', 'shop'], ['sering', 'belanja', 'bukalapak', 'nyaman', 'murah', 'percaya', 'ngga', 'sreg', 'sma', 'wishlishnya', 'kalo', 'yg', 'udh', 'masukin', 'daftar', 'wishlish', 'suka', 'ngga', 'muncul', 'euy', 'perbaikkin', 'dong'], ['ecommerce', 'mudah', 'utk', 'belanja'], ['sangat', 'bantu', 'hidup', 'bukalapak', 'panjang', 'umur', 'amin'], ['makin', 'banyak', 'terobos', 'terobos', 'nya', 'bukalapak', 'mantap', 'euy'], ['guna', 'aplikasi', 'belanja', 'online', 'pilih', 'kurir', 'lacak', 'mudah', 'kalo', 'saran', 'tambah', 'fitur', 'cicil', 'kartu', 'kredit', 'beli', 'trims', 'bukalapak', 'jaya', 'selalu'], ['suka', 'bangt', 'smoga', 'lancar', 'smuanya'], ['hendak', 'beri', 'tahu', 'jg', 'syarat', 'cara', 'buka', 'lapak', 'belanja', 'on', 'line', 'sistematis', 'praktis', 'mudah', 'dipa', 'ham', 'masyarakat', 'terima', 'kasih'], ['ap

### Join Data

In [13]:
Data_After_Preprocessing = []

for doc in stem_tokenized_docs_no_stopwords:
    text = " ".join(doc)
    Data_After_Preprocessing.append(text)
    
print(Data_After_Preprocessing)

['belanja murah mudah say', 'belanja produk digital sini aja gaesss pulsa token listrik tiket pesawattermurah se ol shop', 'sering belanja bukalapak nyaman murah percaya ngga sreg sma wishlishnya kalo yg udh masukin daftar wishlish suka ngga muncul euy perbaikkin dong', 'ecommerce mudah utk belanja', 'sangat bantu hidup bukalapak panjang umur amin', 'makin banyak terobos terobos nya bukalapak mantap euy', 'guna aplikasi belanja online pilih kurir lacak mudah kalo saran tambah fitur cicil kartu kredit beli trims bukalapak jaya selalu', 'suka bangt smoga lancar smuanya', 'hendak beri tahu jg syarat cara buka lapak belanja on line sistematis praktis mudah dipa ham masyarakat terima kasih', 'aplikasi kerenpaling responsive banding ecommerce laincuma mungkin bbrp fitur tingkat', 'terimakasih bl sy ajar smk jd bisnis dgn omset per bulan', 'good jadi gila jadi gila bukalapak bikin gila bikin gila sakitttttttt jiwaaaaaa sakittttt jiwa', 'bintang', 'bagus banyak promonya', 'rekomendasi banget',

In [14]:
#Removing columns
data.drop(columns = ['ID'], inplace = True)

In [15]:
data['Preprocessing_Ulasan'] = Data_After_Preprocessing
data.sample(5)

Unnamed: 0,Ulasan,Kelas,Preprocessing_Ulasan
242,Dah mulai oke lg nih jd bintangnya aq ksh 5,Positif,dah mulai oke lg nih jd bintang aq ksh
139,bukalapak para pelapak nya banyak gak profesio...,Negatif,bukalapak lapak nya banyak gak profesional tra...
160,Tolong dibenerkan aplikasinya. Banyak pelapak ...,Negatif,dibenerkan aplikasi banyak lapak tipu
109,2 transkaksi pakai gojek grab same day dana ba...,Negatif,transkaksi pakai gojek grab same day dana bali...
293,aplikasi yang memudahkan untuk pembelian baran...,Positif,aplikasi mudah beli barang bamyak promo tarik ...


# Membuat Train test

Setelah melakukan langkah diatas, selanjutnya memisahkan data latih dan data uji untuk memisahkannya, disini menggunakan library sklearn

In [34]:
from sklearn.model_selection import train_test_split

x=data.Preprocessing_Ulasan
y=data.Kelas

x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.05, random_state=5)

In [35]:
print('Banyak data x_train : ',len(x_train))
print('Banyak data x_test : ',len(x_test))
print('Banyak data y_train : ',len(y_train))
print('Banyak data y_test : ',len(y_test))

Banyak data x_train :  287
Banyak data x_test :  16
Banyak data y_train :  287
Banyak data y_test :  16


In [36]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB

tvec = TfidfVectorizer()
clf2 = LogisticRegression(solver = "lbfgs")
clf3 = MultinomialNB()

In [37]:
from sklearn.pipeline import Pipeline
from sklearn.metrics import confusion_matrix

model = Pipeline([('vectorizer',tvec),('classifier',clf3)])
model.fit(x_train, y_train)


predictions = model.predict(x_test)
confusion_matrix(predictions, y_test)

array([[5, 1],
       [2, 8]], dtype=int64)

In [38]:
DataTes = []
i = 0

for doc in x_test:
    DataTestingJoin = []
    DataTestingJoin.append(doc)
    DataTestingJoin.append(predictions[i])
    DataTes.append(DataTestingJoin)
    i = i + 1
    
pd.DataFrame(DataTes)

Unnamed: 0,0,1
0,sangat nyaman belanja bukalapak harga murah si...,Positif
1,layan konsumen perhati jual barang yg kualitas...,Positif
2,sangat senang guna bukalapak,Positif
3,nyesel deh install bukalapak kembaliin kuota,Positif
4,lama belanja bukalapak alhamdulillah aman aman,Positif
5,mudah cara belanja mudah cara bayar,Positif
6,aplikasi marketplace paling banyak tipu online...,Positif
7,awal coba eeehketagihan malah ken belanja teru...,Positif
8,mantaps kirim cepat,Positif
9,jelas selalu ikut serbu seru bukalapak dana se...,Negatif


## Model Prediction

In [39]:
from sklearn.metrics import accuracy_score, precision_score, recall_score

print("Accuracy : ", accuracy_score(predictions, y_test))
print("Precision : ", precision_score(predictions, y_test, average = 'weighted'))
print("Recall : ", recall_score(predictions, y_test, average = 'weighted'))

Accuracy :  0.8125
Precision :  0.8234126984126984
Recall :  0.8125


In [49]:
example = ["Aplikasi error"]
result = model.predict(example)

print(result)

['Negatif']


In [None]:
from sklearn.pipeline import Pipeline
from sklearn.metrics import confusion_matrix

model = Pipeline([('vectorizer',tvec),('classifier',clf3)])
model.fit(x_train, y_train)


predictions = model.predict(x_test)
confusion_matrix(predictions, y_test)

## Mencoba memakai Regression Logistic

In [44]:
from sklearn.pipeline import Pipeline
from sklearn.metrics import confusion_matrix

model2 = Pipeline([('vectorizer',tvec),('classifier',clf2)])
model2.fit(x_train, y_train)


predictions2 = model2.predict(x_test)
confusion_matrix(predictions, y_test)

array([[5, 0],
       [2, 9]], dtype=int64)

In [45]:
from sklearn.metrics import accuracy_score, precision_score, recall_score

print("Accuracy : ", accuracy_score(predictions2, y_test))
print("Precision : ", precision_score(predictions2, y_test, average = 'weighted'))
print("Recall : ", recall_score(predictions2, y_test, average = 'weighted'))

Accuracy :  0.875
Precision :  0.9107142857142857
Recall :  0.875
