In [1]:
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt

In [2]:
# load data menggunakan library pandas
# datasets sebelumnya diupload ke grive
# kemudian gdrive dimount ke colab google
# kemudian panggil dataset yang sudah diupload
# sesuaikan dengan direktori gdrive
review_df = pd.read_csv('drive/MyDrive/data/20191002-reviews.csv')

# head merupakan fungsi untuk menampilkan 5 data awal pada dataset
# kenapa menggunakan head, agar lebih mudah untuk membaca data
# karena tujuan awal disini untuk melihat data awal
# dan juga untuk melihat apakah data berhasil diload
review_df.head()

Unnamed: 0,itemId,category,name,rating,originalRating,reviewTitle,reviewContent,likeCount,upVotes,downVotes,helpful,relevanceScore,boughtDate,clientType,retrievedDate
0,100002528,beli-harddisk-eksternal,Kamal U.,5,,,bagus mantap dah sesui pesanan,0,0,0,True,26.51,09 Apr 2019,androidApp,2019-10-02
1,100002528,beli-harddisk-eksternal,yofanca m.,4,,,"Bagus, sesuai foto",0,0,0,True,22.49,24 Sep 2017,androidApp,2019-10-02
2,100002528,beli-harddisk-eksternal,Lazada Customer,5,,ok mantaaapppp barang sesuai pesanan.. good,okkkkk mantaaaaaaapppp ... goood,0,0,0,True,21.5,04 Apr 2018,androidApp,2019-10-02
3,100002528,beli-harddisk-eksternal,Lazada Customer,4,,,bagus sesuai,0,0,0,True,20.51,22 Sep 2017,androidApp,2019-10-02
4,100002528,beli-harddisk-eksternal,Yosep M.,5,,,,0,0,0,True,16.01,17 Agu 2018,androidApp,2019-10-02


In [3]:
# membuat variable data_recview
# mengcopy isi dari dataframe
# kemudian menginisialisasikan data_riview kembali
# dan hanya mengambil column 'reviewContent' dan 'rating'
# kemudian melakukan checking terhadap data
# untuk mengetahui apakah ada data yang kosong
# menggunakan fungsi isna()

data_review = review_df.copy()
data_review = data_review[['reviewContent','rating']]
# data_review.isna()
data_review=data_review.dropna()
data_review.head()

Unnamed: 0,reviewContent,rating
0,bagus mantap dah sesui pesanan,5
1,"Bagus, sesuai foto",4
2,okkkkk mantaaaaaaapppp ... goood,5
3,bagus sesuai,4
7,bima,1


In [4]:
# menghitung jumlah data
# menggunakan pandas dengan fungs value_count
# untuk mendapatkan jumlah data berdasarkan parameter tertentu
# di bawah ini menghitung jumlah data berdasarkan parameter data_review
# dengan cloumn yang digunakan adalah column review
# ini berguna ketika kita ingin mengetahui jumlah data yang ada
# berdasarkan parameter tertentu
# sesuai dengan kebutuhan dan informasi yang ingin diketahui
pd.value_counts(data_review['rating'])

5    82896
4    10626
1     6951
3     4372
2     2184
Name: rating, dtype: int64

In [5]:
# visualisasi data
# dibawah ini merupakan visualisasi data dari dataset
# menggunakan library matplotlib untuk merepresentasikan data dengan table
# dibawah ini representasi data_review
# berdasarkan parameter, yaitu rating
# dan dihitung jumlah datanya
# kemudian direpresentasikan menggunakan px bar
# sesuai dengan data dalam parameter

plot=data_review.rating.value_counts()
px.bar(plot,color=plot.index,color_continuous_scale=px.colors.sequential.Viridis)

In [6]:
# data_review['sentimen'] = data_review['rating']
# data_review['sentimen'].replace({5: "positif", 4: "positif", 3:"netral", 2:"negatif", 1:"negatif"}, inplace=True)

In [7]:
# fungsi cleansing
# salah satu fugsi untuk preprocessing
# untuk membersihkan data
# berdasarkan parameter tertentu
# dalam hal ini parameter yang akan diterima berupa string
# yaitu data dengan nama reviewContent
# untuk membersihkan data dari unicode ASCII
# dan juga menghapus baris baru, agar menjadi satu row
# menggunakan library string dan re
# re merupakan Regular expression (regex) adalah deretan karakter yang digunakan 
# untuk pencarian string atau teks dengan menggunakan pola (pattern).

import string, re

def cleansing(data):
    #lowertext
    data=data.lower()
    
    #Remove Punctuation
    remove=string.punctuation
    translator=str.maketrans(remove,' '*len(remove))
    data=data.translate(translator)
    
    #Remove ASCII & UNICODE
    data=data.encode('ascii','ignore').decode('utf-8')
    data=re.sub(r'[^\x00-\x7f]',r'', data)
    
    #Remove Newline
    data=data.replace('\n',' ')
    
    return data

In [8]:
# data types
# fungsi ini digunakan untuk melihat tipe data dari dataset
# biasanya digunakan ketika kita lupa dengan tipe data yang ada
# dan untuk memastikan tipedata dari dataset yang sedang dikerjakan
# agar tidak terjadi error

data_review.dtypes

reviewContent    object
rating            int64
dtype: object

In [9]:
# memanggil fungsi cleansing
# untuk tahap membersihkan data review content
# data yang sudah dibersihkan akan dimasukan ke dalam array review
# karena data berjumlah banyak, maka pemanggilan fungsi cleansing menggunakan
# looping agar efisien sesuai jumlah data pada data_review

review = []
for index, row  in data_review.iterrows():
    review.append(cleansing(row['reviewContent']))

In [10]:
# review

In [11]:
# menginisiasi data sentimen dengan data rating
# mereplace data sentimen dengan sebuah dictionary
# dictionary berisi data sentimen dari 3 kelas
# positif, negatif dan netral
# dengan angka yang sesuai yaitu 5 dan 4 positif
# 1 dan 2 negatif
# 3 dibilang netral karena median dari positif dan negatif
# jadi 3 tidak selalu bernilai positif begitupun sebaliknya
# maka 3 bernilai netral

data_review['sentimen'] = data_review['rating']
data_review['sentimen'].replace({5: "positif", 4: "positif", 3:"netral", 2:"negatif", 1:"negatif"}, inplace=True)

In [12]:
# menampilkan data menggunakan fungsi head
# menampilkan 5 data teratas dengan fungsi head
# agar lebih mudah membaca data
# dan tidak terlalu banyak
# dan biasanya digunakan untuk memastikan apakah data masih sesuai

data_review.head()

Unnamed: 0,reviewContent,rating,sentimen
0,bagus mantap dah sesui pesanan,5,positif
1,"Bagus, sesuai foto",4,positif
2,okkkkk mantaaaaaaapppp ... goood,5,positif
3,bagus sesuai,4,positif
7,bima,1,negatif


In [13]:
# visualisasi data
# dibawah ini merupakan visualisasi data dari dataset
# menggunakan library matplotlib untuk merepresentasikan data dengan table
# dibawah ini representasi data_review
# berdasarkan parameter, yaitu sentimen
# dan dihitung jumlah datanya
# kemudian direpresentasikan menggunakan px bar
# sesuai dengan data dalam parameter

plot=data_review.sentimen.value_counts()
px.bar(plot,color=plot.index,color_continuous_scale=px.colors.sequential.Viridis)

In [16]:
# install sastrawi
# tahapan text preprocessing
# sastrawi merupakan library asal indonesia
# Sastrawi merupakan library sederhana yang dapat mengubah kata berimbuhan
# dalam bahasa Indonesia menjadi bentuk dasarnya
# Sastrawi juga dapat diinstal melalui “pip”

!pip install Sastrawi

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [17]:
# import library tambahan yaitu stopWordRemover
# filtering terhadap Dataframe
# Stopword merupakan kata-kata dalam jumlah besar yang tidak memiliki pengaruh 
# dalam penilaian label sentiment jika dihapus atau dihilangkan.
# Menghapus kata-kata yang termasuk dalam stopword berguna untuk mengurangi 
# proses komputasi dan bias pada saat training
# memasukan kata ke dalam stopword
# kata-kata yang akan dihapus

from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
 
factory = StopWordRemoverFactory()
stopword = factory.create_stop_word_remover()
 
# Contoh
sentence = 'alhamdulillah  sampai dengan selamat   smoga awet   terima kasih lazada retail coocaa '
stop = stopword.remove(sentence)
print(stop)

alhamdulillah  dengan selamat   smoga awet   terima kasih lazada retail coocaa 


In [18]:
# running stopword
# running fungsi stopword untuk setiap row data
# pada column reviewContent
# kemudian hasilnya akan ditampung pada arrau review
# setelah itu data_review dengan parameter column reviewContent
# akan diinisiasi ulang dengan variable array review
# yang mana variable tersebut beisi data yang sudah melewati tahap stopword
# untuk checkin data maka print data dengan head
# kemudan masukan parameter 10 yang berarti melihat 10 data awal

review = []
for index, row in data_review.iterrows():
    review.append(stopword.remove(row['reviewContent']))


data_review['reviewContent']=review
data_review.head(10)

Unnamed: 0,reviewContent,rating,sentimen
0,bagus mantap dah sesui pesanan,5,positif
1,"Bagus, sesuai foto",4,positif
2,okkkkk mantaaaaaaapppp ... goood,5,positif
3,bagus sesuai,4,positif
7,bima,1,negatif
8,baru 10 bulan layarnya dah bergaris,1,negatif
9,"Pesan rabu sore,minggu sore sampe,,barang sesu...",5,positif
11,"Mau tanya cicilnya pake apa ya,cc bkn?",1,negatif
12,Apakah TV. Tsb. Suda anti gores..,5,positif
13,Pengirim barang sesuai janji. Katanya express ...,1,negatif


In [19]:
# import library yaitu stemmer
# function stemmer dari library Sastrawi untuk mengembalikan kata kebentuk dasarnya.
# Pada intinya yang dilakukan pada stemming adalah mengubah suatu kata 
# yang berimbuhan menjadi kata dasar.
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# contoh
sentence = 'packing rapi menggunakan kayu  mantap   dapet headphone'
s_clean = stemmer.stem(sentence)
 
print(s_clean)

packing rapi guna kayu mantap dapet headphone


In [None]:
# Stemming
# running stopword
# running fungsi stemming untuk setiap row data
# pada column reviewContent
# kemudian hasilnya akan ditampung pada arrau review
# setelah itu data_review dengan parameter column reviewContent
# akan diinisiasi ulang dengan variable array review
# yang mana variable tersebut beisi data yang sudah melewati tahap stopword
# untuk checkin data maka print data dengan head
# kemudan masukan parameter 10 yang berarti melihat 10 data awal
# Tqdm merupakan modul Python yang berguna untuk menampilkan progress bar 

from tqdm import tqdm
review = []
for index, row in tqdm(data_review.iterrows()):
    review.append(stemmer.stem(row["reviewContent"]))
    
data_review['reviewContent']=review
data_review.head()

107029it [51:13, 34.82it/s]   


Unnamed: 0,reviewContent,rating,sentimen
0,bagus mantap dah sesui pesan,5,positif
1,bagus sesuai foto,4,positif
2,okkkkk mantaaaaaaapppp goood,5,positif
3,bagus sesuai,4,positif
7,bima,1,negatif


In [None]:
# Term Frequency-Inverse Document Frequency
# Sebelum masuk ke tahap modelling, kita vektorisasi data teks dengan menggunakan tf-idf
# Representasi Vector Data Text
# Konsep dan Penerapan pada Python menggunakan Pandas dan Scikit-Learn
# Pembobotan ini digunakan nantinya oleh algoritma Machine Learning untuk klasifikasi dokumen.
# fungsi .fit_transform() , akan menghasilkan matrix
# fungsi CountVectorizer() yang dapat menghasilkan vector Term Frequency (TF)
# Inverse Document Frequency (IDF) dihitung pada class TfidfTransformer
# IDF berfungsi mengurangi bobot suatu term jika kemunculannya banyak tersebar diseluruh dokumen

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

X = data_review['reviewContent']
y = data_review['sentimen']

cv = CountVectorizer()
cou_vec = cv.fit_transform(X)

tfidf = TfidfTransformer()
corps = tfidf.fit_transform(cou_vec)

# print(corps)

In [None]:
# modeling
# tahap modelling ini data dipisahkan menjadi data train (data yang akan dipakai dalam modelling)
# dan data test (data untuk mengevaluasi hasil modelling).
# proporsi yang digunakan yaitu 2/3 untuk data train dan 1/3 untuk data test.
# Train/test split salah satu metode yang dapat digunakan untuk mengevaluasi performa model machine learning.
# ibrary yang dapat mengimplementasikan train/test split dengan mudah yaitu Scikit-Learn.

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(corps,y, test_size=0.33, random_state=42)

In [None]:
from sklearn.tree import DecisionTreeClassifier
decision_tree = DecisionTreeClassifier()
decision_tree = decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

In [None]:
from sklearn.metrics import accuracy_score,confusion_matrix, classification_report
print(accuracy_score(y_test,y_pred))
print(confusion_matrix(y_test,y_pred))
print(classification_report(y_test,y_pred))

0.9699037372593432
[[ 2616    38   334]
 [   46  1121   277]
 [  230   138 30520]]
              precision    recall  f1-score   support

     negatif       0.90      0.88      0.89      2988
      netral       0.86      0.78      0.82      1444
     positif       0.98      0.99      0.98     30888

    accuracy                           0.97     35320
   macro avg       0.92      0.88      0.90     35320
weighted avg       0.97      0.97      0.97     35320



In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
# model
model_logReg = LogisticRegression(solver='lbfgs', multi_class='auto')
model_logReg.fit(X_train, y_train)
y_pred = model_logReg.predict(X_test)


lbfgs failed to converge (status=1):
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression



In [None]:
print(accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

0.9210362400906003
[[ 1895     7  1086]
 [  155   144  1145]
 [  373    23 30492]]
              precision    recall  f1-score   support

     negatif       0.78      0.63      0.70      2988
      netral       0.83      0.10      0.18      1444
     positif       0.93      0.99      0.96     30888

    accuracy                           0.92     35320
   macro avg       0.85      0.57      0.61     35320
weighted avg       0.91      0.92      0.90     35320



In [None]:
from sklearn.svm import SVC

In [None]:
# model SVC 
model_svc = SVC(gamma="scale")
model_svc.fit(X_train, y_train)
y_pred = model_svc.predict(X_test)

In [None]:
print(accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

In [None]:
# Accuration comparation for various models
models = [decision_tree, model_logReg, model_svc]
accuracy_scores = []
for model in models:
    pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    accuracy_scores.append(accuracy)
print(accuracy_scores)

In [None]:
plt.bar(['Decission Tree', 'LogReg', 'SVM'], accuracy_scores)
plt.ylim(0.90, 1.01)
plt.title('Accuration comparation for various models', fontsize=15, color='r')
plt.xlabel('Models', fontsize=18, color='g')
plt.ylabel('Acurracy Score', fontsize=18, color='g')
plt.tight_layout()
plt.show()