# **Analisis Sentimen Pada Review Aplikasi Surveyon**

## **Latar Belakang**

Saat ini sudah banyak beredar aplikasi yang dapat menghasilkan uang hanya dengan melakukan tugas yang diberikan kepada para penggunanya. Keberadaan aplikasi tersebut tentu sangat menarik perhatian bagi masyarakat yang ingin menghasilkan uang tambahan. Salah satu aplikasi tersebut yaitu Surveyon. Sistem kerja dari aplikasi tersebut yaitu memberikan poin pada penggunanya setelah mereka mengisi survey yang disediakan. Poin tersebut kemudian dapat ditarik menjadi uang (US $) maupun pulsa jika sudah mencapai target minimum penarikan. Namun, banyak kasus di mana aplikasi seperti itu tidak memberikan hak para pengguna yang telah dijanjikan. Oleh karena itu, dilakukannya analisis sentimen review aplikasi Surveyon diharapkan dapat menjadi pandangan bagi para pengguna lain terkait sentimen para pengguna yang telah memakai aplikasi tersebut. Selain itu, analisis ini dapat digunakan oleh developer Surveyon sebagai bahan evaluasi untuk meningkatkan kualitas dari aplikasi yang dibuat.

## **Problem Scoping**
###**Who**
*   Developer Surveyon
*   Pengguna Surveyon
*   Masyarakat

###**What**
*   Pengguna Surveyon sering tidak mendapatkan feedback sesuai dengan apa yg telah dijanjikan Surveyon.
* Program ini dibuat untuk menganalisis sentimen pengguna Surveyon.

###**Where**
*   Aplikasi online

###**Why**
Dengan dibuatnya program ini diharapkan dapat:
1.   Membantu masyarakat (yang tertarik) dalam mengambil keputusan untuk memakai aplikasi ini atau tidak memakainya.
2.   Membantu pengguna Surveyon dalam mengambil keputusan untuk melanjutkan pemakaian atau berhenti.
3. Membantu developer untuk melihat sentimen para penggunanya sebagai bahan evaluasi untuk meningkatkan aplikasi buatannya.



Sambungkan ke google drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# **Data Acquisition**

Scrapping data review aplikasi surveyon lewat google play scrapper

In [None]:
!pip install google-play-scraper

Collecting google-play-scraper
  Downloading google-play-scraper-1.0.3.tar.gz (52 kB)
[?25l[K     |██████▏                         | 10 kB 12.5 MB/s eta 0:00:01[K     |████████████▍                   | 20 kB 13.9 MB/s eta 0:00:01[K     |██████████████████▋             | 30 kB 11.3 MB/s eta 0:00:01[K     |████████████████████████▉       | 40 kB 9.1 MB/s eta 0:00:01[K     |███████████████████████████████ | 51 kB 6.1 MB/s eta 0:00:01[K     |████████████████████████████████| 52 kB 822 kB/s 
[?25hBuilding wheels for collected packages: google-play-scraper
  Building wheel for google-play-scraper (setup.py) ... [?25l[?25hdone
  Created wheel for google-play-scraper: filename=google_play_scraper-1.0.3-py3-none-any.whl size=24394 sha256=92df777225c85dc46308d7c6f0339870840cbe9ff5ab2f80b3bff98075c69f83
  Stored in directory: /root/.cache/pip/wheels/81/37/0b/4a14be55b449a048cd93d79930b1a980dee7896480defa1923
Successfully built google-play-scraper
Installing collected packages: goo

In [None]:
from google_play_scraper import Sort, reviews
import pandas as pd

Data review yang diambil sebanyak 100 review (count = 100) yang berasal dari negara Indonesia dalam Bahasa Indonesia pula. Review yang diambil merupakan review yang paling relevan (MOST_RELEVANT)

In [None]:
scrapreview, continuation_token= reviews(
'com.d8aspring.surveyon', #ID aplikasi
lang='id', 
country='id', 
sort=Sort.MOST_RELEVANT, 
count=100
)

Simpan hasil scrapping ke dalam csv file di google drive

In [None]:
print(scrapreview)
app_reviews_df = pd.DataFrame(scrapreview)
app_reviews_df.to_csv('/content/drive/MyDrive/Dataset/reviewsurveyon.csv', index=None, header=True)

[{'reviewId': 'gp:AOqpTOE3xG2tinWNCGfRplATUiPlj480OE_eErNKSQlGZXL0qNzXWv67czJEivy1Lqmi3DeuGM2WRpFxWFa2aQ', 'userName': 'ARuMI', 'userImage': 'https://play-lh.googleusercontent.com/a-/AOh14Gj5t-N3BnpIqRePSrd6YOuDML0x6elP-ceGfEgStw', 'content': 'Memang beneran membayar koq, cm ada beberapa kekurangan aplikasi ini... 1. point yg didapat kecil dan tdk sering ada 2. Msh banyak bug di sana sini, misalnya survey yg tiba-tiba terhenti saat kita mengisinya atau tdk msk msk survey nya Overall aplikasi cukup membantu keuangan sih, jadi makasih banyak buat developer nya yaaa', 'score': 4, 'thumbsUpCount': 66, 'reviewCreatedVersion': '2.7.6', 'at': datetime.datetime(2022, 3, 1, 16, 39, 9), 'replyContent': 'Yang terhormat ARuMI\nTerima kasih telah menggunakan surveyon\nKami akan mencoba untuk memperbaiki pelayanan kami.\n\nTerima kasih karena anda sudah menggunakan surveyon.\n\nTim surveyon"', 'repliedAt': datetime.datetime(2022, 3, 2, 4, 18, 53)}, {'reviewId': 'gp:AOqpTOE3fh2EX8gccaCQ3B1UUQow0kvl_T

## **Input Data Training**

Import library

In [None]:
import pandas as pd
import numpy as np

Import Dataset

In [None]:
sent_analys = pd.read_csv("/content/drive/MyDrive/Dataset/reviewsurveyon.csv")
sent_analys.head()

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt
0,gp:AOqpTOE3xG2tinWNCGfRplATUiPlj480OE_eErNKSQl...,ARuMI,https://play-lh.googleusercontent.com/a-/AOh14...,"Memang beneran membayar koq, cm ada beberapa k...",4,66,2.7.6,2022-03-01 16:39:09,Yang terhormat ARuMI\nTerima kasih telah mengg...,2022-03-02 04:18:53
1,gp:AOqpTOE3fh2EX8gccaCQ3B1UUQow0kvl_TSPzuyb__W...,Ahmad Rozali,https://play-lh.googleusercontent.com/a-/AOh14...,Bagus banget meskipun survey nya jarang keluar...,5,72,2.7.6,2022-03-07 13:37:13,Yang terhormat Ahmad Rozali Terima kasih telah...,2022-02-18 09:05:47
2,gp:AOqpTOGMSXahPrhjrH1H6dVKv2lCKH8hwKr2EhOW3ln...,Dilla Fallen,https://play-lh.googleusercontent.com/a-/AOh14...,"Nie aplikasi bagus, recommended banget, walaup...",5,54,2.7.6,2022-02-25 03:02:11,Yang terhormat Dilla Fallen Terima kasih telah...,2022-03-02 04:22:25
3,gp:AOqpTOECqRkLY52IBGiFJxiy_lS7Dz8wA2wPnw41inB...,Chaerur Rozikin,https://play-lh.googleusercontent.com/a/AATXAJ...,Aplikasi KUCLUK...!! cuma pas baru didownload ...,1,5,2.7.6,2022-03-30 08:21:38,Yang terhormat Chaerur Rozikin\nTerima kasih t...,2022-03-30 08:50:59
4,gp:AOqpTOGpibg7w8A6q0E7EPnFaRhHPkC1dlzxizlCEwl...,Ziaz Zie,https://play-lh.googleusercontent.com/a-/AOh14...,Survey nya terbukti membayar cuman harus sabar...,5,2,2.7.6,2022-03-28 06:48:56,Yang terhormat Ziaz Zie Terima kasih telah men...,2022-03-29 04:35:27


Pada dataset yang telah didapatkan terdapat banyak kolom yang sebenarnya tidak dipakai nantinya. Oleh karena itu tabel (kolom) yang tidak dipakai didrop (dihapus).

In [None]:
#Drop table yang tidak terpakai
sent_analys = sent_analys.drop(['reviewId','userName','userImage','reviewCreatedVersion','thumbsUpCount','at','replyContent','replyContent','repliedAt'], axis = 1)
sent_analys

Unnamed: 0,content,score
0,"Memang beneran membayar koq, cm ada beberapa k...",4
1,Bagus banget meskipun survey nya jarang keluar...,5
2,"Nie aplikasi bagus, recommended banget, walaup...",5
3,Aplikasi KUCLUK...!! cuma pas baru didownload ...,1
4,Survey nya terbukti membayar cuman harus sabar...,5
...,...,...
95,"Bagus, aplikasinya mudah di pahami tolong perb...",5
96,Pendapat saya untuk surveyon : 1 . Tolong POIN...,5
97,Apk nya bagus saya juga sudah narik beberapa k...,4
98,"Mudah digunakan, masih mencoba mengumpulkan po...",5


Menghitung banyaknya data pada tiap score muncul

In [None]:
sent_analys['score'].value_counts().sort_values(ascending=True)

2     6
3    12
1    13
4    16
5    53
Name: score, dtype: int64

Memberi label pada score. Label 1 ditujukan untuk review dengan score 4 dan 5, sedangkan label 2 ditujukan untuk review dengan score 1, 2, dan 3.

In [None]:
label=[]
for index, row in sent_analys.iterrows():
    if row['score']==5:
        label.append(1)
    elif row['score']==4:
        label.append(1)
    else:
        label.append(0)

sent_analys['label']=label
sent_analys=sent_analys.drop(columns='score', axis=1)
sent_analys.head()

Unnamed: 0,content,label
0,"Memang beneran membayar koq, cm ada beberapa k...",1
1,Bagus banget meskipun survey nya jarang keluar...,1
2,"Nie aplikasi bagus, recommended banget, walaup...",1
3,Aplikasi KUCLUK...!! cuma pas baru didownload ...,0
4,Survey nya terbukti membayar cuman harus sabar...,1


In [None]:
s1=sent_analys[sent_analys.label==1].sample(100, replace=True)
s2=sent_analys[sent_analys.label==0].sample(100, replace=True)

sent_analys=pd.concat([s1,s2])
print(sent_analys.shape)
print(sent_analys.label.value_counts(normalize=True))

(200, 2)
1    0.5
0    0.5
Name: label, dtype: float64


In [None]:
sent_analys

Unnamed: 0,content,label
30,Aplikasi mantap..karna kita bisa saling melont...,1
56,Nice app cuman untuk penarikan sangat lama bis...,1
67,Survei nya mudah bayaran nya lumayan bisa cepa...,1
56,Nice app cuman untuk penarikan sangat lama bis...,1
95,"Bagus, aplikasinya mudah di pahami tolong perb...",1
...,...,...
94,Kasih bintang 3 dulu.Setiap ada survey dengan ...,0
94,Kasih bintang 3 dulu.Setiap ada survey dengan ...,0
82,Aplikasi minta update..sudah diupdate tidak bi...,0
49,"Akun saya di non aktifkan, padahal saya tidak ...",0


# **Proses Preprocessing, Case Folding, Stopword Removal, Steming**

In [None]:
!pip install sastrawi



In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
import re
import string
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

In [None]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Melakukan preprocessing yaitu mengecilkan huruf kapital, menghilangkan tanda baca (punctuation), menghilangkan karakter spesial, dan menghilangkan baris baru.

In [None]:
import string, re

def cleansing(sent_analys):
    #lowertext
    sent_analys=sent_analys.lower()
    
    #Remove Punctuation
    remove=string.punctuation
    translator=str.maketrans(remove,' '*len(remove))
    sent_analys=sent_analys.translate(translator)
    
    #Remove ASCII & UNICODE
    sent_analys=sent_analys.encode('ascii','ignore').decode('utf-8')
    sent_analys=re.sub(r'[^\x00-\x7f]',r'', sent_analys)
    
    #Remove Newline
    sent_analys=sent_analys.replace('\n',' ')
    
    return sent_analys

In [None]:
review = []
for index, row  in sent_analys.iterrows():
  review.append(cleansing(row['content']))

In [None]:
review

['aplikasi mantap  karna kita bisa saling melontarkan pertanyaan  dan poin nya mudah di dpat  pokoknya mantap lah',
 'nice app cuman untuk penarikan sangat lama bisa berbulan2 tapi untuk survey dan poin saya sudah puas walaupun jarang ada survey tapi untuk satu survey mendapatkan banyak poin bahkan hanya butuh 4 survey untuk dapat 11k   semoga terus begini dan tidak berubah2 jika ingin apk ini sukses',
 'survei nya mudah bayaran nya lumayan bisa cepat withdraw  mohon di perbaiki kadang suka tiba2 survei berhenti padahal sudah mau selesai dan tidak mendapat poin ',
 'nice app cuman untuk penarikan sangat lama bisa berbulan2 tapi untuk survey dan poin saya sudah puas walaupun jarang ada survey tapi untuk satu survey mendapatkan banyak poin bahkan hanya butuh 4 survey untuk dapat 11k   semoga terus begini dan tidak berubah2 jika ingin apk ini sukses',
 'bagus  aplikasinya mudah di pahami tolong perbanyak survei setiap harinya',
 'aku udah dari 2021 pake aplikasi ini  walaupun kehitungnya 

In [None]:
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
 
factory = StopWordRemoverFactory()
stopword = factory.create_stop_word_remover()
 
# Contoh
sentence = 'aplikasi nya bagus dan  membayarkan  tepat    waktu '
stop = stopword.remove(sentence)
print(stop)

aplikasi nya bagus  membayarkan  tepat    waktu 


Melakukan filtering (menghilangkan stopword)

In [None]:
review = []
for index, row in sent_analys.iterrows():
    review.append(stopword.remove(row['content']))


sent_analys['content']=review
sent_analys

Unnamed: 0,content,label
30,Aplikasi mantap..karna bisa saling melontarkan...,1
56,Nice app cuman penarikan sangat lama berbulan2...,1
67,Survei nya mudah bayaran nya lumayan cepat wit...,1
56,Nice app cuman penarikan sangat lama berbulan2...,1
95,"Bagus, aplikasinya mudah pahami perbanyak surv...",1
...,...,...
94,"Kasih bintang 3 dulu.Setiap survey poin besar,...",0
94,"Kasih bintang 3 dulu.Setiap survey poin besar,...",0
82,Aplikasi minta update..sudah diupdate bisa ter...,0
49,"Akun di non aktifkan, padahal tidak melakukan ...",0


In [None]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# contoh
sentence = 'hasil  bukti nya bayar   tepat waktu'
s_clean = stemmer.stem(sentence)
 
print(s_clean)

hasil bukti nya bayar tepat waktu


In [None]:
from tqdm import tqdm
review = []
for index, row in tqdm(sent_analys.iterrows()):
    review.append(stemmer.stem(row["content"]))
    
sent_analys['content']=review
sent_analys

200it [01:01,  3.26it/s]


Unnamed: 0,content,label
30,aplikasi mantap karna bisa saling lontar tanya...,1
56,nice app cuman tari sangat lama berbulan2 surv...,1
67,survei nya mudah bayar nya lumayan cepat withd...,1
56,nice app cuman tari sangat lama berbulan2 surv...,1
95,bagus aplikasi mudah paham banyak survei hari,1
...,...,...
94,kasih bintang 3 dulu tiap survey poin besar mi...,0
94,kasih bintang 3 dulu tiap survey poin besar mi...,0
82,aplikasi minta update sudah diupdate bisa buka...,0
49,akun di non aktif padahal tidak laku apa yg cu...,0


# **Modeling dengan Metode SVM**

Melakukan splitting data test dan train. Untuk data test sebesar 20% dan data train sebesar 80%.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(sent_analys['content'], sent_analys['label'], 
                                                    test_size=0.2, stratify=sent_analys['label'], random_state=30)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    'Bayar tepat waktu',
    'Hasil survey menunggu',
    'Aku sangat bosan']

vectorizer = TfidfVectorizer()

# contoh
X = vectorizer.fit_transform(corpus)
X.toarray()

array([[0.        , 0.57735027, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.57735027, 0.57735027],
       [0.        , 0.        , 0.        , 0.57735027, 0.57735027,
        0.        , 0.57735027, 0.        , 0.        ],
       [0.57735027, 0.        , 0.57735027, 0.        , 0.        ,
        0.57735027, 0.        , 0.        , 0.        ]])

In [None]:
X_train = vectorizer.fit_transform(X_train)
X_test = vectorizer.transform(X_test)

print(X_train.shape)
print(X_test.shape)

(160, 653)
(40, 653)


In [None]:
from sklearn import svm
from sklearn.model_selection import cross_val_score

clf = svm.SVC(kernel="linear")

In [None]:
clf.fit(X_train,y_train)
predict = clf.predict(X_test)

# **Evaluation**

In [None]:
from sklearn.metrics import f1_score, recall_score, precision_score, confusion_matrix, accuracy_score

print("f1 score hasil prediksi adalah: ")
print(f1_score(y_test, predict))

# accuracy score
print("accuracy score hasil prediksi adalah: ")
print(accuracy_score(y_test, predict))

# precision score
print("precision score hasil prediksi adalah: ")
print(precision_score(y_test, predict))

# recall score
print("recall score hasil prediksi adalah: ")
print(recall_score(y_test, predict))

f1 score hasil prediksi adalah: 
0.9473684210526316
accuracy score hasil prediksi adalah: 
0.95
precision score hasil prediksi adalah: 
1.0
recall score hasil prediksi adalah: 
0.9


Berdasarkan hasil evaluasi di atas, terlihat bahwa model yang dibuat memiliki F1 score sebesar 0.9473684210526316; akurasi sebesar 0.95; presisi sebesar 1; dan recall sebesar 0.9. Oleh karena itu dapat ditarik kesimpulan bahwa model tersebut sudah baik.
***


Hasil prediksi yang diperoleh kemudian disimpan dengan nama `hasil_prediksi_surveyon.txt`

In [None]:
np.savetxt('/content/drive/MyDrive/Dataset/hasil_prediksi_surveyon.txt', predict, fmt='%i', delimiter='\n')

# **Uji Model (Menggunakan kata-kata baru)**

In [None]:
df_tes = pd.read_csv(r'/content/drive/MyDrive/Dataset/hasil_prediksi_surveyon.txt')
df_tes.head()

Unnamed: 0,1
0,1
1,0
2,1
3,1
4,1


Mendefinisikan label 1 menjadi positif dan label 0 menjadi negatif.

In [None]:
def prediksi_review(review):
  result = clf.predict(vectorizer.transform([review]))
  if result == 1:
    return "Positif"
  else:
    return "Negatif"

In [None]:
prediksi_review('Susah makenya, jangan download kalian!')

'Negatif'

In [None]:
prediksi_review('aplikasinya bagus, beneran membayar')

'Positif'

# **Kesimpulan**

Bedasarkan program yang telah dibuat, analisis sentimen terhadap review aplikasi Surveyon dapat digunakan untuk mengetahui sentimen dari penggunanya. Meskipun masih terdapat kata-kata yang memiliki makna ganda, tapi program ini sudah cukup baik untuk digunakan.