# **Analisis Sentimen Aplikasi Reksadana (Bibit) Menggunakan Metode Naive Bayes**
Proyek ini bertujuan menganalisis sentimen pengguna terhadap aplikasi investasi Bibit berdasarkan ulasan di platform digital. Sentimen diklasifikasikan ke dalam tiga kategori: positif dan negatif menggunakan metode Naive Bayes. Proses analisis mencakup pembersihan teks, tokenisasi, penghapusan stopwords, stemming (Sastrawi), dan pembobotan TF-IDF. Hasil ini diharapkan memberikan gambaran umum persepsi pengguna dan masukan bagi pengembangan aplikasi Bibit ke depannya.

### **Step 1: Mengumpulkan (Scraping) Data**

In [1]:
#install library google-play-scraper
%pip install google-play-scraper

Note: you may need to restart the kernel to use updated packages.


In [59]:
from google_play_scraper import app
import pandas as pd
import numpy as np

Scrapping jumlah ulasan google play aplikasi bibit yang diinginkan

In [60]:
#scrape jumlah ulasan yang diinginkan
from google_play_scraper import Sort, reviews
result, continuation_token = reviews(
    'com.bibit.bibitid', #Link token aplikasi yang ingin diambil ulasannya
    lang='id',
    country='id', #Set bahasa nya menjadi bahasa indonesia
    sort=Sort.MOST_RELEVANT, #Untuk menambil ulasan yang relevan
    count=1000, #Mengatur jumlah data yang ingin diambil
    filter_score_with=None # None untuk mengambil semua score atau rating bintang 1 sampai 5
)

Memastikan jumlah data yang didapatkan

In [61]:
len(result)

1000

membuat dataframe

In [62]:
result = pd.DataFrame(np.array(result),columns=['review'])
result = result.join(pd.DataFrame(result.pop('review').tolist()))
result.head(10)

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,c756365a-7934-4dd4-ba0c-0c74bb90a5a5,Fatimatuz Zahro,https://play-lh.googleusercontent.com/a/ACg8oc...,"Ribet banget, mau upgrade bibit plus saja dipe...",1,24,3.98.0,2025-07-14 12:05:10,"Hai Kak, kami mohon maaf atas ketidaknyamanan ...",2025-07-14 12:55:13,3.98.0
1,9c58bb04-3f43-4851-9d89-49aa587343a7,Fahrur Rozi,https://play-lh.googleusercontent.com/a/ACg8oc...,aplikasinya sangat bagus dan cocok untuk inves...,4,3,3.97.1,2025-07-16 16:19:37,"Hai kak, mohon maaf atas ketidaknyamanan yang ...",2025-07-17 09:29:14,3.97.1
2,b6817a14-1000-4a19-a7a9-e33149f40f65,antika roman sari,https://play-lh.googleusercontent.com/a-/ALV-U...,aplikasi bagus untuk pemula walaupun sempet er...,4,5,3.97.1,2025-07-09 01:15:27,"Hai kak, silakan coba gunakan jaringan lain la...",2025-07-09 10:18:33,3.97.1
3,9d0e055e-6137-45cc-b208-bfd7ed2d7736,Michael Owenls,https://play-lh.googleusercontent.com/a/ACg8oc...,"Halo, aplikasi bibit yang terhubung dengan sto...",5,44,3.97.1,2025-07-10 19:48:38,"Hai kak, terima kasih telah memilih Bibit seba...",2025-07-11 10:03:26,3.97.1
4,b36b30f3-a084-40df-8330-f0e713cfb722,Cro Zhelra,https://play-lh.googleusercontent.com/a/ACg8oc...,"tolong pihak admin slow respon sekali, saya pa...",3,21,3.97.0,2025-07-02 07:44:17,"Hai Kak, kami mohon maaf atas ketidaknyamanan ...",2025-07-02 09:51:25,3.97.0
5,4d7fa91c-6a27-4b03-ab45-1677c64d4329,Aditya Elang Samudra,https://play-lh.googleusercontent.com/a/ACg8oc...,Ini aplikasi sekuritas paling sampah yang pern...,1,14,3.97.1,2025-07-11 02:02:58,"Hai kak, mohon maaf atas ketidaknyamanan yang ...",2025-07-11 13:31:58,3.97.1
6,56a85694-783f-468e-b5d3-dd058aa5b034,Ngepet Jaya,https://play-lh.googleusercontent.com/a/ACg8oc...,"dibantu min, aku kan sebelumnya memiliki perbe...",1,3,3.98.0,2025-07-22 14:52:16,"Hai kak, mohon maaf atas ketidaknyamanan yang ...",2025-07-22 17:45:05,3.98.0
7,cfa87973-94d1-4c28-8902-2f29173e6af7,Dzatillah Falik,https://play-lh.googleusercontent.com/a-/ALV-U...,syaa mengalami banyak kendala dan kesulitan da...,1,7,3.97.1,2025-07-16 12:47:00,"Hai kak, dana penarikan saldo RDN Wallet akan ...",2025-07-17 09:15:35,3.97.1
8,7e98c13b-cbaa-4300-bea1-47ed29de8c91,Alinda Dwi Septiani,https://play-lh.googleusercontent.com/a/ACg8oc...,sering reload / tidak menyambung koneksi. pada...,3,5,3.97.1,2025-07-04 09:44:32,"Hai kak, kami mohon maaf atas ketidaknyamanan ...",2025-07-04 12:45:53,3.97.1
9,135abb3d-c4d8-4504-aa2b-6e5fab13a8b5,asep soban,https://play-lh.googleusercontent.com/a-/ALV-U...,untuk selebihnya aplikasi bibit cukup baik unt...,5,90,3.97.0,2025-06-21 23:32:44,"Hai kak, kami mohon maaf atas ketidaknyamanan ...",2025-06-22 09:06:04,3.97.0


Membuat data csv

In [63]:
result.to_csv("Scrapped_bibit.csv", index = False)

In [64]:
#mengimport dataset yang ada
dataset = pd.read_csv("Scrapped_bibit.csv")

In [65]:
dataset.head(5)

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,c756365a-7934-4dd4-ba0c-0c74bb90a5a5,Fatimatuz Zahro,https://play-lh.googleusercontent.com/a/ACg8oc...,"Ribet banget, mau upgrade bibit plus saja dipe...",1,24,3.98.0,2025-07-14 12:05:10,"Hai Kak, kami mohon maaf atas ketidaknyamanan ...",2025-07-14 12:55:13,3.98.0
1,9c58bb04-3f43-4851-9d89-49aa587343a7,Fahrur Rozi,https://play-lh.googleusercontent.com/a/ACg8oc...,aplikasinya sangat bagus dan cocok untuk inves...,4,3,3.97.1,2025-07-16 16:19:37,"Hai kak, mohon maaf atas ketidaknyamanan yang ...",2025-07-17 09:29:14,3.97.1
2,b6817a14-1000-4a19-a7a9-e33149f40f65,antika roman sari,https://play-lh.googleusercontent.com/a-/ALV-U...,aplikasi bagus untuk pemula walaupun sempet er...,4,5,3.97.1,2025-07-09 01:15:27,"Hai kak, silakan coba gunakan jaringan lain la...",2025-07-09 10:18:33,3.97.1
3,9d0e055e-6137-45cc-b208-bfd7ed2d7736,Michael Owenls,https://play-lh.googleusercontent.com/a/ACg8oc...,"Halo, aplikasi bibit yang terhubung dengan sto...",5,44,3.97.1,2025-07-10 19:48:38,"Hai kak, terima kasih telah memilih Bibit seba...",2025-07-11 10:03:26,3.97.1
4,b36b30f3-a084-40df-8330-f0e713cfb722,Cro Zhelra,https://play-lh.googleusercontent.com/a/ACg8oc...,"tolong pihak admin slow respon sekali, saya pa...",3,21,3.97.0,2025-07-02 07:44:17,"Hai Kak, kami mohon maaf atas ketidaknyamanan ...",2025-07-02 09:51:25,3.97.0


memfilter kolom data hasil scraping atau data yang akan dianalisis

In [66]:
dataset[['userName', 'score','at', 'content']].head()

Unnamed: 0,userName,score,at,content
0,Fatimatuz Zahro,1,2025-07-14 12:05:10,"Ribet banget, mau upgrade bibit plus saja dipe..."
1,Fahrur Rozi,4,2025-07-16 16:19:37,aplikasinya sangat bagus dan cocok untuk inves...
2,antika roman sari,4,2025-07-09 01:15:27,aplikasi bagus untuk pemula walaupun sempet er...
3,Michael Owenls,5,2025-07-10 19:48:38,"Halo, aplikasi bibit yang terhubung dengan sto..."
4,Cro Zhelra,3,2025-07-02 07:44:17,"tolong pihak admin slow respon sekali, saya pa..."


Mengurutkan ulasan berdasarkan tanggal pembuatan

In [67]:
dataset = dataset[['userName', 'score','at', 'content']]
sorted_df = dataset.sort_values(by='at', ascending=False) #diurutkan berdasarkan Terbaru, jika ingin mengurutkan dari yang terlama true kan
sorted_df.head()

Unnamed: 0,userName,score,at,content
149,Yayan Yayan nopri apriansa,4,2025-07-27 04:19:19,"kenapa aplikasi ini GK bisa di buka ,udah 1 ha..."
153,Halim Mah,3,2025-07-27 00:28:38,tidak memuaskan pas mau top up masa kena pajak...
145,Syinta M,5,2025-07-26 20:01:17,Aplikasinya simpel. tapi belom brani ambil sah...
53,Afry_ Dyy,4,2025-07-26 17:51:36,"kenapa bibit gw ga bisa di buka, masalah konek..."
78,Alfita Gaming,5,2025-07-26 11:03:36,aplikasi nya lagi bermasalah ya saya email tid...


Hasil filter disimpan menjadi file csv

In [68]:
sorted_df.to_csv("Sort_Bibit.csv", index = False)

In [69]:
#kemudian kita simpan ke variabel scrap_data
scrap_data = sorted_df[['userName', 'score','at', 'content']]

In [70]:
#karena hanya membutuhkan kolom content dan score maka dilakukan filter.
scrap_data= scrap_data[['content', 'score']]

In [71]:
scrap_data.head()

Unnamed: 0,content,score
149,"kenapa aplikasi ini GK bisa di buka ,udah 1 ha...",4
153,tidak memuaskan pas mau top up masa kena pajak...,3
145,Aplikasinya simpel. tapi belom brani ambil sah...,5
53,"kenapa bibit gw ga bisa di buka, masalah konek...",4
78,aplikasi nya lagi bermasalah ya saya email tid...,5


### **Step 2: Tahap Pelabelan**

In [72]:
#Tahap Pelabelan
def pelabelan(score):
  if score <= 2: # ulasan negatif
    return 'Negatif'
  elif score >= 3 : # ulasan positif
    return 'Positif'
scrap_data['Label'] = scrap_data ['score'].apply(pelabelan)
scrap_data.head(10)

Unnamed: 0,content,score,Label
149,"kenapa aplikasi ini GK bisa di buka ,udah 1 ha...",4,Positif
153,tidak memuaskan pas mau top up masa kena pajak...,3,Positif
145,Aplikasinya simpel. tapi belom brani ambil sah...,5,Positif
53,"kenapa bibit gw ga bisa di buka, masalah konek...",4,Positif
78,aplikasi nya lagi bermasalah ya saya email tid...,5,Positif
23,tolong dong pas verifikasi data bank ada ke e-...,4,Positif
25,keuntungan terealisasi jangan hanya ditampilka...,1,Negatif
14,seharian saya coba untuk membuka aplikasi ini ...,4,Positif
26,"aplikasinya nggak bisa kebuka, udah saya coba ...",2,Negatif
41,setelah saya update kenapa ada bug pada proses...,5,Positif


In [73]:
scrap_data.to_csv("LabelinBibit.csv", index = False)

### **Step 3: Tahap Preprocessing**

**CLEANING**

In [74]:
import pandas as pd

pd.set_option('display.max_columns', None)
scrap_data = pd.read_csv("LabelinBibit.csv")
scrap_data.head(15)

Unnamed: 0,content,score,Label
0,"kenapa aplikasi ini GK bisa di buka ,udah 1 ha...",4,Positif
1,tidak memuaskan pas mau top up masa kena pajak...,3,Positif
2,Aplikasinya simpel. tapi belom brani ambil sah...,5,Positif
3,"kenapa bibit gw ga bisa di buka, masalah konek...",4,Positif
4,aplikasi nya lagi bermasalah ya saya email tid...,5,Positif
5,tolong dong pas verifikasi data bank ada ke e-...,4,Positif
6,keuntungan terealisasi jangan hanya ditampilka...,1,Negatif
7,seharian saya coba untuk membuka aplikasi ini ...,4,Positif
8,"aplikasinya nggak bisa kebuka, udah saya coba ...",2,Negatif
9,setelah saya update kenapa ada bug pada proses...,5,Positif


Mengetahui informasi dataframe

In [75]:
scrap_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   content  1000 non-null   object
 1   score    1000 non-null   int64 
 2   Label    1000 non-null   object
dtypes: int64(1), object(2)
memory usage: 23.6+ KB


Tampilkan setiap baris yang memiliki nilai null (NaN) pada kolom apapun

In [76]:
scrap_data.isna()

Unnamed: 0,content,score,Label
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
...,...,...,...
995,False,False,False
996,False,False,False
997,False,False,False
998,False,False,False


In [77]:
scrap_data.isna().any()

content    False
score      False
Label      False
dtype: bool

Mengetahui jumlah kolom yang memiliki nilai null

In [78]:
scrap_data.isnull().sum()

content    0
score      0
Label      0
dtype: int64

Menghapus baris yang memuat nilai null

In [79]:
scrap_data.dropna(subset=['Label'],inplace = True)

In [80]:
scrap_data.isnull().sum()

content    0
score      0
Label      0
dtype: int64

In [81]:
scrap_data.head(15)

Unnamed: 0,content,score,Label
0,"kenapa aplikasi ini GK bisa di buka ,udah 1 ha...",4,Positif
1,tidak memuaskan pas mau top up masa kena pajak...,3,Positif
2,Aplikasinya simpel. tapi belom brani ambil sah...,5,Positif
3,"kenapa bibit gw ga bisa di buka, masalah konek...",4,Positif
4,aplikasi nya lagi bermasalah ya saya email tid...,5,Positif
5,tolong dong pas verifikasi data bank ada ke e-...,4,Positif
6,keuntungan terealisasi jangan hanya ditampilka...,1,Negatif
7,seharian saya coba untuk membuka aplikasi ini ...,4,Positif
8,"aplikasinya nggak bisa kebuka, udah saya coba ...",2,Negatif
9,setelah saya update kenapa ada bug pada proses...,5,Positif


Membuat data bersih

In [82]:
scrap_data.to_csv("Cleaning_none.csv", index = False)

In [83]:
import pandas as pd

df = pd.read_csv('Cleaning_none.csv')
df.head(15)

Unnamed: 0,content,score,Label
0,"kenapa aplikasi ini GK bisa di buka ,udah 1 ha...",4,Positif
1,tidak memuaskan pas mau top up masa kena pajak...,3,Positif
2,Aplikasinya simpel. tapi belom brani ambil sah...,5,Positif
3,"kenapa bibit gw ga bisa di buka, masalah konek...",4,Positif
4,aplikasi nya lagi bermasalah ya saya email tid...,5,Positif
5,tolong dong pas verifikasi data bank ada ke e-...,4,Positif
6,keuntungan terealisasi jangan hanya ditampilka...,1,Negatif
7,seharian saya coba untuk membuka aplikasi ini ...,4,Positif
8,"aplikasinya nggak bisa kebuka, udah saya coba ...",2,Negatif
9,setelah saya update kenapa ada bug pada proses...,5,Positif


**CLEAN TANDA BACA , NOMOR DLL , DAN CASE FOLDING**

In [84]:
import re
def  clean_text(df, text_field, new_text_field_name):
    scrap_data[new_text_field_name] = scrap_data[text_field].str.lower() #Mengubah menjadi huruf kecil semua (casefolding)
    #Menghapus tanda2 baca dan emoticon yang tidak dibutuhkan
    scrap_data[new_text_field_name] = scrap_data[new_text_field_name].apply(lambda elem: re.sub(r"(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)|^rt|http.+?", "", elem))
    #Menghapus nomor
    scrap_data[new_text_field_name] = scrap_data[new_text_field_name].apply(lambda elem: re.sub(r"\d+", "", elem))
    return scrap_data

In [85]:
scrap_data['text_clean'] = scrap_data['content'].str.lower()
scrap_data['text_clean']
data_clean = clean_text(scrap_data, 'content', 'text_clean')
data_clean.head(10)

Unnamed: 0,content,score,Label,text_clean
0,"kenapa aplikasi ini GK bisa di buka ,udah 1 ha...",4,Positif,kenapa aplikasi ini gk bisa di buka udah hari...
1,tidak memuaskan pas mau top up masa kena pajak...,3,Positif,tidak memuaskan pas mau top up masa kena pajak
2,Aplikasinya simpel. tapi belom brani ambil sah...,5,Positif,aplikasinya simpel tapi belom brani ambil saham
3,"kenapa bibit gw ga bisa di buka, masalah konek...",4,Positif,kenapa bibit gw ga bisa di buka masalah koneks...
4,aplikasi nya lagi bermasalah ya saya email tid...,5,Positif,aplikasi nya lagi bermasalah ya saya email tid...
5,tolong dong pas verifikasi data bank ada ke e-...,4,Positif,tolong dong pas verifikasi data bank ada ke ew...
6,keuntungan terealisasi jangan hanya ditampilka...,1,Negatif,keuntungan terealisasi jangan hanya ditampilka...
7,seharian saya coba untuk membuka aplikasi ini ...,4,Positif,seharian saya coba untuk membuka aplikasi ini ...
8,"aplikasinya nggak bisa kebuka, udah saya coba ...",2,Negatif,aplikasinya nggak bisa kebuka udah saya coba d...
9,setelah saya update kenapa ada bug pada proses...,5,Positif,setelah saya update kenapa ada bug pada proses...


In [86]:
scrap_data.to_csv("Casefolding_Bibit.csv", index = False)

**STOPWORD REMOVAL**

In [30]:
#Install modul nltk
%pip install nltk

Note: you may need to restart the kernel to use updated packages.


Membersihkan teks dengan menghapus kata-kata umum (stopwords) bahasa Indonesia menggunakan library NLTK, lalu menyimpannya ke kolom baru text_StopWord.

In [87]:
#Import library nltk corpus
import nltk.corpus
nltk.download('stopwords')
from nltk.corpus import stopwords
stop = stopwords.words('indonesian')
data_clean['text_StopWord'] = data_clean['text_clean'].apply(lambda x:' '.join([word for word in x.split() if word not in (stop)]))
data_clean.head(10)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\LENOVO\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,content,score,Label,text_clean,text_StopWord
0,"kenapa aplikasi ini GK bisa di buka ,udah 1 ha...",4,Positif,kenapa aplikasi ini gk bisa di buka udah hari...,aplikasi gk buka udah gk buka tolong bantuannya
1,tidak memuaskan pas mau top up masa kena pajak...,3,Positif,tidak memuaskan pas mau top up masa kena pajak,memuaskan pas top up kena pajak
2,Aplikasinya simpel. tapi belom brani ambil sah...,5,Positif,aplikasinya simpel tapi belom brani ambil saham,aplikasinya simpel belom brani ambil saham
3,"kenapa bibit gw ga bisa di buka, masalah konek...",4,Positif,kenapa bibit gw ga bisa di buka masalah koneks...,bibit gw ga buka koneksi koneksi gw ga min
4,aplikasi nya lagi bermasalah ya saya email tid...,5,Positif,aplikasi nya lagi bermasalah ya saya email tid...,aplikasi nya bermasalah ya email balas login
5,tolong dong pas verifikasi data bank ada ke e-...,4,Positif,tolong dong pas verifikasi data bank ada ke ew...,tolong pas verifikasi data bank ewallet karna ...
6,keuntungan terealisasi jangan hanya ditampilka...,1,Negatif,keuntungan terealisasi jangan hanya ditampilka...,keuntungan terealisasi ditampilkan all time op...
7,seharian saya coba untuk membuka aplikasi ini ...,4,Positif,seharian saya coba untuk membuka aplikasi ini ...,seharian coba membuka aplikasi maintenance kal...
8,"aplikasinya nggak bisa kebuka, udah saya coba ...",2,Negatif,aplikasinya nggak bisa kebuka udah saya coba d...,aplikasinya nggak kebuka udah coba handphone j...
9,setelah saya update kenapa ada bug pada proses...,5,Positif,setelah saya update kenapa ada bug pada proses...,update bug proses topup memilih nominal sesuai yg


**TOKENIZE**

Tokenisasi adalah proses memecah teks menjadi unit-unit kecil yang disebut token, bisa berupa kata (word tokenization) atau kalimat (sentence tokenization). Token ini berguna agar komputer dapat memahami teks dan memprosesnya dalam bentuk struktur data yang terorganisir.

sent_tokenize → untuk membagi teks menjadi kalimat

word_tokenize → untuk membagi teks menjadi kata

In [88]:
import nltk
nltk.download('punkt_tab') #memanggil fungsi punkt
from nltk.tokenize import sent_tokenize, word_tokenize
data_clean['text_tokens'] = data_clean['text_StopWord'].apply(lambda x: word_tokenize(x))
data_clean.head()

[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\LENOVO\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Unnamed: 0,content,score,Label,text_clean,text_StopWord,text_tokens
0,"kenapa aplikasi ini GK bisa di buka ,udah 1 ha...",4,Positif,kenapa aplikasi ini gk bisa di buka udah hari...,aplikasi gk buka udah gk buka tolong bantuannya,"[aplikasi, gk, buka, udah, gk, buka, tolong, b..."
1,tidak memuaskan pas mau top up masa kena pajak...,3,Positif,tidak memuaskan pas mau top up masa kena pajak,memuaskan pas top up kena pajak,"[memuaskan, pas, top, up, kena, pajak]"
2,Aplikasinya simpel. tapi belom brani ambil sah...,5,Positif,aplikasinya simpel tapi belom brani ambil saham,aplikasinya simpel belom brani ambil saham,"[aplikasinya, simpel, belom, brani, ambil, saham]"
3,"kenapa bibit gw ga bisa di buka, masalah konek...",4,Positif,kenapa bibit gw ga bisa di buka masalah koneks...,bibit gw ga buka koneksi koneksi gw ga min,"[bibit, gw, ga, buka, koneksi, koneksi, gw, ga..."
4,aplikasi nya lagi bermasalah ya saya email tid...,5,Positif,aplikasi nya lagi bermasalah ya saya email tid...,aplikasi nya bermasalah ya email balas login,"[aplikasi, nya, bermasalah, ya, email, balas, ..."


**STEMMING**

Stemming adalah proses mengembalikan kata ke bentuk dasarnya (root word). Tujuannya adalah untuk mengurangi variasi kata ke bentuk paling mendasar agar bisa diproses lebih efisien dalam model machine learning.

In [33]:
#Install library sastrawi
!pip install Sastrawi



In [89]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
factory = StemmerFactory()
stemmer = factory.create_stemmer()

In [90]:
#-----------------STEMMING -----------------
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# buat stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# proses stemming
def stemmed_wrapper(term):
    return stemmer.stem(term)

term_dict = {}
hitung=0

# Membuat kamus semua kata unik (token) dari data.
# term_dict menyimpan kata sebelum dan sesudah stemming.
# hitung untuk menghitung proses yang dilakukan.
for document in data_clean['text_tokens']:
    for term in document:
        if term not in term_dict:
            term_dict[term] = ' '

print(len(term_dict))
print("------------------------")
for term in term_dict:
    term_dict[term] = stemmed_wrapper(term)
    hitung+=1
    print(hitung,":",term,":" ,term_dict[term])

print(term_dict)
print("------------------------")

def get_stemmed_term(document):
    return [term_dict[term] for term in document]


#memisahkan file eksekusinya setelah pembacaaan term selesai
data_clean['text_steamindo'] = data_clean['text_tokens'].apply(lambda x:' '.join(get_stemmed_term(x)))
data_clean.head(20)

4088
------------------------
1 : aplikasi : aplikasi
2 : gk : gk
3 : buka : buka
4 : udah : udah
5 : tolong : tolong
6 : bantuannya : bantu
7 : memuaskan : muas
8 : pas : pas
9 : top : top
10 : up : up
11 : kena : kena
12 : pajak : pajak
13 : aplikasinya : aplikasi
14 : simpel : simpel
15 : belom : bom
16 : brani : brani
17 : ambil : ambil
18 : saham : saham
19 : bibit : bibit
20 : gw : gw
21 : ga : ga
22 : koneksi : koneksi
23 : min : min
24 : nya : nya
25 : bermasalah : masalah
26 : ya : ya
27 : email : email
28 : balas : balas
29 : login : login
30 : verifikasi : verifikasi
31 : data : data
32 : bank : bank
33 : ewallet : ewallet
34 : karna : karna
35 : rekening : rekening
36 : gimana : gimana
37 : mengisinya : isi
38 : developer : developer
39 : keuntungan : untung
40 : terealisasi : realisasi
41 : ditampilkan : tampil
42 : all : all
43 : time : time
44 : opsi : opsi
45 : liat : liat
46 : perbulan : bulan
47 : terima : terima
48 : kasih : kasih
49 : seharian : hari
50 : coba : cob

Unnamed: 0,content,score,Label,text_clean,text_StopWord,text_tokens,text_steamindo
0,"kenapa aplikasi ini GK bisa di buka ,udah 1 ha...",4,Positif,kenapa aplikasi ini gk bisa di buka udah hari...,aplikasi gk buka udah gk buka tolong bantuannya,"[aplikasi, gk, buka, udah, gk, buka, tolong, b...",aplikasi gk buka udah gk buka tolong bantu
1,tidak memuaskan pas mau top up masa kena pajak...,3,Positif,tidak memuaskan pas mau top up masa kena pajak,memuaskan pas top up kena pajak,"[memuaskan, pas, top, up, kena, pajak]",muas pas top up kena pajak
2,Aplikasinya simpel. tapi belom brani ambil sah...,5,Positif,aplikasinya simpel tapi belom brani ambil saham,aplikasinya simpel belom brani ambil saham,"[aplikasinya, simpel, belom, brani, ambil, saham]",aplikasi simpel bom brani ambil saham
3,"kenapa bibit gw ga bisa di buka, masalah konek...",4,Positif,kenapa bibit gw ga bisa di buka masalah koneks...,bibit gw ga buka koneksi koneksi gw ga min,"[bibit, gw, ga, buka, koneksi, koneksi, gw, ga...",bibit gw ga buka koneksi koneksi gw ga min
4,aplikasi nya lagi bermasalah ya saya email tid...,5,Positif,aplikasi nya lagi bermasalah ya saya email tid...,aplikasi nya bermasalah ya email balas login,"[aplikasi, nya, bermasalah, ya, email, balas, ...",aplikasi nya masalah ya email balas login
5,tolong dong pas verifikasi data bank ada ke e-...,4,Positif,tolong dong pas verifikasi data bank ada ke ew...,tolong pas verifikasi data bank ewallet karna ...,"[tolong, pas, verifikasi, data, bank, ewallet,...",tolong pas verifikasi data bank ewallet karna ...
6,keuntungan terealisasi jangan hanya ditampilka...,1,Negatif,keuntungan terealisasi jangan hanya ditampilka...,keuntungan terealisasi ditampilkan all time op...,"[keuntungan, terealisasi, ditampilkan, all, ti...",untung realisasi tampil all time opsi liat bul...
7,seharian saya coba untuk membuka aplikasi ini ...,4,Positif,seharian saya coba untuk membuka aplikasi ini ...,seharian coba membuka aplikasi maintenance kal...,"[seharian, coba, membuka, aplikasi, maintenanc...",hari coba buka aplikasi maintenance kalo iya m...
8,"aplikasinya nggak bisa kebuka, udah saya coba ...",2,Negatif,aplikasinya nggak bisa kebuka udah saya coba d...,aplikasinya nggak kebuka udah coba handphone j...,"[aplikasinya, nggak, kebuka, udah, coba, handp...",aplikasi nggak buka udah coba handphone jaring...
9,setelah saya update kenapa ada bug pada proses...,5,Positif,setelah saya update kenapa ada bug pada proses...,update bug proses topup memilih nominal sesuai yg,"[update, bug, proses, topup, memilih, nominal,...",update bug proses topup pilih nominal sesuai yg


In [91]:
data_clean.to_csv('hasil_TextPreProcessing_bibit.csv', index= False)

In [92]:
data_clean = pd.read_csv("hasil_TextPreProcessing_bibit.csv")

In [93]:
len(data_clean)

1000

### **Step 4: Tahap Splitting Data**

In [94]:
#membagi data menjadi data training dan testing dengan test_size = 0.20 dan random state nya 2025
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data_clean['content'], data_clean['Label'],
                                                    test_size = 0.20,
                                                    random_state = 2025)

### **Step 5: Tahap Pembobotan TF-IDF**

TF-IDF adalah singkatan dari Term Frequency–Inverse Document Frequency. Tujuan utamanya adalah untuk memberi bobot pada kata berdasarkan pentingnya kata tersebut dalam sebuah dokumen, dibandingkan dengan seluruh koleksi dokumen.

In [95]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer()
# Fit: mempelajari kata-kata dari X_train dan menghitung bobot TF-IDF. Transform: mengubah X_train menjadi matriks numerik TF-IDF.
tfidf_train = tfidf_vectorizer.fit_transform(X_train)
tfidf_test = tfidf_vectorizer.transform(X_test)

In [96]:
#Memastikan Split Data
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

(800,)
(800,)
(200,)
(200,)


CountVectorizer digunakan untuk membentuk representasi frekuensi kata (tanpa IDF). Setiap dokumen diubah menjadi vektor berdasarkan jumlah kemunculan kata.

In [97]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorizer.fit(X_train)

In [98]:
X_train = vectorizer.transform(X_train)
X_test = vectorizer.transform(X_test)

In [99]:
print(X_train)

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 24108 stored elements and shape (800, 3871)>
  Coords	Values
  (0, 120)	1
  (0, 232)	1
  (0, 338)	1
  (0, 344)	1
  (0, 349)	1
  (0, 761)	1
  (0, 762)	1
  (0, 861)	1
  (0, 898)	1
  (0, 910)	1
  (0, 928)	1
  (0, 1004)	1
  (0, 1027)	1
  (0, 1302)	1
  (0, 1332)	2
  (0, 1390)	1
  (0, 1444)	1
  (0, 1558)	1
  (0, 1571)	1
  (0, 1686)	1
  (0, 1799)	1
  (0, 1826)	2
  (0, 1888)	1
  (0, 2109)	1
  (0, 2242)	1
  :	:
  (799, 1415)	2
  (799, 1421)	1
  (799, 1459)	1
  (799, 1583)	1
  (799, 1684)	1
  (799, 1772)	1
  (799, 1996)	1
  (799, 2306)	1
  (799, 2336)	1
  (799, 2510)	1
  (799, 2536)	1
  (799, 2552)	1
  (799, 2572)	1
  (799, 2615)	1
  (799, 2852)	1
  (799, 2976)	1
  (799, 3051)	1
  (799, 3068)	1
  (799, 3074)	1
  (799, 3116)	1
  (799, 3291)	1
  (799, 3436)	1
  (799, 3661)	1
  (799, 3800)	1
  (799, 3852)	2


### **Step 5: Tahap Metode Naive Bayes**

In [100]:
from sklearn.naive_bayes import MultinomialNB

nb = MultinomialNB()
nb.fit(tfidf_train, y_train)

In [101]:
X_train.toarray()

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 1, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

In [102]:
y_pred = nb.predict(tfidf_test)

In [103]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)

In [104]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

clf = MultinomialNB()
clf.fit(X_train, y_train)
predicted = clf.predict(X_test)


print("MultinomialNB Accuracy:", accuracy_score(y_test, predicted))
print("MultinomialNB Precision:", precision_score(y_test, predicted, average="binary", pos_label="Negatif"))
print("MultinomialNB Recall:", recall_score(y_test, predicted, average="binary", pos_label="Negatif"))
print("MultinomialNB F1-score:", f1_score(y_test, predicted, average="binary", pos_label="Negatif"))

print(f'confusion_matrix:\n {confusion_matrix(y_test, predicted)}')
print('====================================================\n')
print(classification_report(y_test, predicted, zero_division=0))

# Load dataset
data_clean = pd.read_csv('hasil_TextPreProcessing_bibit.csv')

MultinomialNB Accuracy: 0.745
MultinomialNB Precision: 0.5866666666666667
MultinomialNB Recall: 0.6875
MultinomialNB F1-score: 0.6330935251798561
confusion_matrix:
 [[ 44  20]
 [ 31 105]]

              precision    recall  f1-score   support

     Negatif       0.59      0.69      0.63        64
     Positif       0.84      0.77      0.80       136

    accuracy                           0.74       200
   macro avg       0.71      0.73      0.72       200
weighted avg       0.76      0.74      0.75       200



## Interpretasi Hasil Model Naive Bayes (MultinomialNB)

Berikut adalah interpretasi dari performa model Multinomial Naive Bayes pada data analisis sentimen:

---

### 1. **Akurasi**
- **Accuracy: 0.745**
- Artinya, **74,5%** dari total data (200 data) berhasil diklasifikasikan dengan benar oleh model.

---

### 2. **Confusion Matrix**

|                        | Prediksi Negatif | Prediksi Positif |
|------------------------|------------------|------------------|
| **Aktual Negatif**     | 44 (True Negatif) | 20 (False Positif) |
| **Aktual Positif**     | 31 (False Negatif) | 105 (True Positif) |

- **True Positif (TP)**: 105  
- **True Negatif (TN)**: 44  
- **False Positif (FP)**: 20  
- **False Negatif (FN)**: 31

---

### 3. **Precision, Recall, dan F1-Score per Kelas**

| Label    | Precision | Recall | F1-score | Support |
|----------|-----------|--------|----------|---------|
| Negatif  | 0.59      | 0.69   | 0.63     | 64      |
| Positif  | 0.84      | 0.77   | 0.80     | 136     |

- **Precision Negatif**: 59% dari prediksi negatif memang benar-benar negatif  
- **Recall Negatif**: Model menangkap 69% dari semua data negatif  
- **Precision Positif**: Model cukup yakin memprediksi positif (84%)  
- **Recall Positif**: Model berhasil menangkap 77% dari semua data positif

---

### 4. **Rata-rata Skor**

| Jenis Rata-rata | Precision | Recall | F1-score |
|------------------|-----------|--------|----------|
| Macro Average    | 0.71      | 0.73   | 0.72     |
| Weighted Average | 0.76      | 0.74   | 0.75     |

- **Macro avg**: Rata-rata tanpa mempertimbangkan jumlah data per kelas
- **Weighted avg**: Rata-rata berdasarkan jumlah data tiap kelas (lebih representatif bila data tidak seimbang)

---

### 5. **Kesimpulan**
- Model cukup andal dalam mengenali sentimen **positif**, namun kurang optimal untuk **negatif**.
- Ketidakseimbangan data (136 positif vs 64 negatif) bisa memengaruhi hasil.
- Untuk peningkatan:
  - Pertimbangkan **penyeimbangan data**
  - Gunakan fitur tambahan (TF-IDF, n-gram, emoticon)
  - Coba algoritma lain seperti **SVM**, **Logistic Regression**, atau **Random Forest**

---
