<a href="https://colab.research.google.com/github/hazhyni/05-umma-sentiment-analysis/blob/main/Umma_Prayer_App_Sentiment_Analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Umma Prayer App Sentiment Analysis**

##Import Library

In [2]:
!pip install google-play-scraper
!pip install sastrawi
!pip install nltk



In [4]:
# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
from google_play_scraper import app, reviews, Sort, reviews_all

import pandas as pd  # Pandas untuk manipulasi dan analisis data
pd.options.mode.chained_assignment = None  # Menonaktifkan peringatan chaining
import numpy as np  # NumPy untuk komputasi numerik
seed = 0
np.random.seed(seed)  # Mengatur seed untuk reproduktibilitas
import matplotlib.pyplot as plt  # Matplotlib untuk visualisasi data
import seaborn as sns  # Seaborn untuk visualisasi data statistik, mengatur gaya visualisasi

import datetime as dt  # Manipulasi data waktu dan tanggal
import re  # Modul untuk bekerja dengan ekspresi reguler
import string  # Berisi konstanta string, seperti tanda baca

import nltk  # Import pustaka NLTK (Natural Language Toolkit).
nltk.download('punkt')  # Mengunduh dataset yang diperlukan untuk tokenisasi teks.
nltk.download('stopwords')  # Mengunduh dataset yang berisi daftar kata-kata berhenti (stop words) dalam berbagai bahasa.
from nltk.tokenize import word_tokenize  # Tokenisasi teks
from nltk.corpus import stopwords  # Daftar kata-kata berhenti dalam teks

from Sastrawi.Stemmer.StemmerFactory import StemmerFactory  # Stemming (penghilangan imbuhan kata) dalam bahasa Indonesia
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory  # Menghapus kata-kata berhenti dalam bahasa Indonesia
from wordcloud import WordCloud  # Membuat visualisasi berbentuk awan kata (word cloud) dari teks


import requests
import json
#Import kamus slang
url = 'https://raw.githubusercontent.com/hazhyni/05-umma-sentiment-analysis/main/slangdict.json'

try:
    response = requests.get(url)
    response.raise_for_status()  # pastikan tidak error HTTP
    SLANG_DICT = response.json()
    print("Kamus slang berhasil dimuat:", list(SLANG_DICT.items())[:5])
except Exception as e:
    print("Gagal memuat kamus slang:", e)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


##Scrapping Dataset

In [5]:
# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
from google_play_scraper import app, reviews_all, Sort

# Mengambil semua ulasan dari aplikasi dengan ID 'com.muslim.android' di Google Play Store.
# Proses scraping mungkin memerlukan beberapa saat tergantung pada jumlah ulasan yang ada.
scrapreview = reviews_all(
    'com.muslim.android',          # ID aplikasi
    lang='id',             # Bahasa ulasan (default: 'en')
    country='id',          # Negara (default: 'us')
    sort=Sort.MOST_RELEVANT, # Urutan ulasan (default: Sort.MOST_RELEVANT)
    count=1000             # Jumlah maksimum ulasan yang ingin diambil
)

In [6]:
# Menyimpan ulasan dalam file CSV
import csv

with open('ulasan_aplikasi.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['Review'])  # Menulis header kolom
    for review in scrapreview:
        writer.writerow([review['content']])  # Menulis konten ulasan ke dalam file CSV

##Loading Dataset

In [7]:
# Mengubah data hasil scraping menjadi dataframe
app_reviews_df = pd.DataFrame(scrapreview)
app_reviews_df.shape
app_reviews_df.to_csv('ulasan_aplikasi.csv', index=False)

In [8]:
# Informasi dataframe, kolom dan baris
print(list(app_reviews_df.columns))

jumlah_ulasan, jumlah_kolom = app_reviews_df.shape
print(f"Jumlah kolom: {jumlah_kolom}")
print(f"Jumlah baris: {jumlah_ulasan}")

['reviewId', 'userName', 'userImage', 'content', 'score', 'thumbsUpCount', 'reviewCreatedVersion', 'at', 'replyContent', 'repliedAt', 'appVersion']
Jumlah kolom: 11
Jumlah baris: 79209


In [9]:
# Menampilkan lima baris pertama dari DataFrame app_reviews_df
app_reviews_df.head()

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,6dfabcbe-b11a-4ea4-a083-4cdc5e33b84c,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Aplikasi sangat buruk, orang mau melakukan keb...",1,196,3.4.13,2025-07-28 16:29:43,,NaT,3.4.13
1,aed17b26-46d9-44e3-b5e0-e3980817484a,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Menyesal saya update, alasan saya update krn t...",1,139,3.3.9,2024-04-22 22:17:16,,NaT,3.3.9
2,96d77c0e-d4ec-4e2d-91b9-01b1c0980a1c,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Aplikasinya bagus & banyak manfaat.. Tp sayang...,1,164,3.3.2,2023-10-23 23:07:57,,NaT,3.3.2
3,cfef4799-c5b0-43cb-96e5-a325bb5bb66d,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Aplikasinya berguna, iklannya gak berguna, sum...",1,96,3.4.12,2024-11-27 11:04:59,,NaT,3.4.12
4,3eb03851-6a60-492a-80fd-4e602e18fa14,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Makin kesini Makin ngaco aplikasi nya Terlalu ...,1,164,3.4.13,2025-05-09 00:48:05,,NaT,3.4.13


In [10]:
# Menampilkan informasi tentang DataFrame app_reviews_df
app_reviews_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 79209 entries, 0 to 79208
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   reviewId              79209 non-null  object        
 1   userName              79209 non-null  object        
 2   userImage             79209 non-null  object        
 3   content               79209 non-null  object        
 4   score                 79209 non-null  int64         
 5   thumbsUpCount         79209 non-null  int64         
 6   reviewCreatedVersion  58403 non-null  object        
 7   at                    79209 non-null  datetime64[ns]
 8   replyContent          35729 non-null  object        
 9   repliedAt             35729 non-null  datetime64[ns]
 10  appVersion            58403 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 6.6+ MB


In [11]:
# Menghitung jumlah data yang terindikasi duplikat
total_duplikat = app_reviews_df.duplicated(subset=['content'],keep=False).sum()

print(f"Total ulasan hasil scraping: {jumlah_ulasan}")
print(f"Total ulasan duplikat: {total_duplikat}")

# Menghitung total nilai NaN per kolom
nan_per_kolom = app_reviews_df.isna().sum()

print(f"\nJumlah NaN per kolom:")
print(nan_per_kolom)

Total ulasan hasil scraping: 79209
Total ulasan duplikat: 25098

Jumlah NaN per kolom:
reviewId                    0
userName                    0
userImage                   0
content                     0
score                       0
thumbsUpCount               0
reviewCreatedVersion    20806
at                          0
replyContent            43480
repliedAt               43480
appVersion              20806
dtype: int64


In [12]:
app_reviews_df = app_reviews_df[['content', 'score','thumbsUpCount','at']]
app_reviews_df.head(3)

Unnamed: 0,content,score,thumbsUpCount,at
0,"Aplikasi sangat buruk, orang mau melakukan keb...",1,196,2025-07-28 16:29:43
1,"Menyesal saya update, alasan saya update krn t...",1,139,2024-04-22 22:17:16
2,Aplikasinya bagus & banyak manfaat.. Tp sayang...,1,164,2023-10-23 23:07:57


## Data Cleaning

`def clean_reviews(app_reviews_df, text_column='content'):` -> `app_reviews_clean`

Fungsi ini digunakan untuk membersihkan teks dengan beberapa langkah, seperti menghapus mention, hashtag, RT (retweet), tautan (link), angka, dan tanda baca. Selain itu, itu juga menggantikan karakter newline dengan spasi dan menghilangkan spasi ekstra di awal dan akhir teks.

In [13]:
def clean_reviews(app_reviews_df, text_column='content'):
    # 1. Hapus nilai NaN dan null
    app_reviews_df = app_reviews_df.dropna(subset=[text_column])
    app_reviews_df = app_reviews_df.fillna({'content': 'Tidak Ada Ulasan'})

    # 2. Hapus duplikat
    app_reviews_df = app_reviews_df.drop_duplicates(subset=[text_column])


    # 3. Fungsi pembersih teks
    def clean_text(text):
        text = str(text)
        text = re.sub(r'\n', ' ', text)                    # Ganti newline dengan spasi
        text = re.sub(r'RT\s+', '', text)                  # Hapus 'RT'
        text = re.sub(r'@\w+', '', text)                   # Hapus mention
        text = re.sub(r'#\w+', '', text)                   # Hapus hashtag
        text = re.sub(r'http\S+|www\S+', '', text)         # Hapus link
        text = re.sub(r'\d+', '', text)                    # Hapus angka
        text = re.sub(r'[^\w\s]', '', text)                # Hapus tanda baca
        text = re.sub(r'\s+', ' ', text)                   # Normalisasi spasi
        return text.strip()

    # 4. Terapkan pembersihan ke kolom teks
    app_reviews_df[text_column] = app_reviews_df[text_column].apply(clean_text)

    return app_reviews_df

# Gunakan fungsi untuk membersihkan data
app_reviews_clean = clean_reviews(app_reviews_df, text_column='content')

# Menghitung total baris duplikat di seluruh DataFrame
print(f"Jumlah data bersih: {len(app_reviews_clean)}")

Jumlah data bersih: 56230


In [14]:
app_reviews_clean.head(5)

Unnamed: 0,content,score,thumbsUpCount,at
0,Aplikasi sangat buruk orang mau melakukan keba...,1,196,2025-07-28 16:29:43
1,Menyesal saya update alasan saya update krn te...,1,139,2024-04-22 22:17:16
2,Aplikasinya bagus banyak manfaat Tp sayang ori...,1,164,2023-10-23 23:07:57
3,Aplikasinya berguna iklannya gak berguna sumpa...,1,96,2024-11-27 11:04:59
4,Makin kesini Makin ngaco aplikasi nya Terlalu ...,1,164,2025-05-09 00:48:05


##Preprocessing

Berikut adalah beberapa fungsi yang digunakan untuk membersihkan dan memproses teks. Inilah penjelasan singkat tentang masing-masing fungsi:

1. `casefoldingText(text)`: Fungsi ini mengonversi semua karakter dalam teks menjadi huruf kecil (lowercase), sehingga teks menjadi lebih seragam.

2. `tokenizingText(text)`: Fungsi ini digunakan untuk membagi teks menjadi daftar kata atau token. Ini berguna untuk mengurai teks menjadi komponen-komponen dasar.

3. `filteringText(text)`: Fungsi ini digunakan untuk menghapus kata-kata berhenti (stopwords) dalam teks. Anda telah memperbarui daftar kata-kata berhenti dengan beberapa kata tambahan.

4. `stemmingText(text)`: Fungsi ini menerapkan stemming pada teks, yaitu mengurangi kata-kata menjadi bentuk dasarnya. Anda menggunakan pustaka Sastrawi untuk melakukan stemming dalam bahasa Indonesia.

5. `toSentence(list_words)`: Fungsi ini digunakan untuk menggabungkan daftar kata-kata menjadi sebuah kalimat.

Anda dapat menggunakan fungsi-fungsi ini dalam proyek Anda untuk membersihkan, memproses, dan mempersiapkan teks sebelum melakukan analisis sentimen. Pastikan untuk memanggil fungsi-fungsi ini dengan benar sesuai dengan tahap pemrosesan teks yang Anda inginkan.

In [55]:
import pandas as pd
import re
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# 1. Inisialisasi Stopwords Gabungan & Kustom
list_stopwords_indonesia = set(stopwords.words('indonesian'))
list_stopwords_english = set(stopwords.words('english'))
list_stopwords_custom = set(['iya','yaa','gak','nya','na','sih','ku',"di","ga","ya","gaa","loh","kah","woi","woii","woy", 'yg', 'aja'])
ALL_STOPWORDS = list_stopwords_indonesia.union(list_stopwords_english).union(list_stopwords_custom)

# 2. Inisialisasi Stemmer
STEMMER = StemmerFactory().create_stemmer()

# 3. Inisialisasi Tokenizer (Menggunakan RegexpTokenizer untuk menghindari masalah 'punkt')
# Pola: hanya mengambil huruf kecil (setelah case folding)
TOKENIZER = RegexpTokenizer(r'[a-z]+')

# 4. Slang Dictionary (Gunakan kamus yang Anda berikan)

#Import kamus slang JSON dari GitHub
slang_url = 'https://raw.githubusercontent.com/hazhyni/05-umma-sentiment-analysis/main/slangdict.json'

# Ambil isi file dan ubah ke dictionary
response = requests.get(slang_url)
SLANG_DICT = response.json()

# --- 📝 DEFINISI FUNGSI PER LANGKAH 📝 ---

def casefoldingText(text): # 1. Case Folding & Cleaning
    text = text.lower()
    # Hapus karakter non-alphabetic (selain huruf dan spasi)
    text = re.sub(r'[^a-z\s]', ' ', text)
    # Hapus spasi berlebih
    text = re.sub(r'\s+', ' ', text).strip()
    return text

def fix_slangwords(text): # 2. Slang Normalization
    words = text.split()
    fixed_words = []
    for word in words:
        # Coba ambil kata baku dari kamus, jika tidak ada, gunakan kata asli
        fixed_words.append(SLANG_DICT.get(word, word))
    return ' '.join(fixed_words)

def tokenizingText(text): # 3. Tokenizing (Menggunakan RegexpTokenizer)
    # Tokenizer yang sudah diinisialisasi akan memecah teks
    return TOKENIZER.tokenize(text)

def filteringText(tokens): # 4. Stopword Removal/Filtering (Input: List of words)
    filtered = []
    for txt in tokens:
        if txt not in ALL_STOPWORDS:
            filtered.append(txt)
    return filtered

def stemmingText(list_words): # 5. Stemming (Input: List of words)
    # Menerapkan stemming pada setiap kata dalam daftar
    stemmed_words = [STEMMER.stem(word) for word in list_words]
    return stemmed_words

def toSentence(list_words): # 6. Convert List to Sentence
    # Menggabungkan list kata menjadi satu string (kalimat)
    sentence = ' '.join(word for word in list_words if word.strip() != '')
    return sentence

# --- 🚀 FUNGSI ALUR UTAMA (PIPELINE) 🚀 ---

def full_preprocessing(text):
    """
    Menjalankan seluruh alur preprocessing pada satu string teks.
    Urutan: Case Folding -> Slang -> Tokenizing -> Filtering -> Stemming -> Convert to Sentence
    """

    # 1. Case Folding & Cleaning (String)
    text = casefoldingText(text)

    # 2. Slang Normalization (String)
    text = fix_slangwords(text)

    # 3. Tokenizing (String -> List of words)
    tokens = tokenizingText(text)

    # 4. Filtering/Stopword Removal (List of words)
    tokens = filteringText(tokens)

    # 5. Stemming (List of words)
    tokens = stemmingText(tokens)

    # 6. Convert List to Sentence (String)
    processed_text = toSentence(tokens)

    return processed_text

# 1. Terapkan fungsi ke kolom 'content' di app_reviews_clean
# Hasilnya disimpan di kolom baru bernama 'data_preprocessed'
app_reviews_clean['data_preprocessed'] = app_reviews_clean['content'].apply(full_preprocessing)

# 2. Assign variabel untuk hasil akhir
# app_reviews_processed sekarang merujuk ke DataFrame yang sudah ada kolom baru
app_reviews_processed = app_reviews_clean

# 3. Tampilkan hasilnya (Kolom Asli dan Kolom Hasil Proses)
app_reviews_processed.head(3)

Unnamed: 0,content,score,data_preprocessed
0,"Aplikasi ini bagus bgt, tp msh sering error lola!",4,aplikasi bagus banget error lambat berfikir
1,Gw bingung kpn mau update fitur chat?,3,bingung update fitur chat
2,"tdk ada yg salah, ku kasih bintang 5 aj.",5,salah kasih bintang


##Pelabelan

In [None]:
import csv
import requests
from io import StringIO

# Loads positive lexicon data from GitHub
# Membaca data kamus kata-kata positif dari GitHub
lexicon_positive = dict()

response = requests.get('https://raw.githubusercontent.com/angelmetanosaa/dataset/main/lexicon_positive.csv')
# Mengirim permintaan HTTP untuk mendapatkan file CSV dari GitHub

if response.status_code == 200:
    # Jika permintaan berhasil
    reader = csv.reader(StringIO(response.text), delimiter=',')
    # Membaca teks respons sebagai file CSV menggunakan pembaca CSV dengan pemisah koma

    for row in reader:
        # Mengulangi setiap baris dalam file CSV
        lexicon_positive[row[0]] = int(row[1])
        # Menambahkan kata-kata positif dan skornya ke dalam kamus lexicon_positive
else:
    print("Failed to fetch positive lexicon data")

# Loads negative lexicon data from GitHub
# Membaca data kamus kata-kata negatif dari GitHub
lexicon_negative = dict()

response = requests.get('https://raw.githubusercontent.com/angelmetanosaa/dataset/main/lexicon_negative.csv')
# Mengirim permintaan HTTP untuk mendapatkan file CSV dari GitHub

if response.status_code == 200:
    # Jika permintaan berhasil
    reader = csv.reader(StringIO(response.text), delimiter=',')
    # Membaca teks respons sebagai file CSV menggunakan pembaca CSV dengan pemisah koma

    for row in reader:
        # Mengulangi setiap baris dalam file CSV
        lexicon_negative[row[0]] = int(row[1])
        # Menambahkan kata-kata negatif dan skornya ke dalam kamus lexicon_negative
else:
    print("Failed to fetch negative lexicon data")


In [None]:
# Function to determine sentiment polarity of tweets
# Fungsi untuk menentukan polaritas sentimen dari tweet

def sentiment_analysis_lexicon_indonesia(text):
    #for word in text:

    score = 0
    # Inisialisasi skor sentimen ke 0

    for word in text:
        # Mengulangi setiap kata dalam teks

        if (word in lexicon_positive):
            score = score + lexicon_positive[word]
            # Jika kata ada dalam kamus positif, tambahkan skornya ke skor sentimen

    for word in text:
        # Mengulangi setiap kata dalam teks (sekali lagi)

        if (word in lexicon_negative):
            score = score + lexicon_negative[word]
            # Jika kata ada dalam kamus negatif, kurangkan skornya dari skor sentimen

    polarity=''
    # Inisialisasi variabel polaritas

    if (score >= 0):
        polarity = 'positive'
        # Jika skor sentimen lebih besar atau sama dengan 0, maka polaritas adalah positif
    elif (score < 0):
        polarity = 'negative'
        # Jika skor sentimen kurang dari 0, maka polaritas adalah negatif
    else:
        polarity = 'neutral'
    # Ini adalah bagian yang bisa digunakan untuk menentukan polaritas netral jika diperlukan

    return score, polarity
    # Mengembalikan skor sentimen dan polaritas teks

In [None]:
# Mengatur opsi tampilan Pandas agar kolom dapat menampilkan teks hingga 3000 karakter.
pd.set_option('display.max_colwidth', 3000)

# Membuat DataFrame baru 'positive_tweets' yang hanya berisi tweet dengan polaritas positif.
positive_tweets = clean_df[clean_df['polarity'] == 'positive']

# Memilih hanya kolom-kolom tertentu dari DataFrame 'positive_tweets'.
positive_tweets = positive_tweets[['text_akhir', 'polarity_score', 'polarity','text_stopword']]

# Mengurutkan DataFrame 'positive_tweets' berdasarkan 'polarity_score' secara menurun.
positive_tweets = positive_tweets.sort_values(by='polarity_score', ascending=False)

# Mengatur ulang indeks DataFrame agar dimulai dari 0.
positive_tweets = positive_tweets.reset_index(drop=True)

# Menambahkan 1 ke semua indeks DataFrame.
positive_tweets.index += 1

In [None]:
# Mengatur opsi tampilan Pandas agar kolom dapat menampilkan teks hingga 3000 karakter.
pd.set_option('display.max_colwidth', 3000)

# Membuat DataFrame baru 'negative_tweets' yang hanya berisi tweet dengan polaritas negatif.
negative_tweets = clean_df[clean_df['polarity'] == 'negative']

# Memilih hanya kolom-kolom tertentu dari DataFrame 'negative_tweets'.
negative_tweets = negative_tweets[['text_akhir', 'polarity_score', 'polarity','text_stopword']]

# Mengurutkan DataFrame 'negative_tweets' berdasarkan 'polarity_score' secara menaik (ascending).
negative_tweets = negative_tweets.sort_values(by='polarity_score', ascending=True)

# Memilih 10 baris pertama dari DataFrame yang sudah diurutkan.
negative_tweets = negative_tweets[0:10]

# Mengatur ulang indeks DataFrame agar dimulai dari 0.
negative_tweets = negative_tweets.reset_index(drop=True)

# Menambahkan 1 ke semua indeks DataFrame.
negative_tweets.index += 1

In [None]:
# Membuat string kosong 'list_words' yang akan digunakan untuk mengumpulkan semua kata dari teks yang sudah dibersihkan.
list_words = ''

# Iterasi melalui setiap tweet dalam kolom 'text_stopword' dari DataFrame 'clean_df'.
for tweet in clean_df['text_stopword']:
    # Iterasi melalui setiap kata dalam tweet.
    for word in tweet:
        # Menambahkan kata ke dalam 'list_words'.
        list_words += ' ' + (word)

# Membuat objek WordCloud dengan parameter tertentu.
wordcloud = WordCloud(width=600, height=400, background_color='white', min_font_size=10).generate(list_words)

# Membuat gambar dan sumbu untuk menampilkan word cloud.
fig, ax = plt.subplots(figsize=(8, 6))

# Menetapkan judul untuk word cloud.
ax.set_title('Word Cloud of Tweets Data', fontsize=18)

# Menonaktifkan grid pada sumbu.
ax.grid(False)

# Menampilkan word cloud dalam gambar.
ax.imshow((wordcloud))

# Mengatur layout gambar.
fig.tight_layout(pad=0)

# Menyembunyikan sumbu.
ax.axis('off')

# Menampilkan word cloud.
plt.show()

In [None]:
# Membuat string kosong 'list_words' yang akan digunakan untuk mengumpulkan semua kata dari teks yang sudah dibersihkan dalam tweet negatif.
list_words = ''

# Iterasi melalui setiap tweet dalam kolom 'text_stopword' dari DataFrame 'negative_tweets'.
for tweet in negative_tweets['text_stopword']:
    # Iterasi melalui setiap kata dalam tweet.
    for word in tweet:
        # Menambahkan kata ke dalam 'list_words'.
        list_words += ' ' + (word)

# Membuat objek WordCloud dengan parameter tertentu.
wordcloud = WordCloud(width=600, height=400, background_color='white', min_font_size=10).generate(list_words)

# Membuat gambar dan sumbu untuk menampilkan word cloud.
fig, ax = plt.subplots(figsize=(8, 6))

# Menetapkan judul untuk word cloud.
ax.set_title('Word Cloud of Negative Tweets Data', fontsize=18)

# Menonaktifkan grid pada sumbu.
ax.grid(False)

# Menampilkan word cloud dalam gambar.
ax.imshow((wordcloud))

# Mengatur layout gambar.
fig.tight_layout(pad=0)

# Menyembunyikan sumbu.
ax.axis('off')

# Menampilkan word cloud.
plt.show()

In [None]:
# Membuat string kosong 'list_words' yang akan digunakan untuk mengumpulkan semua kata dari teks yang sudah dibersihkan dalam tweet positif.
list_words = ''

# Iterasi melalui setiap tweet dalam kolom 'text_stopword' dari DataFrame 'positive_tweets'.
for tweet in positive_tweets['text_stopword']:
    # Iterasi melalui setiap kata dalam tweet.
    for word in tweet:
        # Menambahkan kata ke dalam 'list_words'.
        list_words += ' ' + (word)

# Membuat objek WordCloud dengan parameter tertentu.
wordcloud = WordCloud(width=600, height=400, background_color='white', min_font_size=10).generate(list_words)

# Membuat gambar dan sumbu untuk menampilkan word cloud.
fig, ax = plt.subplots(figsize=(8, 6))

# Menetapkan judul untuk word cloud.
ax.set_title('Word Cloud of Positive Tweets Data', fontsize=18)

# Menonaktifkan grid pada sumbu.
ax.grid(False)

# Menampilkan word cloud dalam gambar.
ax.imshow((wordcloud))

# Mengatur layout gambar.
fig.tight_layout(pad=0)

# Menyembunyikan sumbu.
ax.axis('off')

# Menampilkan word cloud.
plt.show()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import TfidfVectorizer

# Set the figure size
plt.figure(figsize=(10, 6))

# Check class distribution
class_dist_plot = sns.countplot(x='polarity', data=clean_df)
plt.title('Class Distribution')

# Add counts above the bars on the plot
for p in class_dist_plot.patches:
    class_dist_plot.annotate(format(p.get_height(), '.0f'),
                              (p.get_x() + p.get_width() / 2., p.get_height()),
                              ha='center', va='center',
                              xytext=(0, 10),
                              textcoords='offset points')

plt.show()

# Set the figure size
plt.figure(figsize=(10, 6))

# Visualize text length distribution
clean_df['text_length'] = clean_df['text_akhir'].apply(lambda x: len(x.split()))
sns.histplot(clean_df['text_length'])
plt.title('Text Length Distribution')
plt.show()

# Set the figure size
plt.figure(figsize=(12, 6))

# Visualize most frequent words
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(clean_df['text_akhir'])
tfidf_df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())
tfidf_df = tfidf_df.sum().reset_index(name='jumlah')
tfidf_df = tfidf_df.sort_values('jumlah', ascending=False).head(20)
sns.barplot(x='jumlah', y='index', data=tfidf_df)
plt.title('Most Frequent Words')
plt.show()

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.naive_bayes import BernoulliNB
from sklearn.metrics import accuracy_score, precision_score

## **Data Splitting**

In [None]:
clean_df.head(2)

In [None]:
# Pisahkan data menjadi fitur (tweet) dan label (sentimen)
X = clean_df['text_akhir']
y = clean_df['polarity']

In [None]:
# Ekstraksi fitur dengan TF-IDF
tfidf = TfidfVectorizer(max_features=200, min_df=17, max_df=0.8 )
X_tfidf = tfidf.fit_transform(X)

In [None]:
# Konversi hasil ekstraksi fitur menjadi dataframe
features_df = pd.DataFrame(X_tfidf.toarray(), columns=tfidf.get_feature_names_out())

# Menampilkan hasil ekstraksi fitur
features_df

In [None]:
# Bagi data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

## **Pemodelan Naive Bayes**

In [None]:
from sklearn.naive_bayes import BernoulliNB

# Membuat objek model Naive Bayes (Bernoulli Naive Bayes)
naive_bayes = BernoulliNB()

# Melatih model Naive Bayes pada data pelatihan
naive_bayes.fit(X_train.toarray(), y_train)

# Prediksi sentimen pada data pelatihan dan data uji
y_pred_train_nb = naive_bayes.predict(X_train.toarray())
y_pred_test_nb = naive_bayes.predict(X_test.toarray())

# Evaluasi akurasi model Naive Bayes
accuracy_train_nb = accuracy_score(y_pred_train_nb, y_train)
accuracy_test_nb = accuracy_score(y_pred_test_nb, y_test)

# Menampilkan akurasi
print('Naive Bayes - accuracy_train:', accuracy_train_nb)
print('Naive Bayes - accuracy_test:', accuracy_test_nb)

## **Random Forest**

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Membuat objek model Random Forest
random_forest = RandomForestClassifier()

# Melatih model Random Forest pada data pelatihan
random_forest.fit(X_train.toarray(), y_train)

# Prediksi sentimen pada data pelatihan dan data uji
y_pred_train_rf = random_forest.predict(X_train.toarray())
y_pred_test_rf = random_forest.predict(X_test.toarray())

# Evaluasi akurasi model Random Forest
accuracy_train_rf = accuracy_score(y_pred_train_rf, y_train)
accuracy_test_rf = accuracy_score(y_pred_test_rf, y_test)

# Menampilkan akurasi
print('Random Forest - accuracy_train:', accuracy_train_rf)
print('Random Forest - accuracy_test:', accuracy_test_rf)

## **Logistic Regression**

In [None]:
from sklearn.linear_model import LogisticRegression

# Membuat objek model Logistic Regression
logistic_regression = LogisticRegression()

# Melatih model Logistic Regression pada data pelatihan
logistic_regression.fit(X_train.toarray(), y_train)

# Prediksi sentimen pada data pelatihan dan data uji
y_pred_train_lr = logistic_regression.predict(X_train.toarray())
y_pred_test_lr = logistic_regression.predict(X_test.toarray())

# Evaluasi akurasi model Logistic Regression pada data pelatihan
accuracy_train_lr = accuracy_score(y_pred_train_lr, y_train)

# Evaluasi akurasi model Logistic Regression pada data uji
accuracy_test_lr = accuracy_score(y_pred_test_lr, y_test)

# Menampilkan akurasi
print('Logistic Regression - accuracy_train:', accuracy_train_lr)
print('Logistic Regression - accuracy_test:', accuracy_test_lr)

## **Decision Tree**

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Membuat objek model Decision Tree
decision_tree = DecisionTreeClassifier()

# Melatih model Decision Tree pada data pelatihan
decision_tree.fit(X_train.toarray(), y_train)

# Prediksi sentimen pada data pelatihan dan data uji
y_pred_train_dt = decision_tree.predict(X_train.toarray())
y_pred_test_dt = decision_tree.predict(X_test.toarray())

# Evaluasi akurasi model Decision Tree
accuracy_train_dt = accuracy_score(y_pred_train_dt, y_train)
accuracy_test_dt = accuracy_score(y_pred_test_dt, y_test)

# Menampilkan akurasi
print('Decision Tree - accuracy_train:', accuracy_train_dt)
print('Decision Tree - accuracy_test:', accuracy_test_dt)

In [None]:
import pandas as pd

# Membuat DataFrame untuk hasil akurasi
results_df = pd.DataFrame({
    'Model': ['Naive Bayes', 'Random Forest', 'Logistic Regression', 'Decision Tree'],
    'Accuracy Train': [accuracy_train_nb, accuracy_train_rf, accuracy_train_lr, accuracy_train_dt],
    'Accuracy Test': [accuracy_test_nb, accuracy_test_rf, accuracy_test_lr, accuracy_test_dt]
})
# Menampilkan hanya kolom "Accuracy Test"
accuracy_test_only = results_df[['Model', 'Accuracy Test']]
print(accuracy_test_only)

In [None]:
# Mengurutkan DataFrame berdasarkan kolom "Accuracy Test" dari tertinggi ke terendah
accuracy_test_sorted = accuracy_test_only.sort_values(by='Accuracy Test', ascending=False)

# Menampilkan DataFrame yang telah diurutkan
print(accuracy_test_sorted)


Dalam kasus Sentiment Analysis ini, algoritma Logistic Regression mencapai akurasi tertinggi sebesar 92,64%. Oleh karena itu, algoritma Regression dipilih sebagai model utama yang akan digunakan untuk memprediksi sentimen pada kalimat-kalimat baru.

In [None]:
# Input kalimat baru dari pengguna
kalimat_baru = input("Masukkan kalimat baru: ")

# Melakukan preprocessing pada kalimat baru
kalimat_baru_cleaned = cleaningText(kalimat_baru)
kalimat_baru_casefolded = casefoldingText(kalimat_baru_cleaned)
kalimat_baru_slangfixed = fix_slangwords(kalimat_baru_casefolded)
kalimat_baru_tokenized = tokenizingText(kalimat_baru_slangfixed)
kalimat_baru_filtered = filteringText(kalimat_baru_tokenized)
kalimat_baru_final = toSentence(kalimat_baru_filtered)

# Menggunakan objek tfidf yang sudah di-fit dari pelatihan sebelumnya
X_kalimat_baru = tfidf.transform([kalimat_baru_final])

# Memperoleh prediksi sentimen kalimat baru
prediksi_sentimen = logistic_regression.predict(X_kalimat_baru)

# Menampilkan hasil prediksi
if prediksi_sentimen[0] == 'positive':
    print("Sentimen kalimat baru adalah POSITIF.")
else:
    print("Sentimen kalimat baru adalah NEGATIF.")

**TAMBAHAN: MODEL KNN (KEY NEAREST NEIGHBOR)**

In [None]:
# Import Library
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Membuat model KNN
knn_model = KNeighborsClassifier(n_neighbors=5)

# Melatih model KNN
knn_model.fit(X_train, y_train)

# Melakukan prediksi dengan model KNN
y_pred_knn = knn_model.predict(X_test)

# Menilai model KNN
knn_accuracy = accuracy_score(y_test, y_pred_knn)
print(f"Akurasi Model KNN: {knn_accuracy * 100:.2f}%")


In [None]:
!pip freeze > requirements.txt