
# **First Project: Sentiment Analysis using Machine Learning**


Submission **Belajar Pengembangan Machine Learning – Proyek Analisis Sentimen** mengharuskan peserta melakukan scraping data secara mandiri menggunakan Python dari berbagai sumber seperti PlayStore, X, Instagram, atau e-commerce, dengan jumlah minimal 3.000 sampel. Data yang diperoleh harus melalui proses ekstraksi fitur dan pelabelan sebelum digunakan untuk pelatihan model dengan algoritma machine learning yang sesuai.

Model yang dikembangkan harus mencapai akurasi minimal 85% pada testing set agar dianggap memiliki kinerja yang baik dalam klasifikasi sentimen. Untuk penilaian tambahan, peserta disarankan menggunakan algoritma deep learning dengan akurasi training dan testing set di atas 92%, serta dataset minimal 10.000 sampel yang mencakup tiga kelas sentimen. Selain itu, peserta diminta melakukan tiga skema pelatihan berbeda dengan kombinasi algoritma, metode ekstraksi fitur, atau pembagian data, serta menyertakan proses inference atau testing yang menghasilkan output kategorikal seperti negatif, netral, dan positif dalam file `.ipynb` atau `.py`.


Submission harus menggunakan Python dan mencakup file notebook pelatihan model (`.ipynb`), kode scraping (`.py` atau `.ipynb`), file `requirements.txt`, dataset hasil scraping dalam format `.csv` atau `.json`, serta folder yang telah dikompresi dalam format zip. Notebook yang dikirim harus sudah dijalankan terlebih dahulu agar reviewer dapat langsung melihat output tanpa perlu mengeksekusinya ulang.

**Nama:** Sarah Adibah

**Email:** sarahadibah@06gmail.com

**Referensi**
[Sentimen Analisis pada Aplikasi By.U.](https://colab.research.google.com/drive/173RsZ-l3SAd2VZwKisXisxYbKKsp28Qd?usp=sharing)




# **3. Data Scrapping**

In [2]:
# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
!pip install google-play-scraper
from google_play_scraper import app, reviews, Sort, reviews_all

Collecting google-play-scraper
  Downloading google_play_scraper-1.2.7-py3-none-any.whl.metadata (50 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/50.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.2/50.2 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading google_play_scraper-1.2.7-py3-none-any.whl (28 kB)
Installing collected packages: google-play-scraper
Successfully installed google-play-scraper-1.2.7


In [3]:
import pandas as pd  # Pandas untuk manipulasi dan analisis data
pd.options.mode.chained_assignment = None  # Menonaktifkan peringatan chaining
import numpy as np  # NumPy untuk komputasi numerik
seed = 0
np.random.seed(seed)  # Mengatur seed untuk reproduktibilitas
import matplotlib.pyplot as plt  # Matplotlib untuk visualisasi data
import seaborn as sns  # Seaborn untuk visualisasi data statistik, mengatur gaya visualisasi

import datetime as dt  # Manipulasi data waktu dan tanggal
import re  # Modul untuk bekerja dengan ekspresi reguler
import string  # Berisi konstanta string, seperti tanda baca
from nltk.tokenize import word_tokenize  # Tokenisasi teks
from nltk.corpus import stopwords  # Daftar kata-kata berhenti dalam teks

!pip install sastrawi
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory  # Stemming (penghilangan imbuhan kata) dalam bahasa Indonesia
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory  # Menghapus kata-kata berhenti dalam bahasa Indonesia

from wordcloud import WordCloud  # Membuat visualisasi berbentuk awan kata (word cloud) dari teks

Collecting sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/209.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━[0m [32m122.9/209.7 kB[0m [31m3.5 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sastrawi
Successfully installed sastrawi-1.0.1


In [4]:
import nltk  # Import pustaka NLTK (Natural Language Toolkit).
nltk.download('punkt_tab')  # Mengunduh dataset yang diperlukan untuk tokenisasi teks.
nltk.download('stopwords')  # Mengunduh dataset yang berisi daftar kata-kata berhenti (stop words) dalam berbagai bahasa.

from nltk.tokenize import word_tokenize

def tokenizingText(text): # Tokenizing or splitting a string, text into a list of tokens
    text = word_tokenize(text)
    return text

nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [5]:
# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
from google_play_scraper import app, reviews_all, Sort

# Mengambil semua ulasan dari aplikasi dengan ID 'com.linkedin.android' di Google Play Store.
# Proses scraping mungkin memerlukan beberapa saat tergantung pada jumlah ulasan yang ada.
scrapreview = reviews_all(
    'com.linkedin.android',          # ID aplikasi
    lang='id',             # Bahasa ulasan (default: 'en')
    country='id',          # Negara (default: 'us')
    sort=Sort.MOST_RELEVANT, # Urutan ulasan (default: Sort.MOST_RELEVANT)
    count=10000             # Jumlah maksimum ulasan yang ingin diambil
)

In [6]:
df = pd.DataFrame(scrapreview[0: 10000])
df.to_csv('ulasan_aplikasi.csv')
df

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,5b3f8ca3-1dee-438e-bc61-2d9019d5382d,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Mau login selalu stuck di Verifikasi cepat, lo...",1,2,4.1.1033.1,2025-02-09 15:29:38,,NaT,4.1.1033.1
1,3e817104-84e5-4fd5-ba23-587e38fd1533,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Tolong kenapa susah benget ya login saya pengg...,1,426,4.1.1033.1,2025-02-10 14:02:26,,NaT,4.1.1033.1
2,b9065ff7-35a1-425e-8bfc-69a34d25ddc2,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Perbaiki lagi keamanan Linkedin buruk sekali, ...",1,51,4.1.1038,2025-02-25 10:32:34,,NaT,4.1.1038
3,4c49855a-564c-4ea4-9111-6f783d6a11ea,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,ini akun saya udh berkali2 ke ban ditambah skr...,1,68,4.1.1036,2025-02-17 12:06:36,,NaT,4.1.1036
4,26e00b60-c0c2-47c4-94b3-26b438442aba,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Apa yang terjadi dengan linkedln saya, sudah l...",1,545,4.1.1023,2025-01-13 02:34:29,,NaT,4.1.1023
...,...,...,...,...,...,...,...,...,...,...,...
9995,05910864-2122-4c6a-bc2e-5801b4914f95,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,bagus,4,0,4.1.873,2023-10-24 12:14:03,,NaT,4.1.873
9996,79910907-b2ce-4d5e-b5d4-3e6cfd8849a6,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Jelek,1,1,4.1.873,2024-03-07 01:54:15,,NaT,4.1.873
9997,c74041c4-188a-4baa-9927-eaace61d3caa,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Sangat baik,5,1,4.1.873,2023-11-09 01:11:53,,NaT,4.1.873
9998,e531dd31-d26d-4106-bdd0-1064144355b2,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Luar biasa,5,1,4.1.873,2023-11-18 15:31:07,,NaT,4.1.873


In [7]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive
