# Import Library

In [1]:
!pip install google-play-scraper

# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
from google_play_scraper import app, reviews, Sort, reviews_all

import pandas as pd  # Pandas untuk manipulasi dan analisis data
pd.options.mode.chained_assignment = None  # Menonaktifkan peringatan chaining

import csv




[notice] A new release of pip is available: 23.2.1 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


# Scraping Dataset

Pada proyek ini, akan dilakukan analisis sentimen terhadap ulasan dan pendapat pengguna terkait aplikasi "My Telkomsel" di Play Store. Analisis sentimen akan membantu kita untuk memahami bagaimana pengguna merasakan dan mengungkapkan pandangan mereka terhadap aplikasi ini.

Dengan menggunakan berbagai teknik pemrosesan teks dan algoritma machine learning, kita akan mencoba mengidentifikasi apakah ulasan pengguna terhadap aplikasi "My Telkomsel" cenderung positif, negatif, atau netral. Hasil analisis sentimen ini dapat memberikan wawasan berharga kepada pengembang aplikasi untuk meningkatkan pengalaman pengguna.

In [2]:
# Mengambil semua ulasan dari aplikasi dengan ID 'com.telkomsel.telkomselcm' di Google Play Store.
# Proses scraping mungkin memerlukan beberapa saat tergantung pada jumlah ulasan yang ada.
scrapreview = reviews_all(
    'com.telkomsel.telkomselcm',       # ID aplikasi
    lang='id',                  # Bahasa ulasan (default: 'en')
    country='id',               # Negara (default: 'us')
    sort=Sort.MOST_RELEVANT,    # Urutan ulasan (default: Sort.MOST_RELEVANT)
    count=10000                 # Jumlah maksimum ulasan yang ingin diambil
)

In [3]:
with open('ulasan_mytelkomsel.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['Review'])  # Menulis header kolom
    for review in scrapreview:
        writer.writerow([review['content']])  # Menulis konten ulasan ke dalam file CSV

# Loading Data

In [4]:
app_reviews_df = pd.DataFrame(scrapreview)
app_reviews_df.to_csv('ulasan_mytelkomsel.csv', index=False)
 
# Membuat DataFrame dari hasil scrapreview
app_reviews_df = pd.DataFrame(scrapreview)
 
# Menghitung jumlah baris dan kolom dalam DataFrame
jumlah_ulasan, jumlah_kolom = app_reviews_df.shape

print(jumlah_ulasan, jumlah_kolom)

121500 11


In [5]:
# Menampilkan lima baris pertama dari DataFrame app_reviews_df
app_reviews_df.head()

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,fd62da3c-55cf-4b15-b76b-03fc83dabb5a,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Aplikasi aneh, setelah update malah jadi lemot...",1,19,8.4.2,2024-12-14 05:42:57,Hai Kak Anto. Mohon maaf untuk ketidaknyamanan...,2024-12-14 06:15:23,8.4.2
1,893c8377-8428-46ce-b38d-e6586e101c2e,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Aplikasi provider yg paling sering update, tap...",2,171,8.4.2,2024-12-07 12:04:12,Hai Kak Khoirul. Mohon maaf untuk ketidaknyama...,2024-12-07 12:57:13,8.4.2
2,fd00a378-5921-4b6a-874f-5527b9950661,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Untuk pengembang aplikasi MyTelkomsel tolong u...,1,176,8.4.2,2024-12-09 09:30:04,,NaT,8.4.2
3,f2a93d83-809e-43e3-a0f8-02335ffffff8,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Saya user Indihome, lebih baik aplikasinya di ...",2,147,8.4.2,2024-12-04 16:14:25,,NaT,8.4.2
4,6c30adf7-83e1-4617-abd0-e198c108c4c4,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Aplikasi gak guna pas dibuka aplikasinya malah...,1,212,8.4.2,2024-12-03 06:29:30,Hai Kak Masdelina. Mohon maaf untuk ketidaknya...,2024-12-03 10:46:19,8.4.2


In [6]:
# Menampilkan informasi tentang DataFrame app_reviews_df
app_reviews_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 121500 entries, 0 to 121499
Data columns (total 11 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   reviewId              121500 non-null  object        
 1   userName              121500 non-null  object        
 2   userImage             121500 non-null  object        
 3   content               121500 non-null  object        
 4   score                 121500 non-null  int64         
 5   thumbsUpCount         121500 non-null  int64         
 6   reviewCreatedVersion  99592 non-null   object        
 7   at                    121500 non-null  datetime64[ns]
 8   replyContent          68979 non-null   object        
 9   repliedAt             68979 non-null   datetime64[ns]
 10  appVersion            99592 non-null   object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 10.2+ MB


In [7]:
# Membuat DataFrame baru (clean_df) dengan menghapus baris yang memiliki nilai yang hilang (NaN) dari app_reviews_df
clean_df = app_reviews_df.dropna()

In [8]:
# Menghapus baris duplikat dari DataFrame clean_df
clean_df = clean_df.drop_duplicates()
 
# Menghitung jumlah baris dan kolom dalam DataFrame clean_df setelah menghapus duplikat
jumlah_ulasan_setelah_hapus_duplikat, jumlah_kolom_setelah_hapus_duplikat = clean_df.shape

print(jumlah_ulasan_setelah_hapus_duplikat, jumlah_kolom_setelah_hapus_duplikat)

56999 11


In [9]:
clean_df.to_csv('clean_ulasan_mytelkomsel.csv', index=False)