# **Scraping Data Review Aplikasi Gopay di Play Store**


Dataset yang digunakan pada proyek submisi ini adalah **review aplikasi GoPay di Play Store**. Dataset diperoleh melalui proses scraping menggunakan library Python bernama google_play_scraper.

Link Aplikasi GoPay:
https://play.google.com/store/apps/details?id=com.gojek.gopay&pcampaignid=web_share

Data ulasan yang akan di-scrape berasal dari review pengguna terhadap aplikasi GoPay di Google Play Store melalui tautan di atas.



# **1. Import Library**

In [153]:
# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
from google_play_scraper import app, reviews, Sort, reviews_all
import pandas as pd


# **2. Scraping Dataset**

In [154]:
# Mengambil semua ulasan dari aplikasi dengan ID 'com.gojek.gopay' di Google Play Store.
# Proses scraping mungkin memerlukan beberapa saat tergantung pada jumlah ulasan yang ada.
scrapreview = reviews_all(
    'com.gojek.gopay',     # ID aplikasi
    lang='id',             # Bahasa ulasan (default: 'en')
    country='id',          # Negara (default: 'us')
    sort=Sort.MOST_RELEVANT, # Urutan ulasan (default: Sort.MOST_RELEVANT)
    count=10000             # Jumlah maksimum ulasan yang ingin diambil
)

In [155]:
# Membuat DataFrame dari hasil scraping
review_df = pd.DataFrame(scrapreview)
review_df.head()

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,6393f631-adcf-40be-aeec-ac4e713bf7f3,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,topup paket data nggak masuk malah suruh chat ...,1,271,1.45.0,2025-04-16 14:26:32,"Hai Kak Ayustiva, mohon maaf telah membuat Kak...",2025-04-16 15:29:00,1.45.0
1,dc64ea1b-406a-429c-b170-9a38038656fe,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"tolong dong kakk, ini aku bayar token PLN dela...",1,52,1.45.0,2025-04-16 13:08:26,"Hai Kak Ziah, mohon maaf telah membuat Kakak k...",2025-04-16 14:13:54,1.45.0
2,bde95a83-7e31-439f-a180-88c0f2a42840,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,kecewa sama gopay dari tadi saya top up e wall...,1,37,1.45.0,2025-04-15 19:05:07,"Hai Kak Lukman, mohon maaf atas ketidaknyamana...",2025-04-16 00:05:38,1.45.0
3,7bb49aa1-d6b1-473d-9d38-19810d38a691,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Aplikasinya membingunkan. Semua fiturnya harus...,2,342,1.40.1,2025-02-05 01:21:13,"Hai Kak Puji, mohon maaf atas ketidaknyamanann...",2025-02-05 03:01:18,1.40.1
4,e020c77d-cf9b-48b7-b4a7-4d309d496f04,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Mohon di perbaiki lagi perihal top up uang ele...,3,200,1.40.1,2025-02-06 19:27:43,"Hai Kak @Paceapse, mohon maaf atas ketidaknyam...",2025-02-07 00:23:13,1.40.1


In [156]:
# Menampilkan informasi dataset
review_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 184500 entries, 0 to 184499
Data columns (total 11 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   reviewId              184500 non-null  object        
 1   userName              184500 non-null  object        
 2   userImage             184500 non-null  object        
 3   content               184500 non-null  object        
 4   score                 184500 non-null  int64         
 5   thumbsUpCount         184500 non-null  int64         
 6   reviewCreatedVersion  160903 non-null  object        
 7   at                    184500 non-null  datetime64[ns]
 8   replyContent          32561 non-null   object        
 9   repliedAt             32561 non-null   datetime64[ns]
 10  appVersion            160903 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 15.5+ MB


In [166]:
# Menghapus nilai kosong dari DataFrame
df_cleaned = review_df.dropna()

# Menghapus duplikasi berdasarkan kolom 'content' (isi ulasan)
df_cleaned = df_cleaned.drop_duplicates(subset='content')

# Menampilkan informasi dataset
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Index: 23956 entries, 0 to 177812
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   reviewId              23956 non-null  object        
 1   userName              23956 non-null  object        
 2   userImage             23956 non-null  object        
 3   content               23956 non-null  object        
 4   score                 23956 non-null  int64         
 5   thumbsUpCount         23956 non-null  int64         
 6   reviewCreatedVersion  23956 non-null  object        
 7   at                    23956 non-null  datetime64[ns]
 8   replyContent          23956 non-null  object        
 9   repliedAt             23956 non-null  datetime64[ns]
 10  appVersion            23956 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 2.2+ MB


In [167]:
# Menghitung jumlah baris dan kolom dalam DataFrame
jumlah_ulasan, jumlah_kolom = df_cleaned.shape
df_cleaned.shape

(23956, 11)

# **4. Mengeksport Data**

Simpan hasilnya ke dalam file CSV.

In [168]:
# Mengekspor hasil bersih ke file CSV
df_cleaned.to_csv('gopay_reviews_cleaned.csv', index=False, encoding='utf-8-sig')