# **Scraping Data Review APK Play Store**
Untuk mendapatkan data ulasan pengguna aplikasi **MyPertamina**, dilakukan proses web scraping terhadap halaman Google Play Store menggunakan bantuan pustaka Python yaitu google_play_scraper.

Proses Sraping ini meliputi:
1. Penentuan target aplikasi : https://play.google.com/store/apps/details?id=com.dafturn.mypertamina
2. Instalasi library scraper : google_play_scraper
3. Ekstraksi dan pembersihan data. Pembersihan meluputi penghapusan data yang kosong dan duplikasi
4. Menyimpan data ke format csv 

## **Import Library**

In [12]:
# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
from google_play_scraper import app, reviews, Sort, reviews_all

import csv

## **Scapping Dataset**

In [13]:
# Mengambil semua ulasan dari aplikasi dengan ID 'com.dafturn.mypertamina' di Google Play Store.
# Proses scraping mungkin memerlukan beberapa saat tergantung pada jumlah ulasan yang ada.
scrapreview = reviews_all(
    'com.dafturn.mypertamina',  # ID aplikasi
    lang='id',                  # Bahasa ulasan (default: 'en')
    country='id',               # Negara (default: 'us')
    sort=Sort.MOST_RELEVANT,    # Urutan ulasan (default: Sort.MOST_RELEVANT)
    count=10000                 # Jumlah maksimum ulasan yang ingin diambil
)

In [14]:
# Membuat DataFrame dari hasil scrapreview
app_reviews_df = pd.DataFrame(scrapreview)

# Menghitung jumlah baris dan kolom dalam DataFrame
jumlah_ulasan, jumlah_kolom = app_reviews_df.shape

app_reviews_df.shape

(139500, 11)

In [15]:
# Menampilkan lima baris pertama dari DataFrame app_reviews_df
app_reviews_df.head()

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,e83d4fab-25df-4364-83bd-5dbcace58852,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"aplikasi tidak bekerja, daftar akun sulit, bar...",1,41,4.6.9,2025-04-05 17:38:20,"Hai, Sobat Kamelia. Mohon maaf atas ketidaknya...",2025-04-06 15:11:54,4.6.9
1,3908997b-b657-4989-a787-b107b9beea21,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Aplikasi sangat buruk, bagian IT tidak bisa Me...",1,57,4.6.8,2025-03-22 17:54:03,,NaT,4.6.8
2,70afd7a2-174e-428d-9d9f-edd5cd58a711,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,tolong itu sistem error waktu mau ngirim dokum...,5,13,4.6.9,2025-04-08 17:49:39,,NaT,4.6.9
3,0be2f44f-f912-4e21-9716-4ddf6fc73cd3,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,aplikasi mypertamina ini gk berfungsi dgn baik...,1,19,4.6.9,2025-03-31 13:51:31,"Hai, Sobat Han. Mimin sarankan silakan coba cl...",2025-04-02 11:36:25,4.6.9
4,b48a051a-ca94-424d-bbac-ac59211ccabd,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,data kendaraan saya jumlah rodanya 2.. padahal...,1,10,4.6.9,2025-03-29 22:44:40,,NaT,4.6.9


In [16]:
# Menampilkan informasi tentang DataFrame app_reviews_df
app_reviews_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 139500 entries, 0 to 139499
Data columns (total 11 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   reviewId              139500 non-null  object        
 1   userName              139500 non-null  object        
 2   userImage             139500 non-null  object        
 3   content               139500 non-null  object        
 4   score                 139500 non-null  int64         
 5   thumbsUpCount         139500 non-null  int64         
 6   reviewCreatedVersion  121752 non-null  object        
 7   at                    139500 non-null  datetime64[ns]
 8   replyContent          18204 non-null   object        
 9   repliedAt             18204 non-null   datetime64[ns]
 10  appVersion            121752 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 11.7+ MB


In [17]:
# Membuat DataFrame baru (clean_df) dengan menghapus baris yang memiliki nilai yang hilang (NaN) dari app_reviews_df
clean_df = app_reviews_df.dropna()

In [18]:
# Menampilkan informasi tentang DataFrame clean_df setelah membersihkan nilai yang hilang (NaN)
clean_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16667 entries, 0 to 139274
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   reviewId              16667 non-null  object        
 1   userName              16667 non-null  object        
 2   userImage             16667 non-null  object        
 3   content               16667 non-null  object        
 4   score                 16667 non-null  int64         
 5   thumbsUpCount         16667 non-null  int64         
 6   reviewCreatedVersion  16667 non-null  object        
 7   at                    16667 non-null  datetime64[ns]
 8   replyContent          16667 non-null  object        
 9   repliedAt             16667 non-null  datetime64[ns]
 10  appVersion            16667 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 1.5+ MB


In [19]:
# Menghapus baris duplikat dari DataFrame clean_df
clean_df = clean_df.drop_duplicates()

# Menghitung jumlah baris dan kolom dalam DataFrame clean_df setelah menghapus duplikat
jumlah_ulasan_setelah_hapus_duplikat, jumlah_kolom_setelah_hapus_duplikat = clean_df.shape

clean_df.shape

(16667, 11)

In [20]:
clean_df.to_csv('ulasan_aplikasi_clean.csv', index=False, encoding='utf-8')