# **Scraping Data Review Aplikasi Canva di Play Store**


Dataset yang digunakan pada proyek submisi ini adalah **review aplikasi Canva di Play Store**. Dataset diperoleh melalui proses scraping menggunakan library Python bernama google_play_scraper.

Link Aplikasi Canva:
https://play.google.com/store/apps/details?id=com.canva.editor

Data ulasan yang akan di-scrape berasal dari review pengguna terhadap aplikasi GoPay di Google Play Store melalui tautan di atas.



# **1. Import Library**

In [None]:
!pip install google-play-scraper



In [None]:
# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
from google_play_scraper import app, reviews, Sort, reviews_all
import pandas as pd


# **2. Scraping Dataset**

In [None]:
# Mengambil semua ulasan dari aplikasi dengan ID 'com.gojek.gopay' di Google Play Store.
# Proses scraping mungkin memerlukan beberapa saat tergantung pada jumlah ulasan yang ada.
scrapreview = reviews_all(
    'com.canva.editor',     # ID aplikasi
    lang='id',             # Bahasa ulasan
    country='id',          # Negara
    sort=Sort.MOST_RELEVANT, # Urutan ulasan (default: Sort.MOST_RELEVANT)
    count=10000             # Jumlah maksimum ulasan yang ingin diambil
)

In [None]:
# Membuat DataFrame dari hasil scraping
review_df = pd.DataFrame(scrapreview)
review_df.head()

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,be62dda0-4bc2-43ff-ae46-ef4df55f4ce5,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"4 dulu yaa, punya ku ko opsi galeri nya cuma a...",4,8,2.308.0,2025-04-22 13:09:49,"Halo Padillhan, terima kasih atas masukan Anda...",2025-04-24 07:03:51,2.308.0
1,0904cdbc-b8e6-4a02-84aa-d69d2e9758fa,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"baguss bangett, sangat membantu aku mendesain ...",5,58,2.308.0,2025-04-18 00:50:48,,NaT,2.308.0
2,6b37ee2e-30b6-4168-8a1c-eb7fc9c0966f,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Gila bugg nya, loading di proyek 2 menit seten...",4,2,2.308.0,2025-04-22 11:03:18,"Hai Nurdiyansah, terima kasih telah menggunaka...",2025-04-23 11:20:35,2.308.0
3,a887be29-6865-4388-ad12-acca9a616efe,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,asli kenapa makin di update makin gak bagus tr...,1,3,2.306.1,2025-04-19 05:57:04,"Hai Muhammad, terima kasih telah menghubungi C...",2025-04-21 01:57:58,2.306.1
4,e1e5c544-59b9-4b38-8fb2-3470f1df3d58,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Aplikasi nya tidak bisa dibuka untuk di bebera...,1,30,2.306.1,2025-04-12 03:01:41,"Halo Dheas, terima kasih telah menghubungi Can...",2025-04-14 06:41:56,2.306.1


In [None]:
# Menampilkan informasi dataset
review_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 320349 entries, 0 to 320348
Data columns (total 11 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   reviewId              320349 non-null  object        
 1   userName              320349 non-null  object        
 2   userImage             320349 non-null  object        
 3   content               320348 non-null  object        
 4   score                 320349 non-null  int64         
 5   thumbsUpCount         320349 non-null  int64         
 6   reviewCreatedVersion  288553 non-null  object        
 7   at                    320349 non-null  datetime64[ns]
 8   replyContent          75577 non-null   object        
 9   repliedAt             75577 non-null   datetime64[ns]
 10  appVersion            288553 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 26.9+ MB


In [None]:
# Menghapus nilai kosong dari DataFrame
df_cleaned = review_df.dropna()

# Menghapus duplikasi berdasarkan kolom 'content' (isi ulasan)
df_cleaned = df_cleaned.drop_duplicates(subset='content')

# Menampilkan informasi dataset
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Index: 35705 entries, 0 to 303896
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   reviewId              35705 non-null  object        
 1   userName              35705 non-null  object        
 2   userImage             35705 non-null  object        
 3   content               35705 non-null  object        
 4   score                 35705 non-null  int64         
 5   thumbsUpCount         35705 non-null  int64         
 6   reviewCreatedVersion  35705 non-null  object        
 7   at                    35705 non-null  datetime64[ns]
 8   replyContent          35705 non-null  object        
 9   repliedAt             35705 non-null  datetime64[ns]
 10  appVersion            35705 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 3.3+ MB


In [None]:
# Menghitung jumlah baris dan kolom dalam DataFrame
jumlah_ulasan, jumlah_kolom = df_cleaned.shape
df_cleaned.shape

(35705, 11)

# **4. Mengeksport Data**

Simpan hasilnya ke dalam file CSV.

In [None]:
# Mengekspor hasil bersih ke file CSV
df_cleaned.to_csv('canva_reviews_cleaned.csv', index=False, encoding='utf-8-sig')