# Scapping Dataset

Scraping data adalah proses pengambilan data secara otomatis dari sebuah situs web, aplikasi, atau media sosial. Teknik ini memungkinkan pengguna untuk mengumpulkan informasi yang ditampilkan pada paltform, seperti teks, gambar, atau elemen-elemen lainnya, untuk kemudian diolah atau dianalisis lebih lanjut.

In [7]:
!pip install google-play-scraper



In [8]:
import pandas as pd  # Pandas untuk manipulasi dan analisis data

# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
from google_play_scraper import app, reviews_all, Sort

# Mengambil semua ulasan dari aplikasi dengan ID 'com.EmasDigi' di Google Play Store.
# Proses scraping mungkin memerlukan beberapa saat tergantung pada jumlah ulasan yang ada.
scrapreview = reviews_all(
    'com.EmasDigi',          # ID aplikasi
    lang='id',             # Bahasa ulasan (default: 'en')
    country='id',          # Negara (default: 'us')
    sort=Sort.MOST_RELEVANT, # Urutan ulasan (default: Sort.MOST_RELEVANT)
    count=10000             # Jumlah maksimum ulasan yang ingin diambil
)

In [9]:
# Menyimpan ulasan dalam file CSV
import csv

with open('ulasan_aplikasi_pluang.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['Review'])  # Menulis header kolom
    for review in scrapreview:
        writer.writerow([review['content']])  # Menulis konten ulasan ke dalam file CSV

# Loading Dataset

In [10]:
app_reviews_df = pd.DataFrame(scrapreview)
app_reviews_df.shape
app_reviews_df.head()
app_reviews_df.to_csv('ulasan_aplikasi_pluang.csv', index=False)

In [11]:
# Membuat DataFrame dari hasil scrapreview
app_reviews_df = pd.DataFrame(scrapreview)

# Menghitung jumlah baris dan kolom dalam DataFrame
jumlah_ulasan, jumlah_kolom = app_reviews_df.shape


In [12]:
# Menampilkan lima baris pertama dari DataFrame app_reviews_df
app_reviews_df.head()

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,c02e9c9c-e7f4-4d83-a307-7767cb874ad2,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"UI nya mudah dipahami bagi saya yang pemula,ta...",5,79,6.0.4,2024-12-25 03:00:44,"Hai Sobat Cuan, terima kasih atas apresiasi ya...",2024-12-25 05:12:23,6.0.4
1,056e0bc7-45bb-4e84-90dd-ce10b85b0420,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Aplikasi sudah bagus, tapi tolong autoinvest k...",5,3,6.0.4,2025-01-21 00:54:35,"Hai Sobat Cuan, terima kasih atas apresiasi ya...",2025-01-21 05:06:45,6.0.4
2,c4cb775a-d2e2-44b1-9148-ceac55e2c810,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Sudah 1 tahun saya menggunakan Pluang, dan sej...",5,13,6.0.4,2025-01-13 01:19:38,"Hai Sobat Cuan, terima kasih atas kepercayaan ...",2025-01-13 05:12:18,6.0.4
3,33e16414-cb61-4120-b53c-6f4a5fe9f150,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"""Buka pluang"" aplikasi investasi adalah solusi...",5,5,6.0.4,2025-01-10 13:49:56,"Hai Sobat Cuan, terima kasih atas kepercayaan ...",2025-01-11 02:22:58,6.0.4
4,6cde012d-845f-43e3-811b-e2f07168ad58,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Baru aja install pluang, ternyata mengecewakan...",1,97,5.8.7,2024-11-06 12:28:28,"Hai Sobat Cuan, Maaf atas keterlambatan respon...",2024-11-09 04:43:34,5.8.7


In [13]:
# Menampilkan informasi tentang DataFrame app_reviews_df
app_reviews_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26943 entries, 0 to 26942
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   reviewId              26943 non-null  object        
 1   userName              26943 non-null  object        
 2   userImage             26943 non-null  object        
 3   content               26943 non-null  object        
 4   score                 26943 non-null  int64         
 5   thumbsUpCount         26943 non-null  int64         
 6   reviewCreatedVersion  22189 non-null  object        
 7   at                    26943 non-null  datetime64[ns]
 8   replyContent          26537 non-null  object        
 9   repliedAt             26537 non-null  datetime64[ns]
 10  appVersion            22189 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 2.3+ MB
