# Scraping Ulasan Google Play Store dengan Python

## Deskripsi Proyek
Notebook ini bertujuan untuk mengambil ulasan dari aplikasi **Wuthering Waves** (ID: `com.kurogame.wutheringwaves.global`) di Google Play Store menggunakan library `google-play-scraper`. Data yang dikumpulkan akan disimpan dalam format CSV untuk analisis lebih lanjut. Proses ini mencakup pengaturan parameter, scraping data, dan penyimpanan hasil.

## Informasi Pengembang
- **Nama**: Michael Teguh Carlo Simbolon
- **Cohort ID**: MS155D5Y0583
- **Tanggal**: 12 Maret 2025

## Prasyarat
Pastikan Anda telah menginstal library berikut sebelum menjalankan notebook ini:
```bash
pip install google-play-scraper pandas
```
- **`google-play-scraper`**: Untuk mengambil data ulasan dari Google Play Store.
- **`pandas`**: Untuk mengelola dan menyimpan data dalam format tabel.

## 1. Mengimpor Library yang Dibutuhkan

Langkah pertama adalah mengimpor library yang akan digunakan dalam proses scraping.

In [1]:
from google_play_scraper import reviews, Sort
import pandas as pd

# Verifikasi bahwa library berhasil diimpor
print("Library berhasil diimpor.")

Library berhasil diimpor.


## 2. Mengatur Parameter Scraping

Di sini, kita mendefinisikan parameter utama untuk proses scraping.

### Penjelasan Parameter:
- **`app_id`**: ID unik aplikasi di Google Play Store (contoh: `com.kurogame.wutheringwaves.global` untuk Wuthering Waves).
- **`max_reviews`**: Jumlah maksimum ulasan yang akan diambil (10.000 ulasan).
- **`batch_size`**: Jumlah ulasan yang diambil dalam satu permintaan (100 ulasan per batch, sesuai batasan library).

In [2]:
app_id = "com.kurogame.wutheringwaves.global"
max_reviews = 10000
batch_size = 100

# Menampilkan parameter untuk verifikasi
print(f"App ID: {app_id}")
print(f"Jumlah maksimum ulasan: {max_reviews}")
print(f"Ukuran batch: {batch_size}")

App ID: com.kurogame.wutheringwaves.global
Jumlah maksimum ulasan: 10000
Ukuran batch: 100


## 3. Inisialisasi Variabel

Sebelum memulai scraping, kita perlu menginisialisasi variabel yang akan digunakan.

### Penjelasan Variabel:
- **`data`**: List kosong untuk menyimpan ulasan dalam bentuk dictionary.
- **`counter`**: Penghitung jumlah ulasan yang telah diambil.
- **`continuation_token`**: Token untuk melanjutkan pengambilan data dari batch sebelumnya (awalnya `None`).

In [3]:
data = []
counter = 0
continuation_token = None

# Verifikasi inisialisasi
print("Variabel berhasil diinisialisasi.")

Variabel berhasil diinisialisasi.


## 4. Proses Scraping Ulasan

Bagian ini berisi logika utama untuk mengambil ulasan dari Google Play Store.

### Penjelasan Proses:
- **Notifikasi Awal**: Menampilkan pesan bahwa proses scraping dimulai.
- **Loop Utama**: Menggunakan `while` untuk mengambil ulasan hingga mencapai `max_reviews` atau tidak ada lagi data.
- **Fungsi `reviews`**:
  - **`app_id`**: ID aplikasi target.
  - **`lang='id'`**: Bahasa ulasan (Indonesia).
  - **`country='id'`**: Negara asal ulasan (Indonesia).
  - **`sort=Sort.NEWEST`**: Urutan ulasan dari terbaru.
  - **`count=batch_size`**: Jumlah ulasan per batch.
  - **`continuation_token`**: Token untuk melanjutkan dari batch sebelumnya.
- **Pengolahan Data**: Setiap ulasan disimpan dalam dictionary dengan kolom:
  - `Username`: Nama pengguna.
  - `Text`: Isi ulasan.
  - `Rating`: Skor (1-5).
  - `Tanggal`: Waktu ulasan dibuat.
  - `Jumlah Suka`: Jumlah suka pada ulasan.
  - `Balasan Pengembang`: Tanggapan dari pengembang (jika ada).
  - `Versi Aplikasi`: Versi aplikasi saat ulasan dibuat (jika ada).
- **Kondisi Berhenti**:
  - Jika `counter >= max_reviews`: Berhenti saat jumlah maksimum tercapai.
  - Jika `continuation_token` kosong: Berhenti saat tidak ada lagi data.

In [4]:
print("Memulai proses scraping...")

while counter < max_reviews:
    result, continuation_token = reviews(
        app_id,
        lang='id',
        country='id',
        sort=Sort.NEWEST,
        count=batch_size,
        continuation_token=continuation_token if counter > 0 else None
    )
    
    for review in result:
        data.append({
            "Username": review["userName"],
            "Text": review["content"],
            "Rating": review["score"],
            "Tanggal": review["at"],
            "Jumlah Suka": review["thumbsUpCount"],
            "Balasan Pengembang": review["replyContent"] if review["replyContent"] else None,
            "Versi Aplikasi": review["reviewCreatedVersion"] if review["reviewCreatedVersion"] else None
        })
        counter += 1
        print(f"Sukses ambil data ke - {counter}")
        
        if counter >= max_reviews:
            break
    
    if not continuation_token:
        print("Tidak ada lagi ulasan yang tersedia.")
        break

Memulai proses scraping...
Sukses ambil data ke - 1
Sukses ambil data ke - 2
Sukses ambil data ke - 3
Sukses ambil data ke - 4
Sukses ambil data ke - 5
Sukses ambil data ke - 6
Sukses ambil data ke - 7
Sukses ambil data ke - 8
Sukses ambil data ke - 9
Sukses ambil data ke - 10
Sukses ambil data ke - 11
Sukses ambil data ke - 12
Sukses ambil data ke - 13
Sukses ambil data ke - 14
Sukses ambil data ke - 15
Sukses ambil data ke - 16
Sukses ambil data ke - 17
Sukses ambil data ke - 18
Sukses ambil data ke - 19
Sukses ambil data ke - 20
Sukses ambil data ke - 21
Sukses ambil data ke - 22
Sukses ambil data ke - 23
Sukses ambil data ke - 24
Sukses ambil data ke - 25
Sukses ambil data ke - 26
Sukses ambil data ke - 27
Sukses ambil data ke - 28
Sukses ambil data ke - 29
Sukses ambil data ke - 30
Sukses ambil data ke - 31
Sukses ambil data ke - 32
Sukses ambil data ke - 33
Sukses ambil data ke - 34
Sukses ambil data ke - 35
Sukses ambil data ke - 36
Sukses ambil data ke - 37
Sukses ambil data ke

## 5. Menyimpan Data ke File CSV

Setelah data terkumpul, kita mengonversinya menjadi DataFrame dan menyimpannya sebagai file CSV.

### Penjelasan:
- **`pd.DataFrame(data)`**: Mengubah list `data` menjadi DataFrame.
- **`to_csv`**: Menyimpan DataFrame ke file `dataset.csv`.
  - **`index=False`**: Tidak menyertakan indeks baris.
  - **`encoding='utf-8'`**: Mendukung karakter khusus (misalnya, bahasa Indonesia).
- **Output**: Menampilkan jumlah data yang diambil dan lokasi file.

In [5]:
df = pd.DataFrame(data)
df.to_csv("dataset.csv", index=False, encoding="utf-8")
print(f"\nTotal data berhasil diambil: {len(df)}")
print("Data disimpan di: dataset.csv")


Total data berhasil diambil: 10000
Data disimpan di: dataset.csv


## 6. Catatan dan Rekomendasi

### Catatan Penting:
- **Batasan Library**: Jumlah ulasan yang dapat diambil mungkin dibatasi oleh `google-play-scraper`. Jika Anda membutuhkan lebih dari 10.000 ulasan, pertimbangkan untuk menjalankan ulang dengan jeda waktu.
- **Etika Scraping**: Gunakan data hanya untuk tujuan yang sah dan patuhi kebijakan Google Play Store.
- **Pemecahan Masalah**: Jika terjadi error seperti `NameError`, pastikan sel import library dijalankan terlebih dahulu.

### Rekomendasi:
- Tambahkan penundaan (`time.sleep`) antar batch untuk menghindari pemblokiran.
- Analisis data lebih lanjut menggunakan pandas (misalnya, distribusi rating atau analisis sentimen).