In [None]:
import pandas as pd
!pip install google-play-scraper
from google_play_scraper import app, reviews_all, Sort
import time

# --- Konfigurasi Awal ---
# ID Aplikasi Genshin Impact di Google Play Store
# Anda bisa menemukannya di URL: https://play.google.com/store/apps/details?id=com.miHoYo.GenshinImpact
app_id = 'com.miHoYo.GenshinImpact'

# Tentukan jumlah ulasan yang ingin di-scrape.
# PENTING: Jangan coba scrape semua 4.7 juta ulasan. Mulai dengan 10.000 atau 20.000.
# Ini sudah lebih dari cukup untuk datathon.
jumlah_ulasan = 4000

print(f"Memulai proses scraping untuk aplikasi: {app_id}")
print(f"Target jumlah ulasan: {jumlah_ulasan}")

# Mengukur waktu mulai
start_time = time.time()

# --- Proses Scraping ---
# Menggunakan fungsi reviews_all yang akan mengambil semua ulasan hingga batas tertentu.
# Sort.NEWEST: Mengambil ulasan terbaru lebih dulu (sangat penting untuk mendapatkan feedback terkini).
# lang='id', country='id': Fokus pada ulasan dari region Indonesia.
result = reviews_all(
    app_id,
    sleep_milliseconds=0, # Tidak perlu jeda, library sudah menanganinya
    lang='id',
    country='id',
    sort=Sort.NEWEST,
    count=jumlah_ulasan
)

# Mengukur waktu selesai
end_time = time.time()
execution_time = end_time - start_time

print(f"Proses scraping selesai dalam {execution_time:.2f} detik.")

# --- Konversi ke DataFrame & Penyimpanan ---
# Mengubah hasil (yang merupakan list dari dictionary) menjadi DataFrame Pandas.
# DataFrame adalah format tabel yang ideal untuk analisis data di Python.
df = pd.DataFrame(result)

# Menampilkan 5 baris pertama dari data untuk verifikasi
print("\n5 baris pertama dari data ulasan:")
print(df.head())

# Memilih kolom yang paling relevan untuk disimpan
# 'content' adalah teks ulasan, 'score' adalah rating bintang, 'at' adalah tanggal.
kolom_relevan = ['userName', 'content', 'score', 'at', 'thumbsUpCount']
df_filtered = df[kolom_relevan]

# Mengganti nama kolom agar lebih mudah dibaca
df_filtered = df_filtered.rename(columns={
    'userName': 'Nama Pengguna',
    'content': 'Teks Ulasan',
    'score': 'Rating Bintang',
    'at': 'Tanggal Ulasan',
    'thumbsUpCount': 'Jumlah Likes'
})

# Menyimpan DataFrame ke file CSV.
# Ini adalah langkah KRUSIAL. Setelah Anda punya file ini, Anda tidak perlu scraping lagi.
nama_file = 'reviews_genshin_impact_raw.csv'
df_filtered.to_csv(nama_file, index=False)

print(f"\nData telah berhasil disimpan ke dalam file: {nama_file}")
print(f"Total ulasan yang berhasil di-scrape: {len(df_filtered)}")

Collecting google-play-scraper
  Downloading google_play_scraper-1.2.7-py3-none-any.whl.metadata (50 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/50.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.2/50.2 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading google_play_scraper-1.2.7-py3-none-any.whl (28 kB)
Installing collected packages: google-play-scraper
Successfully installed google-play-scraper-1.2.7
Memulai proses scraping untuk aplikasi: com.miHoYo.GenshinImpact
Target jumlah ulasan: 50
Proses scraping selesai dalam 92.75 detik.

5 baris pertama dari data ulasan:
                               reviewId         userName  \
0  1f21af01-9c4f-4ff1-89c4-496e25e55db0  Pengguna Google   
1  7b0d0bd2-aefe-4772-9a95-bad1625ca76d  Pengguna Google   
2  0e33c806-237e-4913-81e2-ae83c8c04b17  Pengguna Google   
3  87fed35b-cdbc-4aee-809d-e61e365502b6  Pengguna Google   
4  88de21fc-b448-4824-a9