In [1]:
pip install google-play-scraper pandas

Collecting google-play-scraper
  Downloading google_play_scraper-1.2.7-py3-none-any.whl.metadata (50 kB)
[?25l     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/50.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m50.2/50.2 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
Downloading google_play_scraper-1.2.7-py3-none-any.whl (28 kB)
Installing collected packages: google-play-scraper
Successfully installed google-play-scraper-1.2.7


In [2]:
import pandas as pd
from google_play_scraper import Sort, reviews

# --- Konfigurasi Scraping ---
APP_ID = 'com.openai.chatgpt'
JUMLAH_ULASAN = 1500
NEGARA = 'id'
BAHASA = 'id'
NAMA_FILE_OUTPUT_SCRAPING = f'ulasan_chatgpt_raw_{NEGARA}_{JUMLAH_ULASAN}.csv' # Nama file untuk data mentah
NAMA_FILE_OUTPUT_CLEAN = f'ulasan_chatgpt_clean_{NEGARA}_{JUMLAH_ULASAN}.csv' # Nama file untuk data bersih

print(f"Memulai pengambilan {JUMLAH_ULASAN} ulasan untuk {APP_ID}...")

# 1. Proses Scraping
try:
    result, continuation_token = reviews(
        APP_ID,
        lang=BAHASA,
        country=NEGARA,
        sort=Sort.NEWEST,
        count=JUMLAH_ULASAN,
        filter_score_with=None
    )
    df_ulasan = pd.DataFrame(result)
except Exception as e:
    print(f"Terjadi kesalahan saat scraping: {e}")
    df_ulasan = pd.DataFrame() # Membuat DataFrame kosong jika gagal

# Memastikan ada data yang diambil
if df_ulasan.empty:
    print("Pengambilan data gagal atau tidak ada ulasan yang ditemukan.")
else:
    print("\nPengambilan data scraping selesai.")
    print(f"Total {len(df_ulasan)} ulasan berhasil diambil.")
    print("\nContoh 5 baris pertama data mentah:")
    print(df_ulasan.head())

    # Menyimpan data hasil scraping mentah ke file CSV
    print(f"\nMenyimpan data scraping mentah ke file: {NAMA_FILE_OUTPUT_SCRAPING}")
    df_ulasan.to_csv(NAMA_FILE_OUTPUT_SCRAPING, index=False, encoding='utf-8')

Memulai pengambilan 1500 ulasan untuk com.openai.chatgpt...

Pengambilan data scraping selesai.
Total 1500 ulasan berhasil diambil.

Contoh 5 baris pertama data mentah:
                               reviewId          userName  \
0  35e920dc-4208-4ae8-95b5-98487474eecf             MAR W   
1  2faac1eb-3820-4151-8f9d-932fdcbd042d   Absya Al-Nauroh   
2  4dc8db15-eff2-4415-9093-f84999e3abdf  Sartia Panjaitan   
3  f0321cac-3cb2-47f3-ac15-c6f6ef0d94ce      Yudi Gunawan   
4  1512266b-fca7-4f72-9c96-10e1e3cf64c3        Yosua Tipe   

                                           userImage  \
0  https://play-lh.googleusercontent.com/a/ACg8oc...   
1  https://play-lh.googleusercontent.com/a-/ALV-U...   
2  https://play-lh.googleusercontent.com/a/ACg8oc...   
3  https://play-lh.googleusercontent.com/a/ACg8oc...   
4  https://play-lh.googleusercontent.com/a/ACg8oc...   

                                             content  score  thumbsUpCount  \
0  aplikasi kagak jelas tidak semua info diberika

In [3]:
# 2. Case Folding (Preprocessing)
if not df_ulasan.empty:
    print("\nMelakukan Case Folding pada kolom 'content' (ulasan)...")
    # Fungsi lambda ini akan mengubah semua teks di kolom 'content' menjadi huruf kecil
    df_ulasan['content_clean'] = df_ulasan['content'].apply(lambda x: x.lower())

    # 3. Pemilihan Kolom dan Penyimpanan
    kolom_dipilih = [
        'userName',
        'score',
        'content',
        'content_clean', # Kolom baru hasil Case Folding
        'at',
        'thumbsUpCount'
    ]

    df_output = df_ulasan[kolom_dipilih]

    # Menyimpan data hasil case folding ke file CSV
    print(f"\nMenyimpan data hasil case folding ke file: {NAMA_FILE_OUTPUT_CLEAN}")
    df_output.to_csv(NAMA_FILE_OUTPUT_CLEAN, index=False, encoding='utf-8')

    print("\n--- Selesai ---")
    print(f"Total {len(df_output)} ulasan berhasil diproses.")
    print(f"Data tersimpan di file: {NAMA_FILE_OUTPUT_CLEAN}")
    print("\nContoh 5 baris pertama data (termasuk kolom content_clean):")
    display(df_output.head())
else:
    print("Tidak ada data untuk diproses (DataFrame df_ulasan kosong).")


Melakukan Case Folding pada kolom 'content' (ulasan)...

Menyimpan data hasil case folding ke file: ulasan_chatgpt_clean_id_1500.csv

--- Selesai ---
Total 1500 ulasan berhasil diproses.
Data tersimpan di file: ulasan_chatgpt_clean_id_1500.csv

Contoh 5 baris pertama data (termasuk kolom content_clean):


Unnamed: 0,userName,score,content,content_clean,at,thumbsUpCount
0,MAR W,1,aplikasi kagak jelas tidak semua info diberika...,aplikasi kagak jelas tidak semua info diberika...,2025-10-09 10:52:04,0
1,Absya Al-Nauroh,4,bagud,bagud,2025-10-09 10:51:13,0
2,Sartia Panjaitan,3,"Lumayan, tapi harus pakai berlangganan üôÅ","lumayan, tapi harus pakai berlangganan üôÅ",2025-10-09 10:48:52,0
3,Yudi Gunawan,4,mantap,mantap,2025-10-09 10:45:16,0
4,Yosua Tipe,5,ChatGPT merupakan bagian üòÉüòÉüòÉ,chatgpt merupakan bagian üòÉüòÉüòÉ,2025-10-09 10:43:30,0
