# **Proyek Analisis Sentimen: Scraping Data Ulasan Aplikasi Tokopedia**

Notebook ini bertujuan untuk melakukan scraping data ulasan dari aplikasi Tokopedia di Google Play Store menggunakan library `google-play-scraper`. Data yang dihasilkan akan disimpan dalam format CSV untuk digunakan pada tahap pemodelan.

- **Nama:** Muhammad Husain Fadhlillah
- **Email Student:** mc006d5y2343@student.devacademy.id
- **Cohort ID:** MC006D5Y2343

## **1. Instalasi Library**

In [1]:
# Menginstal library google-play-scraper jika belum terpasang di lingkungan kerja
!pip install google-play-scraper -q

## **2. Import Library**

In [2]:
# Untuk mengabaikan peringatan yang tidak relevan agar output lebih bersih
import warnings
warnings.filterwarnings('ignore')

# Mengimpor library yang diperlukan
import pandas as pd
from google_play_scraper import Sort, reviews
import datetime as dt

print("Library berhasil diimpor!")

Library berhasil diimpor!


## **3. Menentukan Parameter Scraping**

In [3]:
# Menentukan ID aplikasi Tokopedia di Google Play Store
# ID ini diambil dari URL laman aplikasi di Play Store: https://play.google.com/store/apps/details?id=com.tokopedia.tkpd&hl=id
app_id = 'com.tokopedia.tkpd'

# Menentukan jumlah ulasan yang ingin diambil
# Kita ambil 15.000 untuk memastikan data setelah pembersihan tetap di atas 10.000
jumlah_ulasan = 15000

print(f"ID Aplikasi yang akan di-scrape: {app_id}")
print(f"Target Jumlah Ulasan: {jumlah_ulasan}")

ID Aplikasi yang akan di-scrape: com.tokopedia.tkpd
Target Jumlah Ulasan: 15000


## **4. Melakukan Proses Scraping**

In [4]:
# Proses scraping data ulasan menggunakan fungsi 'reviews'
# Fungsi ini akan mengambil ulasan hingga jumlah 'count' yang ditentukan
# Sort.MOST_RELEVANT digunakan untuk mendapatkan ulasan yang dianggap paling relevan oleh Play Store
# lang='id' dan country='id' untuk memastikan ulasan yang didapat berbahasa Indonesia

print("Memulai proses scraping...")
hasil_scraping, continuation_token = reviews(
    app_id,
    lang='id',
    country='id',
    sort=Sort.MOST_RELEVANT,
    count=jumlah_ulasan,
    filter_score_with=None # Mengambil semua skor rating (bintang 1 hingga 5)
)

print(f"Proses scraping selesai. Berhasil mengumpulkan {len(hasil_scraping)} ulasan.")

Memulai proses scraping...
Proses scraping selesai. Berhasil mengumpulkan 15000 ulasan.


## **5. Menyimpan Data ke dalam Format CSV**

In [5]:
# Mengubah hasil scraping (yang berupa list of dictionary) menjadi DataFrame pandas
df_ulasan = pd.DataFrame(hasil_scraping)

# Membuat nama file yang dinamis berdasarkan ID aplikasi dan jumlah data
nama_file = f"tokopedia_reviews_{len(df_ulasan)}.csv"

# Menyimpan DataFrame ke dalam file CSV. index=False agar indeks DataFrame tidak ikut tersimpan
df_ulasan.to_csv(nama_file, index=False)

print(f"Data berhasil disimpan dalam file: {nama_file}")
print("Menampilkan 5 baris pertama dari data:")
df_ulasan.head()

Data berhasil disimpan dalam file: tokopedia_reviews_15000.csv
Menampilkan 5 baris pertama dari data:


Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,ceacddfc-63fb-4e47-b055-4010782464c2,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"dulu saya pake Mitra Tokopedia, karena sudah d...",5,2,3.315.0,2025-06-06 21:34:00,,NaT,3.315.0
1,82e29807-9198-4335-a6a4-3c762b78ac21,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,kok sekarang Tokopedia jadi jelek abis yak? mu...,1,132,3.314.0,2025-06-07 12:47:05,,NaT,3.314.0
2,9ff149a0-33ac-41d4-95b7-f8e9e00cfb35,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Semenjak Tokopedia di bawah naungan Tiktok, ma...",1,249,3.314.0,2025-06-02 10:55:50,,NaT,3.314.0
3,5e091935-1fbc-4097-820e-5237e6c3d73c,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"lebih mudah belanja di toko oren (sho...), laz...",1,4,3.315.0,2025-06-12 07:21:24,,NaT,3.315.0
4,96c5aa7d-3c77-4b6b-bc0f-46435ef45f3e,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Kolaborasi & integrasi Tokopedia, Gopay & Bank...",1,161,3.315.0,2025-06-11 05:53:25,"Halo Toppers, terima kasih atas rating yang ka...",2025-04-28 12:27:13,3.315.0
