# **Proyek Analisis Sentimen: Scraping Data Ulasan Aplikasi Tokopedia**

Notebook ini bertujuan untuk melakukan scraping data ulasan dari aplikasi Tokopedia di Google Play Store menggunakan library `google-play-scraper`. Data yang dihasilkan akan disimpan dalam format CSV untuk digunakan pada tahap pemodelan.

- **Nama:** Muhammad Husain Fadhlillah
- **Email Student:** mc006d5y2343@student.devacademy.id
- **Cohort ID:** MC006D5Y2343

## **1. Instalasi Library**

In [1]:
# Menginstal library google-play-scraper jika belum terpasang di lingkungan kerja
!pip install google-play-scraper -q

* **Metode yang digunakan** → Metode yang digunakan adalah instalasi *library* Python `google-play-scraper` menggunakan manajer paket `pip`. Perintah `!pip install` dieksekusi langsung dari dalam lingkungan *notebook* (seperti Google Colab atau Jupyter) untuk menambahkan *library* ini ke sesi kerja saat ini. Opsi `-q` (*quiet*) ditambahkan untuk menekan *output* proses instalasi yang panjang, sehingga tampilan *notebook* lebih bersih dan ringkas.

* **Alasan penggunaan** → Sesuai dengan **kriteria utama proyek**, data yang akan dianalisis harus merupakan hasil *scraping* secara mandiri. *Library* `google-play-scraper` dipilih karena merupakan alat yang sangat relevan, efisien, dan populer untuk mengotomatisasi proses pengumpulan data ulasan (*reviews*) aplikasi langsung dari platform Google Play Store. Penggunaan *library* ini adalah langkah fundamental untuk memenuhi syarat pengumpulan data mentah, di mana proyek ini menargetkan **minimal 10.000 sampel data** untuk mencapai kriteria Bintang 5. Dengan alat ini, data ulasan yang menjadi dasar analisis sentimen dapat diperoleh secara terprogram dan dalam skala besar.

* **Insight dan Hasil yang didapat** → *Output* yang menunjukkan status `(berhasil)` adalah konfirmasi bahwa *library* `google-play-scraper` telah sukses terpasang di lingkungan kerja tanpa ada kendala teknis atau konflik dependensi. **Insight utamanya adalah bahwa fondasi untuk tahap pengumpulan data telah berhasil disiapkan.** Ini adalah langkah awal yang krusial; tanpanya, proses *scraping* tidak dapat dilakukan. Keberhasilan instalasi ini memvalidasi bahwa lingkungan pengembangan telah siap dan memungkinkan proyek untuk melanjutkan ke tahap selanjutnya, yaitu merancang skrip untuk menarik ribuan data ulasan yang akan menjadi objek utama dari analisis sentimen ini.

## **2. Import Library**

In [2]:
# Untuk mengabaikan peringatan yang tidak relevan agar output lebih bersih
import warnings
warnings.filterwarnings('ignore')

# Mengimpor library yang diperlukan
import pandas as pd
from google_play_scraper import Sort, reviews
import datetime as dt

print("Library berhasil diimpor!")

Library berhasil diimpor!


* **Metode yang digunakan** → Metode yang diterapkan adalah **impor *library* (pustaka) Python** yang akan menjadi fondasi untuk seluruh alur kerja proyek. Setiap *library* memiliki fungsi spesifik:
    * `warnings`: Digunakan untuk mengelola dan menyaring pesan peringatan yang mungkin muncul selama eksekusi kode.
    * `pandas` (diimpor sebagai `pd`): Pustaka fundamental untuk manipulasi dan analisis data, terutama untuk data terstruktur seperti tabel.
    * `google_play_scraper` (khususnya fungsi `reviews` dan `Sort`): Pustaka yang telah diinstal sebelumnya, kini fungsinya diimpor secara spesifik untuk digunakan dalam proses *scraping*.
    * `datetime` (diimpor sebagai `dt`): Pustaka standar Python untuk bekerja dengan objek tanggal dan waktu.

* **Alasan penggunaan** → Pemilihan *library* ini sangat strategis dan relevan dengan kebutuhan proyek analisis sentimen ini:
    * `warnings.filterwarnings('ignore')` digunakan untuk menjaga kebersihan dan keterbacaan *notebook*. Dengan menyembunyikan peringatan yang tidak krusial (misalnya, *deprecation warning* dari *library* lain), *output* menjadi lebih fokus pada hasil analisis yang penting bagi *reviewer*.
    * `pandas` adalah alat **wajib** dalam proyek ilmu data. Data ulasan yang akan di-*scrape* nantinya akan disimpan dan dikelola dalam struktur data **DataFrame**, yang memungkinkan pembersihan, transformasi, dan analisis data dilakukan secara efisien, terutama saat bekerja dengan puluhan ribu baris data.
    * Fungsi `reviews` dan `Sort` dari `google_play_scraper` adalah inti dari mekanisme pengumpulan data. `reviews` akan dipanggil untuk mengambil ulasan, sementara `Sort` akan digunakan untuk mengontrol urutan ulasan yang diambil (misalnya, berdasarkan yang terbaru atau yang paling relevan), memastikan data yang didapat sesuai dengan kebutuhan.
    * `datetime` diperlukan karena data ulasan biasanya menyertakan informasi tanggal (`timestamp`). *Library* ini akan berguna untuk memfilter data berdasarkan periode waktu tertentu atau untuk melakukan analisis tren sentimen dari waktu ke waktu.

* **Insight dan Hasil yang didapat** → *Output* `Library berhasil diimpor!` menandakan bahwa semua *library* yang dibutuhkan telah berhasil dimuat ke dalam memori tanpa adanya eror, seperti `ModuleNotFoundError`. **Insight utamanya adalah bahwa lingkungan kerja telah sepenuhnya siap dan terkonfigurasi untuk dua tahap krusial berikutnya: pengumpulan data dan manipulasi data.** Keberhasilan langkah ini mengonfirmasi tidak ada masalah pada instalasi Python maupun *library* itu sendiri.

## **3. Menentukan Parameter Scraping**

In [3]:
# Menentukan ID aplikasi Tokopedia di Google Play Store
# ID ini diambil dari URL laman aplikasi di Play Store: https://play.google.com/store/apps/details?id=com.tokopedia.tkpd&hl=id
app_id = 'com.tokopedia.tkpd'

# Menentukan jumlah ulasan yang ingin diambil
# Kita ambil 15.000 untuk memastikan data setelah pembersihan tetap di atas 10.000
jumlah_ulasan = 15000

print(f"ID Aplikasi yang akan di-scrape: {app_id}")
print(f"Target Jumlah Ulasan: {jumlah_ulasan}")

ID Aplikasi yang akan di-scrape: com.tokopedia.tkpd
Target Jumlah Ulasan: 15000


* **Metode yang digunakan** → Metode yang diterapkan pada tahap ini adalah **inisialisasi parameter**. Dua variabel kunci didefinisikan: `app_id` (sebagai *string*) dan `jumlah_ulasan` (sebagai *integer*). Parameter ini akan berfungsi sebagai argumen input untuk fungsi *scraping* dari *library* `google-play-scraper` pada langkah berikutnya.

* **Alasan penggunaan** → Penetapan parameter ini adalah langkah strategis yang mendefinisikan lingkup dan target pengumpulan data:
    * **`app_id = 'com.tokopedia.tkpd'`**: Aplikasi Tokopedia dipilih sebagai subjek analisis karena merupakan salah satu platform *e-commerce* terbesar di Indonesia. Hal ini menjamin ketersediaan volume data ulasan yang sangat besar, beragam, dan relevan dengan konteks pengguna di Indonesia, menjadikannya sumber data yang kaya untuk analisis sentimen.
    * **`jumlah_ulasan = 15000`**: Jumlah target ulasan ditetapkan sebesar 15.000, melebihi syarat minimal **10.000 sampel** untuk Bintang 5. Keputusan ini bersifat **proaktif dan kritis**. Dalam praktik, data mentah hasil *scraping* sering kali mengandung *noise* (duplikasi, ulasan kosong, ulasan tidak relevan, atau ulasan dalam bahasa asing). Dengan menargetkan jumlah yang lebih tinggi, kita menciptakan *buffer* atau cadangan untuk memastikan bahwa setelah proses **pembersihan data (data cleaning)**, jumlah sampel yang valid dan siap digunakan akan tetap memenuhi atau bahkan melampaui target minimal yang disyaratkan proyek. Ini menunjukkan perencanaan yang matang.

* **Insight dan Hasil yang didapat** → *Output* program ini secara eksplisit mengonfirmasi parameter yang akan digunakan, yaitu aplikasi **Tokopedia** dengan target **15.000 ulasan**. **Insight utamanya adalah bahwa ruang lingkup pengumpulan data kini telah ditetapkan secara konkret dan dapat direproduksi.** Proyek tidak lagi bersifat abstrak, melainkan memiliki target yang jelas dan terukur. Langkah ini secara efektif menyelesaikan tahap persiapan dan mendefinisikan "apa" dan "berapa banyak" data yang akan dikumpulkan.

## **4. Melakukan Proses Scraping**

In [4]:
# Proses scraping data ulasan menggunakan fungsi 'reviews'
# Fungsi ini akan mengambil ulasan hingga jumlah 'count' yang ditentukan
# Sort.MOST_RELEVANT digunakan untuk mendapatkan ulasan yang dianggap paling relevan oleh Play Store
# lang='id' dan country='id' untuk memastikan ulasan yang didapat berbahasa Indonesia

print("Memulai proses scraping...")
hasil_scraping, continuation_token = reviews(
    app_id,
    lang='id',
    country='id',
    sort=Sort.MOST_RELEVANT,
    count=jumlah_ulasan,
    filter_score_with=None # Mengambil semua skor rating (bintang 1 hingga 5)
)

print(f"Proses scraping selesai. Berhasil mengumpulkan {len(hasil_scraping)} ulasan.")

Memulai proses scraping...
Proses scraping selesai. Berhasil mengumpulkan 15000 ulasan.


* **Metode yang digunakan** → Metode yang dieksekusi adalah **otomatisasi pengumpulan data (automated data scraping)** menggunakan fungsi `reviews` dari *library* `google-play-scraper`. Fungsi ini dipanggil dengan serangkaian parameter yang telah ditentukan sebelumnya untuk mengarahkan proses *scraping* secara spesifik.

* **Alasan penggunaan** → Pemanggilan fungsi ini adalah langkah eksekusi inti yang secara langsung memenuhi **kriteria utama proyek** yaitu mengumpulkan data secara mandiri. Setiap parameter dipilih dengan alasan yang kritis:
    * `lang='id'` dan `country='id'`: Parameter ini krusial untuk memastikan data yang dikumpulkan **sangat relevan** dengan konteks proyek. Dengan menetapkan bahasa dan negara ke Indonesia, kita secara proaktif menyaring ulasan dari sumbernya, sehingga data yang didapat mayoritas besar akan berbahasa Indonesia dan cocok untuk dianalisis oleh model sentimen berbahasa Indonesia.
    * `sort=Sort.MOST_RELEVANT`: Opsi ini dipilih ketimbang `Sort.NEWEST` untuk mendapatkan ulasan yang oleh algoritma Google dianggap paling informatif dan bermanfaat. Ulasan relevan cenderung lebih kaya akan opini dan detail, sehingga memberikan materi teks yang lebih berkualitas untuk melatih model analisis sentimen.
    * `count=jumlah_ulasan`: Menggunakan variabel `jumlah_ulasan` (15.000) sebagai target untuk memastikan volume data mentah yang besar, sesuai dengan strategi untuk mendapatkan lebih dari 10.000 data bersih di akhir proses.
    * `filter_score_with=None`: Ini adalah keputusan **paling fundamental** untuk proyek analisis sentimen. Dengan tidak memfilter berdasarkan skor (rating bintang), kita memastikan bahwa data yang terkumpul mencakup **seluruh spektrum sentimen**: ulasan negatif (bintang 1-2), netral (bintang 3), dan positif (bintang 4-5). Ketiadaan filter ini menjamin keragaman data yang esensial untuk melatih model yang seimbang dan tidak bias.

* **Insight dan Hasil yang didapat** → *Output* `Proses scraping selesai. Berhasil mengumpulkan 15000 ulasan.` secara lugas mengonfirmasi keberhasilan eksekusi. **Insight utamanya adalah bahwa tahap akuisisi data telah selesai dengan sukses, dan aset data mentah untuk proyek ini kini telah tersedia.** Proyek telah berhasil mencapai target volume (15.000 sampel) dan keragaman (semua rating). Data ini, yang tersimpan dalam variabel `hasil_scraping`, merupakan fondasi mentah yang akan diproses pada tahap-tahap selanjutnya.

## **5. Menyimpan Data ke dalam Format CSV**

In [5]:
# Mengubah hasil scraping (yang berupa list of dictionary) menjadi DataFrame pandas
df_ulasan = pd.DataFrame(hasil_scraping)

# Membuat nama file yang dinamis berdasarkan ID aplikasi dan jumlah data
nama_file = f"tokopedia_reviews_{len(df_ulasan)}.csv"

# Menyimpan DataFrame ke dalam file CSV. index=False agar indeks DataFrame tidak ikut tersimpan
df_ulasan.to_csv(nama_file, index=False)

print(f"Data berhasil disimpan dalam file: {nama_file}")
print("Menampilkan 5 baris pertama dari data:")
df_ulasan.head()

Data berhasil disimpan dalam file: tokopedia_reviews_15000.csv
Menampilkan 5 baris pertama dari data:


Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,ceacddfc-63fb-4e47-b055-4010782464c2,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"dulu saya pake Mitra Tokopedia, karena sudah d...",5,2,3.315.0,2025-06-06 21:34:00,,NaT,3.315.0
1,82e29807-9198-4335-a6a4-3c762b78ac21,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,kok sekarang Tokopedia jadi jelek abis yak? mu...,1,132,3.314.0,2025-06-07 12:47:05,,NaT,3.314.0
2,9ff149a0-33ac-41d4-95b7-f8e9e00cfb35,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Semenjak Tokopedia di bawah naungan Tiktok, ma...",1,249,3.314.0,2025-06-02 10:55:50,,NaT,3.314.0
3,5e091935-1fbc-4097-820e-5237e6c3d73c,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"lebih mudah belanja di toko oren (sho...), laz...",1,4,3.315.0,2025-06-12 07:21:24,,NaT,3.315.0
4,96c5aa7d-3c77-4b6b-bc0f-46435ef45f3e,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Kolaborasi & integrasi Tokopedia, Gopay & Bank...",1,161,3.315.0,2025-06-11 05:53:25,"Halo Toppers, terima kasih atas rating yang ka...",2025-04-28 12:27:13,3.315.0


* **Metode yang digunakan** → Tahap ini menggunakan dua metode utama:
    1.  **Strukturisasi Data**: Hasil *scraping* yang awalnya berformat *list of dictionaries* diubah menjadi struktur data tabular dua dimensi menggunakan `pandas.DataFrame()`. Ini adalah langkah standar untuk mengubah data semi-terstruktur menjadi format yang terstruktur dan siap analisis.
    2.  **Persistensi Data**: `DataFrame` yang telah dibuat kemudian disimpan ke dalam sebuah file fisik dengan format Comma-Separated Values (.csv) menggunakan metode `.to_csv()`. Ini membuat data menjadi persisten atau tidak hilang saat sesi *notebook* berakhir.

* **Alasan penggunaan** →
    * **Penggunaan DataFrame**: Data dalam format `DataFrame` jauh lebih mudah untuk dimanipulasi, dibersihkan, dan dianalisis dibandingkan format `list` mentah. `pandas` menyediakan *toolkit* yang sangat kaya untuk melakukan operasi seperti seleksi kolom, filtering baris, dan transformasi data, yang semuanya akan sangat diperlukan pada tahap pra-pemrosesan.
    * **Penyimpanan ke CSV**: Langkah ini sangat krusial untuk **efisiensi dan reproduktifitas**. Proses *scraping* memakan waktu dan bergantung pada koneksi internet. Dengan menyimpan hasilnya ke file `.csv`, kita membuat sebuah **checkpoint**. Untuk pengerjaan selanjutnya (pembersihan, pemodelan), kita tidak perlu lagi menjalankan skrip *scraping* dari awal, cukup dengan memuat data dari file `.csv` ini. Penggunaan `index=False` adalah *best practice* untuk mencegah penambahan kolom indeks yang tidak perlu di dalam file CSV.

* **Insight dan Hasil yang didapat** →
    * **Konfirmasi Penyimpanan**: *Output* teks `Data berhasil disimpan dalam file: tokopedia_reviews_15000.csv` mengonfirmasi bahwa 15.000 ulasan telah berhasil disimpan secara lokal. Ini memenuhi salah satu **syarat kelengkapan berkas submission**, yaitu menyertakan file dataset hasil *scraping*.
    * **Analisis Struktur Data Awal (dari `.head()`):** Tampilan lima baris pertama data memberikan *insight* pertama yang sangat berharga mengenai dataset yang kita miliki:
        * **Identifikasi Fitur Kunci**: Kita dapat langsung mengidentifikasi kolom-kolom yang paling vital. Kolom **`content`** berisi teks ulasan yang akan menjadi fitur utama (input `X`) untuk model kita. Kolom **`score`** berisi rating bintang (1-5) yang akan menjadi dasar untuk membuat label sentimen (target `y`).
        * **Potensi Pra-pemrosesan**: Dari `content`, terlihat bahwa teks masih mentah dan memerlukan pembersihan (misalnya, ada elipsis `...`, variasi kapitalisasi). Dari kolom lain seperti `userName` dan `userImage`, kita bisa melihat bahwa kolom-kolom ini kemungkinan tidak relevan untuk analisis sentimen dan dapat dibuang nanti untuk menyederhanakan *dataset*.
        * **Keragaman Data**: Sekilas, data menunjukkan keragaman skor (terlihat skor `5` dan `1`) dan adanya balasan dari pengembang (`replyContent`), yang mengindikasikan kekayaan data mentah yang kita peroleh.