# **Proyek Analisis Sentimen: Scraping Ulasan Aplikasi Duolingo**

- **Nama:** Muhammad Husain Fadhlillah
- **Email Student:** mc006d5y2343@student.devacademy.id
- **Cohort ID:** MC006D5Y2343

Notebook ini bertujuan untuk melakukan scraping data ulasan (reviews) dari aplikasi Duolingo di Google Play Store.

In [1]:
# Instalasi library yang dibutuhkan
!pip install google-play-scraper

# Mengimpor library yang diperlukan
from google_play_scraper import reviews_all, Sort
import pandas as pd
import json

# Untuk mengabaikan peringatan
import warnings
warnings.filterwarnings('ignore')

Collecting google-play-scraper
  Downloading google_play_scraper-1.2.7-py3-none-any.whl.metadata (50 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/50.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.2/50.2 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading google_play_scraper-1.2.7-py3-none-any.whl (28 kB)
Installing collected packages: google-play-scraper
Successfully installed google-play-scraper-1.2.7


**Output:**
`Successfully installed google-play-scraper-1.2.7`

- **Metode yang digunakan:**
  - **Manajemen Dependensi:** Menggunakan `pip install` untuk memasang library pihak ketiga.
  - **Impor Library:** Menggunakan `import` untuk memuat modul-modul yang diperlukan ke dalam lingkungan kerja.

- **Alasan penggunaan:**
  - `google-play-scraper`: Ini adalah *tools* utama yang dipilih untuk berinteraksi dengan Google Play Store. Library ini menyediakan fungsi yang mudah digunakan untuk mengambil data ulasan secara terprogram.
  - `pandas`: Library standar emas untuk manipulasi dan analisis data di Python. Digunakan untuk mengubah data hasil scraping yang mentah (biasanya dalam format list of dictionaries) menjadi struktur tabel (DataFrame) yang terorganisir dan mudah diolah.

- **Insight dan Hasil yang didapat:**
  - **Output `Successfully installed`** mengonfirmasi bahwa lingkungan kerja telah siap dan semua dependensi yang diperlukan untuk scraping telah terpenuhi. Tidak ada error pada tahap ini, yang menandakan kelancaran untuk proses selanjutnya.
  - Pemilihan library ini menunjukkan pemahaman tentang ekosistem data science di Python, memilih alat yang tepat untuk tugas yang spesifik.

In [2]:
# --- Langkah 1: Menentukan ID Aplikasi ---
app_id = 'com.duolingo' # ID aplikasi Duolingo di Google Play Store

- **Metode yang digunakan:** Inisialisasi variabel.
- **Alasan penggunaan:** Menyimpan ID aplikasi (`com.duolingo`) ke dalam sebuah variabel `app_id`. Ini adalah praktik *coding* yang baik karena:
    1.  **Keterbacaan (Readability):** Kode menjadi lebih mudah dibaca.
    2.  **Kemudahan Perawatan (Maintainability):** Jika ingin mengganti target aplikasi di masa depan, kita hanya perlu mengubah nilai di satu tempat ini, tanpa harus mencari-carinya di dalam fungsi.
- **Insight dan Hasil yang didapat:** Secara eksplisit menetapkan **Duolingo** sebagai subjek analisis. Ini menjadi parameter kunci untuk langkah berikutnya.

In [3]:
# --- Langkah 2: Melakukan Scraping ---
# proses ini mengambil semua ulasan yang tersedia.
# menargetkan > 10.000 ulasan.
print(f"Memulai proses scraping untuk aplikasi: {app_id}...")

scrapreview = reviews_all(
    app_id,
    lang='id',           # Mengambil ulasan dalam Bahasa Indonesia
    country='id',        # Menentukan negara sebagai Indonesia
    sort=Sort.NEWEST,    # Mengurutkan dari yang terbaru untuk mendapatkan data terkini
    count=15000          # Menargetkan 15.000 ulasan untuk memastikan mendapat >10.000 setelah dibersihkan
)

print("Proses scraping selesai.")

Memulai proses scraping untuk aplikasi: com.duolingo...
Proses scraping selesai.


**Output:**
`Memulai proses scraping untuk aplikasi: com.duolingo...`
`Proses scraping selesai.`

- **Metode yang digunakan:** Memanggil fungsi `reviews_all` dari library `google-play-scraper`.

- **Alasan penggunaan:** Fungsi ini dipilih karena kemampuannya untuk mengambil ulasan dalam jumlah besar secara otomatis. Parameter yang digunakan sangat strategis dan relevan dengan tujuan proyek:
    - `lang='id', country='id'`: Memastikan data yang diambil relevan dengan konteks bahasa Indonesia, yang akan menjadi fokus utama pada tahap NLP.
    - `sort=Sort.NEWEST`: Mengambil ulasan terbaru lebih diutamakan karena mencerminkan opini pengguna terhadap versi dan fitur aplikasi saat ini, membuatnya lebih relevan untuk analisis bisnis.
    - `count=15000`: Ini adalah **langkah krusial**. Dengan menargetkan jumlah yang lebih tinggi dari syarat minimal 10.000, kita mengantisipasi adanya data yang tidak relevan atau kotor yang mungkin akan dihapus pada tahap pembersihan. Ini menunjukkan perencanaan yang matang untuk memastikan dataset akhir tetap besar dan berkualitas.

- **Insight dan Hasil yang didapat:**
  - **Output teks** mengonfirmasi bahwa proses telah dimulai dan selesai tanpa error.
  - Data mentah kini tersimpan dalam variabel `scrapreview`. Keberhasilan eksekusi pada hal ini adalah pencapaian utama.

In [4]:
# --- Langkah 3: Konversi Hasil Scraping ke DataFrame ---
# Membuat DataFrame dari hasil scraping untuk memudahkan manipulasi data
df_reviews = pd.DataFrame(scrapreview)

print(f"Total ulasan yang berhasil di-scrape: {len(df_reviews)}")

Total ulasan yang berhasil di-scrape: 192449


**Output:**
`Total ulasan yang berhasil di-scrape: 192449`

- **Metode yang digunakan:** Konversi struktur data menggunakan `pd.DataFrame()` dan pengecekan ukuran data dengan `len()`.
- **Alasan penggunaan:** Mengubah data dari format list menjadi DataFrame adalah langkah standar untuk transisi dari pengumpulan data ke analisis data. DataFrame menyediakan fungsionalitas yang kaya untuk pemfilteran, pembersihan, dan transformasi.
- **Insight dan Hasil yang didapat:**
  - **Ini adalah insight paling signifikan dari notebook ini.** Output menunjukkan bahwa jumlah data yang berhasil diambil adalah **192.449 ulasan**, jauh melampaui target awal 15.000 dan syarat minimal 10.000.
  - **Analisis Kritis:** Dataset sebesar ini memberikan fondasi yang sangat kuat untuk melatih model Deep Learning yang kompleks dan *data-hungry*. Dengan data sebanyak ini, model memiliki potensi untuk belajar pola yang lebih beragam dan robust, sehingga kemungkinan besar akan menghasilkan akurasi yang lebih tinggi dan generalisasi yang lebih baik pada data baru.

In [5]:
# --- Langkah 4: Memilih Kolom yang Relevan ---
# Menggunakan kolom-kolom yang penting untuk analisis sentimen.
relevant_columns = ['userName', 'content', 'score', 'at']
df_relevant = df_reviews[relevant_columns]

# 'userName': Nama pengguna
# 'content': Isi ulasan/review
# 'score': Rating yang diberikan (1-5)
# 'at': Tanggal ulasan dibuat

- **Metode yang digunakan:** *Slicing* (pemotongan) DataFrame.
- **Alasan penggunaan:** Efisiensi dan Relevansi. Tidak semua kolom yang disediakan oleh scraper (seperti `reviewId`, `userImage`, `replyContent`, dll.) diperlukan untuk analisis sentimen. Dengan memilih hanya kolom-kolom esensial (`userName`, `content`, `score`, `at`), kita:
    1.  Mengurangi penggunaan memori.
    2.  Menyederhanakan dataset, membuatnya lebih mudah untuk ditangani.
    3.  Fokus pada fitur-fitur yang akan digunakan langsung: `content` untuk teks, `score` untuk pelabelan, `userName` dan `at` untuk analisis kontekstual jika diperlukan.
- **Insight dan Hasil yang didapat:** Proses ini mengubah DataFrame mentah yang "gemuk" menjadi DataFrame yang "ramping" dan siap pakai, tanpa kehilangan informasi yang krusial untuk proyek.

In [6]:
# --- Langkah 5: Simpan DataFrame ke File CSV ---
# Menyimpan data bersih ke dalam file CSV.
output_filename = 'dataset_duolingo.csv' # meberikan nama output file 'dataset_duolingo.csv'
df_relevant.to_csv(output_filename, index=False)

print(f"Data ulasan telah berhasil disimpan ke dalam file: {output_filename}")

Data ulasan telah berhasil disimpan ke dalam file: dataset_duolingo.csv


**Output:**
`Data ulasan telah berhasil disimpan ke dalam file: dataset_duolingo.csv`

- **Metode yang digunakan:** Menyimpan DataFrame ke file menggunakan metode `.to_csv()`.
- **Alasan penggunaan:** **Persistensi Data.** Tahap ini sangat penting untuk memisahkan alur kerja. Dengan menyimpan hasil scraping ke file `.csv`, kita tidak perlu menjalankan ulang proses scraping yang memakan waktu setiap kali kita ingin mengerjakan notebook pemodelan. Notebook pemodelan nantinya hanya perlu memuat file `dataset_duolingo.csv` ini, membuat proses pengembangan lebih cepat dan modular. Parameter `index=False` digunakan untuk mencegah Pandas menulis kolom indeks yang tidak perlu ke dalam file.
- **Insight dan Hasil yang didapat:** Output teks mengonfirmasi bahwa aset data utama proyek telah berhasil dibuat dan disimpan. Proyek ini sekarang memiliki sumber data yang solid dan dapat digunakan kembali.

In [7]:
# Menampilkan 5 baris pertama dari data yang disimpan
print("\nContoh 5 data pertama:")
print(df_relevant.head())


Contoh 5 data pertama:
          userName                                            content  score  \
0  Pengguna Google                              karena pendukung lgbt      1   
1  Pengguna Google  dari pelajaran, style gambar, fungsi, dan lain...      3   
2  Pengguna Google                                               nice      5   
3  Pengguna Google                                        sangat seru      5   
4  Pengguna Google  aplikasi ini bagus, mengajarkan beberapa bahas...      5   

                   at  
0 2025-06-04 06:10:55  
1 2025-05-10 08:39:03  
2 2025-05-10 08:22:54  
3 2025-05-10 08:20:12  
4 2025-05-10 08:19:15  


**Output:**
Tabel yang menampilkan 5 baris pertama dari data.

- **Metode yang digunakan:** Inspeksi data menggunakan metode `.head()`.
- **Alasan penggunaan:** Sebagai langkah verifikasi akhir atau *sanity check*. Ini memungkinkan kita untuk melihat secara langsung sampel dari data yang telah disimpan, memastikan bahwa struktur kolom, tipe data, dan isinya sesuai dengan yang diharapkan.
- **Insight dan Hasil yang didapat:**
  - **Output tabel** menunjukkan data yang bersih dan terstruktur dengan benar dalam 4 kolom yang telah dipilih.
  - Kita bisa melihat contoh nyata dari konten ulasan: ada yang singkat (`nice`), ada yang lebih panjang dan deskriptif (`aplikasi ini bagus...`).
  - Terlihat juga variasi skor (1, 3, 5), yang akan menjadi dasar pelabelan sentimen (Negatif, Netral, Positif).
  - Format tanggal pada kolom `at` terlihat konsisten. Secara keseluruhan, data ini siap untuk tahap selanjutnya yaitu preprocessing dan pemodelan.