# Proyek Analisis Sentimen 
- **Nama:** Muhammad Aldy Naufal Fadhilah
- **Email:** aldy.naufal02@gmail.com
- **ID Dicoding:** aldy_naufal

## Install Depedencies

In [1]:
%pip install google-play-scraper

Note: you may need to restart the kernel to use updated packages.


Sebelum memulai scraping data, pertama-tama kita perlu menginstal pustaka `google-play-scraper` dengan perintah `%pip install google-play-scraper` di lingkungan notebook seperti Jupyter atau Google Colab. Perintah ini akan mengunduh dan memasang pustaka dari Python Package Index (PyPI) sehingga kita dapat menggunakan fungsinya untuk mengambil berbagai informasi dari Google Play Store secara otomatis, seperti detail aplikasi, rating, jumlah unduhan, hingga ulasan pengguna.

## Import Library

In [2]:
from google_play_scraper import app
from google_play_scraper import reviews
from google_play_scraper import Sort
import pandas as pd

Selanjutnya, kita perlu mengimpor beberapa fungsi penting dari pustaka `google-play-scraper`, yaitu `app` untuk mengambil detail aplikasi, `reviews` untuk mengambil ulasan pengguna, serta `Sort` untuk mengatur urutan ulasan yang ingin diambil, seperti berdasarkan yang terbaru atau paling relevan; selain itu, pustaka `pandas` juga diimpor untuk membantu mengolah dan menyimpan data hasil scraping dalam bentuk tabel yang rapi dan mudah dianalisis.

## Scrappping Data

In [3]:
# URL aplikasi di Google Play Store
app_id = 'com.netflix.mediaclient'  # Ganti dengan ID aplikasi yang diinginkan

# Ambil informasi aplikasi
app_info = app(app_id)

# Ambil review aplikasi
result, continuation_token = reviews(
    app_id,
    count=10000,  # Tentukan jumlah review yang ingin diambil
    sort=Sort.NEWEST,  # Sort by newest first
    lang='en',  # Bahasa review
    country='us'  # Negara asal review
)

# Simpan hasil review ke dalam DataFrame
reviews_data = []
for review in result:
    reviews_data.append({
        'Review Text': review['content'],
        'Score': review['score'],
        'Date': review['at'],
        'User': review['userName']
    })

Pada proses di atas, pertama-tama ditentukan `app_id` yaitu ID aplikasi di Google Play Store—dalam hal ini adalah aplikasi Netflix (`com.netflix.mediaclient`). Kemudian, informasi detail tentang aplikasi tersebut diambil menggunakan fungsi `app()`. Setelah itu, ulasan atau review pengguna diambil menggunakan fungsi `reviews()` dengan parameter seperti jumlah review (`count=10000`), urutan review berdasarkan yang terbaru (`Sort.NEWEST`), bahasa (`lang='en'`), dan negara (`country='us'`). Hasil review yang diperoleh kemudian disimpan dalam bentuk list of dictionary bernama `reviews_data`, di mana setiap review disusun dengan informasi teks ulasan, skor/rating, tanggal ulasan, dan nama pengguna. Data ini nantinya dapat diubah menjadi DataFrame untuk analisis lebih lanjut.

In [4]:
data = pd.DataFrame(reviews_data)

Selanjutnya, setelah mendapatkan hasilnya dalam bentuk list of dictionary yang berisi ulasan pengguna, data tersebut kemudian dikonversi menjadi sebuah DataFrame menggunakan `pd.DataFrame(reviews_data)`. Proses ini bertujuan untuk mengubah data mentah menjadi format tabel yang lebih terstruktur dan mudah dianalisis, sehingga setiap kolom merepresentasikan atribut seperti teks ulasan, skor, tanggal, dan nama pengguna, sementara setiap baris merepresentasikan satu entri ulasan. Dengan format DataFrame ini, data dapat dengan mudah difilter, diolah, divisualisasikan, atau disimpan ke file seperti CSV untuk kebutuhan analisis lebih lanjut.

In [5]:
# Simpan data ke CSV

data.to_csv('data/netflix_reviews.csv', index=False)

print(f"✅ {len(data)} reviews berhasil disimpan.")

✅ 10000 reviews berhasil disimpan.


Terakhir, setelah data ulasan berhasil dikonversi ke dalam bentuk DataFrame, langkah selanjutnya adalah menyimpannya ke dalam file CSV menggunakan perintah `data.to_csv('data/netflix_reviews.csv', index=False)`. File ini akan berisi seluruh ulasan yang telah dikumpulkan, disusun secara rapi dalam format tabel yang bisa dibuka dan dianalisis lebih lanjut menggunakan software seperti Excel, Google Sheets, atau tools analitik lainnya. Argumen `index=False` digunakan agar indeks DataFrame tidak ikut disimpan sebagai kolom di file CSV. Setelah proses penyimpanan selesai, program mencetak pesan konfirmasi yang menunjukkan bahwa sebanyak 10.000 ulasan telah berhasil disimpan.