Nama: Elisa Ramadanti

# **Scapping Dataset**

Dalam proyek ini, analisis sentimen akan dilakukan terhadap ulasan dan pendapat pengguna mengenai aplikasi "Mobile JKN" yang diambil dari Play Store. Analisis ini bertujuan untuk memahami bagaimana pengguna merasakan dan menyampaikan pandangan mereka terhadap aplikasi tersebut.

Dengan memanfaatkan berbagai teknik pemrosesan teks dan algoritma machine learning, proyek ini berfokus pada pengelompokan ulasan pengguna ke dalam tiga kategori sentimen: positif, negatif, atau netral. Hasil analisis ini diharapkan dapat memberikan wawasan yang berharga bagi pengembang aplikasi untuk meningkatkan kualitas dan pengalaman pengguna secara keseluruhan.

## **Import Library**

**Menginstal library google-play-scraper untuk scraping ulasan aplikasi**

In [1]:
!pip install google-play-scraper

Collecting google-play-scraper
  Downloading google_play_scraper-1.2.7-py3-none-any.whl.metadata (50 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/50.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.2/50.2 kB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading google_play_scraper-1.2.7-py3-none-any.whl (28 kB)
Installing collected packages: google-play-scraper
Successfully installed google-play-scraper-1.2.7


In [7]:
from google_play_scraper import app, reviews, reviews_all, Sort
import pandas as pd
import csv
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


**Mengambil semua ulasan aplikasi menggunakan google-play-scraper**

-  Kode digunakan untuk mengambil semua ulasan dari sebuah aplikasi di Google Play Store dengan ID 'com.telkomsel.telkomselcm'.
-  Ini menggunakan **pustaka google_play_scrape**r untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
-   Dalam kode ini, kita menggunakan **fungsi reviews_all()** untuk mengambil semua ulasan dari aplikasi tersebut.

In [3]:
# Informasi aplikasi
app_id = 'app.bpjs.mobile'  #ID Aplikasi
lang = 'id'                 #Bahasa
country = 'id'              #Negara

In [8]:
print("Mengambil ulasan aplikasi...")
scrapreview = reviews_all(
    app_id,
    lang=lang,
    country=country,
    sort=Sort.MOST_RELEVANT,
    count=5000)

Mengambil ulasan aplikasi...


In [10]:
# Menyimpan hasil scraping ke dalam file CSV lokal
print("Menyimpan hasil scraping ke dalam file CSV lokal...")
with open('Scraping_.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['Review'])  # Menulis header kolom
    for review in scrapreview:
        writer.writerow([review['content']])

Menyimpan hasil scraping ke dalam file CSV lokal...


In [11]:
# Membuat DataFrame dari hasil scraping
print("Membuat DataFrame dari hasil scraping...")
df = pd.DataFrame(scrapreview)

Membuat DataFrame dari hasil scraping...


In [12]:
# Menyimpan DataFrame ke file CSV di Google Drive
file_path_drive = '/content/drive/MyDrive/Dataset/Scraping_.csv'
df.to_csv(file_path_drive, index=False)
print(f"Hasil scraping berhasil disimpan ke {file_path_drive}")

Hasil scraping berhasil disimpan ke /content/drive/MyDrive/Dataset/Scraping_.csv


In [13]:
# Menampilkan informasi DataFrame
print("\nInformasi DataFrame:")
print(df.info())


Informasi DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 211500 entries, 0 to 211499
Data columns (total 11 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   reviewId              211500 non-null  object        
 1   userName              211500 non-null  object        
 2   userImage             211500 non-null  object        
 3   content               211499 non-null  object        
 4   score                 211500 non-null  int64         
 5   thumbsUpCount         211500 non-null  int64         
 6   reviewCreatedVersion  185776 non-null  object        
 7   at                    211500 non-null  datetime64[ns]
 8   replyContent          132030 non-null  object        
 9   repliedAt             132030 non-null  datetime64[ns]
 10  appVersion            185776 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 17.7+ MB
None


In [14]:
# Menampilkan beberapa baris pertama dari DataFrame
print("\nBeberapa baris pertama dari DataFrame:")
df.head()


Beberapa baris pertama dari DataFrame:


Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,cace4851-2514-4b6e-a39e-287cc28e5d5e,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Untuk perubahan mudah, cumak untuk hasilnya zo...",3,0,,2025-01-16 00:30:19,,NaT,
1,7c56deef-8ffe-4fa3-bcfd-000f18a17b64,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Aplikasi apa sih ini? Kok busuk banget rasanya...,1,145,4.11.2,2025-01-15 13:37:40,,NaT,4.11.2
2,72ab714b-f62b-4a36-9df2-1a090722d5d2,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Mau daftar aja susah sekali Verifikasi wajah g...,1,131,4.11.2,2025-01-16 00:53:35,,NaT,4.11.2
3,58092196-abc1-48ff-b07a-53b0b16715ee,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Aplikasiii apaann, malah ribet. Verifikasi no ...",1,115,4.11.2,2025-01-17 09:33:26,,NaT,4.11.2
4,b746b7d9-d28e-4142-90b9-c50664433bba,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,1. Susah verif muka. Padahal lighting sudah te...,1,51,4.11.2,2025-01-20 12:12:53,,NaT,4.11.2


In [15]:
# Menghitung jumlah baris dan kolom dalam DataFrame
jumlah_ulasan, jumlah_kolom = df.shape
print(f"\nJumlah ulasan: {jumlah_ulasan}")
print(f"Jumlah kolom: {jumlah_kolom}")


Jumlah ulasan: 211500
Jumlah kolom: 11
