# Proyek Analisis Sentimen: Aplikasi SATUSEHAT Mobile


Nama: Farrel Jonathan Vickeldo

Email: farrel.jonathan.fj@gmail.com

ID Dicoding: falthackel

Kode ini bertujuan untuk scrapping data PlayStore untuk review pengguna terkait aplikasi SATUSEHAT Mobile. Jumlah dataset minimal yang harus diperoleh adalah 3000 sampel.

# Step 1: Import Library

In [None]:
!pip install google-play-scraper

Collecting google-play-scraper
  Downloading google_play_scraper-1.2.7-py3-none-any.whl.metadata (50 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/50.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.2/50.2 kB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading google_play_scraper-1.2.7-py3-none-any.whl (28 kB)
Installing collected packages: google-play-scraper
Successfully installed google-play-scraper-1.2.7


In [None]:
# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
from google_play_scraper import app, reviews, Sort, reviews_all

In [None]:
# Import library yang dibutuhkan
import csv  # CSV untuk operasi file CSV
import pandas as pd  # Pandas untuk manipulasi dan analisis data
from google.colab import files  # Files untuk mengunduh file

# Step 2: Scrapping Data

In [None]:
# Mengambil semua ulasan dari aplikasi dengan ID 'com.telkom.tracencare' di Google Play Store.
# Proses scraping mungkin memerlukan beberapa saat tergantung pada jumlah ulasan yang ada.
scrapreview = reviews_all(
    'com.telkom.tracencare',          # ID aplikasi SATUSEHAT Mobile
    lang='id',             # Bahasa ulasan (default: 'en')
    country='id',          # Negara (default: 'us')
    sort=Sort.MOST_RELEVANT, # Urutan ulasan (default: Sort.MOST_RELEVANT)
    count=5000             # Jumlah maksimum ulasan yang ingin diambil
)

In [None]:
# Simpan ulasan dalam sebuah file csv
with open('review_satusehat.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file, quoting=csv.QUOTE_MINIMAL, escapechar='\\')  # Konfigurasi escape
    writer.writerow(['Review'])  # Tulis baris header
    for review in scrapreview:
        writer.writerow([review['content']])  # Tulis konten ulasan ke dalam file

print("Ulasan berhasil disimpan ke 'review_satusehat.csv'.")

Ulasan berhasil disimpan ke 'review_satusehat.csv'.


In [None]:
app_reviews_df = pd.DataFrame(scrapreview)

app_reviews_df.to_csv(
    'review_satusehat.csv',
    index=False,
    encoding='utf-8',
    escapechar='\\',  # Use backslash as the escape character
    quoting=1         # Use quoting to handle fields with special characters
)

In [None]:
# Membuat DataFrame dari hasil scrapreview
app_reviews_df = pd.DataFrame(scrapreview)

# Menghitung jumlah baris dan kolom dalam DataFrame
jumlah_ulasan, jumlah_kolom = app_reviews_df.shape

print("Jumlah ulasan: ", jumlah_ulasan)
print("Jumlah kolom: ", jumlah_kolom)

Jumlah ulasan:  139500
Jumlah kolom:  11


In [None]:
# Menampilkan lima baris pertama dari DataFrame app_reviews_df
app_reviews_df.head()

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,ff4c68ed-46f2-4ac7-9a8f-a118226fbdda,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Aplikasi gagal, mau login dipersulit, harusnya...",1,194,7.5.0,2024-10-31 06:11:33,"Halo Healthies,\nTerima kasih telah meluangkan...",2024-10-31 06:12:29,7.5.0
1,5773aa0a-19cd-40e8-a029-9259a2bd4fd1,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Setelah diupdate malah tidak bisa buka sama se...,1,100,7.4.0,2024-10-10 07:19:46,,NaT,7.4.0
2,86b5dd00-65eb-4595-8dec-eb083bb20099,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Tidak bisa multi task,, kita buka gmail untuk ...",1,4,7.7.0,2024-12-04 18:45:21,"Halo Healthies,\nTerima kasih telah meluangkan...",2024-12-05 06:00:39,7.7.0
3,6e3c4bce-d854-4f0e-81fe-9e3e2a628b77,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Aplikasi ga jelas udah verifikasi email aja te...,1,0,7.6.0,2024-12-05 05:44:11,"Halo Healthies,\nTerima kasih telah meluangkan...",2024-12-05 06:33:53,7.6.0
4,a764f954-95f6-4188-ab52-9faa68dc8bff,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Notifikasi udah aktif, install ulang berkali² ...",1,8,7.5.0,2024-11-10 08:17:06,"Halo Healthies,\nTerima kasih telah meluangkan...",2024-11-10 08:18:53,7.5.0


In [None]:
# Menampilkan informasi tentang DataFrame app_reviews_df
app_reviews_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 139500 entries, 0 to 139499
Data columns (total 11 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   reviewId              139500 non-null  object        
 1   userName              139500 non-null  object        
 2   userImage             139500 non-null  object        
 3   content               139500 non-null  object        
 4   score                 139500 non-null  int64         
 5   thumbsUpCount         139500 non-null  int64         
 6   reviewCreatedVersion  117100 non-null  object        
 7   at                    139500 non-null  datetime64[ns]
 8   replyContent          90762 non-null   object        
 9   repliedAt             90762 non-null   datetime64[ns]
 10  appVersion            117100 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 11.7+ MB


In [None]:
# Membuat DataFrame baru (clean_df) dengan menghapus baris yang memiliki nilai yang hilang (NaN) dari app_reviews_df
clean_df = app_reviews_df.dropna()

In [None]:
# Menampilkan informasi tentang DataFrame clean_df setelah membersihkan nilai yang hilang (NaN)
clean_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 75748 entries, 0 to 139498
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   reviewId              75748 non-null  object        
 1   userName              75748 non-null  object        
 2   userImage             75748 non-null  object        
 3   content               75748 non-null  object        
 4   score                 75748 non-null  int64         
 5   thumbsUpCount         75748 non-null  int64         
 6   reviewCreatedVersion  75748 non-null  object        
 7   at                    75748 non-null  datetime64[ns]
 8   replyContent          75748 non-null  object        
 9   repliedAt             75748 non-null  datetime64[ns]
 10  appVersion            75748 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 6.9+ MB


In [None]:
# Menghapus baris duplikat dari DataFrame clean_df
clean_df = clean_df.drop_duplicates()

# Menghitung jumlah baris dan kolom dalam DataFrame clean_df setelah menghapus duplikat
jumlah_ulasan_setelah_hapus_duplikat, jumlah_kolom_setelah_hapus_duplikat = clean_df.shape

print("Jumlah ulasan setelah hapus duplikat: ", jumlah_ulasan_setelah_hapus_duplikat)
print("Jumlah kolom setelah hapus duplikat: ", jumlah_kolom_setelah_hapus_duplikat)

Jumlah ulasan setelah hapus duplikat:  75748
Jumlah kolom setelah hapus duplikat:  11


In [None]:
# Simpan 'clean_df' sebagai file CSV
filename = 'review_satusehat_modified.csv'
clean_df.to_csv(filename, index=False, escapechar='\\', quoting=1)  # quoting=1 adalah csv.QUOTE_MINIMAL

# Download file CSV
files.download(filename)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>