## Scraping Dataset ##

Pada proyek ini, kita akan melakukan analisis sentimen terhadap ulasan dan opini pengguna mengenai aplikasi ini di platform X (Twitter). Analisis ini bertujuan untuk memahami bagaimana pengguna merasakan dan menyampaikan pandangan mereka terhadap aplikasi tersebut.

Dengan menerapkan berbagai teknik pemrosesan teks serta algoritma machine learning, kita akan mengkategorikan sentimen dalam ulasan pengguna sebagai positif, negatif, atau netral. Hasil dari analisis ini dapat memberikan wawasan berharga bagi pengembang aplikasi untuk meningkatkan pengalaman pengguna. Mari kita eksplorasi lebih dalam opini pengguna di X dan menganalisis sentimen yang berkembang di seputar aplikasi ini.


In [2]:
# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
import pandas as pd 
from google_play_scraper import app, reviews, Sort, reviews_all

In [None]:
# Mengambil semua ulasan dari aplikasi dengan ID 'com.twitter.android' di Google Play Store.
scrapreview = reviews_all(
    'com.shopee.id',          # ID aplikasi
    lang='id',             # Bahasa ulasan (default: 'en')
    country='id',          # Negara (default: 'us')
    sort=Sort.MOST_RELEVANT, # Urutan ulasan (default: Sort.MOST_RELEVANT)
    count=100000           # Jumlah maksimum ulasan yang ingin diambil
)

In [4]:
#Membuat data frame
df = pd.DataFrame(scrapreview)
df.head()

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,ff190850-851e-43b3-935b-775af97635f4,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,aplikasi nya bagus... banyak diskon besar besa...,4,101,3.46.37,2025-04-01 22:18:54,"Hi kak Violita Hasanah, maaf ya udah bikin kam...",2025-04-01 23:18:00,3.46.37
1,9d318067-d922-4496-a52e-c4e2027863cc,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Mohon tolong perbaiki sistem jaringan pada apl...,4,6,3.47.37,2025-04-02 22:10:44,"Hi Kak Satrio Wisnu Hardiyanto , Maaf ya untuk...",2025-04-02 22:07:55,3.47.37
2,8e11b026-dcdf-47cf-a372-ab71f49f3a85,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"pembelian bagus, tapi untuk menjual barang saa...",3,3,3.46.37,2025-04-02 15:11:38,"Hi kak Maulana Hanif, mohon maaf atas ketidakn...",2025-04-02 16:49:33,3.46.37
3,1391c1f4-0880-437c-87c0-66fb25e543ed,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"appnya udah bagus, tapi masih ada beberapa yan...",4,43,3.46.37,2025-04-01 18:01:25,"Hai kak, terima kasih ya untuk feedbacknya. Ke...",2025-04-01 19:18:42,3.46.37
4,4e5b3431-922b-4a0d-a226-22d2850dcca7,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Sekarang shopee suka ngadat, buka aplikasi lan...",1,202,3.45.60,2025-03-20 09:48:13,"Hi Kak Pokki Kucing, maaf untuk kendala aplik...",2025-03-11 14:31:17,3.45.60


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90000 entries, 0 to 89999
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   reviewId              90000 non-null  object        
 1   userName              90000 non-null  object        
 2   userImage             90000 non-null  object        
 3   content               90000 non-null  object        
 4   score                 90000 non-null  int64         
 5   thumbsUpCount         90000 non-null  int64         
 6   reviewCreatedVersion  76840 non-null  object        
 7   at                    90000 non-null  datetime64[ns]
 8   replyContent          67281 non-null  object        
 9   repliedAt             67281 non-null  datetime64[ns]
 10  appVersion            76840 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 7.6+ MB


In [8]:
df=df.dropna()

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 58563 entries, 0 to 89998
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   reviewId              58563 non-null  object        
 1   userName              58563 non-null  object        
 2   userImage             58563 non-null  object        
 3   content               58563 non-null  object        
 4   score                 58563 non-null  int64         
 5   thumbsUpCount         58563 non-null  int64         
 6   reviewCreatedVersion  58563 non-null  object        
 7   at                    58563 non-null  datetime64[ns]
 8   replyContent          58563 non-null  object        
 9   repliedAt             58563 non-null  datetime64[ns]
 10  appVersion            58563 non-null  object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 5.4+ MB


In [11]:
# Menyimpan ulasan dalam file CSV
df.to_csv("dataset_reviews.csv", index=False)
