# Analisis Sentimen Review  Sentimen Review Shopee Apk


## Pra pemprosesan Data

Pada tahap ini, kita akan melakukan pra pemprosesan data yang bersumber dari review pengguna aplikasi Pocket Physics yang diambil dari Google Play. Tahapan pra pemprosesan data meliputi:

1. Pengumpulan Data: Mengumpulkan data review dari Google Play menggunakan API atau metode scraping.
2. Pembersihan Data: Menghapus data yang tidak relevan seperti review yang kosong, duplikat, atau review yang tidak berhubungan dengan aplikasi.
3. Normalisasi Teks: Mengubah teks menjadi format yang konsisten, seperti mengubah semua huruf menjadi huruf kecil, menghapus tanda baca, dan menghapus karakter khusus.
4. Tokenisasi: Memecah teks menjadi kata-kata atau token untuk memudahkan analisis lebih lanjut.
5. Penghapusan Stop Words: Menghapus kata-kata umum yang tidak memiliki makna signifikan dalam analisis, seperti "dan", "yang", "di", dll.
6. Stemming/Lemmatization: Mengubah kata-kata menjadi bentuk dasarnya untuk mengurangi variasi kata yang memiliki makna yang sama.
7. Transformasi Data: Mengubah data teks menjadi representasi numerik yang dapat digunakan dalam model machine learning, seperti menggunakan teknik Bag of Words atau TF-IDF.
Tahapan ini penting untuk memastikan data yang digunakan dalam analisis atau model machine learning memiliki kualitas yang baik dan relevan dengan tujuan analisis.

## Import Libry


In [6]:
# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
from google_play_scraper import app, reviews, Sort, reviews_all
from google_play_scraper import app, reviews_all, Sort
import csv
import pandas as pd

## Pra Prosesing data 

Pada tahap ini, kita akan melakukan pra-pemrosesan data yang bersumber dari komentar penonton pada video YouTube Jess No Limit dan Siska Kohl yang membahas persiapan pernikahan mereka. Tahapan pra-pemrosesan data meliputi:

- Pengumpulan Data: Mengambil komentar dari video YouTube terkait menggunakan API atau metode scraping.
- Pembersihan Data: Menghapus komentar kosong, duplikat, atau yang tidak berhubungan dengan topik video.
- Normalisasi Teks: Menyeragamkan format teks, seperti mengubah huruf menjadi huruf kecil dan menghapus tanda baca serta karakter khusus.
- Tokenisasi: Memecah teks komentar menjadi token untuk memudahkan analisis lanjutan.
- Penghapusan Stop Words: Menghilangkan kata umum yang tidak memberi makna signifikan, seperti "dan", "yang", atau "di".
- Stemming/Lemmatization: Mengembalikan kata ke bentuk dasarnya agar variasi kata dengan makna sama dapat disatukan.
- Transformasi Data: Mengubah teks menjadi representasi numerik (misalnya Bag of Words atau TF-IDF) agar dapat digunakan pada model analisis sentimen atau machine learning.

Tahapan ini memastikan komentar YouTube yang dianalisis memiliki kualitas baik dan relevan dengan tujuan analisis sentimen terhadap konten persiapan pernikahan Jess No Limit dan Siska Kohl.

## Load Data

### Data Scarping

In [7]:
# Mengimpor pustaka google_play_scraper untuk mengakses ulasan dan informasi aplikasi dari Google Play Store.
from google_play_scraper import app, reviews_all, Sort

scrapreview = reviews_all(
    'com.shopee.id',          # ID aplikasi
    lang='id',             # Bahasa ulasan (default: 'en')
    country='id',          # Negara (default: 'us')
    sort=Sort.MOST_RELEVANT, # Urutan ulasan (default: Sort.MOST_RELEVANT)
    count=30000             # Jumlah maksimum ulasan yang ingin diambil
)


In [8]:
# Menyimpan ulasan dalam file CSV
with open('shopee_review.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['Ulasan'])  # Menulis header kolom
    for review in scrapreview:
        writer.writerow([review['content']])  # Menulis konten ulasan ke dalam file CSV

In [9]:
ulasan_shopee_df = pd.DataFrame(scrapreview)
ulasan_shopee_df.shape
ulasan_shopee_df.head()
ulasan_shopee_df.to_csv('shopee_review.csv', index=False)

In [10]:
# Membuat DataFrame dari hasil scrapreview
ulasan_shopee_df = pd.DataFrame(scrapreview)

# Menghitung jumlah baris dan kolom dalam DataFrame
jumlah_ulasan, jumlah_kolom = ulasan_shopee_df.shape

In [11]:
pd.set_option('display.max_columns', None)
ulasan_shopee_df.head()

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,31d79f96-8651-4c9a-a8a3-6985d8cb74d0,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"aplikasi nya bagus, aku sering cek out apa apa...",3,180,3.66.27,2026-02-04 21:18:29,"Hi kak Gb Loved, maaf udah bikin ga nyaman ter...",2026-02-04 23:28:14,3.66.27
1,c4de641f-d4fe-400d-9590-afba3c1d8177,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Bagus sering banyak diskon atau harga harga ya...,4,38,3.67.27,2026-02-06 22:19:22,"Hai kak adela fitri ramadani, mohon maaf atas ...",2026-02-07 00:44:16,3.67.27
2,c16aa500-8674-461b-a959-40331798f373,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Apk yg bagus,,memesan brg & lain sebagiannya j...",5,560,3.67.27,2026-02-04 14:47:59,"Hallo kak NUR HASANA, Makasih yaa buat review ...",2026-02-04 15:14:39,3.67.27
3,b52f7a1c-3992-4fa0-8f69-fb865700be5d,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"aplikasi aneh, akun SDH gold bahkan platinum, ...",1,88,3.67.26,2026-02-02 15:59:07,"Hai kak Maryam, mohon maaf ya sudah buat kamu ...",2026-02-02 16:20:51,3.67.26
4,641e1a23-3079-402d-a25f-bc94409facd4,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"pertama nya bagus belanja via COD lancar, beba...",1,62,3.67.27,2026-02-05 10:28:21,"Hai kak Jajang kws, maaf ya udah bikin kakak n...",2026-02-05 13:24:08,3.67.27


In [12]:
# Menampilkan informasi tentang DataFrame ulasan_shopee_df
ulasan_shopee_df.info()

<class 'pandas.DataFrame'>
RangeIndex: 117000 entries, 0 to 116999
Data columns (total 11 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   reviewId              117000 non-null  str           
 1   userName              117000 non-null  str           
 2   userImage             117000 non-null  str           
 3   content               117000 non-null  str           
 4   score                 117000 non-null  int64         
 5   thumbsUpCount         117000 non-null  int64         
 6   reviewCreatedVersion  97120 non-null   str           
 7   at                    117000 non-null  datetime64[us]
 8   replyContent          84093 non-null   str           
 9   repliedAt             84093 non-null   datetime64[us]
 10  appVersion            97120 non-null   str           
dtypes: datetime64[us](2), int64(2), str(7)
memory usage: 9.8 MB


## Data Cleaning

In [13]:
# Membuat DataFrame baru (data_bersih_df) dengan menghapus baris yang memiliki nilai yang hilang (NaN) dari app_reviews_df
data_bersih_df = ulasan_shopee_df.dropna()
# Corrected code to drop specified columns
data_bersih_df.drop(columns=['reviewId', 'userName', 'userImage', 'thumbsUpCount', 'reviewCreatedVersion', 'at','replyContent',  'repliedAt','appVersion'], inplace=True)

In [14]:
# Menampilkan informasi tentang DataFrame data_bersih_df setelah membersihkan nilai yang hilang (NaN)
data_bersih_df.info()

<class 'pandas.DataFrame'>
Index: 71020 entries, 0 to 116998
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   content  71020 non-null  str  
 1   score    71020 non-null  int64
dtypes: int64(1), str(1)
memory usage: 1.6 MB


In [17]:
# Simpan data ke CSV
data_bersih_df.to_csv('shopee_review.csv', index=False, encoding='utf-8')